Дом аудио Почему мешки в машинном обучении уменьшают дисперсию?

Почему мешки в машинном обучении уменьшают дисперсию?

Anonim

Q:

Почему мешки в машинном обучении уменьшают дисперсию?

A:

Агрегирование начальной загрузки, или «пакетирование», в машинном обучении уменьшает дисперсию за счет создания более сложных моделей сложных наборов данных. В частности, подход к созданию пакетов создает подмножества, которые часто пересекаются, чтобы моделировать данные более сложным образом.

Одно интересное и простое представление о том, как применять упаковку в мешки, - это взять набор случайных выборок и извлечь простое среднее. Затем, используя тот же набор выборок, создайте десятки подмножеств, построенных как деревья решений, для манипулирования конечными результатами. Второе среднее значение должно показать более правдивую картину того, как эти отдельные образцы соотносятся друг с другом с точки зрения стоимости. Эта же идея может быть применена к любому свойству любого набора точек данных.

Скачать бесплатно: машинное обучение и почему это важно

Поскольку этот подход объединяет обнаружение в более определенные границы, он уменьшает дисперсию и помогает с переобучением. Подумайте о диаграмме рассеяния с несколько распределенными точками данных; Используя метод упаковки, инженеры «сокращают» сложность и ориентируют линии обнаружения для сглаживания параметров.

Некоторые говорят о значении мешков как «разделяй и властвуй» или типа «вспомогательной эвристики». Идея состоит в том, что с помощью ансамблевого моделирования, такого как использование случайных лесов, те, кто использует упаковку в качестве метода, могут получить результаты данных с меньшей дисперсией. С точки зрения уменьшения сложности, пакетирование может также помочь с переоснащением. Подумайте о модели со слишком большим количеством точек данных: скажем, соединение точек со 100 невыровненными точками. Результирующая визуальная строка данных будет неровной, динамичной, изменчивой. Затем «сгладьте» дисперсию, собрав наборы оценок. В ансамблевом обучении это часто рассматривается как объединение нескольких «слабых учеников» для обеспечения «сильного обучения» совместного результата. В результате получается более гладкая, более контурная линия данных и менее дикая дисперсия в модели.

Легко увидеть, как идея создания пакетов может быть применена к корпоративным ИТ-системам. Лидеры бизнеса часто хотят «взглянуть с высоты птичьего полета» на то, что происходит с продуктами, клиентами и т. Д. Переоснащенная модель может возвращать менее усваиваемые данные и более «разрозненные» результаты, когда пакетирование может «стабилизировать» модель и сделать ее более полезной конечным пользователям.

Почему мешки в машинном обучении уменьшают дисперсию?