Как инженеры могут оценивать тренировочные наборы и тестовые наборы, чтобы определить возможное переоснащение в машинном обучении?

2025

Чтобы понять, как это делается, необходимо иметь представление о ролях различных наборов данных в типичном проекте машинного обучения. Учебный комплект настроен так, чтобы дать технологии ориентир - базовый уровень данных, который программа использует для принятия прогнозных и вероятностных решений. Тестовый набор - это место, где вы проверяете машину на данных.

Переоснащение - это синдром в машинном обучении, когда модель не полностью соответствует данным или цели.

Скачать бесплатно: машинное обучение и почему это важно

Одна из главных заповедей машинного обучения заключается в том, что данные обучения и тестовые данные должны быть отдельными наборами данных. Существует довольно широкий консенсус по этому поводу, по крайней мере во многих приложениях, из-за некоторых специфических проблем с использованием того же набора, который вы использовали для обучения для тестирования программы машинного обучения.

Когда в программе машинного обучения используется обучающий набор, который можно назвать, по сути, набором входных данных, он отрабатывает этот обучающий набор для принятия решений о прогнозирующих результатах. Один из основных способов думать об этом состоит в том, что учебный набор является «пищей» для интеллектуального вычислительного процесса.

Теперь, когда этот же набор используется для тестирования, машина часто может давать отличные результаты. Это потому, что он уже видел эти данные раньше. Но главная цель машинного обучения во многих случаях состоит в том, чтобы получить результаты о данных, которых раньше не было. Программы машинного обучения общего назначения предназначены для работы с различными наборами данных. Другими словами, принципом машинного обучения является обнаружение, и вы обычно не получаете такого большого количества, используя начальный набор обучения для целей тестирования.

Оценивая тренировочные наборы и тестовые наборы для возможного переоснащения, инженеры могут оценивать результаты и выяснять, почему программа может по-разному сравнивать результаты этих двух наборов или, в некоторых случаях, как машина может работать слишком хорошо на самих данных обучения.,

Джейсон Браунли (Jason Brownlee) из Machine Learning Mastery, описывая некоторые из этих проблем в машинном обучении в 2014 году, описывает переоснащение следующим образом:

«Модель, которая выбрана из-за ее точности в наборе обучающих данных, а не из точности в невидимом наборе тестовых данных, скорее всего, будет иметь более низкую точность в невидимом наборе тестовых данных», - пишет Браунли. «Причина в том, что модель не такая обобщенная. Она уточнила структуру в наборе обучающих данных (курсив добавлен). Это называется переоснащением, и оно более коварно, чем вы думаете».

Говоря простым языком, можно сказать, что, специализируясь на наборе обучающих данных, программа становится слишком жесткой. Это еще один метафорический способ взглянуть на то, почему программа машинного обучения не обслуживается оптимально, используя набор обучения для набора тестов. Это также хороший способ приблизиться к оценке этих двух различных наборов, потому что результаты покажут инженерам много о том, как работает программа. Вы хотите меньший разрыв между точностью для обеих моделей. Вы хотите убедиться, что система не переполнена и не «переплетена» с конкретным набором данных, но она носит более общий характер и может расти и развиваться по команде.