Q:
Какой простой способ описать смещение и дисперсию в машинном обучении?
A:Существует множество сложных способов описания смещения и отклонения в машинном обучении. Многие из них используют существенно сложные математические уравнения и показывают на графике, как конкретные примеры представляют различные величины смещения и дисперсии.
Вот простой способ описать смещение, дисперсию и компромисс смещения / дисперсии в машинном обучении.
По своей сути, предвзятость - это упрощение. Может быть важно добавить к определению предвзятости некоторое предположение или предполагаемую ошибку.
Если бы предвзятый результат не был ошибочным - если бы он был на деньгах - это было бы очень точно Проблема состоит в том, что упрощенная модель содержит некоторую ошибку, поэтому она не на виду - значительная ошибка продолжает повторяться или даже усиливаться по мере работы программы машинного обучения.
Простое определение дисперсии заключается в том, что результаты слишком разбросаны. Это часто приводит к чрезмерной сложности программы и проблемам между тестовыми и тренировочными наборами.
Высокая дисперсия означает, что небольшие изменения создают большие изменения в результатах или результатах.
Другой способ просто описать дисперсию состоит в том, что в модели слишком много шума, и поэтому программе машинного обучения становится сложнее изолировать и идентифицировать реальный сигнал.
Таким образом, один из самых простых способов сравнить смещение и дисперсию - предложить инженерам машинного обучения пройти тонкую грань между слишком большим смещением или чрезмерным упрощением и слишком большой дисперсией или чрезмерной сложностью.
Еще один способ представить эту скважину - это диаграмма с четырьмя квадрантами, показывающая все комбинации высокой и низкой дисперсии. В квадранте с низким смещением / малой дисперсией все результаты собраны в точный кластер. В результате высокого отклонения / низкого отклонения все результаты собираются в неточный кластер. В результате с низким смещением / высокой дисперсией результаты разбросаны вокруг центральной точки, которая представляет точный кластер, в то время как в результате с высоким смещением / высокой дисперсией точки данных являются как разбросанными, так и в целом неточными.