Рассмотрим следующую кривую обобщения , которая показывает потери как для обучающего набора, так и для проверочного набора в зависимости от количества обучающих итераций.
Рисунок 1. Потери на обучающем наборе и наборе проверки.
На рисунке 1 показана модель, в которой потери при обучении постепенно уменьшаются, но потери при проверке со временем растут. Другими словами, эта кривая обобщения показывает, что модель соответствует данным в обучающем наборе. Используя наш внутренний Оккам , возможно, мы могли бы предотвратить переобучение, наказывая сложные модели — принцип, называемый регуляризацией .
Другими словами, вместо того, чтобы просто стремиться минимизировать потери (минимизация эмпирического риска):
теперь мы минимизируем потери+сложность, что называется минимизацией структурного риска :
Наш алгоритм оптимизации обучения теперь является функцией двух условий: члена потерь , который измеряет, насколько хорошо модель соответствует данным, и члена регуляризации , который измеряет сложность модели.
Ускоренный курс машинного обучения фокусируется на двух распространенных (и отчасти связанных) способах понимания сложности модели:
- Сложность модели как функция весов всех признаков модели.
- Сложность модели как функция общего количества признаков с ненулевыми весами. (Этот подход рассматривается в следующем модуле .)
Если сложность модели является функцией весов, вес признака с высоким абсолютным значением является более сложным, чем вес признака с низким абсолютным значением.
Мы можем количественно оценить сложность, используя формулу регуляризации L2 , которая определяет термин регуляризации как сумму квадратов всех весов признаков:
В этой формуле веса, близкие к нулю, мало влияют на сложность модели, тогда как веса выбросов могут иметь огромное влияние.
Например, линейная модель со следующими весами:
Имеет член регуляризации L 2 26,915:
Но \(w_3\) (выделен жирным шрифтом выше) с квадратом значения 25 вносит почти всю сложность. Сумма квадратов всех пяти других весов добавляет всего 1,915 к члену регуляризации L2 .