Переобучение: интерпретация кривых потерь

Машинное обучение было бы намного проще, если бы все ваши кривые потерь выглядели следующим образом при первом обучении модели:

Рисунок 20. График, показывающий идеальную кривую потерь при обучении модели машинного обучения. Кривая потерь отображает потери на оси y против количества шагов обучения на оси x. По мере увеличения количества шагов обучения потери начинаются высокими, затем уменьшаются экспоненциально и в конечном итоге выравниваются, достигая минимальных потерь.
Рисунок 20. Идеальная кривая потерь.

К сожалению, кривые потерь часто сложно интерпретировать. Используйте свою интуицию относительно кривых потерь, чтобы решить упражнения на этой странице.

Упражнение 1: Колеблющаяся кривая потерь

Рисунок 21. Кривая потерь (потери по оси Y; количество обучающих шагов по оси X), в которой потери не выравниваются. Вместо этого потери хаотично колеблются.
Рисунок 21. Кривая осциллирующих потерь.
Какие три действия вы могли бы предпринять, чтобы попытаться улучшить кривую потерь, показанную на рисунке 21?
Проверьте свои данные по схеме данных, чтобы обнаружить плохие примеры, а затем удалите плохие примеры из обучающего набора.
Да, это хорошая практика для всех моделей.
Снизьте скорость обучения.
Да, снижение скорости обучения часто является хорошей идеей при отладке проблемы обучения.
Сократите обучающий набор до небольшого числа достоверных примеров.
Хотя эта техника звучит искусственно, на самом деле это хорошая идея. Предполагая, что модель сходится на небольшом наборе заслуживающих доверия примеров, вы можете постепенно добавлять больше примеров, возможно, обнаруживая, какие примеры заставляют кривую потерь колебаться.
Увеличьте количество примеров в обучающем наборе.
Это заманчивая идея, но маловероятно, что она решит проблему.
Увеличьте скорость обучения.
В общем случае следует избегать увеличения скорости обучения, если кривая обучения модели указывает на наличие проблемы.

Упражнение 2. Кривая потерь с резким скачком

Рисунок 22. График кривой потерь, показывающий, что потери уменьшаются до определенного количества шагов обучения, а затем резко увеличиваются с дальнейшими шагами обучения.
Рисунок 22. Резкий рост убытков.
Какие два из следующих утверждений определяют возможные причины взрыва, показанного на рисунке 22?
Входные данные содержат одно или несколько значений NaN, например, значение, полученное в результате деления на ноль.
Это встречается чаще, чем вы могли бы ожидать.
Входные данные содержат всплеск выбросов.
Иногда из-за неправильного перемешивания партий в партии может оказаться много выбросов.
Скорость обучения слишком низкая.
Очень низкая скорость обучения может увеличить время обучения, но это не является причиной странной кривой потерь.
Уровень регуляризации слишком высок.
Действительно, очень высокая регуляризация может помешать сходимости модели; однако она не приведет к странной кривой потерь, показанной на рисунке 22.

Упражнение 3. Тестовые потери отличаются от тренировочных потерь

Рисунок 23. Кривая потерь при обучении, по-видимому, сходится, но потери при проверке начинают расти после определенного количества шагов обучения.
Рисунок 23. Резкий рост потерь при проверке.
Какое из следующих утверждений наилучшим образом определяет причину этой разницы между кривыми потерь обучающего и тестового наборов?
Модель переобучается на обучающем наборе.
Да, возможно так. Возможные решения:
  • Упростите модель, возможно, сократив количество функций.
  • Увеличьте уровень регуляризации.
  • Убедитесь, что обучающий и тестовый наборы статистически эквивалентны.
Скорость обучения слишком высока.
Если бы скорость обучения была слишком высокой, кривая потерь для обучающего набора, скорее всего, вела бы себя не так, как сейчас.

Упражнение 4. Кривая потерь застревает

Рисунок 24. График кривой потерь, показывающий, что потери начинают сходиться с обучением, но затем отображают повторяющиеся закономерности, которые выглядят как прямоугольная волна.
Рисунок 24. Хаотическая потеря после определенного количества шагов.
Какое из следующих утверждений является наиболее вероятным объяснением нерегулярной кривой потерь, показанной на рисунке 24?
Обучающий набор плохо перетасован.
Это возможно. Например, обучающий набор, содержащий 100 изображений собак, за которыми следуют 100 изображений кошек, может привести к колебаниям потерь по мере обучения модели. Убедитесь, что вы достаточно перемешиваете примеры.
Уровень регуляризации слишком высок.
Маловероятно, что это является причиной.
Обучающий набор содержит слишком много признаков.
Маловероятно, что это является причиной.