Снижение потерь

Чтобы обучить модель, нам нужен хороший способ уменьшить потери модели. Итеративный подход — один из широко используемых методов сокращения потерь, он так же прост и эффективен, как спуск с холма.

Сокращение потерь

  • Гиперпараметры — это параметры конфигурации, используемые для настройки обучения модели.
  • Производная от (y - y') 2 по весам и смещениям говорит нам, как меняются потери для данного примера.
    • Просто вычислить и выпукло
  • Поэтому мы неоднократно делаем небольшие шаги в направлении, минимизирующем потери.
    • Мы называем это шагами градиента (но на самом деле это шаги отрицательного градиента).
    • Эта стратегия называется градиентным спуском.
Цикл перехода от функций и меток к моделям и прогнозам.
  • Для выпуклых задач веса могут начинаться где угодно (скажем, со всех 0).
    • Выпуклый: подумайте о форме чаши.
    • Всего один минимум
Выпуклый график в форме чаши
  • Для выпуклых задач веса могут начинаться где угодно (скажем, со всех 0).
    • Выпуклый: подумайте о форме чаши.
    • Всего один минимум
  • Предзнаменование: неверно для нейронных сетей
    • Невыпуклый: представьте себе ящик для яиц.
    • Более одного минимума
    • Сильная зависимость от начальных значений
Выпуклый график в форме чаши и график с несколькими локальными минимумами
  • Можно было бы вычислять градиент по всему набору данных на каждом шаге, но это оказывается ненужным.
  • Вычисление градиента на небольших выборках данных работает хорошо.
    • На каждом этапе получайте новую случайную выборку
  • Стохастический градиентный спуск : один пример за раз
  • Мини-пакетный градиентный спуск : партии по 10–1000 штук.
    • Потери и градиенты усредняются по партии