Эта страница переведена с помощью Cloud Translation API.

Снижение потерь

Чтобы обучить модель, нам нужен хороший способ уменьшить потери модели. Итеративный подход — один из широко используемых методов сокращения потерь, он так же прост и эффективен, как спуск с холма.

Сокращение потерь

Как нам уменьшить потери?

Гиперпараметры — это параметры конфигурации, используемые для настройки обучения модели.
Производная от (y - y') ² по весам и смещениям говорит нам, как меняются потери для данного примера.

Просто вычислить и выпукло

Поэтому мы неоднократно делаем небольшие шаги в направлении, минимизирующем потери.

Мы называем это шагами градиента (но на самом деле это шаги отрицательного градиента).
Эта стратегия называется градиентным спуском.

Блок-схема градиентного спуска

Цикл перехода от функций и меток к моделям и прогнозам.

Попробуйте упражнение градиентного спуска
Закончив упражнение, нажмите кнопку воспроизведения ▶, чтобы продолжить.

Инициализация веса

Для выпуклых задач веса могут начинаться где угодно (скажем, со всех 0).

Выпуклый: подумайте о форме чаши.
Всего один минимум

Инициализация веса

Для выпуклых задач веса могут начинаться где угодно (скажем, со всех 0).

Выпуклый: подумайте о форме чаши.
Всего один минимум

Предзнаменование: неверно для нейронных сетей

Невыпуклый: представьте себе ящик для яиц.
Более одного минимума
Сильная зависимость от начальных значений

Выпуклый график в форме чаши и график с несколькими локальными минимумами

SGD и мини-пакетный градиентный спуск

Можно было бы вычислять градиент по всему набору данных на каждом шаге, но это оказывается ненужным.
Вычисление градиента на небольших выборках данных работает хорошо.

На каждом этапе получайте новую случайную выборку

Стохастический градиентный спуск : один пример за раз
Мини-пакетный градиентный спуск : партии по 10–1000 штук.

Потери и градиенты усредняются по партии

Центр помощи

Проверьте свое понимание

Итеративный подход