Эта страница переведена с помощью Cloud Translation API.

Уменьшение потерь: градиентный спуск

Диаграмма итерационного подхода ( рис. 1 ) содержала зеленый волнистый прямоугольник, озаглавленный «Вычисление обновлений параметров». Теперь мы заменим эту алгоритмическую волшебную пыль чем-то более существенным.

Предположим, у нас было время и вычислительные ресурсы, чтобы вычислить потери для всех возможных значений $w_1$. Для тех задач регрессии, которые мы рассматривали, результирующий график потерь в зависимости от $w_1$ всегда будет выпуклым. Другими словами, сюжет всегда будет иметь форму чаши, примерно так:

График U-образной кривой, где вертикальная ось обозначена как «потеря», а горизонтальная ось — как значение веса w i.

Рисунок 2. Задачи регрессии дают выпуклые графики зависимости потерь от веса.

Выпуклые задачи имеют только один минимум; то есть только одно место, где наклон равен ровно 0. Этот минимум — это место, где сходится функция потерь.

Вычисление функции потерь для каждого мыслимого значения $w_1$по всему набору данных было бы неэффективным способом поиска точки сходимости. Давайте рассмотрим более совершенный механизм, очень популярный в машинном обучении, называемый градиентным спуском .

Первым этапом градиентного спуска является выбор начального значения (начальной точки) для $w_1$. Отправная точка не имеет большого значения; поэтому многие алгоритмы просто устанавливают $w_1$ в 0 или выбирают случайное значение. На следующем рисунке показано, что мы выбрали начальную точку немного больше 0:

График U-образной кривой. Точка примерно на полпути вверх по левой стороне кривой помечена как «Начальная точка».

Рисунок 3. Отправная точка градиентного спуска.

Затем алгоритм градиентного спуска вычисляет градиент кривой потерь в начальной точке. Здесь, на рисунке 3, градиент потерь равен производной (наклону) кривой и показывает, какой путь «теплее» или «холоднее». При наличии нескольких весов градиент представляет собой вектор частных производных по весам.

Нажмите значок плюса, чтобы узнать больше о частных производных и градиентах.

Математика машинного обучения увлекательна, и мы рады, что вы перешли по ссылке, чтобы узнать больше. Однако обратите внимание, что TensorFlow выполняет за вас все вычисления градиента, поэтому вам не обязательно разбираться в представленном здесь расчете.

Частные производные

Функция с несколькими переменными — это функция с более чем одним аргументом, например:

$$f(x,y) = e^{2y}\sin(x)$$

Частная производная $f$ относительно $x$ , обозначаемая следующим образом:

$$ \partial f \over \partial x $$

является производной от $f$ рассматриваемой как функция только $x$. Чтобы найти следующее:

$$\partial f \over \partial x $$

вы должны сохранить константу $y$ (поэтому $f$ теперь является функцией одной переменной $x$) и взять обычную производную от $f$относительно $x$. Например, когда $y$ имеет фиксированное значение 1, предыдущая функция принимает вид:

$$ f(x) = e^2\sin(x) $$

Это всего лишь функция одной переменной $x$, производная которой равна:

$$ e^2\cos(x) $$

В общем, если считать $y$ фиксированным, частная производная $f$ относительно $x$ вычисляется следующим образом:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Аналогично, если вместо этого мы оставим фиксированным $x$ , частная производная от $f$ по отношению к $y$ составит:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Интуитивно понятно, что частная производная показывает, насколько изменится функция, если вы немного воздействуете на одну переменную. В предыдущем примере:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Поэтому, когда вы начинаете с $(0,1)$, удерживаете константу $y$ и немного перемещаете $x$ ,$f$ изменяется примерно в 7,4 раза больше, чем вы изменили $x$.

В машинном обучении частные производные чаще всего используются в сочетании с градиентом функции.

Градиенты

Градиент функции, обозначаемый следующим образом, представляет собой вектор частных производных по всем независимым переменным:

$$ \nabla f $$

Например, если:

$$ f(x,y) = e^{2y}\sin(x) $$

затем:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Обратите внимание на следующее:

$$\nabla f$$	Указывает в сторону наибольшего возрастания функции.
$$ {-\nabla f} $$	Указывает в сторону наибольшего убывания функции.

Количество измерений вектора равно количеству переменных в формуле $f$; другими словами, вектор попадает в область определения функции. Например, график следующей функции $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

при просмотре в трех измерениях с помощью $z = f(x,y)$ выглядит как впадина с минимумом $(2,0,4)$:

Градиент $f(x,y)$ — это двумерный вектор, который сообщает вам, в каком направлении$(x,y)$ двигаться для максимального увеличения высоты. Таким образом, отрицательный градиент перемещает вас в сторону максимального уменьшения высоты. Другими словами, отрицательный вектор градиента указывает на впадину.

В машинном обучении градиенты используются при градиентном спуске. У нас часто есть функция потерь многих переменных, которую мы пытаемся минимизировать, и мы пытаемся сделать это, следуя отрицательному градиенту функции.

Обратите внимание, что градиент — это вектор, поэтому он обладает обеими следующими характеристиками:

направление
величина

Градиент всегда указывает в направлении наибольшего увеличения функции потерь. Алгоритм градиентного спуска делает шаг в сторону отрицательного градиента, чтобы как можно быстрее уменьшить потери.

График U-образной кривой. Точка на левой стороне кривой помечена как «Начальная точка». Стрелка с надписью «отрицательный градиент» указывает от этой точки вправо.

Рисунок 4. Градиентный спуск основан на отрицательных градиентах.

Чтобы определить следующую точку на кривой функции потерь, алгоритм градиентного спуска добавляет некоторую часть величины градиента к начальной точке, как показано на следующем рисунке:

Рисунок 5. Шаг градиента перемещает нас к следующей точке кривой потерь.

Затем градиентный спуск повторяет этот процесс, приближаясь все ближе к минимуму.

Центр помощи

Итеративный подход

Скорость обучения