Esta página foi traduzida pela API Cloud Translation.

Redução de perda: gradiente descendente

O diagrama de abordagem iterativa (Figura 1) continha uma caixa verde ondulada intitulada "Atualizações de parâmetros do Compute". Vamos substituir o pó de fada algorítmico por algo mais substancial.

Suponha que tivéssemos o tempo e os recursos computacionais para calcular a perda de todos os valores possíveis de $w_1$. Para os tipos de problemas de regressão que estamos examinando, o gráfico resultante da perda x $w_1$ será sempre convexo. Em outras palavras, o enredo sempre será em forma de tigela, mais ou menos assim:

Diagrama de uma curva em forma de U, com o eixo vertical rotulado como "perda" e o eixo horizontal rotulado como o valor do peso w i.

Figura 2. Problemas de regressão geram gráficos de perda convexa em comparação com gráficos de peso.

Problemas convexos têm apenas um mínimo, ou seja, apenas um lugar em que a inclinação é exatamente 0. Esse mínimo é onde a função de perda converge.

O cálculo da função de perda para cada valor concebível de $w_1$ em todo o conjunto de dados seria uma maneira ineficiente de encontrar o ponto de convergência. Vamos examinar um mecanismo melhor, muito conhecido em machine learning, chamado gradiente descendente.

O primeiro estágio no gradiente descendente é escolher um valor inicial (um ponto de partida) para $w_1$. O ponto de partida não é muito importante. Portanto, muitos algoritmos simplesmente definem $w_1$ como 0 ou escolhem um valor aleatório. A figura a seguir mostra que escolhemos um ponto de partida ligeiramente maior que 0:

Diagrama de uma curva em forma de U. Um ponto mais ou menos na metade do lado esquerdo da curva é rotulado como "Ponto de partida".

Figura 3. Um ponto de partida para o gradiente descendente.

Em seguida, o algoritmo de gradiente descendente calcula o gradiente da curva de perda no ponto inicial. Aqui na Figura 3, o gradiente da perda é igual à derivada (inclinação) da curva e informa qual direção é "mais quente" ou "mais fria". Quando há vários pesos, o gradiente é um vetor de derivadas parciais em relação aos pesos.

Clique no ícone de adição para saber mais sobre derivados parciais e gradientes.

A matemática do aprendizado de máquina é fascinante, e estamos felizes por você ter clicado no link para saber mais. No entanto, observe que o TensorFlow processa todos os cálculos de gradiente para você, portanto, você não precisa entender o cálculo fornecido aqui.

Derivadas parciais

Uma função multivariável tem mais de um argumento, como:

$$f(x,y) = e^{2y}\sin(x)$$

A derivada parcial $f$ em relação a $x$, indicada da seguinte maneira:

$$ \partial f \over \partial x $$

é a derivada de $f$ , considerado como uma função apenas de $x$. Para encontrar o seguinte:

$$\partial f \over \partial x $$

você precisa manter uma $y$ constante (então $f$ agora é uma função de uma variável $x$) e pegar a derivada regular de $f$ em relação a $x$. Por exemplo, quando $y$ é fixado em 1, a função anterior se torna:

$$ f(x) = e^2\sin(x) $$

Esta é apenas uma função de uma variável $x$, cuja derivada é:

$$ e^2\cos(x) $$

Em geral, pensando em $y$ como fixo, a derivada parcial de $f$ em relação a $x$ é calculada da seguinte maneira:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Da mesma forma, se mantivermos $x$ fixo, a derivada parcial de $f$ em relação a $y$ será:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Intuitivamente, uma derivada parcial informa quanto a função muda quando você perturba um pouco uma variável. No exemplo anterior:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Quando você começa com $(0,1)$, mantém $y$ constante e se move $x$ um pouco,$f$ muda cerca de 7,4 vezes o valor alterado $x$.

No machine learning, as derivadas parciais são usadas principalmente em conjunto com o gradiente de uma função.

Gradientes

O gradiente de uma função, indicado da seguinte maneira, é o vetor de derivadas parciais em relação a todas as variáveis independentes:

$$ \nabla f $$

Por exemplo, se:

$$ f(x,y) = e^{2y}\sin(x) $$

então:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Observe o seguinte:

$$\nabla f$$	Pontos na direção do maior aumento da função.
$$ {-\nabla f} $$	Pontos na direção de maior decréscimo da função.

O número de dimensões no vetor é igual ao número de variáveis na fórmula para $f$. Em outras palavras, o vetor está dentro do espaço de domínio da função. Por exemplo, o gráfico da função $f(x,y)$a seguir:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

quando visualizado em três dimensões, com $z = f(x,y)$ parece um vale com um mínimo de $(2,0,4)$:

O gradiente de $f(x,y)$ é um vetor bidimensional que informa em qual direção$(x,y)$ se mover para conseguir o aumento máximo na altura. Assim, o negativo do gradiente move você na direção da diminuição máxima da altura. Em outras palavras, o negativo do vetor de gradiente aponta para o vale.

Em machine learning, gradientes são usados em gradiente descendente. Muitas vezes, temos uma função de perda de muitas variáveis que estamos tentando minimizar. Tentamos fazer isso seguindo o negativo do gradiente da função.

O gradiente é um vetor e tem estas duas características:

uma direção
uma magnitude

O gradiente sempre aponta na direção do aumento mais acentuado na função de perda. O algoritmo do gradiente descendente dá um passo na direção do gradiente negativo para reduzir a perda o mais rápido possível.

Diagrama de uma curva em forma de U. Um ponto no lado esquerdo da curva é rotulado como "Ponto de partida". Uma seta identificada como "gradiente negativo" aponta desse ponto para a direita.

Figura 4. O gradiente descendente depende de gradientes negativos.

Para determinar o próximo ponto ao longo da curva da função de perda, o algoritmo do gradiente descendente adiciona uma fração da magnitude do gradiente ao ponto inicial, conforme mostrado na figura a seguir:

Figura 5. Uma etapa do gradiente nos leva para o próximo ponto na curva de perda.

O gradiente descendente repete esse processo, chegando cada vez mais perto do mínimo.

Central de Ajuda

Uma abordagem iterativa

Taxa de aprendizado