Esta página foi traduzida pela API Cloud Translation.

Redução da perda: taxa de aprendizado

Como observado, o vetor do gradiente tem uma direção e uma magnitude. Os algoritmos de gradiente descendente multiplicam o gradiente por um escalar conhecido como taxa de aprendizado (também chamada de tamanho do passo) para determinar o próximo ponto. Por exemplo, se a magnitude do gradiente for 2,5 e a taxa de aprendizado for 0,01, o algoritmo do gradiente descendente escolherá o próximo ponto a 0,025 do anterior.

Os hiperparâmetros são os botões que os programadores ajustam nos algoritmos de machine learning. A maioria dos programadores de machine learning passa bastante tempo ajustando a taxa de aprendizado. Se você escolher uma taxa de aprendizado muito pequena, o aprendizado demorará muito:

Mesma curva em U. Muitos pontos estão muito próximos uns dos outros, e a trilha deles está fazendo um progresso extremamente lento em direção à parte inferior do U.

Figura 6. A taxa de aprendizado é muito baixa.

Por outro lado, se você especificar uma taxa de aprendizado muito grande, o próximo ponto vai quicar de forma perigosa na parte inferior do poço, como um experimento de mecânica quântica que deu terrivelmente errado:

Mesma curva em U. Este contém muito poucos pontos. O rastro de pontos pula direto pela parte inferior do U e, em seguida, volta mais uma vez.

Figura 7. A taxa de aprendizado é muito alta.

Existe uma taxa de aprendizado Goldilocks para cada problema de regressão. O valor de Goldilocks está relacionado ao quão fixa é a função de perda. Se você souber que o gradiente da função de perda é pequeno, poderá tentar com segurança uma taxa de aprendizado maior, o que compensa o gradiente pequeno e resulta em um tamanho de passo maior.

Mesma curva em U. A trilha de pontos chega ao ponto mínimo em cerca de oito passos.

Figura 8. A taxa de aprendizado é ideal.

Clique no ícone de adição para saber mais sobre a taxa de aprendizado ideal.

A taxa de aprendizado ideal em uma dimensão é \(\frac{ 1 }{ f''(x) }\) (o inverso da segunda derivada de f(x) em x).

A taxa de aprendizado ideal para duas ou mais dimensões é o inverso de Hessian (matriz de derivadas parciais).

O caso das funções convexas gerais é mais complexo.

Central de Ajuda

Gradiente descendente

Como otimizar a taxa de aprendizado