Redução da perda: taxa de aprendizado

Como observado, o vetor do gradiente tem uma direção e uma magnitude. Os algoritmos de gradiente descendente multiplicam o gradiente por um escalar conhecido como taxa de aprendizado (também chamada de tamanho do passo) para determinar o próximo ponto. Por exemplo, se a magnitude do gradiente for 2,5 e a taxa de aprendizado for 0,01, o algoritmo do gradiente descendente escolherá o próximo ponto a 0,025 do anterior.

Os hiperparâmetros são os botões que os programadores ajustam nos algoritmos de machine learning. A maioria dos programadores de machine learning passa bastante tempo ajustando a taxa de aprendizado. Se você escolher uma taxa de aprendizado muito pequena, o aprendizado demorará muito:

Mesma curva em U. Muitos pontos estão muito próximos uns dos outros, e a trilha deles está fazendo um progresso extremamente lento em direção à parte inferior do U.

Figura 6. A taxa de aprendizado é muito baixa.

Por outro lado, se você especificar uma taxa de aprendizado muito grande, o próximo ponto vai quicar de forma perigosa na parte inferior do poço, como um experimento de mecânica quântica que deu terrivelmente errado:

Mesma curva em U. Este contém muito poucos pontos. O rastro de pontos pula direto pela parte inferior do U e, em seguida, volta mais uma vez.

Figura 7. A taxa de aprendizado é muito alta.

Existe uma taxa de aprendizado Goldilocks para cada problema de regressão. O valor de Goldilocks está relacionado ao quão fixa é a função de perda. Se você souber que o gradiente da função de perda é pequeno, poderá tentar com segurança uma taxa de aprendizado maior, o que compensa o gradiente pequeno e resulta em um tamanho de passo maior.

Mesma curva em U. A trilha de pontos chega ao ponto mínimo em cerca de oito passos.

Figura 8. A taxa de aprendizado é ideal.