Réduction de la perte: taux d'apprentissage

Comme indiqué, le vecteur de gradient a à la fois une direction et une magnitude. Les algorithmes de descente de gradient multiplient le gradient par une valeur scalaire appelée taux d'apprentissage (parfois également appelé pas de taille de pas) pour déterminer le point suivant. Par exemple, si la magnitude du gradient est de 2,5 et que le taux d'apprentissage est de 0,01, l'algorithme de descente de gradient choisira le point suivant situé à 0,025 du point précédent.

Les hyperparamètres sont les commandes que les programmeurs ajustent dans les algorithmes de machine learning. La plupart des programmeurs en ML passent beaucoup de temps à régler le taux d'apprentissage. Si vous choisissez un taux d'apprentissage trop faible, l'apprentissage prendra trop de temps:

Même courbe en forme de U. De nombreux points sont très proches les uns des autres et leur chemin progresse extrêmement lentement vers la base du U.

Figure 6. Le taux d'apprentissage est trop faible.

À l'inverse, si vous spécifiez un taux d'apprentissage trop élevé, le point suivant rebondira perpétuellement à travers le fond du puits, comme une expérience en mécanique quantique tourné de façon catastrophique:

Même courbe en forme de U. Celle-ci contient très peu de points. La piste des points saute de nouveau en bas du U, puis recommence.

Figure 7. Taux d'apprentissage trop élevé.

Il existe un taux d'apprentissage idéal pour chaque problème de régression. La valeur de Boucle d'or est liée à l'équilibre de la fonction de perte. Si vous savez que le gradient de la fonction de perte est faible, vous pouvez essayer sans problème un taux d'apprentissage plus important, qui compense le faible gradient et augmente la taille de pas.

Même courbe en forme de U. Le chemin des points atteint le point minimal en huit pas environ.

Figure 8. Le taux d'apprentissage est idéal.