Régression linéaire: descente de gradient

La descente de gradient est une technique mathématique qui trouve de manière itérative les pondérations et le biais qui produisent le modèle avec la perte la plus faible. La descente de gradient trouve le meilleur poids et le meilleur biais en répétant le processus suivant pour un certain nombre d'itérations définies par l'utilisateur.

Le modèle commence l'entraînement avec des pondérations et des biais aléatoires proches de zéro, puis répète les étapes suivantes :

  1. Calculez la perte avec le biais et le poids actuels.

  2. Déterminez la direction dans laquelle déplacer les pondérations et le biais pour réduire la perte.

  3. Déplacez légèrement les valeurs de pondération et de biais dans la direction qui réduit la perte.

  4. Revenez à la première étape et répétez le processus jusqu'à ce que le modèle ne puisse plus réduire la perte.

Le schéma ci-dessous décrit les étapes itératives effectuées par la descente de gradient pour trouver les pondérations et le biais qui produisent le modèle avec la perte la plus faible.

Figure 11. Illustration du processus de descente de gradient.

Figure 11 : La descente de gradient est un processus itératif qui trouve les pondérations et le biais qui produisent le modèle avec la perte la plus faible.

Convergence du modèle et courbes de perte

Lorsque vous entraînez un modèle, vous examinez souvent une courbe de perte pour déterminer si le modèle a convergé. La courbe de perte montre comment la perte évolue à mesure que le modèle s'entraîne. Voici à quoi ressemble une courbe de perte typique. La perte est représentée sur l'axe Y et les itérations sur l'axe X :

Figure 12. Graphique de la courbe de perte montrant une forte baisse, puis une légère baisse.

Figure 12. Courbe de perte montrant la convergence du modèle autour de la 1 000e itération.

Vous pouvez constater que la perte diminue considérablement au cours des premières itérations, puis diminue progressivement avant de se stabiliser autour de la 1 000e itération. Au bout de 1 000 itérations, nous pouvons être presque certains que le modèle a convergé.

Dans les figures suivantes, nous dessinons le modèle à trois moments du processus d'entraînement : au début, au milieu et à la fin. La visualisation de l'état du modèle à des moments précis du processus d'entraînement renforce le lien entre la mise à jour des pondérations et du biais, la réduction de la perte et la convergence du modèle.

Dans les figures, nous utilisons les pondérations et le biais dérivés à une itération particulière pour représenter le modèle. Dans le graphique avec les points de données et l'instantané du modèle, les lignes de perte bleues du modèle aux points de données indiquent la quantité de perte. Plus les lignes sont longues, plus les pertes sont importantes.

Dans la figure suivante, nous pouvons voir qu'autour de la deuxième itération, le modèle ne serait pas en mesure de faire de bonnes prédictions en raison de la perte élevée.


  
  
    Figure 13 Courbe de perte et graphique correspondant du modèle, qui s'éloigne des points de données.

Figure 13. Courbe de perte et instantané du modèle au début du processus d'entraînement.

Aux alentours de la 400e itération, nous pouvons constater que la descente de gradient a trouvé le poids et le biais qui produisent un meilleur modèle.

Figure 14. Courbe de perte et graphique correspondant du modèle, qui coupe les points de données, mais pas à l'angle optimal.

Figure 14. Courbe de perte et instantané du modèle à mi-parcours de l'entraînement.

Aux alentours de la 1 000e itération, nous pouvons voir que le modèle a convergé, produisant un modèle avec la perte la plus faible possible.

Figure 15. Courbe de perte et graphique correspondant du modèle, qui s'adapte bien aux données.

Figure 15. Courbe de perte et instantané du modèle vers la fin du processus d'entraînement.

Exercice : Vérifier que vous avez bien compris

Quel est le rôle de la descente de gradient dans la régression linéaire ?
La descente de gradient est un processus itératif qui permet de trouver les meilleurs poids et biais pour minimiser la perte.
La descente de gradient permet de déterminer le type de perte à utiliser lors de l'entraînement d'un modèle, par exemple L1 ou L2.
La descente de gradient n'est pas impliquée dans la sélection d'une fonction de perte pour l'entraînement du modèle.
La descente de gradient supprime les valeurs aberrantes de l'ensemble de données pour aider le modèle à faire de meilleures prédictions.
La descente de gradient ne modifie pas l'ensemble de données.

Convergence et fonctions convexes

Les fonctions de perte pour les modèles linéaires produisent toujours une surface convexe. Grâce à cette propriété, lorsqu'un modèle de régression linéaire converge, nous savons qu'il a trouvé les pondérations et le biais qui produisent la perte la plus faible.

Si nous représentons graphiquement la surface de perte d'un modèle avec une caractéristique, nous pouvons voir sa forme convexe. Voici la surface de perte pour un ensemble de données hypothétique sur les kilomètres par gallon. Le poids est sur l'axe X, le biais sur l'axe Y et la perte sur l'axe Z :

Figure 16. Graphique 3D de la surface de perte.

Figure 16. Surface de perte montrant sa forme convexe.

Dans cet exemple, une pondération de -5,44 et un biais de 35,94 produisent la perte la plus faible (5,54) :

Figure 17. Graphique 3D de la surface de perte, avec (-5,44, 35,94, 5,54) en bas.

Figure 17 : Surface de perte montrant les valeurs de poids et de biais qui produisent la perte la plus faible.

Un modèle linéaire converge lorsqu'il a trouvé la perte minimale. Si nous représentions graphiquement les points de pondération et de biais lors de la descente de gradient, les points ressembleraient à une balle qui roule en bas d'une colline et s'arrête finalement au point où il n'y a plus de pente descendante.

Figure 18. Surface de perte 3D convexe avec des points de descente de gradient se déplaçant vers le point le plus bas.

Figure 18 : Graphique de perte montrant les points de descente de gradient s'arrêtant au point le plus bas du graphique.

Notez que les points de perte noirs créent la forme exacte de la courbe de perte : une forte diminution avant une pente douce jusqu'à ce qu'ils atteignent le point le plus bas de la surface de perte.

En utilisant les valeurs de pondération et de biais qui produisent la perte la plus faible (dans ce cas, une pondération de -5,44 et un biais de 35,94), nous pouvons représenter le modèle sous forme graphique pour voir dans quelle mesure il correspond aux données :

Figure 19. Graphique des kilos (en milliers) par rapport aux kilomètres par litre, avec le modèle ajusté aux données.

Figure 19. Modèle représenté à l'aide des valeurs de pondération et de biais qui produisent la perte la plus faible.

Il s'agit du meilleur modèle pour cet ensemble de données, car aucune autre valeur de poids et de biais ne produit un modèle avec une perte plus faible.