Réduction de la perte: une approche itérative

Le module précédent a présenté le concept de perte. Dans ce module, vous découvrirez comment un modèle de ML réduit la perte de manière itérative.

L'apprentissage itératif peut vous rappeler le jeu pour enfants Chaud et froid, dans lequel il faut trouver un objet caché, comme un dé à coudre. Dans ce jeu, "l'objet caché" est le meilleur modèle possible. Vous commencerez par une estimation approximative ("La valeur de \(w_1\) est 0.") et attendez que le système vous dise quelle est la perte. Ensuite, vous en tenterez une autre ("La valeur de \(w_1\) est de 0,5.") et vous verrez quelle est la perte. Aah, vous vous réchauffez. En fait, si vous jouez correctement à ce jeu, vous aurez généralement plus chaud. La vraie astuce consiste à trouver le meilleur modèle possible aussi efficacement que possible.

La figure suivante suggère le processus itératif d'essais et d'erreurs utilisé par les algorithmes de machine learning pour entraîner un modèle:

Cycle de passage des caractéristiques et des étiquettes aux modèles et prédictions.

Figure 1. Approche itérative de l'entraînement d'un modèle

Nous utiliserons cette même approche itérative tout au long du cours d'initiation au machine learning, en détaillant diverses complications, en particulier au sein de ce nuage orageux appelé "Modèle (fonction de prédiction)". Les stratégies itératives sont très répandues en machine learning, car elles s'adaptent très bien aux grands ensembles de données.

Le "modèle" accepte une ou plusieurs caractéristiques en entrée et renvoie une prédiction en sortie. Pour simplifier, prenons un modèle qui utilise une caractéristique (\(x_1\)) et renvoie une prédiction (\(y'\)):

$$ y' = b + w_1x_1 $$

Quelles valeurs initiales devons-nous définir pour \(b\)et \(w_1\)? Pour les problèmes de régression linéaire, il s'avère que les valeurs de départ ne sont pas importantes. Nous pourrions choisir des valeurs aléatoires, mais nous utiliserons simplement les valeurs simples suivantes à la place:

  • \(b\) = 0
  • \(w_1\) = 0

Supposons que la première valeur de caractéristique soit 10. En utilisant cette valeur de caractéristique dans la fonction de prédiction, on obtient le résultat suivant:

$$ y' = 0 + 0 \cdot 10 = 0 $$

La partie "Calculer la perte" du diagramme est la fonction de perte que le modèle utilisera. Supposons que nous utilisions la fonction de perte quadratique. La fonction de perte accepte deux valeurs d'entrée:

  • \(y'\): prédiction du modèle pour les caractéristiques x
  • \(y\): étiquette correcte correspondant aux caractéristiques x

Enfin, nous avons atteint la partie "Calculer les mises à jour des paramètres" du diagramme. C'est ici que le système de machine learning examine la valeur de la fonction de perte et génère de nouvelles valeurs pour \(b\) et \(w_1\). Pour l'instant, supposons simplement que ce cadre mystérieux détermine de nouvelles valeurs, puis que le système de machine learning réévalue toutes ces caractéristiques par rapport à toutes les étiquettes, ce qui génère une nouvelle valeur pour la fonction de perte, qui génère de nouvelles valeurs de paramètres. L'apprentissage poursuit ses itérations jusqu'à ce que l'algorithme découvre les paramètres du modèle présentant la perte la plus faible possible. Habituellement, vous itérez jusqu'à ce que la perte globale cesse de changer ou au moins change extrêmement lentement. Lorsque cela se produit, on dit que le modèle a convergé.