Réduction de la perte : une approche itérative

Le module précédent a présenté le concept de perte. Dans ce module, vous découvrirez comment un modèle de Machine Learning peut minimiser la perte.

L'apprentissage itératif s'apparente au jeu d'enfant Chaud ou froid où l'objectif est de trouver un objet caché. Dans notre cas, l'objet à trouver est le meilleur modèle possible. Vous commencez par une réponse au hasard ("La valeur de \(w_1\) est 0."), puis attendez que le système vous indique la perte correspondante. Vous tentez ensuite une autre réponse ("La valeur de \(w_1\) est 0,5."), puis découvrez la nouvelle valeur de la perte. Vous réchauffez ! C'est un jeu où il n'est pas difficile de gagner. Le véritable enjeu consiste à trouver le meilleur modèle possible de la façon la plus efficace possible.

Le schéma suivant illustre le processus itératif de tâtonnement utilisé par les algorithmes de Machine Learning pour l'entraînement d'un modèle.

Le cycle permettant de passer des caractéristiques et des étiquettes aux modèles et prédictions.

Figure 1 : Approche itérative pour l'apprentissage d'un modèle

Nous utiliserons cette même approche itérative pendant l'intégralité du cours d'initiation au Machine Learning, en détaillant diverses complications, en particulier celles qui se produisent à l'étape symbolisée par le nuage bleu. Les stratégies itératives sont largement utilisées pour le Machine Learning, car elles s'adaptent parfaitement aux ensembles de données de grande taille.

Le "modèle" accepte une caractéristique ou plus en guise d'entrée, et permet d'obtenir une prédiction (y') en sortie. Simplifions en imaginant le cas d'un modèle acceptant une caractéristique et permettant d'obtenir une prédiction.

$$ y' = b + w_1x_1 $$

Quelles valeurs initiales devons-nous attribuer à \(b\) et à \(w_1\) ? Dans les problèmes de régression linéaire, il s'avère que les valeurs de départ n'ont aucune importance. Nous pourrions les déterminer de façon aléatoire, mais utiliserons plutôt ici les valeurs arbitraires suivantes :

  • \(b\) = 0
  • \(w_1\) = 0

Imaginons que la première valeur de caractéristique soit égale à 10. En utilisant cette valeur de caractéristique dans la fonction de prédiction, on obtient le résultat suivant :

  y' = 0 + 0(10)
  y' = 0

La case "Fonction de calcul de la perte" dans le schéma correspond à la fonction de perte utilisée par le modèle. Imaginons que nous utilisions la fonction de perte quadratique. La fonction de perte accepte deux valeurs d'entrée :

  • y' : la prédiction du modèle pour les caractéristiques x
  • y : l'étiquette correcte correspondant aux caractéristiques x.

Nous avons enfin atteint l'étape "Calcul de la mise à jour des paramètres" dans le schéma. C'est à cette étape que le système de Machine Learning examine la valeur de la fonction de perte et génère de nouvelles valeurs pour \(b\) et \(w_1\). Pour le moment, partez du principe que cette mystérieuse case verte détermine de nouvelles valeurs, puis que le système de Machine Learning compare à nouveau toutes ces caractéristiques aux étiquettes existantes, attribuant une nouvelle valeur à la fonction de perte, laquelle génère de nouvelles valeurs de paramètres. Ainsi, l'apprentissage poursuit ses itérations jusqu'à ce que l'algorithme identifie les paramètres du modèle présentant la perte la plus basse possible. L'itération se poursuit généralement jusqu'à ce que la perte globale cesse d'évoluer ou n'évolue plus que très lentement. À ce stade, on déclare généralement que le modèle a convergé.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning