Plongée dans le ML : apprentissage et perte

Pour un modèle, l'apprentissage signifie déterminer les bonnes valeurs pour toutes les pondérations et le biais à partir d'exemples étiquetés. Dans l'apprentissage supervisé, un algorithme de Machine Learning crée un modèle en examinant de nombreux exemples, puis en tentant de trouver un modèle qui minimise la perte. Ce processus est appelé minimisation du risque empirique.

La perte correspond à la pénalité pour une mauvaise prédiction. Autrement dit, la perte est un nombre qui indique la médiocrité de la prévision du modèle pour un exemple donné. Si la prédiction du modèle est parfaite, la perte est nulle. Sinon, la perte est supérieure à zéro. Le but de l'entraînement d'un modèle est de trouver un ensemble de pondérations et de biais pour lesquels la perte, en moyenne sur tous les exemples, est faible. Par exemple, la figure 3 présente à gauche un modèle dont la perte est élevée, et à droite un modèle dont la perte est faible. À noter concernant cette figure :

  • Les flèches rouges représentent les pertes.
  • La ligne bleue représente les prédictions.

Deux graphiques cartésiens, chacun contenant une droite et des points de données. Dans le premier graphique, la droite est une très mauvaise approximation des données. La perte est donc élevée. Dans le deuxième graphique, la droite constitue une meilleure approximation des données. La perte est donc faible.

Figure 3 : Perte élevée dans le modèle de gauche ; perte faible dans le modèle de droite.

 

Notez que les flèches rouges dans le graphique de gauche sont plus longues que celles de l'autre graphique. Il est clair que la ligne bleue dans le modèle de droite correspond à un modèle prédictif plus performant que celui représenté dans le graphique de gauche.

Vous vous demandez peut-être s'il est possible de créer une fonction mathématique (de perte) capable d'agréger les pertes de manière significative.

Perte quadratique : une fonction de perte populaire

Les modèles de régression linéaire que nous examinerons ici utilisent une fonction de perte appelée perte quadratique (ou perte L2). Pour un seul exemple, la perte quadratique est :

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

L'erreur quadratique moyenne (MSE) correspond à la perte quadratique moyenne pour chaque exemple. Pour calculer l'erreur MSE, il faut additionner toutes les pertes quadratiques de chaque exemple, puis diviser cette somme par le nombre d'exemples :

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

où :

  • \((x, y)\) est un exemple dans lequel :
    • \(x\) est l'ensemble des caractéristiques (par exemple, température, âge et réussite de l'accouplement) que le modèle utilise pour réaliser des prédictions ;
    • \(y\) est l'étiquette de l'exemple (par exemple, stridulations/minute).
  • \(prediction(x)\) est une fonction des pondérations et biais en combinaison avec l'ensemble des caractéristiques \(x\).
  • \(D\) est un ensemble de données contenant de nombreux exemples étiquetés, qui sont des paires \((x, y)\).
  • \(N\) est le nombre d'exemples dans \(D\).

Bien que l'erreur MSE soit couramment utilisée dans le Machine Learning, ce n'est ni la seule fonction de perte pratique, ni la meilleure fonction de perte pour toutes les circonstances.

 

Envoyer des commentaires concernant…

Cours d'initiation au machine learning