Régularisation à des fins de simplicité: régularisation L2

Examinez la courbe de généralisation suivante, qui représente la perte de l'ensemble d'entraînement et de l'ensemble de validation par rapport au nombre d'itérations d'entraînement.

La fonction de perte de l'ensemble d'entraînement diminue progressivement. En revanche, la fonction de perte de l'ensemble de validation diminue, mais commence ensuite à augmenter.

Figure 1. Perte sur l'ensemble d'entraînement et l'ensemble de validation.

La figure 1 montre un modèle dans lequel la perte d'entraînement diminue progressivement, mais la perte de validation finit par augmenter. En d'autres termes, cette courbe de généralisation indique un surapprentissage des données par le modèle avec l'ensemble d'entraînement. En s'appuyant sur Ockham, nous pourrions peut-être éviter le surapprentissage en pénalisant les modèles complexes, ce principe de la régularisation.

En d'autres termes, au lieu de simplement viser à minimiser la perte (minimisation du risque empirique):

$$\text{minimize(Loss(Data|Model))}$$

nous allons à présent minimiser la perte et la complexité, ce qui s'appelle la minimisation du risque structurel:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

Notre algorithme d'optimisation de l'entraînement est désormais une fonction à deux facteurs: le facteur de perte, qui mesure l'efficacité d'ajustement du modèle aux données, et le facteur de régularisation, qui mesure la complexité du modèle.

Le cours d'initiation au machine learning présente deux façons courantes (et apparentées) d'aborder la complexité d'un modèle:

  • La complexité du modèle en tant que fonction des pondérations de toutes les caractéristiques du modèle
  • La complexité du modèle en tant que fonction du nombre total de caractéristiques dont les pondérations sont différentes de zéro (Nous aborderons cette approche dans un prochain module.)

Si la complexité du modèle est fonction des pondérations, une pondération de caractéristique ayant une valeur absolue élevée est plus complexe qu'une pondération de caractéristique avec une valeur absolue faible.

Nous pouvons quantifier la complexité à l'aide de la formule de L2 qui définit le terme de régularisation comme étant la somme des carrés de toutes les pondérations des caractéristiques:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

Dans cette formule, les pondérations proches de zéro ont peu d'effet sur la complexité du modèle, tandis que les pondérations des anomalies peuvent avoir un impact important.

Par exemple, un modèle linéaire avec les pondérations suivantes:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

Le facteur de régularisation L2 est de 26,915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

Cependant, \(w_3\) (en gras ci-dessus), avec une valeur au carré de 25, contribue pratiquement à toute la complexité. La somme des carrés des cinq autres pondérations ajoute seulement 1,915 au terme de régularisation L2.