Régularisation à des fins de simplicité : régularisation L₂

Examinez la courbe de généralisation suivante, qui représente la perte de l'ensemble d'apprentissage et de l'ensemble de validation en fonction du nombre d'itérations d'apprentissage.

La fonction de coût de l'ensemble d'apprentissage diminue progressivement.En revanche, celle de l'ensemble de validation commence par diminuer, puis se met à augmenter.

Figure 1 : Perte de l'ensemble d'apprentissage et de l'ensemble de validation

La figure 1 présente un modèle où la perte d'apprentissage diminue progressivement, tandis que la perte de validation finit par augmenter. En d'autres termes, cette courbe de généralisation indique un surapprentissage des données par le modèle avec l'ensemble d'apprentissage. En nous inspirant des idées de Guillaume d'Ockham, nous pouvons peut-être éviter un tel surapprentissage en pénalisant les modèles complexes. C'est le principe de la régularisation.

Autrement dit, au lieu de seulement chercher à minimiser la perte (minimisation du risque empirique), comme suit :

$$\text{minimiser(Perte(Données|Modèle))}$$

nous allons minimiser à la fois la perte et la complexité, ce qui s'appelle la minimisation du risque structurel :

$$\text{minimiser(Perte(Données|Modèle) + complexité(Modèle))}$$

Notre algorithme d'optimisation de l'apprentissage est désormais une fonction à deux facteurs : le facteur de perte, qui mesure l'efficacité d'apprentissage du modèle, et le facteur de régularisation, qui mesure la complexité du modèle.

Le cours d'initiation au Machine Learning présente deux façons courantes (et apparentées) d'aborder la complexité d'un modèle :

  • La complexité du modèle en tant que fonction des pondérations de toutes les caractéristiques du modèle
  • La complexité du modèle en tant que fonction du nombre total de caractéristiques dont les pondérations sont différentes de zéro (Nous aborderons cette approche dans un prochain module.)

Si la complexité du modèle est fonction des pondérations, la pondération d'une caractéristique est plus ou moins complexe selon que sa valeur absolue est plus ou moins élevée.

Nous pouvons quantifier la complexité à l'aide de la formule de L2, qui définit le facteur de régularisation comme étant la somme des carrés de toutes les pondérations des caractéristiques :

$$L_2\text{facteur de régularisation} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + … + w_n^2}$$

Dans cette formule, les pondérations proches de zéro ont peu d'effet sur la complexité du modèle, tandis que celles qui correspondent à des anomalies peuvent avoir un effet considérable.

Imaginons un modèle linéaire avec les pondérations suivantes :

$$\{w_1 = 0,2, w_2 = 0,5, w_3 = 5, w_4 = 1, w_5 = 0,25, w_6 = 0,75\}$$

Le facteur de régularisation L2 est de 26,915 :

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0,2^2 + 0,5^2 + \boldsymbol{5^2} + 1^2 + 0,25^2 + 0,75^2$$ $$= 0,04 + 0,25 + \boldsymbol{25} + 1 + 0,0625 + 0,5625$$ $$= 26,915$$

Cependant, la complexité provient essentiellement de \(w_3\) (en gras ci-dessus), dont le carré est égal à 25. La somme des carrés des cinq autres pondérations ajoute seulement 1,915 au facteur de régularisation L2.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning