Régularisation à des fins de simplicité

La régularisation consiste à pénaliser la complexité d'un modèle afin de limiter le surapprentissage.

Régularisation à des fins de simplicité

La fonction de coût de l'ensemble d'apprentissage diminue progressivement.En revanche, celle de l'ensemble de validation commence par diminuer, puis se met à augmenter.
  • Nous souhaitons limiter la complexité du modèle dans toute la mesure du possible.
  • Nous pouvons intégrer cet aspect dans l'optimisation effectuée lors de l'apprentissage.
  • Minimisation du risque empirique :
    • Vise à obtenir un faible taux d'erreur d'apprentissage
    • $$ \text{minimiser : } Perte(Données\;|\;Modèle) $$

  • Nous souhaitons limiter la complexité du modèle dans toute la mesure du possible.
  • Nous pouvons intégrer cet aspect dans l'optimisation effectuée lors de l'apprentissage.
  • Minimisation du risque structurel :
    • Vise à obtenir un faible taux d'erreur d'apprentissage
    • Vise également à limiter la complexité en trouvant un juste équilibre
    • $$ \text{minimiser : } Perte(Données\;|\;Modèle) + complexité(Modèle) $$

  • Comment définir complexité(Modèle) ?
  • Comment définir complexité(Modèle) ?
  • Préférence pour les pondérations plus faibles
  • Comment définir complexité(Modèle) ?
  • Préférence pour les pondérations plus faibles
  • Pénalisation en cas de divergence
  • Possibilité d'encoder cet aspect via la régularisation L2 (également appelée régularisation de crête)
    • complexité(modèle) = somme des carrés des pondérations
    • Pénalisation des pondérations très élevées
    • Pour les modèles linéaires : préférence pour les pentes plus plates
    • Probabilité bayésienne a priori :
      • Les pondérations doivent être centrées autour de zéro.
      • Les pondérations doivent avoir une distribution normale.

$$ L(\boldsymbol{w}, D)\;+\;\lambda\;||\;\boldsymbol{w}\;||\;_2^2 $$

\(\text{Où :}\)

\(L\text{ : objectif de faible taux d'erreur d'apprentissage}\) \(\lambda\text{ : grandeur scalaire qui contrôle l'équilibrage des pondérations}\) \(\boldsymbol{w}\text{ : équilibrage en fonction de la complexité}\) \(^2_2\text{ : carré de la normalisation}\;L_2\;\text{de w}\)