Les modèles de régression logistique sont entraînés à l'aide du même processus que les modèles de régression linéaire, avec deux différences clés :
- Les modèles de régression logistique utilisent la perte logistique comme fonction de perte au lieu de la perte quadratique.
- L'application d'une régularisation est essentielle pour éviter le surapprentissage.
Les sections suivantes abordent ces deux considérations plus en détail.
Perte logistique
Dans le module Régression linéaire, vous avez utilisé la perte quadratique (également appelée perte L2) comme fonction de perte. La perte quadratique fonctionne bien pour un modèle linéaire où le taux de variation des valeurs de sortie est constant. Par exemple, étant donné le modèle linéaire $y' = b + 3x_1$, chaque fois que vous incrémentez la valeur d'entrée $x_1$ de 1, la valeur de sortie $y'$ augmente de 3.
Toutefois, le taux de variation d'un modèle de régression logistique n'est pas constant. Comme vous l'avez vu dans Calculer une probabilité, la sigmoid est en forme de S plutôt que linéaire. Lorsque la valeur du log-odds ($z$) est plus proche de 0, de petites augmentations de $z$ entraînent des modifications beaucoup plus importantes de $y$ que lorsque $z$ est un grand nombre positif ou négatif. Le tableau suivant montre la sortie de la fonction sigmoïde pour les valeurs d'entrée comprises entre 5 et 10, ainsi que la précision requise pour capturer les différences dans les résultats.
| entrée | sortie logistique | nombre de chiffres de précision requis |
|---|---|---|
| 5 | 0,993 | 3 |
| 6 | 0,997 | 3 |
| 7 | 0,999 | 3 |
| 8 | 0,9997 | 4 |
| 9 | 0,9999 | 4 |
| 10 | 0,99998 | 5 |
Si vous utilisiez la perte quadratique pour calculer les erreurs de la fonction sigmoïde, à mesure que la sortie se rapprocherait de 0 et 1, vous auriez besoin de plus de mémoire pour conserver la précision nécessaire au suivi de ces valeurs.
La fonction de perte pour la régression logistique est la perte logistique. L'équation de perte logistique renvoie le logarithme de l'ampleur de la modification, plutôt que la distance entre les données et la prédiction. La perte logistique est calculée comme suit :
$\text{Perte logistique} = -\frac{1}{N}\sum_{i=1}^{N} [y_i\log(y_i') + (1 - y_i)\log(1 - y_i')]$
où :
- \(N\) est le nombre d'exemples étiquetés dans l'ensemble de données
- \(i\) est l'index d'un exemple dans l'ensemble de données (par exemple, \((x_3, y_3)\) est le troisième exemple de l'ensemble de données)
- \(y_i\) est le libellé du \(i\)ième exemple. Comme il s'agit d'une régression logistique, \(y_i\) doit être égal à 0 ou 1.
- \(y_i'\) est la prédiction de votre modèle pour le \(i\)ième exemple (entre 0 et 1), étant donné l'ensemble des caractéristiques dans \(x_i\).
Régularisation dans la régression logistique
La**régularisation** , un mécanisme permettant de pénaliser la complexité du modèle lors de l'entraînement, est extrêmement importante dans la modélisation de la régression logistique. Sans régularisation, la nature asymptotique de la régression logistique continuerait de ramener la perte à 0 dans les cas où le modèle comporte un grand nombre de caractéristiques. Par conséquent, la plupart des modèles de régression logistique utilisent l'une des deux stratégies suivantes pour réduire la complexité du modèle :
- Régularisation L2
- Arrêt prématuré : limite le nombre d'étapes d'entraînement pour arrêter l'entraînement pendant que la perte diminue encore.