Cette page a été traduite par l'API Cloud Translation.

Régression logistique: perte et régularisation

Les modèles de régression logistique sont entraînés à l'aide du même processus que les modèles de régression linéaire, avec deux différences clés :

Les modèles de régression logistique utilisent la perte logistique comme fonction de perte au lieu de la perte quadratique.
L'application de la régularisation est essentielle pour éviter le surapprentissage.

Les sections suivantes abordent ces deux considérations plus en détail.

Perte logistique

Dans le module de régression linéaire, vous avez utilisé la perte quadratique (également appelée perte L₂) comme fonction de perte. La perte quadratique fonctionne bien pour un modèle linéaire où le taux de variation des valeurs de sortie est constant. Par exemple, étant donné le modèle linéaire $y' = b + 3x_1$, chaque fois que vous augmentez la valeur d'entrée $x_1$ de 1, la valeur de sortie $y'$ augmente de 3.

Toutefois, le taux de variation d'un modèle de régression logistique n'est pas constant. Comme vous l'avez vu dans Calculer une probabilité, la courbe sigmoid est en forme de S plutôt que linéaire. Lorsque la valeur du log-odds ($z$) est proche de 0, de petites augmentations de $z$ entraînent des changements beaucoup plus importants de $y$ que lorsque $z$ est un grand nombre positif ou négatif. Le tableau suivant montre la sortie de la fonction sigmoïde pour les valeurs d'entrée de 5 à 10, ainsi que la précision correspondante requise pour capturer les différences dans les résultats.

entrée	Sortie logistique	le nombre de chiffres de précision requis.
5	0.993	3
6	0.997	3
7	0.999	3
8	0.9997	4
9	0.9999	4
10	0.99998	5

Si vous avez utilisé la perte quadratique pour calculer les erreurs de la fonction sigmoïde, à mesure que la sortie se rapprochait de plus en plus de 0 et de 1, vous auriez besoin de plus de mémoire pour préserver la précision nécessaire au suivi de ces valeurs.

La fonction de perte pour la régression logistique est plutôt la perte logistique. L'équation de perte logarithmique renvoie le logarithme de l'ampleur de la variation, plutôt que la simple distance entre les données et la prédiction. La perte logistique est calculée comme suit :

$\text{Perte logistique} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$

où :

$N$ correspond au nombre d'exemples étiquetés dans l'ensemble de données.
$i$ est l'index d'un exemple dans l'ensemble de données (par exemple, $(x_3, y_3)$ est le troisième exemple de l'ensemble de données)
$y_i$ est le libellé du $i$e exemple. Puisqu'il s'agit de régression logistique, $y_i$ doit être 0 ou 1.
$y_i'$ est la prédiction de votre modèle pour le $i$ième exemple (compris entre 0 et 1), étant donné l'ensemble des caractéristiques dans $x_i$.

Cliquez sur l'icône pour en savoir plus sur la perte logarithmique.

Cette forme de la fonction de perte logarithmique calcule la perte logarithmique moyenne pour tous les points de l'ensemble de données. En pratique, il est préférable d'utiliser la perte logistique moyenne (plutôt que la perte logistique totale), car cela nous permet de dissocier l'ajustement de la taille du lot et du taux d'apprentissage.

Régularisation dans la régression logistique

La régularisation, un mécanisme permettant de pénaliser la complexité du modèle pendant l'entraînement, est extrêmement importante dans la modélisation de la régression logistique. Sans régularisation, la nature asymptotique de la régression logistique continuerait de ramener la perte à zéro dans les cas où le modèle comporte un grand nombre de caractéristiques. Par conséquent, la plupart des modèles de régression logistique utilisent l'une des deux stratégies suivantes pour réduire la complexité du modèle :

Régularisation _L
Arrêt prématuré : limiter le nombre d'étapes d'entraînement pour arrêter l'entraînement alors que la perte continue de diminuer.

Centre d'aide

Calculer une probabilité (10 min)

Testez vos connaissances (10 min)

Régression logistique: perte et régularisation Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Perte logistique

Cliquez sur l'icône pour en savoir plus sur la perte logarithmique.

Régularisation dans la régression logistique

Régression logistique: perte et régularisation