Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Régression logistique: perte et régularisation

Les modèles de régression logistique sont entraînés à l'aide du même processus que les modèles de régression linéaire, avec deux différences clés :

Les modèles de régression logistique utilisent la perte logistique comme fonction de perte au lieu de la perte quadratique.
L'application d'une régularisation est essentielle pour éviter le surapprentissage.

Les sections suivantes abordent ces deux considérations plus en détail.

Perte logistique

Dans le module Régression linéaire, vous avez utilisé la perte quadratique (également appelée perte L₂) comme fonction de perte. La perte quadratique fonctionne bien pour un modèle linéaire où le taux de variation des valeurs de sortie est constant. Par exemple, étant donné le modèle linéaire $y' = b + 3x_1$, chaque fois que vous incrémentez la valeur d'entrée $x_1$ de 1, la valeur de sortie $y'$ augmente de 3.

Toutefois, le taux de variation d'un modèle de régression logistique n'est pas constant. Comme vous l'avez vu dans Calculer une probabilité, la sigmoid est en forme de S plutôt que linéaire. Lorsque la valeur du log-odds ($z$) est plus proche de 0, de petites augmentations de $z$ entraînent des modifications beaucoup plus importantes de $y$ que lorsque $z$ est un grand nombre positif ou négatif. Le tableau suivant montre la sortie de la fonction sigmoïde pour les valeurs d'entrée comprises entre 5 et 10, ainsi que la précision requise pour capturer les différences dans les résultats.

entrée	sortie logistique	nombre de chiffres de précision requis
5	0,993	3
6	0,997	3
7	0,999	3
8	0,9997	4
9	0,9999	4
10	0,99998	5

Si vous utilisiez la perte quadratique pour calculer les erreurs de la fonction sigmoïde, à mesure que la sortie se rapprocherait de 0 et 1, vous auriez besoin de plus de mémoire pour conserver la précision nécessaire au suivi de ces valeurs.

La fonction de perte pour la régression logistique est la perte logistique. L'équation de perte logistique renvoie le logarithme de l'ampleur de la modification, plutôt que la distance entre les données et la prédiction. La perte logistique est calculée comme suit :

$\text{Perte logistique} = -\frac{1}{N}\sum_{i=1}^{N} [y_i\log(y_i') + (1 - y_i)\log(1 - y_i')]$

où :

$N$ est le nombre d'exemples étiquetés dans l'ensemble de données
$i$ est l'index d'un exemple dans l'ensemble de données (par exemple, $(x_3, y_3)$ est le troisième exemple de l'ensemble de données)
$y_i$ est le libellé du $i$ième exemple. Comme il s'agit d'une régression logistique, $y_i$ doit être égal à 0 ou 1.
$y_i'$ est la prédiction de votre modèle pour le $i$ième exemple (entre 0 et 1), étant donné l'ensemble des caractéristiques dans $x_i$.

Cliquez sur l'icône pour en savoir plus sur la perte logistique.

Cette forme de la fonction de perte logistique calcule la perte logistique moyenne sur tous les points de l'ensemble de données. L'utilisation de la perte logistique moyenne (par opposition à la perte logistique totale) est souhaitable en pratique, car elle nous permet de dissocier le réglage de la taille du lot et du taux d'apprentissage.

Régularisation dans la régression logistique

La**régularisation** , un mécanisme permettant de pénaliser la complexité du modèle lors de l'entraînement, est extrêmement importante dans la modélisation de la régression logistique. Sans régularisation, la nature asymptotique de la régression logistique continuerait de ramener la perte à 0 dans les cas où le modèle comporte un grand nombre de caractéristiques. Par conséquent, la plupart des modèles de régression logistique utilisent l'une des deux stratégies suivantes pour réduire la complexité du modèle :

Régularisation L₂
Arrêt prématuré : limite le nombre d'étapes d'entraînement pour arrêter l'entraînement pendant que la perte diminue encore.

Centre d'aide

Calculer une probabilité (10 min)

Testez vos connaissances (10 min)

Régression logistique: perte et régularisation Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Perte logistique

Cliquez sur l'icône pour en savoir plus sur la perte logistique.

Régularisation dans la régression logistique

Régression logistique: perte et régularisation