Régression logistique : entraînement du modèle

Fonction de perte pour la régression logistique

La fonction de perte pour la régression linéaire est appelée perte quadratique. La fonction de perte pour la régression logistique est la perte logistique, définie de la façon suivante :

$$Log Loss = \sum_{(x,y)\in D} -ylog(y') - (1 - y)log(1 - y')$$

où :

  • (x,yD est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des paires (x,y).
  • y est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit de régression logistique, chaque valeur de y doit être 0 ou 1.
  • y' est la valeur prédite (comprise entre 0 et 1), étant donné l'ensemble d'éléments dans x.

L'équation pour la perte logistique est étroitement liée à la mesure d'entropie de Shannon de la théorie de l'information. C'est également le logarithme négatif de la fonction de vraisemblance, en supposant une distribution de Bernoulli de y. En effet, la minimisation de la fonction de perte donne une estimation maximum de la vraisemblance.

Régularisation en régression logistique

La régularisation est extrêmement importante en modélisation de la régression logistique. Sans régularisation, la nature asymptotique de la régression logistique continuerait à entraîner la perte vers le 0 dans des dimensions élevées. Par conséquent, les modèles de régression les plus logistiques utilisent l'une des deux stratégies suivantes pour atténuer la complexité du modèle :

  • Régularisation L2.
  • Arrêt prématuré, c'est-à-dire le fait de limiter le nombre d'étapes d'apprentissage ou le taux d'apprentissage.

(Nous aborderons une troisième stratégie, la régularisation L1, dans un prochain module.)

Imaginez que vous attribuiez un identifiant unique à chaque exemple, et que vous fassiez correspondre chaque identifiant à sa propre caractéristique. Si vous ne précisez pas une fonction de régularisation, le modèle deviendra complètement surappris, parce que le modèle essayera de ramener la perte à zéro pour tous les exemples et n'y parviendra jamais, poussant les pondérations pour chaque caractéristique d'indicateur à + l'infini ou - l'infini. Cela peut se produire dans les données en hautes dimensions avec des croisements de caractéristiques, lorsqu'une masse énorme de croisements rares ne se produisent que sur un exemple chacun.

Heureusement, l'utilisation de L2 ou de l'arrêt prématuré permet d'éviter ce problème.