Régression logistique: perte et régularisation

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Fonction de perte pour la régression logistique

La fonction de perte pour la régression linéaire est la perte quadratique. La fonction de perte pour la régression logistique est Log Loss, qui est définie comme suit:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

où :

  • \((x,y)\in D\) est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des \((x,y)\) paires.
  • \(y\) est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit de régression logistique, chaque valeur de \(y\) doit être 0 ou 1.
  • \(y'\) est la valeur prédite (comprise entre 0 et 1), étant donné l'ensemble d'éléments dans \(x\).

Régularisation en régression logistique

La régularisation est extrêmement importante en modélisation de la régression logistique. Sans régularisation, la nature asymptotique de la régression logistique continue à entraîner une perte jusqu'à 0 dans les dimensions élevées. Par conséquent, la plupart des modèles de régression logistique utilisent l'une des deux stratégies suivantes pour atténuer la complexité du modèle:

  • Régularisation L2.
  • L'arrêt prématuré, c'est-à-dire la limitation du nombre de pas d'entraînement ou du taux d'apprentissage.

(Nous aborderons une troisième stratégie, la régularisation L1, dans un module ultérieur.)

Imaginez que vous attribuiez un identifiant unique à chaque exemple et que vous mappiez chaque identifiant à sa propre caractéristique. Si vous ne spécifiez pas de fonction de régularisation, le modèle sera complètement surajusté. C'est parce que le modèle tente de ramener la perte à zéro pour tous les exemples sans jamais y parvenir, en entraînant les pondérations de chaque caractéristique d'indicateur sur +infini ou -infini. Cela peut se produire dans les données de grande dimension avec les croisements de caractéristiques, lorsqu'il existe une énorme masse de croisements rares qui ne se produisent que sur un seul exemple.

Heureusement, l'utilisation de L2 ou de l'arrêt prématuré permet d'éviter ce problème.