Régression logistique: calculer une probabilité

De nombreux problèmes nécessitent une estimation de probabilité en sortie. La régression logistique est un mécanisme extrêmement efficace pour calculer les probabilités. En pratique, vous pouvez utiliser la probabilité renvoyée de l'une des deux manières suivantes:

  • "en l'état"
  • Converti en une catégorie binaire.

Voyons comment nous pourrions utiliser la probabilité "en l'état". Supposons que nous créions un modèle de régression logistique pour prédire la probabilité qu'un chien aboie au milieu de la nuit. Nous appellerons cette probabilité:

\[p(bark | night)\]

Si le modèle de régression logistique prédit \(p(bark | night) = 0.05\), plus d'un an, les propriétaires du chien devraient être réveillés environ 18 fois:

\[\begin{align} startled &= p(bark | night) \cdot nights \\ &= 0.05 \cdot 365 \\ &~= 18 \end{align} \]

Dans de nombreux cas, vous allez mapper la sortie de régression logistique dans la solution à un problème de classification binaire, dans lequel l'objectif est de prédire correctement l'une des deux étiquettes possibles (par exemple, spam, mais pas "spam"). Un autre module le sera plus tard.

Vous vous demandez peut-être comment un modèle de régression logistique peut garantir un résultat toujours compris entre 0 et 1. En l'occurrence, une fonction sigmoïde, définie comme suit, produit un résultat ayant les mêmes caractéristiques:

$$y = \frac{1}{1 + e^{-z}}$$

La fonction sigmoïde génère le graphique suivant:

Fonction sigmoïde. L'axe des abscisses représente la valeur d'inférence brute. L'axe Y est compris entre 0 et +1 (exclus).

Figure 1: Fonction sigmoïde

Si \(z\) représente le résultat de la couche linéaire d'un modèle entraîné avec une régression logistique, \(sigmoid(z)\) génère une valeur (probabilité) comprise entre 0 et 1. En termes mathématiques:

$$y' = \frac{1}{1 + e^{-z}}$$

où :

  • \(y'\) est la sortie du modèle de régression logistique pour un exemple particulier.
  • \(z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N\)
    • Les valeurs \(w\) correspondent aux pondérations apprises par le modèle et \(b\) sont les pondérations.
    • Les valeurs \(x\) correspondent aux valeurs des caractéristiques d'un exemple particulier.

Notez que \(z\) est également appelé log-odds, car l'inverse des états sigmoïdes \(z\) peut être défini comme le journal de la probabilité de l'étiquette \(1\) (par exemple, divisé par la probabilité de l'étiquette \(0\)(par exemple, "chien aboie" :

$$ z = \log\left(\frac{y}{1-y}\right) $$

Voici la fonction sigmoïde avec les étiquettes de ML:

Fonction sigmoïde avec l'axe des abscisses étiqueté comme la somme de toutes les pondérations et caractéristiques (plus le biais) ; l'axe des ordonnées est étiqueté Résultat de probabilité.

Figure 2: Résultat de la régression logistique