Classification : définition des seuils

Les régressions logistiques permettent d'obtenir une probabilité. Vous pouvez utiliser la probabilité obtenue en l'état (par exemple, la probabilité pour que l'utilisateur clique sur cette annonce est de 0,00023) ou la convertir en valeur binaire (par exemple, cet e-mail est du spam).

Un modèle de régression logistique produisant la valeur de 0,9995 pour un e-mail particulier prédit que ce dernier est très probablement du spam. À l'inverse, un autre e-mail avec un score de prédiction de 0,0003 suivant le même modèle de régression logistique n'est très probablement pas du spam. Mais que conclure si un e-mail présente un score de prédiction de 0,6 ? Afin d'identifier la catégorie binaire correspondant à une valeur obtenue par régression logistique vous devez définir un seuil de classification (également appelé seuil de décision). Toute valeur supérieure à ce seuil correspondra à la catégorie "spam", toute valeur inférieure à la catégorie "non spam". Il peut paraître logique d'en déduire que la valeur du seuil de classification devrait toujours être égale à 0,5, mais les seuils doivent toujours être adaptés au problème considéré : ce sont donc des valeurs à ajuster.

Les sections suivantes analysent plus précisément les différents critères auxquels vous pouvez avoir recours pour évaluer les prédictions d'un modèle de classification, ainsi que l'effet de toute modification du seuil de classification sur ces prédictions.