Ce module explique comment utiliser la régression logistique pour les tâches de classification et décrit comment évaluer l'efficacité des modèles de classification.
Classification
Classification ou régression
- Nous utilisons parfois la régression logistique pour les sorties de probabilité. Il s'agit d'une régression dans (0, 1).
- D'autres fois, nous allons définir une valeur de seuil pour une classification binaire discrète.
- Le choix du seuil est important et peut être ajusté
Métriques d'évaluation: Précision
- Comment évaluons-nous les modèles de classification ?
Métriques d'évaluation: Précision
- Comment évaluons-nous les modèles de classification ?
- Mesure possible: la justesse
- la fraction de prédictions correctes
La justesse peut être trompeuse
- Dans bien des cas, la justesse est une métrique médiocre ou trompeuse.
- Généralement, lorsque les différents types d'erreurs ont des coûts différents
- Cela se produit notamment en cas de déséquilibre des classes, lorsque les positifs ou les négatifs sont extrêmement rares.
Vrais positifs et faux positifs
- Pour déséquilibrer les classes, il est utile de séparer les différents types d'erreurs
Vrais positifs Nous avons correctement appelé les loups ! Nous avons sauvé la ville. |
Faux positifs Erreur: nous avons faussement appelé le loup. Tout le monde est en colère. |
Faux négatifs Il y avait un loup, mais nous ne l'avons pas détecté. Cela a dévoré toutes nos poules. |
Vrais négatifs Pas de loup, pas d'alarme. Tout le monde est sain et sauf. |
Métriques d'évaluation: précision et rappel
- Précision : (Vrais positifs) / (Toutes les prédictions positives)
- Lorsque le modèle a déclaré une classe "positive", était-ce correct ?
- Intuition: le modèle a-t-il trop souvent crié au loup ?
Métriques d'évaluation: précision et rappel
- Précision : (Vrais positifs) / (Toutes les prédictions positives)
- Lorsque le modèle a déclaré une classe "positive", était-ce correct ?
- Intuition: le modèle a-t-il trop souvent crié au loup ?
- Rappel : (Vrais positifs)/ (Tous les positifs positifs)
- Parmi tous les positifs potentiels, combien ont été correctement identifiés par le modèle ?
- Intuition: a-t-il manqué des loups ?
Lorsque vous avez terminé, appuyez sur le bouton de lecture ▶ pour continuer
Explorez les options ci-dessous.
Prenons l'exemple d'un modèle de classification triant les e-mails selon deux catégories : "spam" et "non-spam". Si vous augmentez la valeur du seuil de classification, quel sera l'impact sur la précision ?
Sans aucun doute.
L'augmentation du seuil de classification augmente généralement la précision. Cependant, il n'est pas garanti que la précision augmente de façon monotone à mesure que nous augmentons le seuil.
Probablement à la hausse.
En général, l'augmentation du seuil de classification réduit les faux positifs, ce qui augmente la précision.
Probablement en baisse.
En général, l'augmentation du seuil de classification réduit les faux positifs, ce qui augmente la précision.
Très certainement.
En général, l'augmentation du seuil de classification réduit les faux positifs, ce qui augmente la précision.
Une courbe ROC
Chaque point représente le taux de VP et de FP au niveau d'un seuil de décision.
Métriques d'évaluation: AUC
- AUC : "aire sous la courbe ROC"
Métriques d'évaluation: AUC
- AUC : "aire sous la courbe ROC"
- Interprétation :
- Si nous sélectionnons un résultat positif et un résultat négatif au hasard, quelle est la probabilité que le modèle les classe dans le bon ordre ?
Métriques d'évaluation: AUC
- AUC : "aire sous la courbe ROC"
- Interprétation :
- Si nous sélectionnons un résultat positif et un résultat négatif au hasard, quelle est la probabilité que le modèle les classe dans le bon ordre ?
- Intuition: agrégation des performances cumulées pour tous les seuils de classification possibles
Biais de prédiction
- Les prédictions de la régression logistique ne doivent pas être biaisées.
- moyenne des prédictions = moyenne des valeurs observées
Biais de prédiction
- Les prédictions de la régression logistique ne doivent pas être biaisées.
- moyenne des prédictions = moyenne des valeurs observées
- Le biais est un langage Canary.
- Un biais zéro ne signifie pas que tout est parfait dans votre système.
- Mais c'est un excellent contrôle d'intégrité.
Biais de prédiction (suite)
- Un biais présente un problème.
- Ensemble de fonctionnalités incomplet ?
- Pipeline bug ?
- Échantillon biaisé ?
- Ne corrigez pas de biais avec une couche de calibration, corrigez-les dans le modèle.
- Recherchez les biais éventuels dans des segments de données.