Classification: testez vos connaissances (ROC et AUC)

ROC et AUC

Explorez les options ci-dessous.

Parmi les courbes ROC suivantes, lesquelles produisent des valeurs AUC supérieures à 0,5 ?
Une courbe ROC avec une ligne verticale allant de (0,0) à (0,1), et une ligne horizontale de (0,1) à (1,1). Le taux de VP est de 1,0 pour tous les taux de FP.

Il s'agit de la meilleure courbe ROC possible, car elle classe tous les positifs au-dessus de tous les négatifs. Son AUC est égale à 1,0.

En pratique, si vous utilisez un classificateur "parfait" avec un AUC de 1,0, vous devriez être suspect, car cela indique probablement un bug dans votre modèle. Par exemple, il est possible que vous ayez un surapprentissage de vos données d'entraînement ou que les données d'étiquettes soient dupliquées dans l'une de vos caractéristiques.

Une courbe ROC avec une ligne horizontale allant de (0,0) à (1,0), et une ligne verticale (1,0) à (1,1). Le taux de FP est de 1,0 pour tous les taux de VP
C'est la pire courbe ROC possible : elle classe tous les négatifs au-dessus de tous les positifs et a un AUC de 0, 0. Si vous deviez inverser toutes les prédictions (inverser les valeurs positives et les valeurs positives, et inversement), vous obtenez un classificateur parfait !
Une courbe ROC avec une ligne diagonale allant de (0,0) à (1,1). Les taux de VP et de FP augmentent linéairement au même rythme.
L'AUC de cette courbe ROC est égale à 0,5, ce qui signifie qu'elle classe un exemple positif aléatoire au-dessus d'un exemple négatif aléatoire dans 50% des cas. Par conséquent, le modèle de classification correspondant est sans intérêt, car sa capacité prédictive n'est pas meilleure qu'une estimation aléatoire.
Une courbe ROC qui forme un arc vers le haut et vers la droite de (0,0) à (1,1). Le taux de VP augmente plus rapidement que le taux de FP.
L'AUC de cette courbe ROC est comprise entre 0,5 et 1, ce qui signifie qu'elle classe un exemple positif aléatoire au-dessus d'un exemple négatif aléatoire dans plus de 50% des cas. En pratique, les valeurs AUC de classification binaire sont comprises dans cette plage.
Une courbe ROC avec un arc vers la droite et le haut (de 0,0) à (1,1) Le taux de FP augmente plus rapidement que le taux de VP.
L'AUC de cette courbe ROC est comprise entre 0 et 0,5, ce qui signifie qu'elle classe un exemple positif aléatoire au-dessus d'un exemple négatif aléatoire dans moins de 50% des cas. Le modèle correspondant est en réalité moins performant que le résultat aléatoire ! Si vous observez une courbe ROC comme celle-ci, cela signifie probablement que vos données comportent un bug.

AUC et prédictions de scaling

Explorez les options ci-dessous.

Comment la multiplication de toutes les prédictions d'un modèle donné par 2,0 (par exemple, si le modèle prédit la valeur 0,4, nous la multiplions par 2,0 pour obtenir une prédiction de 0,8) modifie-t-elle les performances du modèle mesurées par l'AUC ?
Aucun changement. L'AUC ne tient compte que des scores de prédiction relatifs.
L'AUC est basé sur les prédictions relatives. Par conséquent, toute transformation des prédictions qui préserve le classement relatif n'a aucune incidence sur l'AUC. Ce n'est manifestement pas le cas pour d'autres métriques telles que les erreurs au carré, la perte de journaux ou les biais de prédiction (décrits ultérieurement).
L'AUC serait terrible, car les valeurs de prédiction sont maintenant très éloignées.
Il est intéressant de noter que, même si les valeurs de prédiction sont différentes (et probablement plus éloignées de la vérité), les multiplier par 2,0 permettrait de garder le même ordre de valeurs relatif pour les prédictions. L'AUC ne tient compte que des classements relatifs. Elle n'est donc pas affectée par une simple mise à l'échelle des prédictions.
L'AUC serait améliorée, car les valeurs de prédiction sont toutes plus éloignées.
L'ampleur de l'écart entre les prédictions n'a pas d'incidence sur l'AUC. Même le score de prédiction d'un vrai positif tiré au hasard n'est qu'un petit épisilon supérieur à un négatif négatif, qui sera considéré comme un succès contribuant au score global d'AUC.