Classification : testez vos connaissances (ROC et AUC)

ROC et AUC

Examinez les options suivantes.

Lesquelles des courbes ROC ci-dessous permettent d'obtenir des valeurs AUC supérieures à 0,5 ?
Une courbe ROC avec une ligne horizontale tracée de (0,0) à (0,1) et eu autre de (0,1) à (1,1). Le taux de VP est de 1,0 quel que soit le taux de FP.

Celle-ci est la meilleure courbe ROC possible, car elle classe tous les positifs au-dessus de tous les négatifs. Son AUC est égale à 1,0.

Dans la pratique, un modèle de classification "parfait" à l'AUC égale à 1,0 doit éveiller vos soupçons, car il résulte probablement d'une erreur dans le modèle. Par exemple, il y a peut-être eu surapprentissage des données d'apprentissage, ou les données d'étiquetage peuvent être répliquées dans l'une de vos caractéristiques.

Une courbe ROC avec une ligne horizontale tracée de (0,0) à (1,0) et eu autre de (1,0) à (1,1). Le taux de FP est de 1,0 quel que soit le taux de VP.
Celle-ci est la pire courbe ROC possible, car elle classe tous les négatifs au-dessus de tous les positifs, et son AUC est égal à 0. En inversant chaque prédiction (c'est-à-dire en transformant les négatifs en positifs et les positifs en négatifs), on obtient un modèle de classification parfait !
Une courbe ROC avec une ligne en diagonale tracée de (0,0) à (1,1). Les taux de VP et de FP augmentent de façon linéaire au même rythme.
L'AUC de cette courbe ROC est de 0,5, ce qui signifie qu'elle classe un exemple positif aléatoire au-dessus d'un exemple négatif aléatoire dans 50 % des cas. Le modèle de classification correspondant n'a donc aucun intérêt, car sa capacité de prédiction est identique à une prédiction aléatoire.
Une courbe ROC qui forme un arc vers le haut puis vers la droite de la ligne reliant les points (0,0) et (1,1). Le taux de VP augmente plus rapidement que le taux de FP.
L'AUC de cette courbe ROC se situe entre 0,5 et 1, ce qui signifie qu'elle classe un exemple positif aléatoire au-dessus d'un exemple négatif aléatoire dans plus de 50 % des cas. Les valeurs d'AUC relatives aux classifications binaires se situent généralement dans cette plage.
Une courbe ROC formant un arc vers la droite puis vers le haut de la ligne reliant les points (0,0) et (1,1). Le taux de FP augmente plus rapidement que le taux de VP.
L'AUC de cette courbe ROC se situe entre 0 et 0,5, ce qui signifie qu'elle classe un exemple positif aléatoire au-dessus d'un exemple négatif aléatoire dans moins de 50 % des cas. Le modèle correspondant obtient donc des résultats inférieurs à ceux d'une prédiction aléatoire. Lorsque vous obtenez ce type de courbe ROC, vos données présentent probablement des erreurs.

AUC et prédictions relatives à la mise à l'échelle

Examinez les options suivantes.

Comment les performances d'un modèle seraient-elles affectées, en se basant sur son AUC, si l'on multipliait toutes ses prédictions par 2 (par exemple, s'il prédit 0,4, nous obtiendrions la valeur 0,8) ?
Aucune modification. L'AUC ne tient compte que des scores de prédiction relatifs.
Exact, l'AUC reflète les prédictions relatives, donc toute transformation des prédictions conservant les classifications relatives ne modifie pas sa valeur. Ce n'est évidemment pas le cas pour d'autres critères, comme l'erreur quadratique, la perte logistique ou le biais de prédiction (sur lesquels nous reviendrons).
Cela rendrait la valeur AUC inutilisable, les valeurs prédites étant totalement faussées.
Paradoxalement, même si les valeurs prédites sont modifiées (et probablement plus éloignées des valeurs réelles), les doubler ne modifierait pas la classification relative des valeurs prédites. Comme l'AUC ne tient compte que des classifications relatives, la mise à l'échelle des prédictions n'aurait aucun impact sur sa valeur.
Cela améliorerait l'AUC, car les valeurs prédites seraient plus éloignées les unes des autres.
L'écart existant entre les valeurs prédites ne modifie pas l'AUC. Même si un vrai positif sélectionné au hasard reçoit un score à peine supérieur à celui d'un négatif aléatoire, cela sera comptabilisé comme un succès améliorant le score AUC global.

Envoyer des commentaires concernant…

Cours d'initiation au machine learning