Clasificación: Comprueba tu comprensión (ROC y AUC)

ROC y AUC

Explora las siguientes opciones.

¿Cuál de las siguientes curvas de ROC producen valores de AUC mayores que 0.5?
Una curva ROC con una línea vertical que va de (0,0) a (0,1) y una horizontal de (0,1) a (1,1). La tasa de VP es 1.0 para todas las tasas de FP.

Esta es la mejor curva ROC posible, ya que clasifica todos los positivos por encima de todos los negativos. Tiene un AUC de 1.0.

En la práctica, si tienes un clasificador "perfecto" con un AUC de 1.0, debes ser sospechoso, ya que es probable que indique un error en tu modelo. Por ejemplo, es posible que hayas realizado un sobreajuste en los datos de entrenamiento o que los datos de la etiqueta se hayan replicado en uno de tus atributos.

Una curva ROC con una línea horizontal que va de (0,0) a (1,0) y una línea vertical de (1,0) a (1,1). La tasa de FP es 1.0 para todas las tasas de VP
Esta es la peor curva ROC posible; clasifica todos los negativos sobre todos los positivos y tiene un AUC de 0.0. Si revirtieras cada predicción (si cambiaras los negativos por positivos y los positivos por negativos), de verdad tendrías un clasificador perfecto.
Una curva ROC con una línea diagonal que va de (0,0) a (1,1). Las tasas de VP y FP aumentan de forma lineal a la misma velocidad.
Esta curva ROC tiene un AUC de 0.5, lo que significa que clasifica un ejemplo positivo aleatorio más alto que un ejemplo negativo aleatorio el 50% de las veces. Por lo tanto, el modelo de clasificación correspondiente básicamente no tiene valor, ya que su capacidad predictiva no es mejor que adivinar al azar.
Una curva ROC que forma un arco hacia arriba y a la derecha de (0,0) a (1,1). La tasa de VP aumenta a una velocidad más rápida que la de FP.
Esta curva ROC tiene un AUC de entre 0.5 y 1.0, lo que significa que clasifica un ejemplo positivo aleatorio más alto que un ejemplo negativo aleatorio más del 50% de las veces. Por lo general, los valores de AUC de clasificación binaria en el mundo real entran en este rango.
Una curva ROC que forma un arco hacia la derecha y hacia arriba de (0,0) a (1,1). La tasa de FP aumenta a un ritmo más rápido que la tasa de VP.
Esta curva ROC tiene un AUC de entre 0 y 0.5, lo que significa que clasifica un ejemplo positivo aleatorio más alto que un ejemplo negativo aleatorio menos del 50% de las veces. El modelo correspondiente en realidad tiene peor rendimiento que adivinar al azar. Si ves una curva ROC como esta, es probable que haya un error en tus datos.

AUC y escalamiento de predicciones

Explora las siguientes opciones.

¿Cómo cambiaría el rendimiento de un modelo determinado al multiplicar todas las predicciones por 2.0 (por ejemplo, si el modelo predice 0.4, se multiplica por 2.0 para obtener una predicción de 0.8) según la medición del AUC?
Sin cambios. El AUC solo se ocupa de las puntuaciones de predicción relativas.
Sí, el AUC se basa en las predicciones relativas, por lo que cualquier transformación de las predicciones que conserva la clasificación relativa no tiene efecto en el AUC. Claramente, este no es el caso de otras métricas, como el error cuadrático, la pérdida logística o el sesgo de predicción (que se analizan más adelante).
Esto haría que el AUC fuera terrible, ya que los valores de predicción ahora están muy lejos.
Curiosamente, a pesar de que los valores de predicción son diferentes (y probablemente están más lejos de la verdad), al multiplicarlos todos por 2.0, se mantendrá el orden relativo de los valores de predicción. Dado que el AUC solo se ocupa de las clasificaciones relativas, no se ve afectado por ningún escalamiento simple de las predicciones.
Mejoraría el AUC, ya que los valores de predicción están más separados.
La cantidad de distribución entre las predicciones no afecta el AUC. Incluso una puntuación de predicción para un verdadero positivo obtenido al azar es solo una pequeña épsilon mayor que un negativo obtenido al azar, eso contará como un éxito que contribuye a la puntuación general de AUC.