Clasificación

En este módulo, se muestra cómo la regresión logística puede utilizarse para tareas de clasificación y se explora cómo evaluar la efectividad de los modelos de clasificación.

Clasificación

Clasificación frente a regresión

  • En algunas ocasiones, usamos la regresión logística para los resultados de probabilidad, es decir, una regresión en (0, 1).
  • Otras veces, establecemos un umbral con el valor para realizar una clasificación binaria discreta.
  • La selección del umbral es una elección importante y se puede ajustar.

Métricas de evaluación: Exactitud

  • ¿Cómo evaluamos los modelos de clasificación?

Métricas de evaluación: Exactitud

  • ¿Cómo evaluamos los modelos de clasificación?
  • Una medición posible: Exactitud
    • la fracción de predicciones que se realizaron correctamente

La exactitud puede ser engañosa

  • En muchos casos, la exactitud es una métrica deficiente o engañosa.
    • Con mucha frecuencia, los distintos tipos de errores tienen diferentes costos.
    • Un ejemplo típico incluye el desequilibrio de clases, en el que los positivos o negativos son extremadamente excepcionales.

Verdaderos positivos y falsos positivos

  • Para los problemas con desequilibrio de clase, resulta útil separar diferentes tipos de errores.
Verdaderos positivos
¡Alertamos sobre la presencia del lobo correctamente!
Salvamos al pueblo.

Falsos positivos
Error: El aviso sobre la presencia del lobo era falso.
Todos están enojados con nosotros.

Falsos negativos
Había un lobo, pero no lo detectamos. Se comió todos nuestros pollos.
Verdaderos negativos
No hubo lobo, no hubo alarma.
Todos están bien.

Métricas de evaluación: Precisión y exhaustividad

  • Precisión: (Verdaderos positivos)/(Todas las predicciones positivas)
    • Cuando el modelo predijo "clase positiva", ¿era correcto?
    • Intuición: ¿El modelo gritó "lobo" con demasiada frecuencia?

Métricas de evaluación: Precisión y exhaustividad

  • Precisión: (Verdaderos positivos)/(Todas las predicciones positivas)
    • Cuando el modelo predijo "clase positiva", ¿era correcto?
    • Intuición: ¿El modelo gritó "lobo" con demasiada frecuencia?
  • Exhaustividad: (Verdaderos positivos)/(Todos los positivos reales)
    • De todos los positivos posibles, ¿cuántos identificó correctamente el modelo?
    • Intuición: ¿Pasó por alto algún lobo?

Explora las opciones que aparecen a continuación.

Considera un modelo de clasificación que separe los correos electrónicos en dos categorías: "es spam" o "no es spam". Si aumentas el umbra de clasificación, ¿qué ocurrirá con la precisión?
Indudablemente aumentará.
El aumento del umbral de clasificación generalmente aumenta la precisión; no se garantiza que la precisión aumente de forma monótona a medida que se aumenta el umbral.
Probablemente aumentará.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Probablemente disminuirá.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Indudablemente disminuirá.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.

Una curva ROC

Cada punto es la tasa de VP y FP en un umbral de decisión.

La curva ROC muestra una curva que indica la tasa de VP frente a la tasa de FP en diferentes umbrales de clasificación.

Métricas de evaluación: AUC

  • AUC: "Área bajo la curva ROC"

Métricas de evaluación: AUC

  • AUC: "Área bajo la curva ROC"
  • Interpretación:
    • Si seleccionamos un positivo y un negativo al azar, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?

Métricas de evaluación: AUC

  • AUC: "Área bajo la curva ROC"
  • Interpretación:
    • Si seleccionamos un positivo y un negativo al azar, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?
  • Intuición: Da una medición total del rendimiento sumado en todos los umbrales de clasificación posibles.

Sesgo de predicción

  • Las predicciones de regresión logística no deben tener sesgo.
    • promedio de predicciones == promedio de observaciones

Sesgo de predicción

  • Las predicciones de regresión logística no deben tener sesgo.
    • promedio de predicciones == promedio de observaciones
  • El sesgo es como un circuito de seguridad.
    • Un sesgo de cero solo no significa que todo en el sistema es perfecto.
    • Sin embargo, es una buena comprobación de estado.

Sesgo de predicción (continuación)

  • Si tienes sesgo, tienes un problema.
    • ¿El conjunto de atributos está incompleto?
    • ¿La canalización tiene errores?
    • ¿La muestra de entrenamiento tiene sesgo?
  • No debes corregir el sesgo en el nivel de calibración, sino que lo debes solucionar en el modelo.
  • Busca el sesgo en segmentos de datos; esto puede ayudar a orientar las mejoras.

Las representaciones de calibración muestran sesgo agrupado

Una representación de calibración

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático