Clasificación: Umbral

La regresión logística devuelve una probabilidad. Puedes usar la probabilidad devuelta "como es" (por ejemplo, la probabilidad de que el usuario haga clic en este anuncio es 0.00023) o convertirla a un valor binario (por ejemplo, este correo electrónico es spam).

Un modelo de regresión logística que devuelve 0.9995 para un mensaje de correo electrónico en particular predice que es muy probable que sea spam. A la inversa, otro mensaje de correo electrónico con una predicción del 0.0003 en ese mismo modelo de regresión logística indica que es muy probable que no sea spam. Sin embargo, ¿qué ocurre con un mensaje de correo electrónico con una predicción de 0.6? Para asignar un valor de regresión logística a una categoría binaria, debes definir un umbral de clasificación (también denominado umbral de decisión). Un valor por encima de ese umbral indica "es spam"; un valor por debajo indica "no es spam". Resulta tentador suponer que el umbral de clasificación siempre debe ser 0.5, pero los umbrales dependen de cada problema y, por lo tanto, son valores que se deben ajustar.

En las siguientes secciones, se observan en más detalle las métricas que puedes usar para evaluar las predicciones de un modelo de clasificación, así como el impacto de cambiar el umbral de clasificación en estas predicciones.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático