Clasificación: Precisión y recuperación

Precisión

La precisión intenta responder a la siguiente pregunta:

¿Qué proporción de identificaciones positivas fue correcta?

La precisión se define de la siguiente manera:

$$\text{Precision} = \frac{TP}{TP+FP}$$

Calculemos la precisión de nuestro modelo de AA en la sección anterior que analiza tumores:

Verdaderos positivos (VP): 1 Falsos positivos (FP): 1
Falsos negativos (FN): 8 Verdaderos negativos (VN): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

Nuestro modelo tiene una precisión de 0.5, es decir, cuando predice que un tumor es maligno, es correcto el 50% de las veces.

Recuperación

La recuperación intenta responder a la siguiente pregunta:

¿Qué proporción de positivos reales se identificó en forma correcta?

Desde el punto de vista matemático, la recuperación se define de la siguiente manera:

$$\text{Recall} = \frac{TP}{TP+FN}$$

Calculemos la recuperación de nuestro clasificador de tumores:

Verdaderos positivos (VP): 1 Falsos positivos (FP): 1
Falsos negativos (FN): 8 Verdaderos negativos (VN): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

Nuestro modelo tiene una recuperación de 0.11; en otras palabras, identifica correctamente el 11% de los tumores malignos.

Precisión y recuperación: una lucha incesante

Para evaluar completamente la efectividad de un modelo, debes examinar la precisión y la recuperación. Lamentablemente, la precisión y la recuperación suelen ser tensas. Es decir, la mejora de la precisión suele reducir la recuperación, y viceversa. Para explorar esta noción, observa la siguiente figura, que muestra 30 predicciones realizadas por un modelo de clasificación de correo electrónico. Las que se encuentran a la derecha del umbral de clasificación se clasifican como "spam", mientras que las de la izquierda se clasifican como "no es spam".

Una línea numérica de 0 a 1,0 en la que se colocaron 30 ejemplos.

Figura 1 Clasificación de mensajes de correo electrónico como spam o no spam

Calculemos la precisión y la recuperación en función de los resultados que se muestran en la Figura 1:

Verdaderos positivos (VP): 8 Falsos positivos (FP): 2
Falsos negativos (FN): 3 Verdaderos negativos (VN): 17

La precisión mide el porcentaje de correos electrónicos marcados como spam que se clasificaron correctamente, es decir, el porcentaje de puntos a la derecha de la línea del umbral que aparecen en verde en la Figura 1:

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

La recuperación mide el porcentaje de correos electrónicos reales que se clasificaron correctamente, es decir, el porcentaje de puntos verdes que aparecen a la derecha de la línea del umbral en la Figura 1:

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

En la figura 2, se ilustra el efecto que tiene aumentar el umbral de clasificación.

El mismo conjunto de ejemplos, pero con un aumento leve en el umbral de clasificación. Se volvieron a clasificar 2 de los 30 ejemplos.

Figura 2: Aumento del umbral de clasificación.

La cantidad de falsos positivos disminuye, pero los falsos negativos aumentan. Como resultado, la precisión aumenta, mientras que la recuperación disminuye:

Verdaderos positivos (VP): 7 Falsos positivos (FP): 1
Falsos negativos (FN): 4 Verdaderos negativos (VN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

Por el contrario, la figura 3 ilustra el efecto de disminuir el umbral de clasificación (de su posición original en la figura 1).

El mismo conjunto de ejemplos, pero con un umbral de clasificación reducido.

Figura 3: Disminuye el umbral de clasificación.

Los falsos positivos aumentan y los falsos negativos disminuyen. Como resultado, esta vez la precisión disminuye y la recuperación aumenta:

Verdaderos positivos (VP): 9 Falsos positivos (FP): 3
Falsos negativos (FN): 2 Verdaderos negativos (VN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

Se desarrollaron varias métricas que se basan tanto en la precisión como en la recuperación. Por ejemplo, consulta Puntuación F1.