Clasificación: Exactitud, recuperación, precisión y métricas relacionadas

Los verdaderos y falsos positivos y negativos se usan para calcular varias métricas útiles para evaluar modelos. Las métricas de evaluación más significativas dependen del modelo y la tarea específicos, el costo de las diferentes clasificaciones incorrectas y si el conjunto de datos está balanceado o desbalanceado.

Todas las métricas de esta sección se calculan en un solo umbral fijo y cambian cuando este se modifica. Muy a menudo, el usuario ajusta el umbral para optimizar una de estas métricas.

Exactitud

La exactitud es la proporción de todas las clasificaciones que fueron correctas, ya sean positivas o negativas. Se define matemáticamente de la siguiente manera:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

En el ejemplo de clasificación de spam, la precisión mide la fracción de todos los correos electrónicos clasificados correctamente.

Un modelo perfecto no tendría ningún falso positivo ni ningún falso negativo y, por lo tanto, una precisión del 100% (1.0).

Dado que incorpora los cuatro resultados de la matriz de confusión (VP, FP, VN y FN), dado un conjunto de datos equilibrado, con cantidades similares de ejemplos en ambas clases, la precisión puede servir como una medida general de la calidad del modelo. Por este motivo, suele ser la métrica de evaluación predeterminada que se usa para los modelos genéricos o no especificados que realizan tareas genéricas o no especificadas.

Sin embargo, cuando el conjunto de datos está desequilibrado o cuando un tipo de error (FN o FP) es más costoso que el otro, como sucede en la mayoría de las aplicaciones del mundo real, es mejor optimizar una de las otras métricas.

En el caso de los conjuntos de datos muy desequilibrados, en los que una clase aparece con muy poca frecuencia, por ejemplo, el 1% de las veces, un modelo que predice negativo el 100% de las veces obtendría una puntuación del 99% en exactitud, a pesar de ser inútil.

Recuperación o tasa de verdaderos positivos

La tasa de verdaderos positivos (TVP), o la proporción de todos los positivos reales que se clasificaron correctamente como positivos, también se conoce como recuperación.

La recuperación se define matemáticamente de la siguiente manera:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Los falsos negativos son los positivos reales que se clasificaron erróneamente como negativos, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la recuperación mide la fracción de correos electrónicos de spam que se clasificaron correctamente como spam. Por eso, otro nombre para la recuperación es probabilidad de detección: responde la pregunta "¿Qué fracción de correos electrónicos de spam detecta este modelo?".

Un modelo perfecto hipotético no tendría falsos negativos y, por lo tanto, una recuperación (TPR) de 1.0, es decir, una tasa de detección del 100%.

En un conjunto de datos desequilibrado en el que la cantidad de positivos reales es muy baja, la recuperación es una métrica más significativa que la precisión, ya que mide la capacidad del modelo para identificar correctamente todas las instancias positivas. Para aplicaciones como la predicción de enfermedades, es fundamental identificar correctamente los casos positivos. Por lo general, un falso negativo tiene consecuencias más graves que un falso positivo. Para ver un ejemplo concreto en el que se comparan las métricas de recuperación y precisión, consulta las notas en la definición de recuperación.

Tasa de falsos positivos

La tasa de falsos positivos (FPR) es la proporción de todos los negativos reales que se clasificaron incorrectamente como positivos, también conocida como la probabilidad de falsa alarma. Se define matemáticamente de la siguiente manera:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Los falsos positivos son negativos reales que se clasificaron de forma incorrecta, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, el FPR mide la fracción de correos electrónicos legítimos que se clasificaron incorrectamente como spam o la tasa de falsas alarmas del modelo.

Un modelo perfecto no tendría ningún falso positivo y, por lo tanto, una FPR de 0.0, es decir, una tasa de falsas alarmas del 0%.

Para un conjunto de datos desequilibrado, el FPR suele ser una métrica más informativa que la precisión. Sin embargo, si la cantidad de negativos reales es muy baja, el FPR puede no ser una opción ideal debido a su volatilidad. Por ejemplo, si solo hay cuatro negativos reales en un conjunto de datos, una clasificación incorrecta genera un FPR del 25%, mientras que una segunda clasificación incorrecta hace que el FPR aumente al 50%. En casos como este, la precisión (que se describe a continuación) puede ser una métrica más estable para evaluar los efectos de los falsos positivos.

Precisión

La precisión es la proporción de todas las clasificaciones positivas del modelo que son realmente positivas. Se define matemáticamente de la siguiente manera:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

En el ejemplo de clasificación de spam, la precisión mide la fracción de correos electrónicos clasificados como spam que realmente lo eran.

Un modelo perfecto hipotético tendría cero falsos positivos y, por lo tanto, una precisión de 1.0.

En un conjunto de datos desequilibrado en el que la cantidad de positivos reales es muy, muy baja (por ejemplo, de 1 a 2 ejemplos en total), la precisión es menos significativa y menos útil como métrica.

La precisión mejora a medida que disminuyen los falsos positivos, mientras que la recuperación mejora cuando disminuyen los falsos negativos. Sin embargo, como se vio en la sección anterior, aumentar el umbral de clasificación tiende a disminuir la cantidad de falsos positivos y aumentar la cantidad de falsos negativos, mientras que disminuir el umbral tiene los efectos opuestos. Como resultado, la precisión y la recuperación suelen mostrar una relación inversa, en la que mejorar una de ellas empeora la otra.

Pruébalo:

Elección de la métrica y las compensaciones

Las métricas que elijas priorizar cuando evalúes el modelo y elijas un umbral dependerán de los costos, los beneficios y los riesgos del problema específico. En el ejemplo de clasificación de spam, a menudo tiene sentido priorizar la recuperación, capturando todos los correos electrónicos de spam, o la precisión, tratando de garantizar que los correos electrónicos etiquetados como spam sean de hecho spam, o algún equilibrio entre ambos, por encima de un nivel mínimo de precisión.

Métrica Orientación
Exactitud

Se usa como un indicador aproximado del progreso o la convergencia del entrenamiento del modelo para conjuntos de datos equilibrados.

Para el rendimiento del modelo, úsala solo en combinación con otras métricas.

Evita los conjuntos de datos desequilibrados. Considera usar otra métrica.

Recuperación
(tasa de verdaderos positivos)
Se usa cuando los falsos negativos son más costosos que los falsos positivos.
Tasa de falsos positivos Se usa cuando los falsos positivos son más costosos que los falsos negativos.
Precisión Se usa cuando es muy importante que las predicciones positivas sean precisas.

Ejercicio: Comprueba tus conocimientos

Un modelo genera 5 VP, 6 VN, 3 FP y 2 FN. Calcula la recuperación.
0.714
El retiro se calcula de la siguiente manera: \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0.455
La recuperación considera todos los positivos reales, no todas las clasificaciones correctas. La fórmula para la recuperación es \(\frac{TP}{TP+FN}\).
0.625
La recuperación considera todos los positivos reales, no todas las clasificaciones positivas. La fórmula para la recuperación es \(\frac{TP}{TP+FN}\).
Un modelo genera 3 VP, 4 VN, 2 FP y 1 FN. Calcula la precisión.
0.6
La precisión se calcula de la siguiente manera: \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0.75
La precisión considera todas las clasificaciones positivas, no todos los positivos reales. La fórmula para la precisión es \(\frac{TP}{TP+FP}\).
0.429
La precisión considera todas las clasificaciones positivas, no todas las clasificaciones correctas. La fórmula para la precisión es \(\frac{TP}{TP+FP}\)
Crearás un clasificador binario que verificará si hay especies invasoras peligrosas en las fotos de trampas para insectos. Si el modelo detecta la especie, se notifica al entomólogo (científico de insectos) de turno. La detección temprana de este insecto es fundamental para evitar una infestación. Una falsa alarma (falso positivo) es fácil de manejar: el entomólogo ve que la foto se clasificó de forma incorrecta y la marca como tal. Suponiendo un nivel de precisión aceptable, ¿según qué métrica se debería optimizar este modelo?
Recuperación
En esta situación, las falsas alarmas (FP) son de bajo costo y los falsos negativos son muy costosos, por lo que tiene sentido maximizar la recuperación o la probabilidad de detección.
Tasa de falsos positivos (FPR)
En este caso, las falsas alarmas (FP) tienen un costo bajo. Intentar minimizarlos a riesgo de perder positivos reales no tiene sentido.
Precisión
En este caso, las falsas alarmas (FP) no son particularmente dañinas, por lo que no tiene sentido intentar mejorar la corrección de las clasificaciones positivas.