Equidad: Evaluación de sesgo

Cuando se evalúa un modelo, las métricas que se calculan con un conjunto de prueba o validación completo no siempre proporcionan una imagen precisa de qué tan justo es el modelo.

Considera un modelo nuevo desarrollado para predecir la presencia de tumores que se evalúa con respecto a un conjunto de validación de 1,000 pacientes. 500 son de pacientes mujeres y 500 de hombres. En la siguiente matriz de confusión, se resumen los resultados de los 1,000 ejemplos:

Verdaderos positivos (VP): 16 Falsos positivos (FP): 4
Falsos negativos (FN): 6 Verdaderos negativos (VN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Estos resultados se ven prometedores: precisión del 80% y recuperación del 72.7%. Pero ¿qué sucede si calculamos el resultado por separado para cada conjunto de pacientes? Desglosemos los resultados en dos matrices de confusión separadas: una para pacientes mujeres y otra para hombres.

Resultados de pacientes mujeres

Verdaderos positivos (VP): 10 Falsos positivos (FP): 1
Falsos negativos (FN): 1 Verdaderos negativos (VN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Resultados de pacientes hombres

Verdaderos positivos (VP): 6 Falsos positivos (FP): 3
Falsos negativos (FN): 5 Verdaderos negativos (VN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Cuando calculamos las métricas por separado en pacientes mujeres y hombres, notamos grandes diferencias en el rendimiento del modelo para cada grupo.

Pacientes mujeres:

  • De las 11 pacientes mujeres que en realidad tienen tumores, el modelo predice predicciones positivas para 10 pacientes (tasa de recuperación: 90.9%). En otras palabras, el modelo no diagnostica la presencia de tumores en el 9.1% de los casos de mujeres.

  • De manera similar, cuando el modelo arroja resultados positivos para la presencia de tumores en pacientes mujeres, el resultado es correcto en 10 de cada 11 casos (tasa de precisión: 90.9%); es decir, el modelo predice de manera incorrecta la presencia de tumores en el 9.1% de los casos de mujeres.

Pacientes hombres:

  • Sin embargo, de los 11 pacientes hombres que realmente tienen tumores, el modelo predice predicciones positivas solo para 6 pacientes (tasa de recuperación: 54.5%). Eso significa que el modelo no diagnostica la presencia de tumores en el 45.5% de los casos de hombres.

  • Y cuando el modelo arroja resultados positivos para la presencia de tumores en pacientes hombres, es correcto solo en 6 de cada 9 casos (tasa de precisión: 66.7%); es decir, el modelo predice la presencia de tumores de manera incorrecta en el 33.3% de los casos de hombres.

Ahora tenemos una mejor comprensión de los sesgos inherentes a las predicciones del modelo, así como los riesgos para cada subgrupo si el modelo se lanzara para uso médico en la población general.

Recursos adicionales de equidad

La equidad es un subcampo relativamente nuevo dentro de la disciplina del aprendizaje automático. Si deseas obtener más información sobre la investigación y las iniciativas dedicadas a desarrollar herramientas y técnicas nuevas para la identificación y mitigación del sesgo en modelos de aprendizaje automático, consulta Página de recursos de Equidad de aprendizaje automático de Google.