Equidad: Evaluación de sesgo

Cuando se evalúa un modelo, la métrica calculada en una prueba entera o con respecto a un conjunto de validación no siempre devuelve una idea precisa del nivel de equidad del modelo.

Considera un modelo nuevo desarrollado para predecir la presencia de tumores que se evalúa con respecto a un conjunto de validación de 1,000 historias clínicas; 500 pertenecen a pacientes mujeres y 500 a hombres. La matriz de confusión siguiente resume los resultados de los 1,000 ejemplos:

Verdaderos positivos (VP): 16 Falsos positivos (FP): 4
Falsos negativos (FN): 6 Verdaderos negativos (VN): 974
$$\text{Precisión} = \frac{VP}{VP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recuperación} = \frac{VP}{VP+FN} = \frac{16}{16+6} = 0.727$$

Estos resultados se ven prometedores: una precisión del 80% y una recuperación del 72.7%. Sin embargo, ¿qué sucede si calculamos el resultado por separado para cada conjunto de pacientes? Dividamos los resultados en dos matrices de confusión separadas, una para pacientes mujeres y otra para hombres.

Resultados de pacientes mujeres

Verdaderos positivos (VP): 10 Falsos positivos (FP): 1
Falsos negativos (FN): 1 Verdaderos negativos (VN): 488
$$\text{Precisión} = \frac{VP}{VP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recuperación} = \frac{VP}{VP+FN} = \frac{10}{10+1} = 0.909$$

Resultados de pacientes hombres
Verdaderos positivos (VP): 6 Falsos positivos (FP): 3
Falsos negativos (FN): 5 Verdaderos negativos (VN): 486
$$\text{Precisión} = \frac{VP}{VP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recuperación} = \frac{VP}{VP+FN} = \frac{6}{6+5} = 0.545$$

Cuando se calcula la métrica de los pacientes mujeres y hombres por separado, se observan grandes diferencias en el rendimiento del modelo para cada grupo.

Pacientes mujeres:

  • De las 11 pacientes mujeres que realmente tienen tumores, el modelo predice resultados positivos de manera correcta para 10 pacientes (tasa de recuperación del 90.9%). Es decir, el modelo no diagnostica la presencia de tumores en el 9.1% de los casos de mujeres.

  • De manera similar, cuando el modelo arroja resultados positivos para la presencia de tumores en pacientes mujeres, el resultado es correcto en 10 de cada 11 casos (tasa de precisión: 90.9%); esto implica que el modelo predice de manera incorrecta la presencia de tumores en el 9.1% de los casos de mujeres.

Pacientes hombres:

  • Sin embargo, de los 11 pacientes hombres que realmente tienen tumores, el modelo predice resultados positivos de manera correcta solo para 6 pacientes (tasa de recuperación: 54.5%). Por lo tanto, el modelo no diagnostica la presencia de tumores en el 45.5% de los casos de hombres.

  • Además, cuando el modelo arroja resultados positivos para la presencia de tumores en pacientes hombres, estos son correctos solo en 6 de cada 9 casos (tasa de precisión: 66.7%); es decir, el modelo predice la presencia de tumores de manera incorrecta en el 33.3% de los casos de hombres.

Ahora podemos comprender mejor los sesgos inherentes de las predicciones del modelo y los riesgos para cada subgrupo si el modelo se lanzara para utilizarse con fines médicos en la población general.

Recursos adicionales de equidad

La equidad es un subcampo relativamente nuevo de la disciplina del aprendizaje automático. Para obtener más información acerca de las investigaciones y las iniciativas dedicadas a desarrollar herramientas y técnicas nuevas para la identificación y mitigación del sesgo en modelos de aprendizaje automático, consulta Página de recursos de Equidad de aprendizaje automático de Google.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático