Imparcialidade: avaliação de viés

Ao avaliar um modelo, as métricas calculadas com base em um conjunto inteiro de teste ou validação nem sempre dão uma visão precisa de como o modelo é justo.

Considere um novo modelo desenvolvido para prever a presença de tumors que são avaliados em comparação com um conjunto de validação de 1.000 pacientes. 500 registros são de pacientes do sexo feminino, e 500 registros são de pacientes do sexo masculino. A matriz de confusão a seguir resume os resultados de todos os 1.000 exemplos:

Verdadeiros positivos (VPs): 16 Falsos positivos (FPs): 4
Falsos negativos (FNs): 6 Verdadeiros negativos (VNs): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Estes resultados parecem promissores: precisão de 80% e recall de 72,7%. Mas o que acontece se calcularmos o resultado separadamente para cada conjunto de pacientes? Vamos dividir os resultados em duas matrizes de confusão separadas: uma para pacientes femininos e outra para pacientes masculinos.

Resultados de pacientes do sexo feminino

Verdadeiros positivos (VPs): 10 Falsos positivos (FPs): 1
Falsos negativos (FNs): 1 Verdadeiros negativos (VNs): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Resultados de pacientes do sexo masculino

Verdadeiros positivos (VPs): 6 Falsos positivos (FPs): 3
Falsos negativos (FNs): 5 Verdadeiros negativos (VNs): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Quando calculamos métricas separadamente para pacientes femininos e masculinos, vemos grandes diferenças no desempenho do modelo para cada grupo.

Pacientes:

  • Das 11 pacientes pacientes com tumors, o modelo prevê corretamente positivamente para 10 pacientes (taxa de recall: 90,9%). Em outras palavras, o modelo perde um diagnóstico de tumor em 9,1% dos casos femininos.

  • Da mesma forma, quando o modelo retorna positivo para tumor em pacientes do sexo feminino, ele está correto em 10 de 11 casos (taxa de precisão: 90,9%). Em outras palavras, o modelo prevê incorretamente o tumor em 9,1% dos casos femininos.

Pacientes homens:

  • No entanto, entre os 11 pacientes do sexo masculino que realmente têm tumors, o modelo prevê corretamente positivamente apenas seis pacientes (taxa de recall: 54,5%). Isso significa que o modelo deixa de diagnosticar tumor em 45,5% dos casos masculinos.

  • Quando o modelo retorna positivo para tumor em pacientes do sexo masculino, ele está correto em apenas 6 de 9 casos (taxa de precisão: 66,7%). Em outras palavras, o modelo prevê incorretamente o tumor em 33,3% dos casos de homens.

Agora temos uma compreensão muito melhor dos vieses inerentes às previsões do modelo, bem como os riscos para cada subgrupo se o modelo for lançado para uso médico na população geral.

Recursos adicionais de imparcialidade

A imparcialidade é um subcampo relativamente novo na disciplina de machine learning. Para saber mais sobre pesquisas e iniciativas dedicadas ao desenvolvimento de novas ferramentas e técnicas para identificar e mitigar vieses em modelos de machine learning, acesse Página de recursos de imparcialidade de machine learning do Google.