Équité: évaluer les biais

Lors de l'évaluation d'un modèle, les métriques calculées par rapport à un ensemble de test ou de validation complet ne permettent pas toujours de se faire une idée précise du degré d'équité de ce modèle.

Prenons l'exemple d'un nouveau modèle développé pour prédire la présence de tumeurs,évalué sur un ensemble de validation de 1 000 patients. 500 enregistrements correspondent à des femmes et 500 à des hommes. La matrice de confusion suivante récapitule les résultats obtenus pour les 1 000 exemples:

Vrais positifs (VP): 16 Faux positifs (FP): 4
Faux négatifs (FN): 6 Vrais négatifs (VN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Ces résultats semblent prometteurs: précision de 80% et rappel de 72,7%. Mais que se passe-t-il si nous calculons le résultat séparément pour chaque ensemble de patients ? Répartissons les résultats dans deux matrices de confusion distinctes: l'une pour les femmes et l'autre pour les hommes.

Résultats pour les femmes

Vrais positifs (VP): 10 Faux positifs (FP): 1
Faux négatifs (FN): 1 Vrais négatifs (VN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Résultats pour les hommes

Vrais positifs (VP): 6 Faux positifs (FP): 3
Faux négatifs (FN): 5 Vrais négatifs (VN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Lorsque nous calculons séparément les métriques pour les patients de sexe féminin et masculin, nous observons des différences marquées dans les performances du modèle pour chaque groupe.

Femmes:

  • Sur les 11 femmes qui ont des tumeurs, le modèle prédit correctement un résultat positif pour 10 patients (taux de rappel: 90,9%). En d'autres termes, le modèle ne détecte pas de tumeur dans 9,1% des cas de femmes.

  • De même, lorsque le modèle renvoie un résultat positif de tumeur chez les femmes, il est correct dans 10 cas sur 11 (taux de précision: 90,9%). En d'autres termes, le modèle prédit de manière incorrecte la tumeur dans 9,1% des cas de femmes.

Hommes:

  • Toutefois, sur les 11 patients masculins qui ont des tumeurs, le modèle prédit correctement un résultat positif pour seulement 6 patients (taux de rappel: 54,5%). Cela signifie que le modèle ne détecte pas de tumeur dans 45,5% des cas pour les hommes.

  • Lorsque le modèle donne un résultat positif de tumeur chez les hommes, il est correct dans seulement 6 cas sur 9 (soit un taux de précision de 66,7%). En d'autres termes, le modèle prédit de manière incorrecte la tumeur dans 33,3% des cas pour les hommes.

Nous disposons désormais d'une bien meilleure compréhension des biais inhérents aux prédictions du modèle, ainsi que des risques associés à chaque sous-groupe si celui-ci devait être utilisé à des fins médicales par la population globale.

Autres ressources sur l'équité

L'équité est un sous-domaine relativement nouveau du machine learning. Pour en savoir plus sur les recherches et les initiatives consacrées au développement de nouveaux outils et techniques d'identification et d'atténuation des biais dans les modèles de machine learning, consultez Page de ressources de Google sur l'équité dans le machine learning