Fairness: Auswertungen zur Verzerrung

Bei der Bewertung eines Modells geben Messwerte, die anhand eines gesamten Test- oder Validierungs-Datasets berechnet werden, nicht immer ein genaues Bild davon ab, wie fair das Modell ist.

Nehmen wir ein neues Modell,mit dem das Vorhandensein von Tumoren anhand eines Validierungs-Sets von 1.000 Patienten vorhergesagt werden kann. 500 Datensätze stammen von weiblichen Patienten und 500 Datensätze von männlichen Patienten. Die folgende Wahrheitsmatrix fasst die Ergebnisse für alle 1.000 Beispiele zusammen:

Wahr positive (TPs): 16 False Positives (FPs): 4
Falsch negative Ergebnisse (FNs): 6 Richtig negative Ergebnisse (TNs): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Diese Ergebnisse sehen vielversprechend aus: Genauigkeit von 80% und Trefferquote von 72,7%. Aber was passiert, wenn wir das Ergebnis für jede Patientengruppe separat berechnen? Die Ergebnisse werden in zwei separate Matrizen unterteilt: eine für weibliche Patienten und eine für männliche Patienten.

Ergebnisse für Patienten

Wahr positive Ergebnisse (TPs): 10 False Positives (FPs): 1
Falsch negative Ergebnisse (FNs): 1 Richtig negative Ergebnisse (TNs): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Ergebnisse für männliche Patienten

Wahr positive (TPs): 6 False Positives (FPs): 3
Falsch negative Ergebnisse (FNs): 5 Richtig negative Ergebnisse (TNs): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Wenn wir die Messwerte für weibliche und männliche Patienten getrennt berechnen, sehen wir bei jeder Gruppe deutliche Unterschiede bei der Modellleistung.

Patientinnen:

  • Von den 11 Frauen mit tatsächlichen Tumormodellen sagt das Modell für 10 Patienten (Positivrate: 90, 9%) richtig vorher. Mit anderen Worten: Das Modell verpasst in 9, 1% der weiblichen Fälle eine Tumordiagnose.

  • Ähnlich verhält es sich, wenn das Modell bei weiblichen Patienten positiv auf den Tumor reagiert: In 10 von 11 Fällen ist die Genauigkeit richtig: 90, 9 %. Mit anderen Worten: Das Modell prognostiziert in 9, 1% der weiblichen Fälle den Tumor falsch.

Männliche Patienten:

  • Von den 11 männlichen Patienten, die tatsächlich Tumoren haben, prognostiziert das Modell jedoch positiv für nur 6 Patienten (Trefferquote: 54,5%). Das bedeutet, dass das Modell bei 45,5% der männlichen Fälle eine Tumordiagnose verpasst.

  • Und wenn das Modell für den Tumor bei männlichen Patienten ein positives Ergebnis zurückgibt, ist es in nur 6 von 9 Fällen richtig (Genauigkeitsrate: 66,7%). Mit anderen Worten, das Modell sagt den Tumor in 33,3% der männlichen Fälle falsch voraus.

Wir haben jetzt ein viel besseres Verständnis für die Verzerrungen in den Vorhersagen des Modells sowie die Risiken für jede Untergruppe, wenn das Modell für den medizinischen Einsatz in der allgemeinen Bevölkerung freigegeben werden würde.

Weitere Informationen zu Fairness

Fairness ist in der Disziplin maschinelles Lernen ein relativ neues Unterfeld. Weitere Informationen zu Forschungsarbeiten und Initiativen zur Entwicklung neuer Tools und Techniken zur Identifizierung und Minderung von Verzerrungen in Modellen für maschinelles Lernen finden Sie unter Seite mit Informationen zu Fairness bei maschinellem Lernen von Google