Fairness: Verzerrung erkennen

Wenn Sie Ihre Daten untersuchen, um zu bestimmen, wie Sie sie in Ihrem Modell am besten repräsentieren, sollten Sie auch auf Fairness achten und proaktiv nach möglichen Verzerrungsquellen suchen.

Wo kann Verzerrungen lauern? Achten Sie auf die folgenden drei roten Markierungen in Ihrem Datensatz.

Fehlende Featurewerte

Wenn Ihr Datensatz ein oder mehrere Merkmale enthält, für die viele Werte fehlen, könnte dies ein Hinweis darauf sein, dass bestimmte wichtige Merkmale Ihres Datensatzes unterrepräsentiert sind.

Die folgende Tabelle enthält beispielsweise eine Zusammenfassung der wichtigsten Statistiken für einen Teil der Features des kalifornischen Housing-Datasets, die in einer Pandas-DataFrame gespeichert und über DataFrame.describe generiert wurden. Alle Features haben einen count von 17.000. Das bedeutet, dass keine Werte fehlen:

longitude latitude Zimmer insgesamt Bevölkerung Haushalte Medianeinkommen Medianwert_Hauswert
Anzahl 17.000,00 17.000,00 17.000,00 17.000,00 17.000,00 17.000,00 17.000,00
Mittelwert -119,6 35,6 2.643,7 1.429,6 501,2 3,9 207,3
Standard 2 2.1 2.179,9 1.147,9 384,5 1.9 116,0
Min. -124,3 32,5 2 3 1 0,5 15
25 % -121,8 33,9 1.462,0 790,0 282,0 2.6 119,4
50 % -118,5 34,2 2.127,00 1.167,0 409,0 3,5 180,4
75 % -118,0 37,7 3.151,2 1.721,0 605,2 4,8 265,0
max -114,3 42,0 37.937,0 35.682,0 6.082,0 15 500,00

Stattdessen sollten drei Features (population, households und median_income) nur 3000 haben:

longitude latitude Zimmer insgesamt Bevölkerung Haushalte Medianeinkommen Medianwert_Hauswert
Anzahl 17.000,00 17.000,00 17.000,00 3.000,00 3.000,00 3.000,00 17.000,00
Mittelwert -119,6 35,6 2.643,7 1.429,6 501,2 3,9 207,3
Standard 2 2.1 2.179,9 1.147,9 384,5 1.9 116,0
Min. -124,3 32,5 2 3 1 0,5 15
25 % -121,8 33,9 1.462,0 790,0 282,0 2.6 119,4
50 % -118,5 34,2 2.127,00 1.167,0 409,0 3,5 180,4
75 % -118,0 37,7 3.151,2 1.721,0 605,2 4,8 265,0
max -114,3 42,0 37.937,0 35.682,0 6.082,0 15 500,00

Diese 14.000 fehlenden Werte würden es schwieriger machen,das mittlere Einkommen von Haushalten mit dem durchschnittlichen Hauspreis genau in Beziehung zu setzen. Bevor Sie ein Modell mit diesen Daten trainieren, sollten Sie die Ursache dieser fehlenden Werte untersuchen, um sicherzustellen, dass keine fehlenden Voreingenommenheiten für fehlende Einkommens- und Bevölkerungsdaten vorliegen.

Unerwartete Featurewerte

Bei der Untersuchung von Daten sollten Sie auch nach Beispielen suchen, die Featurewerte enthalten, die sich als besonders uncharakteristisch oder ungewöhnlich auszeichnen. Diese unerwarteten Featurewerte können auf Probleme bei der Datenerhebung oder andere Ungenauigkeiten hinweisen, die zu Verzerrungen führen können.

Sehen Sie sich beispielsweise die folgenden Auszugsbeispiele aus dem kalifornischen Immobiliendatensatz an:

longitude latitude Zimmer insgesamt Bevölkerung Haushalte Medianeinkommen Medianwert_Hauswert
1 -121,7 38.0 7.105,0 3.523,0 1.088,00 5 0,2
2 -122,4 37,8 2.479,0 1.816,0 496,0 3.1 0,3
3 -122,0 37,0 2.813,0 1.337,0 477,0 3,7 0,3
4 -103,5 43,8 2.212,00 803,0 144,0 5.3 0,2
5 -117,1 32,8 2.963,0 1.162,0 556,0 3,6 0,2
6 -118,0 33,7 3.396,0 1.542,0 472,0 7.4 0,4

Können Sie unerwartete Featurewerte erkennen?

Datenverzerrung

Jede Art von Verzerrung in Ihren Daten, bei der bestimmte Gruppen oder Merkmale im Vergleich zu ihrer realen Verbreitung unter- oder überrepräsentiert sind, kann zu Verzerrungen in Ihrem Modell führen.

Wenn Sie die Übung zur Validierungsprogrammierung abgeschlossen haben, werden Sie vielleicht feststellen, dass ein Fehler bei der Zufälligkeit des kalifornischen Immobiliendatensatzes vor der Aufteilung in Trainings- und Validierungs-Datasets zu einer deutlichen Datenverzerrung führte. Abbildung 1 stellt einen Teil der Daten dar, die aus dem gesamten Datensatz stammen und ausschließlich die Nordwestregion von Kalifornien darstellen.

Karte eines Bundesstaats Kalifornien mit Daten aus dem Bundesstaat Kalifornien
          Jeder Punkt steht für einen Wohnblock. Punkte befinden sich alle im Nordwesten Kaliforniens, ohne Punkte in Südkalifornien. Das verdeutlicht die geografische Verzerrung der Daten.

Abbildung 1. Karte des Bundesstaates Kalifornien mit Daten aus dem Bundesstaat Kalifornien. Jeder Punkt steht für einen Wohnblock, dessen Farben von Blau bis Rot dem mittleren Hauspreis von niedrig bis hoch entsprechen.

Wenn dieses nicht repräsentative Muster verwendet wird, um ein Modell zu trainieren, um die Immobilienpreise in Kalifornien landesweit zu prognostizieren, wäre das Fehlen von Immobiliendaten aus südlichen Teilen von Kalifornien problematisch. Die im Modell codierte geografische Verzerrung kann Hauskäufer in nicht vertretenen Gemeinden nachteilig sein.