Wenn Sie Ihre Daten untersuchen, um zu bestimmen, wie Sie sie in Ihrem Modell am besten repräsentieren, sollten Sie auch auf Fairness achten und proaktiv nach möglichen Verzerrungsquellen suchen.
Wo kann Verzerrungen lauern? Achten Sie auf die folgenden drei roten Markierungen in Ihrem Datensatz.
Fehlende Featurewerte
Wenn Ihr Datensatz ein oder mehrere Merkmale enthält, für die viele Werte fehlen, könnte dies ein Hinweis darauf sein, dass bestimmte wichtige Merkmale Ihres Datensatzes unterrepräsentiert sind.
Die folgende Tabelle enthält beispielsweise eine Zusammenfassung der wichtigsten Statistiken für einen Teil der Features des kalifornischen Housing-Datasets, die in einer Pandas-DataFrame
gespeichert und über DataFrame.describe
generiert wurden. Alle Features haben einen count
von 17.000. Das bedeutet, dass keine Werte fehlen:
longitude | latitude | Zimmer insgesamt | Bevölkerung | Haushalte | Medianeinkommen | Medianwert_Hauswert | |
---|---|---|---|---|---|---|---|
Anzahl | 17.000,00 | 17.000,00 | 17.000,00 | 17.000,00 | 17.000,00 | 17.000,00 | 17.000,00 |
Mittelwert | -119,6 | 35,6 | 2.643,7 | 1.429,6 | 501,2 | 3,9 | 207,3 |
Standard | 2 | 2.1 | 2.179,9 | 1.147,9 | 384,5 | 1.9 | 116,0 |
Min. | -124,3 | 32,5 | 2 | 3 | 1 | 0,5 | 15 |
25 % | -121,8 | 33,9 | 1.462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50 % | -118,5 | 34,2 | 2.127,00 | 1.167,0 | 409,0 | 3,5 | 180,4 |
75 % | -118,0 | 37,7 | 3.151,2 | 1.721,0 | 605,2 | 4,8 | 265,0 |
max | -114,3 | 42,0 | 37.937,0 | 35.682,0 | 6.082,0 | 15 | 500,00 |
Stattdessen sollten drei Features (population
, households
und median_income
) nur 3000
haben:
longitude | latitude | Zimmer insgesamt | Bevölkerung | Haushalte | Medianeinkommen | Medianwert_Hauswert | |
---|---|---|---|---|---|---|---|
Anzahl | 17.000,00 | 17.000,00 | 17.000,00 | 3.000,00 | 3.000,00 | 3.000,00 | 17.000,00 |
Mittelwert | -119,6 | 35,6 | 2.643,7 | 1.429,6 | 501,2 | 3,9 | 207,3 |
Standard | 2 | 2.1 | 2.179,9 | 1.147,9 | 384,5 | 1.9 | 116,0 |
Min. | -124,3 | 32,5 | 2 | 3 | 1 | 0,5 | 15 |
25 % | -121,8 | 33,9 | 1.462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50 % | -118,5 | 34,2 | 2.127,00 | 1.167,0 | 409,0 | 3,5 | 180,4 |
75 % | -118,0 | 37,7 | 3.151,2 | 1.721,0 | 605,2 | 4,8 | 265,0 |
max | -114,3 | 42,0 | 37.937,0 | 35.682,0 | 6.082,0 | 15 | 500,00 |
Diese 14.000 fehlenden Werte würden es schwieriger machen,das mittlere Einkommen von Haushalten mit dem durchschnittlichen Hauspreis genau in Beziehung zu setzen. Bevor Sie ein Modell mit diesen Daten trainieren, sollten Sie die Ursache dieser fehlenden Werte untersuchen, um sicherzustellen, dass keine fehlenden Voreingenommenheiten für fehlende Einkommens- und Bevölkerungsdaten vorliegen.
Unerwartete Featurewerte
Bei der Untersuchung von Daten sollten Sie auch nach Beispielen suchen, die Featurewerte enthalten, die sich als besonders uncharakteristisch oder ungewöhnlich auszeichnen. Diese unerwarteten Featurewerte können auf Probleme bei der Datenerhebung oder andere Ungenauigkeiten hinweisen, die zu Verzerrungen führen können.
Sehen Sie sich beispielsweise die folgenden Auszugsbeispiele aus dem kalifornischen Immobiliendatensatz an:
longitude | latitude | Zimmer insgesamt | Bevölkerung | Haushalte | Medianeinkommen | Medianwert_Hauswert | |
---|---|---|---|---|---|---|---|
1 | -121,7 | 38.0 | 7.105,0 | 3.523,0 | 1.088,00 | 5 | 0,2 |
2 | -122,4 | 37,8 | 2.479,0 | 1.816,0 | 496,0 | 3.1 | 0,3 |
3 | -122,0 | 37,0 | 2.813,0 | 1.337,0 | 477,0 | 3,7 | 0,3 |
4 | -103,5 | 43,8 | 2.212,00 | 803,0 | 144,0 | 5.3 | 0,2 |
5 | -117,1 | 32,8 | 2.963,0 | 1.162,0 | 556,0 | 3,6 | 0,2 |
6 | -118,0 | 33,7 | 3.396,0 | 1.542,0 | 472,0 | 7.4 | 0,4 |
Können Sie unerwartete Featurewerte erkennen?
Datenverzerrung
Jede Art von Verzerrung in Ihren Daten, bei der bestimmte Gruppen oder Merkmale im Vergleich zu ihrer realen Verbreitung unter- oder überrepräsentiert sind, kann zu Verzerrungen in Ihrem Modell führen.
Wenn Sie die Übung zur Validierungsprogrammierung abgeschlossen haben, werden Sie vielleicht feststellen, dass ein Fehler bei der Zufälligkeit des kalifornischen Immobiliendatensatzes vor der Aufteilung in Trainings- und Validierungs-Datasets zu einer deutlichen Datenverzerrung führte. Abbildung 1 stellt einen Teil der Daten dar, die aus dem gesamten Datensatz stammen und ausschließlich die Nordwestregion von Kalifornien darstellen.
Abbildung 1. Karte des Bundesstaates Kalifornien mit Daten aus dem Bundesstaat Kalifornien. Jeder Punkt steht für einen Wohnblock, dessen Farben von Blau bis Rot dem mittleren Hauspreis von niedrig bis hoch entsprechen.
Wenn dieses nicht repräsentative Muster verwendet wird, um ein Modell zu trainieren, um die Immobilienpreise in Kalifornien landesweit zu prognostizieren, wäre das Fehlen von Immobiliendaten aus südlichen Teilen von Kalifornien problematisch. Die im Modell codierte geografische Verzerrung kann Hauskäufer in nicht vertretenen Gemeinden nachteilig sein.