Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Fairness: Voreingenommenheiten erkennen

Wenn Sie Ihre Daten für das Modelltraining und die Modellbewertung vorbereiten, sollten Sie Fragen der Fairness berücksichtigen und nach potenziellen Quellen von Voreingenommenheit suchen, damit Sie deren Auswirkungen proaktiv abmildern können, bevor Sie Ihr Modell in die Produktion übernehmen.

Wo könnte es zu Voreingenommenheit kommen? Im Folgenden finden Sie einige Warnsignale, auf die Sie in Ihrem Datenpool achten sollten.

Fehlende Featurewerte

Wenn Ihr Datensatz mindestens ein Feature mit fehlenden Werten für eine große Anzahl von Beispielen enthält, kann dies ein Hinweis darauf sein, dass bestimmte wichtige Merkmale Ihres Datensatzes unterrepräsentiert sind.

Übung: Wissen testen

Sie trainieren ein Modell, um die Akzeptanz von Tierheimhunden anhand verschiedener Merkmale wie Rasse, Alter, Gewicht, Temperament und der Menge des täglich abgeworfenen Fells vorherzusagen. Ihr Ziel ist es, dafür zu sorgen, dass das Modell für alle Hundetypen unabhängig von ihren körperlichen oder Verhaltensmerkmalen gleich gut funktioniert.

Sie stellen fest, dass für 1.500 der 5.000 Beispiele im Trainingssatz keine Werte für das Temperament vorhanden sind. Welche der folgenden potenziellen Quellen von Voreingenommenheit sollten Sie untersuchen?

Bei bestimmten Hunderassen fehlen Temperamentdaten häufiger.

Wenn die Verfügbarkeit von Temperamentdaten mit der Hunderasse korreliert, kann dies zu weniger genauen Vorhersagen zur Adoptionsfähigkeit bestimmter Hunderassen führen.

Bei Hunden unter 12 Monaten fehlen häufiger Daten zum Temperament.

Wenn die Verfügbarkeit von Temperamentdaten mit dem Alter korreliert, kann dies zu weniger genauen Vorhersagen zur Akzeptanz für Welpen im Vergleich zu erwachsenen Hunden führen.

Für alle Hunde, die in Großstädten gerettet wurden, fehlen Daten zum Temperament.

Auf den ersten Blick scheint es nicht den Anschein zu erwecken, dass dies eine potenzielle Quelle der Verzerrung ist, da die fehlenden Daten alle Hunde aus Großstädten gleichermaßen beeinflussen würden, unabhängig von ihrer Rasse, ihrem Alter, ihrem Gewicht usw. Wir müssen jedoch trotzdem berücksichtigen, dass der Ort, aus dem ein Hund stammt, effektiv als Stellvertreter für diese physischen Eigenschaften dienen kann. Wenn beispielsweise Hunde aus Großstädten mit größerer Wahrscheinlichkeit kleiner sind als Hunde aus ländlichen Gebieten, könnte dies zu ungenaueren Vorhersagen zur Akzeptanz für weniger schwere Hunde oder bestimmte Kleinhundrassen führen.

Im Datensatz fehlen zufällig Temperamentdaten.

Wenn die Daten zum Temperament wirklich nach dem Zufallsprinzip fehlen, ist das keine potenzielle Quelle für Verzerrungen. Es kann jedoch sein, dass Daten zu den Temperamenttypen zufällig fehlen. Eine weitere Untersuchung kann jedoch eine Erklärung für die Abweichung liefern. Daher ist eine gründliche Prüfung wichtig, um andere Möglichkeiten auszuschließen, anstatt davon auszugehen, dass Datenlücken zufällig erzeugt werden.

Unerwartete Featurewerte

Bei der explorativen Datenanalyse sollten Sie auch nach Beispielen suchen, die Merkmalswerte enthalten, die sich als besonders untypisch oder ungewöhnlich herausstellen. Diese unerwarteten Funktionswerte können auf Probleme während der Datenerhebung oder andere Ungenauigkeiten hinweisen, die zu Verzerrungen führen können.

Übung: Wissen testen

Sehen Sie sich die folgenden hypothetischen Beispiele für das Training eines Modells zur Eignung von Hunden für die Adoption an.

rasse	Alter (Jahre)	Gewicht (lbs)	Temperament	shedding_level
Toypudel	2	12	erregt	niedrig
Golden Retriever	7	65	ruhig	hoch
Labrador Retriever	35	73	ruhig	hoch
Französische Bulldogge	0,5	11	ruhig	mittel
unbekannte Mischlingsrasse	4	45	aufregend	hoch
Basset Hound	9	48	ruhig	mittel

Können Sie Probleme mit den Feature-Daten erkennen?

Klicke hier, um die Antwort anzuzeigen.

rasse	Alter (Jahre)	Gewicht (lbs)	Temperament	shedding_level
Toypudel	2	12	erregt	niedrig
Golden Retriever	7	65	ruhig	hoch
Labrador Retriever	35	73	ruhig	hoch
Französische Bulldogge	0,5	11	ruhig	mittel
unbekannte Mischlingsrasse	4	45	aufregend	hoch
Basset Hound	9	48	ruhig	mittel

Der älteste Hund, dessen Alter vom Guinness-Buch der Rekorde bestätigt wurde, war Bluey, ein australischer Rinderhund, der 29 Jahre und 5 Monate alt wurde. Daher ist es ziemlich unwahrscheinlich, dass der Labrador Retriever tatsächlich 35 Jahre alt ist.Es ist wahrscheinlicher, dass das Alter des Hundes entweder falsch berechnet oder falsch aufgezeichnet wurde (vielleicht ist der Hund tatsächlich 3,5 Jahre alt). Dieser Fehler könnte auch auf allgemeinere Genauigkeitsprobleme bei Altersdaten im Dataset hinweisen, die eine weitere Untersuchung erfordern.

Datenverzerrung

Jegliche Abweichungen in Ihren Daten, bei denen bestimmte Gruppen oder Merkmale im Vergleich zu ihrer tatsächlichen Verbreitung unter- oder überrepräsentiert sind, können zu Verzerrungen in Ihrem Modell führen.

Bei der Analyse der Modellleistung ist es wichtig, nicht nur die Gesamtergebnisse zu betrachten, sondern auch die Ergebnisse nach Untergruppe aufzuschlüsseln. Bei unserem Modell für die Adoptionsfähigkeit von Rettungshunden reicht es zur Gewährleistung von Fairness nicht aus, einfach nur die Gesamtgenauigkeit zu betrachten. Außerdem sollten wir die Leistung nach Untergruppe prüfen, um sicherzustellen, dass das Modell für jede Hunderasse, Altersgruppe und Größengruppe gleichermaßen gut funktioniert.

Später in diesem Modul, unter Auf Voreingenommenheit prüfen, sehen wir uns verschiedene Methoden zur Bewertung von Modellen nach Untergruppe genauer an.

Hilfe

Zurück

Arten von Verzerrungen (5 Min.)

Weiter

Verzerrungen minimieren (5 Min.)

Fairness: Voreingenommenheiten erkennen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Fehlende Featurewerte

Übung: Wissen testen

Unerwartete Featurewerte

Übung: Wissen testen

Datenverzerrung

Fairness: Voreingenommenheiten erkennen