Voreingenommenheit bestimmen

Als das Team von Jigsaw das Toxikitätsmodell der Perspective API ursprünglich bewertete, stellte es fest, dass es im Test-Dataset gut funktionierte. Sie befürchteten jedoch, dass sich durch Verzerrungen in den Vorhersagen des Modells eventuell Systemfehler in den Trainingsdaten ergeben. Zur Sicherstellung der Datenqualität nahm das Unternehmen einen zusätzlichen Schritt bei der Prüfung der von menschlichen Prüfern bereitgestellten Labels auf Richtigkeit vor.

Trotz dieser proaktiven Maßnahmen, um Verzerrungen in den Trainingsdaten des Modells zu beseitigen, haben Nutzer dennoch ein falsch positives Problem für Kommentare entdeckt, die Identitätsbegriffe enthalten. Wie kam es dazu?

Eine zweite Prüfung des Trainingssatzes ergab, dass die meisten Kommentare mit Identitätsbegriffen für Rasse, Religion und Geschlecht als „toxisch“ gekennzeichnet wurden. Diese Labels waren korrekt. Die meisten Onlinekommentare, die diese Identitätsbegriffe enthielten, waren tatsächlich toxisch. Aufgrund dieser Abweichung hat das Modell jedoch eine Korrelation zwischen dem Vorhandensein dieser Identitätsbegriffe und dieser Toxizität erkannt, die die neutralen Konversionen des Begriffs selbst nicht genau widerspiegeln.

Das Team hatte eine kritische Lücke in den Trainingsdaten des Modells aufgedeckt: in einem Bereich, für das nicht genügend Trainingsdaten vorhanden waren, um einen zentralen Aspekt der Realität darzustellen. Das Trainings-Dataset enthielt nicht genügend Beispiele für ungiftige Identitätskommentare für das Modell, um zu erfahren, dass die Begriffe selbst neutral waren und dass der Kontext, in dem sie verwendet wurden, von Bedeutung war.