ML-Praktikum: Fairness in der Perspective API

Verständnis überprüfen: Voreingenommenheiten erkennen und beheben

Verzerrungen erkennen

In Übung 1: Das Modell kennenlernen haben Sie bestätigt, dass das Modell Kommentare mit Identitätsbegriffen unverhältnismäßig als unangemessen klassifiziert hat. Welche Metriken helfen, die Ursache dieser Verzerrung zu erklären? Sehen Sie sich die folgenden Optionen an.
Genauigkeit

Die Genauigkeit misst den Prozentsatz der insgesamt richtigen Vorhersagen, d. h. den Prozentsatz richtig positiver oder echt negativer Vorhersagen. Durch den Vergleich der Genauigkeit für verschiedene Untergruppen (z. B. unterschiedliche demografische Merkmale des Geschlechts) können wir die relative Leistung des Modells für jede Gruppe bewerten. Dies kann als Indikator für die Auswirkungen von Verzerrungen auf ein Modell dienen.

Da bei der Genauigkeit jedoch insgesamt korrekte und falsche Vorhersagen berücksichtigt werden, wird nicht zwischen den beiden Arten richtiger Vorhersagen und den beiden Arten von falschen Vorhersagen unterschieden. Wenn wir die Genauigkeit allein betrachten, können wir nicht die zugrunde liegenden Aufschlüsselungen richtig positiver, richtig negativer, falsch positiver und falsch negativer Ergebnisse bestimmen, die einen besseren Einblick in die Quelle der Verzerrung geben würden.

Rate falsch positiver Ergebnisse

Die Rate falsch positiver Ergebnisse (FPR) ist der Prozentsatz der tatsächlich negativen Beispiele (ungiftige Kommentare), die fälschlicherweise als positiv (unangemessene Kommentare) eingestuft wurden. Die FPR ist ein Indikator für die Auswirkung der Verzerrung auf das Modell. Wenn wir die FPRs für verschiedene Untergruppen vergleichen (z. B. unterschiedliche demografische Merkmale des Geschlechts), stellen wir fest, dass Textkommentare mit geschlechtsspezifischen Identitäten eher als unangemessen eingestuft werden (falsch positive Ergebnisse) als Kommentare, die diese Begriffe nicht enthalten.

Wir möchten jedoch nicht die Auswirkungen dieser Verzerrungen messen, sondern ihre Ursache ermitteln. Dazu müssen wir uns die Eingaben in die FPR-Formel genauer ansehen.

Tatsächlich negative und tatsächlich positive Ergebnisse
In den Trainings- und Test-Datasets dieses Modells sind Tatsächlich positive Kommentare alle Beispiele für unangemessene Kommentare und tatsächlich negative Ergebnisse alle Beispiele, die nicht unangemessen sind. Da die Identitätsbegriffe selbst neutral sind, ist von einer ausgewogenen Anzahl von tatsächlich negativen und tatsächlich positiven Kommentaren zu erwarten, die einen bestimmten Identitätsbegriff enthalten. Wenn wir eine unverhältnismäßig geringe Anzahl tatsächlicher negativer Ergebnisse sehen, weist das Modell darauf hin, dass das Modell nur wenige Beispiele für Identitätsbegriffe in positiven oder neutralen Kontexten gesehen hat. In diesem Fall könnte das Modell eine Korrelation zwischen Identitätsbegriffen und unangemessenen Äußerungen erlernen.
Recall
Die Trefferquote ist der Prozentsatz tatsächlich positiver Vorhersagen, die korrekt als positiv klassifiziert wurden. Sie gibt an, wie viel Prozent der Kommentare das Modell als unangemessen erfasst hat. Hier geht es um Verzerrungen im Zusammenhang mit falsch positiven Ergebnissen (ungiftige Kommentare, die als unangemessen eingestuft wurden), und die Recall bietet keinen Einblick in dieses Problem.

Verzerrungen beheben

Welche der folgenden Aktionen könnte eine effektive Methode zur Behebung von Verzerrungen in den Trainingsdaten sein, die in Übung 1 und Übung 2 verwendet werden? Sehen Sie sich die folgenden Optionen an.
Fügen Sie dem Trainings-Dataset weitere negative (ungiftige) Beispiele mit Identitätsbegriffen hinzu.
Wenn Sie weitere negative Beispiele (tatsächlich ungiftige Kommentare) hinzufügen, die Identitätsbegriffe enthalten, können Sie das Trainings-Dataset ausgleichen. Das Modell erkennt dann ein besseres Gleichgewicht zwischen Identitätsbegriffen, die in unangemessenen und ungiftigen Kontexten verwendet werden, und lernt, dass die Begriffe selbst neutral sind.
Fügen Sie dem Trainings-Dataset weitere positive (unangemessene) Beispiele hinzu, die Identitätsbegriffe enthalten.
Beispiele unangemessener Äußerungen sind in der Teilmenge der Beispiele mit Identitätsbegriffen bereits überrepräsentiert. Wenn wir noch mehr Beispiele in das Trainings-Dataset aufnehmen, verschlimmern wir die vorhandenen Verzerrungen, anstatt sie zu beseitigen.
Fügen Sie dem Trainings-Dataset weitere negative (ungiftige) Beispiele ohne Identitätsbegriffe hinzu.
Identitätsbegriffe sind in negativen Beispielen bereits unterrepräsentiert. Weitere negative Beispiele ohne Identitätsbegriffe würden dieses Ungleichgewicht verschärfen und nicht dazu beitragen, die Verzerrung zu beseitigen.
Fügen Sie dem Trainings-Dataset weitere positive (unangemessene) Beispiele ohne Identitätsbegriffe hinzu.

Es ist möglich, dass das Hinzufügen weiterer positiver Beispiele ohne Identitätsbegriffe dazu beitragen kann, den Zusammenhang zwischen Identitätsbegriffen und unangemessenen Inhalten aufzuheben, die das Modell zuvor gelernt hatte.

Bewerten auf Verzerrungen

Sie haben Ihren eigenen Klassifikator für die Texttoxizität von Grund auf neu trainiert. Ihr Entwicklerteam plant damit, die Anzeige von Kommentaren, die als unangemessen eingestuft wurden, automatisch zu unterdrücken. Sie befürchten, dass jegliche Voreingenommenheit in Bezug auf geschlechtsbezogene Kommentare dazu führen kann, dass der ungiftige Diskurs über das Geschlecht unterdrückt wird. Sie möchten geschlechtsspezifische Voreingenommenheiten bei den Vorhersagen des Klassifikators bewerten. Welchen der folgenden Messwerte sollten Sie verwenden, um das Modell zu bewerten? Sehen Sie sich die folgenden Optionen an.
Rate falsch positiver Ergebnisse (FPR)
In der Produktion wird das Modell verwendet, um positive (unangemessene) Vorhersagen automatisch zu unterdrücken. Ihr Ziel ist es, sicherzustellen, dass das Modell falsch positive (ungiftige Kommentare, die das Modell fälschlicherweise als unangemessen eingestuft hat) bei geschlechtsbezogenen Kommentaren nicht mit einer höheren Rate unterdrückt wird als bei Kommentaren insgesamt. Der Vergleich der FPRs für die Geschlechteruntergruppen mit der gesamten FPR ist eine gute Möglichkeit, die Behebung von Verzerrungen für Ihren Anwendungsfall zu bewerten.
Falsch negative Rate (FNR)
FNR misst die Rate, mit der das Modell die positive Klasse (hier „Toxisch“) als negative Klasse („ungiftig“) falsch klassifiziert. In diesem Anwendungsfall gibt sie an, wie oft tatsächlich unangemessene Kommentare den Filter durchlaufen und den Nutzern angezeigt werden. Ihr Hauptanliegen ist hier, wie sich Voreingenommenheiten in Bezug auf die Unterdrückung ungiftiger Kommunikation zeigen. FNR bietet Ihnen keinen Einblick in diese Dimension der Modellleistung.
Genauigkeit
Die Genauigkeit misst den Prozentsatz der Modellvorhersagen, die richtig waren, und umgekehrt, den Prozentsatz der Vorhersagen, die falsch waren. In diesem Anwendungsfall gibt die Genauigkeit an, wie wahrscheinlich es ist, dass der Filter ungiftige Diskurse unterdrückt oder toxische Diskurse angezeigt hat. Ihr Hauptanliegen betrifft das erstgenannte, nicht das zweite. Da die Genauigkeit die beiden Aspekte zusammenführt, ist dieser Messwert nicht der ideale Bewertungsmesswert, um ihn hier zu verwenden.
AUC
AUC bietet eine absolute Messung der Vorhersagefähigkeit eines Modells. Es ist ein guter Messwert, um die Gesamtleistung zu beurteilen. In diesem Fall geht es jedoch speziell um die Häufigkeit der Kommentarunterdrückung, und die AUC gibt Ihnen keinen direkten Einblick in dieses Problem.
Ihrem Team wurde ein Inhaltsmoderator hinzugefügt. Der Produktmanager hat beschlossen, die Bereitstellung des Klassifikators zu ändern. Anstatt die als unangemessen eingestuften Kommentare automatisch zu unterdrücken, markiert die Filtersoftware diese Kommentare, damit der Inhaltsmoderator sie überprüfen kann. Da ein Mensch Kommentare prüft, die als unangemessen gekennzeichnet sind, zeigen sich Voreingenommenheiten nicht mehr in Form der Unterdrückung von Inhalten. Welchen der folgenden Messwerte können Sie verwenden, um Verzerrungen – und die Auswirkungen der Verzerrungen beheben – jetzt zu messen? Sehen Sie sich die folgenden Optionen an.
Rate falsch positiver Ergebnisse (FPR)
Die Rate falsch positiver Ergebnisse gibt den Prozentsatz der fälschlicherweise als unangemessen eingestuften Kommentare an. Da nun ein menschlicher Moderator alle Kommentare prüft, die das Modell als „unangemessen“ kennzeichnet, und die meisten falsch-positiven Ergebnisse erkennen sollte, ist FPR kein Hauptanliegen mehr.
Falsch negative Rate (FNR)
Ein menschlicher Moderator prüft zwar alle Kommentare, die als „unangemessen“ gekennzeichnet sind, und sicherstellen, dass falsch positive Ergebnisse nicht unterdrückt werden. Er prüft aber keine Kommentare, die als „ungiftig“ gekennzeichnet sind. Dadurch sind Verzerrungen im Zusammenhang mit falsch negativen Ergebnissen möglich. Mithilfe des FNR (Prozentsatz der tatsächlich positiven Ergebnisse, die als negativ eingestuft wurden) kannst du systematisch beurteilen, ob unangemessene Kommentare in Untergruppen von Geschlechtern wahrscheinlicher als ungiftig eingestuft werden als Kommentare insgesamt.
Precision
Die Genauigkeit gibt den Prozentsatz der positiven Vorhersagen an, die tatsächlich positiv sind – in diesem Fall der Prozentsatz der „unangemessenen“ Vorhersagen, die richtig sind. Da ein menschliches Moderator alle „unangemessenen“ Vorhersagen prüft, müssen Sie keine Präzision für einen Ihrer primären Bewertungsmesswerte festlegen.
Recall
Trefferquote gibt den Prozentsatz der tatsächlich positiven Ergebnisse an, die richtig klassifiziert wurden. Aus diesem Wert lässt sich der Prozentsatz tatsächlich falsch klassifizierter tatsächlich positiver Ergebnisse ableiten (1 – Trefferquote). Dies ist ein nützlicher Messwert, um einzuschätzen, ob geschlechtsbezogene unangemessene Kommentare im Vergleich zu Kommentaren insgesamt fälschlicherweise als „ungiftig“ eingestuft werden.