ML-Praktikum: Fairness in der Perspective API

Das Team von Jigsaw hat in Zusammenarbeit mit dem Team für Technologie zur Bekämpfung von Missbrauch in Zusammenarbeit mit der Perspective API, die mithilfe von maschinellem Lernen toxische Kommentare identifiziert, Online-Belästigung bekämpft. Anschließend verwenden Sie Fairness-Indikatoren, um ML-Modelle zu bewerten und unbeabsichtigte Verzerrungen in den Trainingsdaten zu minimieren.

Einführung

Jigsaw ist eine Einheit von Alphabet, die Technologie entwickelt, um die Welt sicherer zu machen. 2017 wollte das Team mit Online-Belästigung umgehen und die Perspective API entwickeln. Das Ziel der Perspective API ist es, die Beteiligung, Qualität und Mitgefühl der Onlineunterhaltung in großem Umfang zu erhöhen. Entwickler und Verlage und Webpublisher können Perspective verwenden, um Text zu identifizieren und zu filtern, der einen konstruktiven Dialog in Onlineforen verhindert, indem sie den Inhalt von Kommentaren auf potenziell anstößigen Text analysieren, einschließlich Bedrohungen, Beleidigungen, vulgärer Sprache und Schimpfwörtern.

Die Perspective API akzeptiert Kommentartext als Eingabe und gibt einen Wert von 0 bis 1 zurück, der angibt, wie wahrscheinlich es ist, dass der Kommentar den in der Vergangenheit bekannten schädlichen Kommentaren ähnelt. Ein Wert von 0 steht für eine Wahrscheinlichkeit von 0 %, dass der Kommentar toxisch ist, ein Wert von 1 bedeutet eine Wahrscheinlichkeit von 100 %, dass der Kommentar toxisch ist, und ein Wert von 0,5 bedeutet eine Wahrscheinlichkeit von 50 %, dass der Kommentar toxisch ist (d. h. das Modell ist sich nicht sicher).

Problembeschreibung

Nach der ersten Einführung der Perspective API stellten externe Nutzer einen positiven Zusammenhang zwischen den Identitätsbegriffen fest, die Informationen zur ethnischen Herkunft oder sexuellen Orientierung und zum Toxizitätswert enthielten. Beispiel: Die Wortgruppe „Ich bin eine schwule Schwarze Frau“ hat einen Toxizitätswert von 0, 87 erhalten. In diesem Fall wurden die Identitätsbegriffe nicht abwertend verwendet, sodass dieses Beispiel falsch klassifiziert wurde. Wo ist etwas schiefgegangen?