偏見を特定する

Jigsaw チームが最初に Perspective API の有害性モデルを評価したところ、テスト データセットでのパフォーマンスが良好であることが判明しました。しかし、トレーニング データに系統的なエラーがあった場合、モデルの予測にバイアスが生じる可能性があることに懸念がありました。トレーニング データの品質を確保するために、評価担当者から提供されたラベルが正しいかどうかを監査する追加手順を行いました。

しかし、モデルのトレーニング データに偏りを生じさせないようにするための予防的措置が取られていたにもかかわらず、ユーザーは引き続きアイデンティティの用語を含むコメントの誤検出の問題を明らかにしていました。どうしてそうなったのでしょうか?

トレーニング セットの 2 回目の監査では、人種、宗教、性別に関する単語を含むアイデンティティを含むコメントの大半が有害であると判明しました。これらのラベルは正しかったもので、これらのアイデンティティ用語を含むオンライン コメントのほとんどは実際に有害でした。しかし、このスキューの結果、これらのアイデンティティ用語の有害度と有害度との相関関係を学習しました。これらのアイデンティティの中立的な連想は正確に反映されていませんでした。

チームはモデルのトレーニング データに大きなギャップを発見しました。この領域では、現実に関する重要な側面を表すのに十分なトレーニング データがありませんでした。キーワード自体が中立的で、そのコンテキストが重要であることを理解するために、モデルに有害ではない ID コメントを含む十分なサンプルが含まれていなかった。