Machine Learning | Google for Developers

このページは Cloud Translation API によって翻訳されました。

偏見を特定する

Jigsaw チームが最初に Perspective API の有害性モデルを評価したところ、テストデータセットでのパフォーマンスが良好であることが判明しました。しかし、トレーニングデータに系統的なエラーがあった場合、モデルの予測にバイアスが生じる可能性があることに懸念がありました。トレーニングデータの品質を確保するために、評価担当者から提供されたラベルが正しいかどうかを監査する追加手順を行いました。

しかし、モデルのトレーニングデータに偏りを生じさせないようにするための予防的措置が取られていたにもかかわらず、ユーザーは引き続きアイデンティティの用語を含むコメントの誤検出の問題を明らかにしていました。どうしてそうなったのでしょうか？

トレーニングセットの 2 回目の監査では、人種、宗教、性別に関する単語を含むアイデンティティを含むコメントの大半が有害であると判明しました。これらのラベルは正しかったもので、これらのアイデンティティ用語を含むオンラインコメントのほとんどは実際に有害でした。しかし、このスキューの結果、これらのアイデンティティ用語の有害度と有害度との相関関係を学習しました。これらのアイデンティティの中立的な連想は正確に反映されていませんでした。

チームはモデルのトレーニングデータに大きなギャップを発見しました。この領域では、現実に関する重要な側面を表すのに十分なトレーニングデータがありませんでした。キーワード自体が中立的で、そのコンテキストが重要であることを理解するために、モデルに有害ではない ID コメントを含む十分なサンプルが含まれていなかった。

演習 1: モデルを調べる

演習 2: バイアスを修正する