ML プラクティス: Perspective API の公平性

Jigsaw チームが、Google の不正行為対策技術チームと協力して、オンラインハラスメントにどのように対処したかをご覧ください。Perspective API は、機械学習を使用して有害なコメントを特定するために使用されます。次に、公平性インジケーターを使用して ML モデルを評価し、トレーニングデータの意図しないバイアスを軽減します。

はじめに

Jigsaw は、世界をより安全にするためのテクノロジーを構築する Alphabet 内の部門です。 2017 年、オンラインの嫌がらせへの対処に着手し、Perspective API を開発しました。Perspective API の目標は、オンライン会話の参加力、品質、共感を大規模に高めることです。デベロッパーとパブリッシャーは、Perspective を使用して、脅迫、侮辱、冒とく的表現、有害な言葉など、不適切な可能性があるテキストについてのコメントの内容を分析することで、オンラインフォーラムでの建設的な会話を阻害するテキストを特定し、フィルタリングできます。

Perspective API はコメントを入力として受け取り、スコアが 0 ～ 1 のスコアを返します。これは、コメントが過去に有害だったコメントに類似している可能性を示します。スコア 0 はコメントが有害である確率 0%、スコア 1 はコメントが有害である確率 100%、スコア 0.5 はコメントが有害である確率（確率が 50%）を示します。

問い

Perspective API の初回リリース以降、外部ユーザーは、人種や性的指向、有害度に関する情報を含むアイデンティティの用語に、正の相関関係があることを発見しました。たとえば、「私はゲイの黒人女性です」というフレーズは、有害度スコア 0.87 を受け取りました。このケースでは、アイデンティティの用語は決して否定的な意味合いでは使用されなかったため、この例では正しく分類されていません。問題が発生した場所

演習 1: モデルを調べる