ML の実践: Perspective API の公平性

理解度チェック: バイアスの特定と修正

バイアスの特定

演習 1: モデルを調べるで、アイデンティティ用語を含むコメントが不均衡なほど有害と分類されていることを確認しました。このバイアスの原因を説明するのに役立つ指標はどれですか。以下のオプションを確認してください。
精度

精度は、予測全体のうち、正しい予測の割合(真陽性または真陰性の予測の割合)を測定します。異なるサブグループ(性別属性の違いなど)について精度を比較すると、各グループに対するモデルの相対的なパフォーマンスを評価し、バイアスがモデルに与える影響の指標として使用できます。

ただし、精度では正しい予測と誤った予測がまとめて考慮されるため、この 2 種類の正しい予測と誤った予測は区別されません。精度だけを見ても、真陽性、真陰性、偽陽性、偽陰性の根本的な内訳を特定できないため、バイアスの発生源をより詳しく把握できます。

偽陽性率

偽陽性率(FPR)は、誤って陽性(有害なコメント)と分類された実陰性の例(有害でないコメント)の割合です。FPR は、モデルに対するバイアスの影響を示す指標です。さまざまなサブグループ(さまざまな性別属性など)の FPR を比較すると、性別に関連するアイデンティティ用語を含むテキスト コメントは、これらの用語を含まないコメントよりも有害(偽陽性)として誤って分類される可能性が高いことがわかります。

ただし、Google はバイアスの影響を測定するものではなく、その原因を見つけることを目指しています。そのためには、FPR の式への入力を詳しく調べる必要があります。

実際の陰性と実際の陽性
このモデルのトレーニング データセットとテスト データセットでは、 実際の陽性はすべて有害なコメントの例で、 実際の陰性はすべて有害でないコメントの例です。アイデンティティ用語自体が中立的であるため、特定のアイデンティティ用語を含む実陰性コメントと実陽性コメント数のバランスがとれると想定されます。実際の陰性数が不均衡に少ない場合、肯定的または中立的な文脈で使用されているアイデンティティ用語の例があまり多く見られなかったことを示しています。その場合、モデルはアイデンティティ用語と有害性の相関関係を学習します。
再現率
再現率は、実際の陽性の予測のうち、陽性と正しく分類されたものの割合です。この指標は、モデルが正常に検出した有害なコメントの割合を示します。 ここでは、偽陽性(有害として分類された有害でないコメント)に関連するバイアスについて考えていますが、再現率ではこの問題に関する知見は得られません。

バイアスの修正

演習 1演習 2 で使用したトレーニング データのバイアスを修正する方法として効果的なものは、次のうちどれですか。以下のオプションを確認してください。
アイデンティティ用語を含むネガティブ(有害でない)サンプルをトレーニング セットに追加します。
ID 用語を含む否定的な例(実際には有害でないコメント)をさらに追加すると、トレーニング セットのバランスを取るのに役立ちます。モデルは、有害なコンテキストと有害でないコンテキストで使用されるアイデンティティ用語のバランスを改善し、用語自体が中立的であることを学習できます。
アイデンティティ用語を含むポジティブ(有害な)サンプルをトレーニング セットに追加します。
アイデンティティ用語を含むサンプルのサブセットでは、有害なサンプルがすでに過剰に表現されています。トレーニング セットにこれらのサンプルをさらに追加すると、既存のバイアスを修正するのではなく悪化させます。
ID 用語を含まないネガティブ(有害でない)例をトレーニング セットに追加する。
アイデンティティ用語は、ネガティブな例ではすでに過小評価されています。ID 用語のないネガティブなサンプルをさらに追加すると、この不均衡が深まり、バイアスの修正には役立ちません。
ID 用語を含まないポジティブ(有害な)サンプルをトレーニング セットに追加します。

アイデンティティ用語のないポジティブな例をさらに追加すると、アイデンティティ用語とモデルが以前に学習した有害性の関連性を壊すことができる可能性があります。

バイアスの評価

独自のテキスト有害性分類器をゼロからトレーニングし、エンジニアリング チームがこれを使用して、有害と分類されたコメントの表示を自動的に抑制することを計画しています。ジェンダーに関するコメントに有害性のバイアスがあると、ジェンダーに関する無害な議論が抑制される可能性があることを懸念し、分類器の予測でジェンダーに関するバイアスを評価します。モデルの評価に使用する指標は次のうちどれですか。以下のオプションを確認してください。
偽陽性率(FPR)
本番環境では、このモデルを使用して陽性(有害な)予測を自動的に抑制します。目標は、ジェンダー関連のコメントの偽陽性(モデルが有害と誤って分類した有害でないコメント)を、コメント全体よりも高い割合で抑制しないようにすることです。ユースケースのバイアス改善を評価するには、性別のサブグループの FPR と全体の FPR を比較するのがおすすめです。
偽陰性率(FNR)
FNR は、モデルが陽性のクラス(ここでは「有害」)を陰性のクラス(「有害でない」)と誤って分類する割合を測定します。このユースケースでは、実際に有害なコメントがフィルタを通過してユーザーに表示される割合が示されます。ここでは、無害な議論を抑制するという観点からバイアスがどのように現れるかという点が主な懸念事項となります。FNR では、この次元のモデルのパフォーマンスに関する分析情報は得られません。
精度
精度は、モデルの予測が正しかった割合、また逆に、予測の誤りの割合を測定します。このユースケースでは、フィルタによって無害な議論が抑制されたか、または有害な議論が表示される可能性がどの程度あるかが精度により示されます。お客様の主な懸念事項は前者であり、後者ではありません。精度とは 2 つの問題が混同されるため、ここで使用する評価指標としては理想的ではありません。
AUC
AUC は、モデルの予測能力の絶対測定値を提供します。全体的なパフォーマンスの評価に適した指標です。ただし、ここでは特にコメント抑制率に注目しています。AUC はこの問題に直接関わりません。
コンテンツ モデレーターがチームに追加されました。プロダクト マネージャーが、分類器のデプロイ方法を変更することにしました。フィルタリング ソフトウェアでは、有害と分類されたコメントを自動的に非表示にするのではなく、コンテンツ管理者が確認できるようそのようなコメントにフラグを立てます。有害としてラベル付けされたコメントを人間がレビューするため、バイアスがコンテンツ抑制という形で現れることはなくなります。バイアス(およびバイアス調整の効果)を測定するために、次の指標のうちどれを使用すべきですか。以下のオプションを確認してください。
偽陽性率(FPR)
偽陽性率は、有害でないコメントが誤って有害と分類された割合を示します。モデルが「有害」とラベル付けされたすべてのコメントを人間のモデレーターが監査し、誤検出のほとんどを検出できるため、FPR は主要な懸念事項ではなくなりました。
偽陰性率(FNR)
人間のモデレーターは「有害」というラベルの付いたすべてのコメントを監査し、誤検出が抑制されていないことを確認しますが、「有害でない」とラベル付けされたコメントは確認しません。 これにより、偽陰性に関連するバイアスが生じる可能性があります。FNR(ネガティブに分類された実際のポジティブなコンテンツの割合)を使用すると、性別のサブグループに関する有害な表現が、コメント全体よりも有害でないと分類される可能性が高いかどうかを体系的に評価できます。
適合率
適合率は、陽性の予測のうち、実際に陽性である予測の割合を示します。この場合は、正しい「有害」な予測の割合です。人間のモデレーターがすべての「有害な」予測を監査するため、主要な評価指標の 1 つに精度を設定する必要はありません。
再現率
再現率: 実際に陽性だったもののうち、正しく分類されたものの割合。この値から、実際に陽性と分類されたものの割合(1 - 再現率)を算出できます。これは、ジェンダー関連の有害なコメントが、コメント全体と比較して「有害でない」と誤って分類されているかどうかを確認するのに役立ちます。