公平性: 理解度を確認する

バイアスの種類

以下の選択肢をご確認ください。

次のうち、選択バイアスの影響を受けたモデルの予測はどれですか。
ドイツ語の手書き認識スマートフォン アプリは、誤って英語のコーチ(Eszett)をアメリカの手書きサンプルのコーパスでトレーニングしたため、誤って B 文字として分類するモデルを使用しています。
このモデルは、カバレッジ バイアスという選択バイアスのタイプの影響を受けました。トレーニング データ(アメリカ英語の手書き)は、モデルの対象オーディエンス(ドイツ語の手書き)によって提供されたデータの種類を表すものではありませんでした。
エンジニアは、毎日の食物摂取量に基づいて、糖尿病を発症する確率を予測するモデルを構築しました。このモデルは、世界各地のランダムに選ばれた 10,000 の食品日誌でトレーニングされました。さまざまな年齢層、民族、性別を表しています。しかし、このモデルをデプロイしたときの精度は極めて低いものでした。それから、食事日記の参加者は、食べた不健康な食料の正体を受け入れないことに消極的であること、そして、健康的でないスナック菓子よりも栄養価の高い食品の消費を記録する可能性が高いことに気づきました。
このモデルには選択バイアスがありません。トレーニング データを提出した参加者は代表的なユーザー サンプリングであり、ランダムに選ばれました。代わりに、このモデルはレポート バイアスの影響を受けました。不健康な食物の摂取は、実際の発生時よりもはるかに低い頻度で報告されています。
会社のエンジニアは、全従業員に送信された調査から収集したデータに基づいて、従業員の離職率(毎年退職する従業員の割合)を予測するモデルを開発しました。数年間使用した後、エンジニアは、離職率が 20% 以上過小評価されていると判断しました。退職した従業員への面談を実施したところ、仕事に満足していないと回答した人の 80% 以上がアンケートへの回答をやめたことが判明しました。一方、全社的なオプトアウト率は 15% でした。
このモデルは、選択レスポンス バイアスのタイプ(非応答バイアス)の影響を受けました。全社規模の調査を実施しても、全従業員をはるかに上回る割合で採用していたため、従業員はトレーニング データセットで過小評価されていました。
映画レコメンデーション システムを開発するエンジニアは、ホラー映画が好きな人は、SF 映画も好きになるという仮説を立てました。50,000 人のユーザーとモデルをトレーニングしたが、ホラーと SF の好みには相関関係がないことがわかった。これは奇妙に思えるため、異なるハイパーパラメータを使用してモデルをさらに 5 回再トレーニングしました。彼らの最終的なトレーニング済みモデルは、ホラーの好みと SF の好みに 70% の相関関係があることを示し、自信を持って本番環境にリリースしました。
選択バイアスの証拠はありませんが、エンジニアは既存の仮説を確認するまでモデルを反復処理しているため、このモデルは代わりに実験者のバイアスの影響を受ける可能性があります。

バイアスの評価

引数検出モデルは、80,000 件のテキスト メッセージに基づいてトレーニングされました。大人(18 歳以上)から送信された 40,000 件のメッセージと、未成年者(18 歳未満)から送信された 40,000 件のメッセージです。モデルは 20,000 件のメッセージのテストセットで評価されました(大人から 10,000 件、未成年者から 10,000 件)。次の混同行列は、各グループの結果を示しています(正の予測は「キャスト」の分類、否定予測は「キャストではない」の分類を示します)。

大人

真陽性(TP): 512 偽陽性(FP): 51
偽陰性(FN): 36 真陰性(TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

未成年者

真陽性(TP): 2,147 偽陽性(FP): 96
偽陰性(FN): 2177 真陰性(TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

以下の選択肢をご確認ください。

モデルのテストセット パフォーマンスの説明として正しいものは次のうちどれですか。
総合的に見て、このモデルは成人のサンプルが未成年者の例よりも高い成果を上げています。

このモデルは、大人からのテキスト メッセージに皮肉が検出された場合、90% を超える適合率と再現率を達成します。

このモデルは、成人よりも成人よりわずかに高い適合率を達成しますが、未成年者の再現率は大幅に低いため、このグループの予測の信頼性は低くなります。

このモデルは未成年の約 50% の「皮肉」なメッセージを「Sarcastic."」に分類できませんでした。
未成年者の再現率は 0.497 で、これは、モデルによる予測の「懐疑的」ではないことを示しています。未成年者の約 50% は、賢明なテキストです。
未成年者が送信したメッセージの約 50% は、「意図的」に分類されています。
適合率 0.957 は、未成年者の 95% 以上が「サルキャスト」に分類されるメッセージであることを示しています。
大人によって送信された 10,000 件のメッセージはクラス バランスの取れたデータセットです。
実際に賢人であるメッセージの数(TP + FN = 548)と、実際は皮肉を持たないメッセージの数(TN + FP = 9452)を比較すると、
未成年者が送信する 10,000 件のメッセージは、クラスの不均衡なデータセットとなります。
実際は未成年者のメッセージ数(TP + FN = 4324)と、実際は少数派であるメッセージの数(TN + FP = 5676)を比較してみると、「の部分的でない」ラベルと「の部分的ではない」ラベルの比率は 1.3:1 であることがわかります。2 つのクラス間でのラベルの分布は 50/50 にかなり近いため、これはクラス不均衡なデータセットではありません。

以下の選択肢をご確認ください。

エンジニアは、このモデルを再トレーニングして、不正確なユーザー属性の検出精度の不一致に対処するよう取り組んでいますが、このモデルはすでに本番環境にリリースされています。モデルの予測におけるエラー軽減に役立つストップギャップ戦略は次のうちどれですか。
モデルの使用を大人が送信するテキスト メッセージに制限する。

このモデルは成人からのテキスト メッセージに対して高い精度で動作します(精度と再現率はどちらも 90% 以上)。したがって、このグループの使用を制限すると、未成年者のテキスト メッセージの分類に関する系統的エラーが回避されます。

モデルが「軽微な口調ではなく」と予測した場合、未成年者から送信されたテキスト メッセージに対しては、モデルによって代わりに「不確か」な値が返されるように出力が調整されます。

未成年者が送るテキスト メッセージの精度は「高」です。つまり、モデルが「有名人」と予測すると、ほとんどの場合、正しくなります。

問題は、未成年者の再現率が非常に低いことです。このモデルは、サンプルの約 50% で皮膚電気の特定に失敗します。未成年者のモデル陰性予測はランダムな推測に勝る結果が得られないことを考慮すると、このような場合に予測を提供することで、こうしたエラーを回避できます。

モデルの使用を未成年者が送信するテキスト メッセージに制限する。

このモデルの体系的なエラーは、未成年者から送信されたテキスト メッセージに固有のものです。モデルの使用を、エラーが発生しやすいグループに制限しても効果はありません。

モデルが元々予測していた内容に関係なく、未成年者が送信したすべてのテキスト メッセージに対して「sarcastic」を返すようにモデル出力を調整する。

常に「新人」の予測しかし、再現率の上昇は、精度を犠牲にすることになります。すべての真陰性は偽陽性に変更されます。

真陽性(TP): 4324 偽陽性(FP): 5676
偽陰性(FN): 0 真陰性(TN): 0

適合率を 0.957 から 0.432 に下げます。したがって、この調整を追加するとエラーの種類は変わりますが、エラーの大きさは軽減されません。