公平性: バイアスの種類

機械学習モデルは本来目的ではありません。エンジニアは、トレーニング サンプルのデータセットにモデルをトレーニングしてモデルをトレーニングします。このデータのプロビジョニングとキュレーションに人間が関与すると、モデルの予測にバイアスがかかりやすくなります。

モデルを作成する際は、データに現れる可能性がある一般的な人間のバイアスを認識して、その影響を軽減するための予防的な対策を取ることが重要です。

バイアスを報告する

レポート バイアスは、データセットでキャプチャされたイベント、プロパティ、結果の頻度が、実際の頻度を正確に反映していない場合に発生します。この偏りは、人々が異例で、または特に覚えやすい状況で文書化することに焦点を当てる傾向があるため発生します。

自動化のバイアス

自動化バイアスは、自動化システムによって生成された結果が、各システムのエラー率に関係なく、自動化されていないシステムによって生成された結果を優先する傾向があります。

選択バイアス

選択バイアスは、データセットの例が、実際の分布を反映していない方法で選択された場合に発生します。選択バイアスにはさまざまな形があります。

  • カバレッジ バイアス: データは代表的な方法で選択されません。
  • 非応答バイアス(または参加バイアス): データ収集プロセスに参加ギャップがあるため、データは代表的ではありません。
  • サンプリング バイアス: データ収集中は適切なランダム化は行われません。

グループ アトリビューション バイアス

グループ アトリビューション バイアスは、個人が何を意味するかについて、それらが属するグループ全体に一般化される傾向があります。このバイアスの主な兆候は 2 つあります。

  • グループ内バイアス: 所属するグループのメンバーや共有する特性。
  • グループ間同種バイアス: 属していないグループの個々のメンバーを固定する傾向、または特性が均一である傾向。

暗黙のバイアス

暗示的なバイアスは、自身の思考モデルや個人的な体験に基づいて推測が行われた場合に起こります。

暗黙的なバイアスの一般的な形態は確認バイアスです。モデルビルダーでは、既存の信念や仮説を確認する方法で、無意識にデータを処理します。場合によっては、モデルビルダーが元の仮説と一致する結果を生成するまで、実際にモデルのトレーニングを続けることがあります。これは、experimenter のバイアス と呼ばれます。