分類: 予測バイアス

予測バイアスを計算すると、モデルやトレーニング データに関する問題を早期に特定できます。

予測バイアスは、モデルの予測の平均と、データのグラウンド トゥルース ラベルの平均の差です。メールの 5% が迷惑メールであるデータセットでトレーニングされたモデルは、分類するメールの 5% が迷惑メールであると平均的に予測する必要があります。つまり、正解データセットのラベルの平均は 0.05 であり、モデルの予測の平均も 0.05 にする必要があります。この場合、モデルの予測バイアスはゼロになります。もちろん、モデルには他の問題が残っている可能性があります。

モデルがメールをスパムと予測する割合が 50% の場合、トレーニング データセット、モデルが適用される新しいデータセット、またはモデル自体に問題があります。2 つの平均値に大きな差がある場合は、モデルに予測バイアスがあることを示します。

予測バイアスは、次の原因で発生する可能性があります。

  • トレーニング セットの偏ったサンプリングなど、データ内のバイアスやノイズ
  • 正則化が強すぎる。つまり、モデルが過度に簡略化され、必要な複雑さが失われている。
  • モデル トレーニング パイプラインのバグ
  • モデルに提供される特徴のセットがタスクに対して不十分である