公平性: バイアスの評価

モデルを評価するとき、テストセットまたは検証セット全体に対して計算された指標は、モデルの公平性の正確性を常に把握できるとは限りません。

1,000 人の患者の検証セットに対して評価される腫瘍の存在を予測するために開発された新しいモデルについて考えてみましょう。500 件のレコードは女性の患者から、500 件は男性の患者からのものです。次の混同行列は、1,000 件すべての例の結果をまとめたものです。

真陽性(TP): 16 偽陽性(FP): 4
偽陰性(FN): 6 真陰性(TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

この結果は有望です。精度は 80%、再現率は 72.7% です。しかし、各患者について別々に結果を計算した場合はどうなるでしょうか。結果を、2 つの個別化行列(1 つは女性患者用、もう 1 つは男性患者用)に分けます。

女性の患者結果

真陽性(TP): 10 偽陽性(FP): 1
偽陰性(FN): 1 真陰性(TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

男性の患者の結果

真陽性(TP): 6 偽陽性(FP): 3
偽陰性(FN): 5 真陰性(TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

女性患者と男性患者の指標を別々に計算すると、グループごとにパフォーマンスに明らかな違いが見られます。

女性の患者:

  • 実際に腫瘍がある 11 人の女性患者のうち、モデルは 10 人の患者を正しく陽性と予測しました(再現率: 90.9%)。つまり、このモデルは女性の 9.1% で腫瘍診断を見逃しました

  • 同様に、モデルが女性患者の腫瘍に陽性を返した場合、11 例中 10 例で正確です(精度率:90.9%)。つまり、モデルは女性の 9.1% の疾患を誤って予測します

男性患者:

  • しかし、実際に腫瘍がある 11 人の男性患者のうち、モデルは陽性だった患者が 6 人しか正しく予測しませんでした(再現率: 54.5%)。つまり、男性の 45.5% の症例で、モデルが腫瘍診断を見逃しました

  • また、モデルが男性患者に腫瘍の陽性を返した場合、9 例中 6 例だけで正しくなります(精度率:66.7%)。つまり、モデルは男性の 33.3%の確率で腫瘍を正しく予測しません

モデルの予測に内在するバイアスや、一般ユーザーを対象に医療用モデルがリリースされた場合の各サブグループに対するリスクをより詳しく理解できるようになりました。

その他の公平性に関するリソース

公平性は機械学習の分野における比較的新しいサブフィールドです。機械学習モデルのバイアスを特定して軽減するための新しいツールと手法の開発に従事する研究や取り組みの詳細については、 Google の機械学習公平性に関するリソースページ