公平性:評估偏見

評估模型時,依據整個測試或驗證集計算的指標,不一定會準確呈現模型的公平性。

請考慮開發新模型,用以預測根據 1,000 名患者的驗證樣本評估的腫瘤情形;醫療記錄。500 筆記錄來自女性病患,500 筆記錄則來自男性病患。以下混淆矩陣匯總了所有 1,000 個範例的結果:

真陽性 (TP):16 偽陽性 (FP):4
偽陰性 (FN):6 真陰性 (TN):974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

這些結果很有前景:80% 的精確度和 72.7% 的喚回度。不過,如果為每組病患分別計算結果,會發生什麼事?讓我們將結果分成兩組不同的混淆矩陣,一個用於女性病患,另一個用於男性病患。

女性病患結果

真陽性 (TP):10 偽陽性 (FP):1
偽陰性 (FN):1 真陰性 (TN):488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

男性病患結果

真陽性 (TP):6 偽陽性 (FP):3
偽陰性 (FN):5 真陰性 (TN):486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

系統會分別計算女性和男性病患的指標,然後發現每個群體在模型效能方面存在明顯的差異。

女性病患:

  • 在實際有病患的 11 名女性病患中,該模型已準確預測 10 名患者的陽性 (喚回率:90.9%)。換句話說,這個模型在 9.1% 的女性案例中缺少了口腔診斷診斷

  • 同理,如果模型在女性病患中也得到出於有效的體內病症,在 11 次病例中就有 10 人是正確的 (準確率:90.9%);換句話說,模型錯誤地預測了 9.1% 的女性病例的陰性

男性病患:

  • 然而,在實際上有腫瘤的 11 名男性患者中,模型只正確預測出 6 名病患的陽性 (喚回度:54.5%)。這表示在 45.5% 的男性案例中,這個模型錯過了陰性診斷結果

  • 當模型對男性病患的檢測結果傳回陽性時,有 9 例病例就只有 6 人是正確的 (準確率:66.7%);換句話說,模型以 33.3% 的男性病例準確預測出陰性

現在,我們更加瞭解模型預測中存在的偏誤,以及針對子群體將模型發布為一般大眾時的風險。

其他公平資源

公平性是機器學習領域領域的相對新子領域。如要進一步瞭解開發新工具和技術來辨別及緩解機器學習模型偏誤,請參閱 Google 的機器學習公平性資源頁面