評估模型時,依據整個測試或驗證集計算的指標,不一定會準確呈現模型的公平性。
請考慮開發新模型,用以預測根據 1,000 名患者的驗證樣本評估的腫瘤情形;醫療記錄。500 筆記錄來自女性病患,500 筆記錄則來自男性病患。以下混淆矩陣匯總了所有 1,000 個範例的結果:
真陽性 (TP):16 | 偽陽性 (FP):4 |
偽陰性 (FN):6 | 真陰性 (TN):974 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$ |
這些結果很有前景:80% 的精確度和 72.7% 的喚回度。不過,如果為每組病患分別計算結果,會發生什麼事?讓我們將結果分成兩組不同的混淆矩陣,一個用於女性病患,另一個用於男性病患。
女性病患結果
真陽性 (TP):10 | 偽陽性 (FP):1 |
偽陰性 (FN):1 | 真陰性 (TN):488 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$ |
男性病患結果
真陽性 (TP):6 | 偽陽性 (FP):3 |
偽陰性 (FN):5 | 真陰性 (TN):486 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$ |
系統會分別計算女性和男性病患的指標,然後發現每個群體在模型效能方面存在明顯的差異。
女性病患:
在實際有病患的 11 名女性病患中,該模型已準確預測 10 名患者的陽性 (喚回率:90.9%)。換句話說,這個模型在 9.1% 的女性案例中缺少了口腔診斷診斷。
同理,如果模型在女性病患中也得到出於有效的體內病症,在 11 次病例中就有 10 人是正確的 (準確率:90.9%);換句話說,模型錯誤地預測了 9.1% 的女性病例的陰性。
男性病患:
然而,在實際上有腫瘤的 11 名男性患者中,模型只正確預測出 6 名病患的陽性 (喚回度:54.5%)。這表示在 45.5% 的男性案例中,這個模型錯過了陰性診斷結果。
當模型對男性病患的檢測結果傳回陽性時,有 9 例病例就只有 6 人是正確的 (準確率:66.7%);換句話說,模型以 33.3% 的男性病例準確預測出陰性。
現在,我們更加瞭解模型預測中存在的偏誤,以及針對子群體將模型發布為一般大眾時的風險。
其他公平資源
公平性是機器學習領域領域的相對新子領域。如要進一步瞭解開發新工具和技術來辨別及緩解機器學習模型偏誤,請參閱 Google 的機器學習公平性資源頁面。