本頁面由 Cloud Translation API 翻譯而成。

公平性：評估偏見

評估模型時，依據整個測試或驗證集計算的指標，不一定會準確呈現模型的公平性。

請考慮開發新模型，用以預測根據 1,000 名患者的驗證樣本評估的腫瘤情形；醫療記錄。500 筆記錄來自女性病患，500 筆記錄則來自男性病患。以下混淆矩陣匯總了所有 1,000 個範例的結果：

真陽性 (TP)：16	偽陽性 (FP)：4
偽陰性 (FN)：6	真陰性 (TN)：974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

這些結果很有前景：80% 的精確度和 72.7% 的喚回度。不過，如果為每組病患分別計算結果，會發生什麼事？讓我們將結果分成兩組不同的混淆矩陣，一個用於女性病患，另一個用於男性病患。

真陽性 (TP)：10	偽陽性 (FP)：1
偽陰性 (FN)：1	真陰性 (TN)：488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

真陽性 (TP)：6	偽陽性 (FP)：3
偽陰性 (FN)：5	真陰性 (TN)：486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

系統會分別計算女性和男性病患的指標，然後發現每個群體在模型效能方面存在明顯的差異。

女性病患：

在實際有病患的 11 名女性病患中，該模型已準確預測 10 名患者的陽性 (喚回率：90.9%)。換句話說，這個模型在 9.1% 的女性案例中缺少了口腔診斷診斷。
同理，如果模型在女性病患中也得到出於有效的體內病症，在 11 次病例中就有 10 人是正確的 (準確率：90.9%)；換句話說，模型錯誤地預測了 9.1% 的女性病例的陰性。

男性病患：

然而，在實際上有腫瘤的 11 名男性患者中，模型只正確預測出 6 名病患的陽性 (喚回度：54.5%)。這表示在 45.5% 的男性案例中，這個模型錯過了陰性診斷結果。
當模型對男性病患的檢測結果傳回陽性時，有 9 例病例就只有 6 人是正確的 (準確率：66.7%)；換句話說，模型以 33.3% 的男性病例準確預測出陰性。

現在，我們更加瞭解模型預測中存在的偏誤，以及針對子群體將模型發布為一般大眾時的風險。

其他公平資源

公平性是機器學習領域領域的相對新子領域。如要進一步瞭解開發新工具和技術來辨別及緩解機器學習模型偏誤，請參閱 Google 的機器學習公平性資源頁面。