找出偏誤

Jigsaw 團隊初步評估了 Perspective API 惡意模型時,他們發現該模型在測試資料集上表現良好。但對於這些問題,如果訓練資料中有任何系統錯誤,但仍有偏誤在模型預測中列出偏誤。為確保訓練資料的品質,該團隊採取額外步驟來稽核人工審查員提供的標籤,確保資料準確無誤。

不過,雖然這些主動式步驟可消除模型訓練資料中的偏誤,但使用者仍發現含有身分字詞的留言的偽陽性問題。為什麼會發生這個問題?

訓練集的第二次稽核則顯示,含有種族、宗教和性別認同字詞的大多數留言都標示為惡意。這些標籤正確無誤;包含這些身分識別字詞的線上留言確實帶有惡意。但由於此偏差,此模型學習到這些身分字詞和惡意指數之間的關聯性,無法準確反映字詞的中立意見。

團隊發現模型訓練資料中存在重大落差:這個區域缺少足夠的訓練資料,無法呈現真正的實際情況。訓練集未包含非隨機身分識別註解的範例,因此無法瞭解模型本身是中立的,以及使用情境的情境。