ML Practicum:Perspective API 的公平性

瞭解 Jigsaw 團隊如何透過 Google 的機器學習技術開發 Perspective API 來識別惡意留言,藉此解決線上騷擾行為的問題。接著,使用 Fairness Indicators 評估機器學習模型,並協助減少訓練資料中非預期的錯誤。

引言

Jigsaw 是 Alphabet 內部的單位,負責打造技術,讓世界更加安全。2017 年,該團隊著手解決線上騷擾問題,並開發了 Perspective API。Perspective API 的目標是提升大規模線上對話的參與度、品質和同理心。開發人員和發布商可以運用 Perspective 分析可能令人反感的文字 (例如威脅、侮辱、不雅用語和惡意用語) 留言內容,藉此過濾及篩選線上論壇中的具建設性對話文字。

Perspective API 會將註解文字視為輸入內容,並傳回「分數」(從 0 到 1),指出註解與過往垃圾留言類似的機率。0 分代表 0% 表示註解具有毒性,0 分代表 100% 代表註解具有毒性,0.5 分代表註解具有毒性 (即模型不確定) 50%。

問題說明

在 Perspective API 首次推出後,外部使用者發現身分字詞涉及種族或性傾向和惡意分數的相關資訊。例如,「我是同性戀黑女人」詞組。惡意度分數為 0.87。在這種情況下,系統未正確使用識別資訊字詞,因此這項範例分類有誤。哪裡出了問題?