機器學習實務:Perspective API 的公平性

確認自己的理解程度:識別和補救偏誤

識別偏誤

在「練習 #1:探索模型」中,您已確認模型將含有身分字詞的留言分類為惡意內容。哪些指標可以解釋造成這種偏見的原因? 請參考下列選項。
準確率

準確率會測量正確總預測結果的百分比,也就是預測結果真陽性或真陰性預測結果的百分比。比較不同子群組的準確率 (例如不同性別受眾特徵) 之後,我們就能評估模型在每個群組的相對成效,並評估偏誤對模型的影響。

然而,由於準確率會將匯總結果視為正確和不正確的預測結果,因此無法區分兩種正確的預測結果和兩種不正確的預測結果。如果單憑準確率,我們就無法判斷真陽性、真偽、偽陽性和偽陰性等個別因素,藉此深入分析偏見來源。

偽陽率

偽陽率 (FPR) 是系統誤遭歸類為陽性 (惡意留言) 的實際陰性示例 (無惡意留言) 的百分比。FPR 是模型偏誤的「影響」指標。我們在比較不同子群組的 FPR 時 (例如不同性別客層),發現相較於不含這些字詞的留言,包含性別認同字詞的文字留言較有可能遭誤認為惡意 (偽陽性)。

不過,我們想要評估偏誤的影響程度,而是想瞭解造成偏見的原因。 因此,我們需要進一步瞭解 FPR 公式的輸入資料。

實際陰性和實際正數
在這個模型的訓練和測試資料集中, 實際正值是指含有惡意留言的示例,而 實際陰性則包含所有非惡意性質的留言。由於身分字詞本身不會有負面影響,因此我們預期會有特定身分字詞達到一定數量的實際負面評論和正面評價。如果發現真實負面情形的數量不成比例,就會告訴我們模型沒有太多範例在正面或中立情境中使用的身分字詞。在這種情況下,模型可能會學習身分字詞與惡意性之間的關聯。
喚回度
喚回度是指實際陽性預測結果正確分類為陽性的百分比。這項指標會指出模型成功偵測到的惡意留言百分比。我們考量了與偽陽性 (遭歸類為惡意留言的無惡意留言) 相關的偏誤,因此召回未針對這個問題提供任何深入分析。

修復偏見

如要修正運動 #1運動 #2 中使用的訓練資料偏誤,以下何者可能是有效的方法?請參考下列選項。
在訓練集中,新增更多含有身分字詞的負面 (無惡意) 樣本。
新增更多包含身分字詞的負面示例 (留言實際上是無惡意的),將有助於平衡訓練集。接著,模型將可觀察用於惡意和非惡意情境的身分字詞,以便瞭解這些字詞本身與中立性無異。
在訓練集內新增更多含有身分字詞的正向 (惡意) 樣本。
含有身分字詞的樣本部分已過度呈現毒品示例。如果我們將更多範例新增至訓練集,實際上只會分析現有的偏誤,而不會修正。
將不含身分字詞的負面 (無惡意) 樣本新增至訓練集。
身分字詞在負面示例中已遭到低估。如果新增更多不含身分字詞的負面示例,則可能導致這種不平衡的情況,也無法修復偏誤。
在訓練集裡新增更多不含身分字詞的正向 (惡意) 樣本。

現在,即使在沒有身分字詞的情況下加入更多正面樣本,也有助於破壞模型先前學習到的身分字詞與惡意內容之間的關聯。

評估偏誤

您已從頭開始訓練自己的文字惡意分類器,您的工程團隊計劃採用該工具,自動隱藏歸類為惡意留言的留言。您擔心性別相關留言若帶有惡意的特質,可能會導致性別相關言論遭抑制,並希望在分類器的預測結果中評估性別相關偏見。您應使用以下哪些指標來評估模型?請參考下列選項。
偽陽率 (FPR)
在實際工作環境中,系統會使用該模型自動略過正向 (惡意) 的預測結果。您的目標是確保模型不會因性別相關留言而略過的無惡意留言 (模型遭誤認為惡意留言) 高於整體評論的程度。您可以比較性別子群組的 FPR 與整體 FPR,藉此評估使用案例的偏誤補救措施。
偽負率 (FNR)
FNR 會測量模型將正類分類錯誤 (這裡即「惡意」) 為負類別 (「無毒」) 的比率。針對這個用途,您可以透過這項資訊瞭解實際遭篩除註解的實際回應率,並向使用者顯示。在這裡,您主要關心的是如何抑制無毒的論文呈現偏見。FNR 不會針對這項模型效能的維度提供任何深入分析資訊。
準確率
準確率會測量模型預測結果的正確百分比,並以相反的方式評估預測結果錯誤的百分比。就這個用途而言,準確率會指出篩選器抑制的無毒言論或表現有毒的言論的可能性。你主要關心的是前問題,不是後段問題。準確率不足,因此無法在此評估兩個問題,因此並不是理想的評估指標。
AUC
AUC 可以提供模型預測能力的絕對評估結果。建議使用這項指標來評估整體效能。不過,您對留言抑制率特別有疑慮,且 AUC 無法直接深入瞭解這個問題。
你的團隊已加入內容管理員,產品管理員已決定變更分類器的部署方式。篩選軟體不會自動將歸類為惡意留言的留言歸類為惡意留言,並將這類留言送交內容審核人員進行審查,由於人工審查員會審查標示為惡意留言,因此不會再以內容抑制的形式列出偏見。您現在可能想要使用下列哪一項指標測量偏誤以及偏誤補救措施的影響?請參考下列選項。
偽陽率 (FPR)
偽陽率會顯示遭誤判為惡意留言的百分比。由於現在是由真人管理員稽核模型標籤「有毒」,且應能找出大部分的誤判情形,因此 FPR 已不再是主要考量。
偽負率 (FNR)
雖然人工審查員會審核所有標示為「惡意」的留言,確保不會抑制偽陽性的留言,但不會審核標為「無惡意」的留言。這麼做可避免因偽陰性而產生偏見。您可以使用 FNR (分類為負值的實際正向百分比) 有條理地評估性別分子群組的有毒性商品是否比整體評論被標示為無惡意內容。
精確度
精確度代表實際陽性的正向預測百分比 (在本例中為正確的「惡意」預測百分比)。由於人工審查員會稽核所有「惡意」預測結果,因此您不需要將精準度設為主要評估指標。
喚回度
「喚回度」可讓您瞭解已正確分類的實際正向百分比。您可以根據這個值掌握分類錯誤的實際正面結果百分比 (1、喚回度)。這項指標有助於評估性別相關惡意留言與整體留言的分類錯誤是否比例。