真陽性、偽陽性、真陰性和偽陰性可用於計算多項實用指標,以評估模型。最有意義的評估指標取決於特定模型和特定工作、不同誤分類的成本,以及資料集是否平衡。
本節中的所有指標都是以單一固定門檻計算,門檻變更時,指標也會隨之變更。使用者通常會調整門檻,以最佳化其中一項指標。
準確率
準確率是指所有分類中正確的比例,無論是正向或負向。數學定義如下:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
在垃圾郵件分類範例中,準確率會測量所有電子郵件中正確分類的比例。
如果模型完全沒有誤判或疏漏,準確度就是 1.0 或 100%。
因為準確率會納入混淆矩陣中的所有四種結果 (TP、FP、TN、FN),所以如果資料集平衡,且兩個類別中的範例數量相近,準確率就能做為模型品質的粗略指標。因此,對於執行一般或未指定工作的通用或未指定模型,這項指標通常是預設的評估指標。
不過,如果資料集不平衡,或某種錯誤 (FN 或 FP) 的代價高於另一種錯誤 (大多數實際應用程式都是如此),最好改為針對其他其中一項指標進行最佳化。
如果資料集嚴重不平衡,某個類別出現的頻率極低 (例如 1%),即使模型每次都預測為負值,準確率仍可達到 99%,但實際上毫無用處。
召回率或真陽率
真陽率 (TPR) 是指所有實際正類中,正確分類為正類的比例,也稱為召回率。
召回率的數學定義如下:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
偽陰性是指實際為正類,但誤判為負類的項目,因此會出現在分母中。以垃圾郵件分類為例,召回率會測量正確分類為垃圾郵件的垃圾郵件比例。因此,召回率的另一個名稱是「偵測機率」,因為它會回答「這個模型偵測到的垃圾郵件比例是多少?」這個問題。
假設模型完全正確,則偽陰性結果為零,因此召回率 (TPR) 為 1.0,也就是說偵測率為 100%。
在實際正向數量極低的失衡資料集中,召回率是比準確度更有意義的指標,因為它衡量的是模型正確識別所有正向例項的能力。以疾病預測等應用程式為例,正確識別陽性病例至關重要。偽陰性結果通常比偽陽性結果更嚴重。如需比較喚回率和準確度指標的具體範例,請參閱喚回率定義中的附註。
偽陽率
偽陽率 (FPR) 是指所有實際為負的樣本中,錯誤分類為正的比例,也稱為誤報機率。數學定義如下:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
偽陽性是遭誤判的實際負類,因此會出現在分母中。以垃圾郵件分類為例,FPR 會測量遭誤判為垃圾郵件的合法電子郵件比例,也就是模型的誤報率。
如果模型完全正確,偽陽性結果就會是零,因此偽陽率為 0.0,也就是說,誤報率為 0%。
對於不平衡的資料集,FPR 通常是比準確率更具參考價值的指標。不過,如果實際負面結果數量極少,FPR 可能不是理想的選擇,因為這項指標的波動性較高。舉例來說,如果資料集中只有四個實際負值,一個誤分類會導致 FPR 為 25%,而第二個誤分類則會使 FPR 跳升至 50%。在這種情況下,精確度 (下文會說明) 可能會是更穩定的指標,有助於評估偽陽性造成的影響。
精確度
精確度 是指模型所有正向分類中,實際為正向的比例。數學定義如下:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
在垃圾郵件分類範例中,精確度會衡量歸類為垃圾郵件的電子郵件中,實際為垃圾郵件的比例。
假設模型完美無缺,偽陽性結果為零,因此精確度為 1.0。
在不平衡的資料集中,如果實際正向結果的數量非常少 (例如總共只有 1 到 2 個),精確度做為指標的意義和實用性就會降低。
偽陽性減少時,精確度會提高;偽陰性減少時,召回率會提高。但如上一節所述,提高分類門檻通常會減少偽陽性,並增加偽陰性,而降低門檻則會產生相反的效果。因此,精確度和召回率通常呈現反向關係,也就是說,其中一項指標的改善會導致另一項指標變差。
親自試試看:
選擇指標和取捨
評估模型和選擇門檻時,您優先考量的指標取決於特定問題的成本、效益和風險。以垃圾郵件分類為例,優先考量召回率 (找出所有垃圾郵件) 或準確率 (確保標示為垃圾郵件的郵件確實是垃圾郵件),或是在達到最低準確率的情況下,兼顧這兩項指標,通常是合理的做法。
| 指標 | 指引 |
|---|---|
| 準確率 | 對於平衡的資料集,可用於大致瞭解模型訓練進度/收斂情形。 如要評估模型成效,請務必搭配其他指標使用。 避免用於不平衡的資料集。建議改用其他指標。 |
| 喚回率 (真陽率) |
如果偽陰性造成的損失大於偽陽性,請使用這項指標。 |
| 偽陽率 | 如果偽陽性的代價高於偽陰性,請使用這項指標。 |
| 精確度 | 如果正向預測的準確度非常重要,請使用這項指標。 |