分類:準確率

「準確率」是用來評估分類模型的一項指標。非正式地,準確率是指模型中預測結果的正確比例。正式上來說,準確率定義如下:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

以二元分類來說,準確率也可以以正數和負數來計算,如下所示:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

其中 TP = True Positives、TN = True 負值,FP = False 正面,以及 FN = 偽陰性。

讓我們為下列模型分類準確率為 100 的「惡意性」(正類) 或「benign」(負面類別) 的準確率:

真陽性 (TP):
  • 實境性:惡意主義
  • 預測的機器學習模型:Malignant
  • TP 結果數量:1
偽陽性 (FP):
  • 實境秀:外語
  • 預測的機器學習模型:Malignant
  • FP 結果數量:1
偽陰性 (FN):
  • 實境性:惡意主義
  • 預測的機器學習模型:Benign
  • FN 結果數量:8
真陰性 (TN):
  • 實境秀:外語
  • 預測的機器學習模型:Benign
  • TN 結果數量:90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

準確率達 0.91 或 91% (共有 110 個正確樣本,共 91 個)。這意味著我們的口腔分類器非常擅長找出不失真的問題,對吧?

事實上,讓我們進一步分析正數和負向,以深入瞭解模型的效能。

在這 100 份腫瘤示例中,有 91 份是良性 (90 TN 和 1 FP ),9 則是不惡意的 (1 TP 和 8 FN)。

在 91 個良性腫瘤中,模型將 90 正確識別為良性。太好了!但是,在 9 個卵巢的親友中,模型只會將 1 視為正確的題材,結果雖然讓人難以置信,因為 9 名孕婦中有 8 人未經診斷!

雖然 91% 的準確率在乍看之下可能還不錯,但另一個穩定分類模型換句話說,如果模型的預測性特徵沒有零量凸顯性,結果就特別重要。

單獨使用準確率時,當您使用類別不平衡資料集 (如這類資料集) 有正向和負面標籤的數量之間存在顯著差異時,不必說完整故事。

在下一節中,我們會查看兩個更完善的指標,用於評估類別的不平衡問題:精確度和喚回度。