分類: 適合率と再現率

適合率

適合率は、次の質問に答えようとします。

陽性と特定されたもののうち、実際に陽性だった割合はいくつか。

適合率は次のように定義される:

$$\text{Precision} = \frac{TP}{TP+FP}$$

腫瘍を分析する前のセクションから、ML モデルの精度を計算してみましょう。

真陽性(TP): 1 偽陽性(FP): 1
偽陰性(FN): 8 真陰性(TN): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

このモデルの精度は 0.5 です。つまり、腫瘍が悪性であると予測すると、50% の確率で正確になります。

再現率

再現率は、次の質問に答えようとします。

実際に陽性だったもののうち、陽性と正しく特定された割合はいくつか。

数学的に、再現率は次のように定義される:

$$\text{Recall} = \frac{TP}{TP+FN}$$

腫瘍分類器の再現率を計算してみましょう。

真陽性(TP): 1 偽陽性(FP): 1
偽陰性(FN): 8 真陰性(TN): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

このモデルの再現率は 0.11 です。つまり、すべての悪性腫瘍の 11% を正しく識別しているということです。

適合率と再現率: 戦争の引き寄せ

モデルの有効性を完全に評価するには、適合率と再現率の両方を調査する必要があります。残念ながら、適合率と再現率は緊張状態にあります。つまり、適合率を向上させると、一般的に再現率が低下します(その逆も同様です)。下の図を見ると、この考え方を確認できます。メール分類モデルによって行われた 30 個の予測を示しています。分類しきい値の右側は「スパム」に分類され、左側は「迷惑メールではない」と分類されます。

30 の例が配置された 0 から 1.0 までの数字行。

図 1. メールのメッセージを迷惑メールと分類しない。

図 1 に示す結果に基づいて、適合率と再現率を計算します。

真陽性(TP): 8 偽陽性(FP): 2
偽陰性(FN): 3 真陰性(TN): 17

適合率は、スパムとして報告されたメールのうち、正しく分類されたものの割合を示します。つまり、図 1 でしきい値しきい値の右側に緑色の点が表示されていた割合です。

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

再現率は、実際に迷惑メールとして分類された割合です。つまり、図 1 のしきい値の線の右側に緑色のドットが表示されます。

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

図 2 は、分類しきい値を上げた場合の影響を示しています。

同じ例のセット。ただし、分類のしきい値はわずかに増加した。30 件中 2 件の例が再分類されました。

図 2. 分類しきい値を上げる。

偽陽性の数は減りますが、偽陰性は増加します。その結果、適合率は向上し、再現率は低下します。

真陽性(TP): 7 誤検出(FP): 1
偽陰性(FN): 4 真陰性(TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

逆に、図 3 は、分類しきい値を小さくした場合の影響を図 3 に示します(図 1 の元の位置から)。

同じ例。分類のしきい値は減少しています。

図 3. 分類しきい値を引き下げています。

偽陽性は増加し、偽陰性は減少します。その結果、適合率が低下し、再現率が向上します。

真陽性(TP): 9 誤検出(FP): 3
偽陰性(FN): 2 真陰性(TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

適合率と再現率の両方に依存するさまざまな指標が開発されています。例については、F1 スコアをご覧ください。