분류: 정밀도와 재현율

정밀도

정밀도는 다음 질문에 답하고자 합니다.

양성으로 식별된 사례 중 실제로 양성이었던 사례의 비율은 어느 정도인가요?

정밀도는 다음과 같이 정의됩니다.

$$\text{정밀도} = \frac{TP}{TP+FP}$$

이전 섹션에서 사용한 종양을 분석하는 ML 모델의 정밀도를 계산해 보겠습니다.

참양성(TP): 1 거짓양성(FP): 1
거짓음성(FN): 8 참음성(TN): 90
$$\text{정밀도} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

이 모델의 정밀도는 0.5입니다. 즉, 이 모델에서 어떤 종양이 악성일 것이라고 평가했을 때, 이 평가가 정확할 확률은 50%입니다.

재현율

재현율은 다음 질문에 답하고자 합니다.

실제 양성 중 정확히 양성이라고 식별된 사례의 비율은 어느 정도인가요?

수학적으로 재현율은 다음과 같이 정의됩니다.

$$\text{재현율} = \frac{TP}{TP+FN}$$

종양 분류 모델의 재현율을 계산해 보겠습니다.

참양성(TP): 1 거짓양성(FP): 1
거짓음성(FN): 8 참음성(TN): 90
$$\text{재현율} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

이 모델의 재현율은 0.11입니다. 즉, 이 모델에서는 모든 악성 종양 중 11%가 정확하게 식별됩니다.

정밀도 및 재현율: 줄다리기

모델의 효과를 완전히 평가하려면 정밀도와 재현율을 모두 검사해야 합니다. 그런데 정밀도와 재현율은 서로 상충하는 관계에 있는 경우가 많습니다. 즉, 정밀도가 향상되면 대개 재현율이 감소되고 반대의 경우도 마찬가지입니다. 이메일 분류 모델로 만든 예측 30개를 보여주는 다음 그림에서 이 개념을 살펴보겠습니다. 분류 임계값 오른쪽에 있는 메일은 '스팸'으로 분류되는 반면 왼쪽에 있는 메일은 '스팸 아님'으로 분류됩니다.

30개의 예제가 배치된 0에서 1.0까지의 숫자 선입니다.

그림 1. 스팸 또는 스팸 아님으로 이메일 분류하기

그림 1에 표시된 결과를 토대로 정밀도와 재현율을 계산해 보겠습니다.

참 양성(TP): 8 허위 양성(FP): 2
허위 음성(FN): 3 참 음성(TN): 17

정밀도는 정확하게 분류된 스팸으로 신고된 이메일의 비율, 즉 임계값 선 오른쪽에 있으며 그림 1에 초록색으로 표시된 점의 비율을 측정합니다.

$$\text{정밀도} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

재현율은 정확하게 분류된 실제 스팸 이메일의 비율, 즉 그림 1에서 임계값 선 오른쪽에 있는 초록색 점의 비율을 측정합니다.

$$\text{재현율} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

그림 2는 분류 임계값 증가의 효과를 보여줍니다.

동일한 예제 세트를 사용했지만 분류 임계값이 약간 증가했습니다. 30개 예제 중 2개가 재분류되었습니다.

그림 2. 분류 임계값 증가

허위 양성(FP)수는 감소하지만 허위 음성(FN)수는 증가합니다. 따라서 정밀도는 증가하는 반면 재현율은 감소합니다.

참 양성(TP): 7 허위 양성(FP): 1
허위 음성(FN): 4 참 음성(TN): 18
$$\text{정밀도} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{재현율} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

이와 반대로 그림 3은 그림 1의 원래 위치로부터 분류 임계값이 감소하는 효과를 보여줍니다.

동일한 예제 세트를 사용했지만 분류 임계값이 감소했습니다.

그림 3. 분류 임계값 감소

허위 양성(FP)이 증가하고 허위 음성(FN)은 감소합니다. 따라서 이번에는 정밀도가 감소하고 재현율이 증가합니다.

참 양성(TP): 9 허위 양성(FP): 3
허위 음성(FN): 2 참 음성(TN): 16
$$\text{정밀도} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{재현율} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

정밀도와 재현율을 모두 사용하는 다양한 측정항목이 개발되어 왔습니다. 예를 보려면 F1 점수를 참조하세요.