참양성, 거짓양성, 참음성, 거짓음성은 모델을 평가하는 데 유용한 여러 측정항목을 계산하는 데 사용됩니다. 가장 의미 있는 평가 측정항목은 특정 모델과 특정 작업, 다양한 잘못된 분류의 비용, 데이터 세트의 균형 여부에 따라 달라집니다.
이 섹션의 모든 측정항목은 단일 고정 기준에서 계산되며 기준이 변경되면 변경됩니다. 사용자는 이러한 측정항목 중 하나를 최적화하기 위해 기준점을 조정하는 경우가 많습니다.
정확성
정확도는 양성인지 음성인지에 관계없이 올바른 분류의 비율입니다. 수학적으로 다음과 같이 정의됩니다.
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
스팸 분류 예에서 정확도는 올바르게 분류된 모든 이메일의 비율을 측정합니다.
완벽한 모델은 거짓양성과 거짓음성이 0이므로 정확도는 1.0 또는 100%입니다.
혼동 행렬(TP, FP, TN, FN)의 네 가지 결과를 모두 통합하므로 균형 잡힌 데이터 세트가 주어지고 두 클래스의 예시 수가 비슷한 경우 정확도는 모델 품질의 대략적인 측정으로 사용될 수 있습니다. 이러한 이유로 일반적이거나 지정되지 않은 작업을 수행하는 일반적이거나 지정되지 않은 모델에 사용되는 기본 평가 측정항목인 경우가 많습니다.
하지만 데이터 세트가 불균형하거나 한 종류의 실수(FN 또는 FP)가 다른 실수보다 비용이 더 많이 드는 경우(대부분의 실제 애플리케이션에서 해당) 다른 측정항목 중 하나를 최적화하는 것이 좋습니다.
한 클래스가 매우 드물게(예: 1% 의 시간) 표시되는 심각하게 불균형한 데이터 세트의 경우 음성을 100% 예측하는 모델은 유용하지 않음에도 불구하고 정확도에서 99% 를 기록합니다.
재현율 또는 참양성률
참양성률 (TPR), 즉 양성으로 올바르게 분류된 모든 실제 양성의 비율은 재현율이라고도 합니다.
재현율은 수학적으로 다음과 같이 정의됩니다.
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
거짓음성은 음성으로 잘못 분류된 실제 양성이므로 분모에 표시됩니다. 스팸 분류 예에서 재현율은 스팸으로 올바르게 분류된 스팸 이메일의 비율을 측정합니다. 이러한 이유로 재현율의 다른 이름은 감지 확률입니다. '이 모델에서 감지한 스팸 이메일의 비율은 얼마인가요?'라는 질문에 답하기 때문입니다.
가상의 완벽한 모델에는 거짓음성이 없으므로 재현율 (TPR)이 1.0입니다. 즉, 감지율이 100% 입니다.
실제 양성 수치가 매우 낮은 불균형 데이터 세트에서는 모델이 모든 양성 인스턴스를 올바르게 식별하는 능력을 측정하므로 재현율이 정확도보다 더 의미 있는 측정항목입니다. 질병 예측과 같은 애플리케이션의 경우 양성 사례를 올바르게 식별하는 것이 중요합니다. 거짓음성은 일반적으로 거짓양성보다 더 심각한 결과를 초래합니다. 재현율과 정확도 측정항목을 비교하는 구체적인 예는 재현율 정의의 메모를 참고하세요.
거짓양성률
거짓양성률 (FPR)은 실제로 음성인 모든 항목 중 잘못 분류된 양성의 비율이며, 오경보 확률이라고도 합니다. 수학적으로 다음과 같이 정의됩니다.
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
거짓양성은 잘못 분류된 실제 음성이므로 분모에 표시됩니다. 스팸 분류 예에서 FPR은 스팸으로 잘못 분류된 정상 이메일의 비율, 즉 모델의 잘못된 알림 비율을 측정합니다.
완벽한 모델은 거짓양성이 0이므로 FPR이 0.0입니다. 즉, 거짓 경보율이 0% 입니다.
불균형 데이터 세트의 경우 일반적으로 FPR이 정확도보다 더 유용한 측정항목입니다. 하지만 실제 음성 샘플의 수가 매우 적은 경우 FPR은 변동성이 크기 때문에 이상적인 선택이 아닐 수 있습니다. 예를 들어 데이터 세트에 실제 음성 샘플이 4개만 있는 경우 잘못 분류된 샘플이 하나 있으면 FPR이 25%가 되지만 잘못 분류된 샘플이 두 개 있으면 FPR이 50%로 급증합니다. 이러한 경우 정밀도 (다음에 설명)가 거짓양성의 영향을 평가하는 데 더 안정적인 측정항목일 수 있습니다.
정밀도
정밀도는 실제로 양성인 모델의 모든 양성 분류의 비율입니다. 수학적으로 다음과 같이 정의됩니다.
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
스팸 분류 예에서 정밀도는 스팸으로 분류된 이메일 중 실제로 스팸인 이메일의 비율을 측정합니다.
가상의 완벽한 모델에는 거짓양성이 없으므로 정밀도는 1.0입니다.
실제 양성 수의 합계가 1~2개와 같이 매우 적은 불균형 데이터 세트에서는 정밀도가 측정항목으로서 의미가 적고 유용성이 떨어집니다.
거짓양성이 감소하면 정밀도가 향상되고 거짓음성이 감소하면 재현율이 향상됩니다. 하지만 이전 섹션에서 살펴본 것처럼 분류 기준점을 높이면 거짓양성 수가 감소하고 거짓음성 수가 증가하는 경향이 있으며, 기준점을 낮추면 그 반대의 효과가 나타납니다. 따라서 정밀도와 재현율은 종종 반비례 관계를 보여주며, 둘 중 하나를 개선하면 다른 하나가 악화됩니다.
직접 사용해 보세요.
측정항목 선택 및 트레이드 오프
모델을 평가하고 기준점을 선택할 때 우선순위를 지정할 측정항목은 특정 문제의 비용, 이점, 위험에 따라 달라집니다. 스팸 분류 예에서는 모든 스팸 이메일을 포착하는 재현율이나 스팸 라벨이 지정된 이메일이 실제로 스팸인지 확인하는 정밀도 또는 이 두 가지의 균형을 최소 정확도 수준 이상으로 우선시하는 것이 타당한 경우가 많습니다.
| 측정항목 | 가이드 |
|---|---|
| 정확성 | 균형 잡힌 데이터 세트의 모델 학습 진행률/수렴의 대략적인 지표로 사용합니다. 모델 성능의 경우 다른 측정항목과 함께만 사용하세요. 불균형 데이터 세트에는 피하세요. 다른 측정항목을 사용해 보세요. |
| 재현율 (참양성률) |
거짓음성이 거짓양성보다 비용이 많이 드는 경우에 사용합니다. |
| 거짓양성률 | 거짓양성이 거짓음성보다 비용이 많이 드는 경우에 사용합니다. |
| 정밀도 | 긍정적 예측이 정확해야 하는 것이 매우 중요한 경우 사용합니다. |