분류

이 모듈에서는 분류 작업에 로지스틱 회귀를 사용하는 방법을 보여주고 분류 모델의 효과를 평가하는 방법을 살펴봅니다.

분류

  • 확률 결과에 로지스틱 회귀를 사용하기도 하는데, 이 회귀의 형태는 (0, 1)입니다.
  • 다른 경우 별개의 이진 분류 값에 임계값을 설정합니다.
  • 임계값 선택은 중요하며 값을 조정할 수 있습니다.
  • 분류 모델을 어떻게 평가해야 할까요?
  • 분류 모델을 어떻게 평가해야 할까요?
  • 가능한 한 가지 측정 방법: 정확성
    • 올바른 예측의 비율
  • 대부분의 경우 정확성은 잘못되거나 오해하기 쉬운 측정항목입니다.
    • 다양한 종류의 실수에 여러 비용이 소요되는 경우가 많습니다.
    • 대표적인 경우로 양성이나 음성이 거의 없는 클래스 불균형을 들 수 있습니다.
  • 클래스 불균형 문제의 경우 다양한 종류의 오류를 분리하는 데 유용합니다.
TP
우리는 늑대가 나타났다고 올바로 외쳤습니다.
우리는 마을을 구했습니다.

FP
오류: 우리는 늑대가 나타났다고 허위로 외쳤습니다.
모두 우리에게 화를 냈습니다.

FN
늑대가 있었지만 우리는 늑대를 발견하지 못했습니다. 늑대가 닭을 모두 잡아먹었습니다.
TN
늑대도 없고 경고도 없었습니다.
모두 괜찮습니다.

  • 정밀도: (참 양성(TP)) / (모든 양성 예측)
    • 모델이 '양성' 클래스로 나타났을 때 결과가 옳았나요?
    • 직관: 모델이 '늑대다'라고 너무 자주 외쳤나요?
  • 정밀도: (참 양성(TP)) / (모든 양성 예측)
    • 모델이 '양성' 클래스로 나타났을 때 결과가 옳았나요?
    • 직관: 모델이 '늑대다'라고 너무 자주 외쳤나요?
  • 재현율: (참 양성(TP)) / (실제 양성 모두)
    • 모든 양성 가능성 중에서 모델이 몇 개나 정확히 식별했나요?
    • 직관: 모델에서 놓친 늑대가 있나요?

아래 옵션을 살펴보세요.

이메일을 '스팸'과 '스팸 아님', 두 카테고리로 구분하는 분류 모델을 가정해 보겠습니다. 분류 임계값을 올리면 정밀도는 어떻게 될까요?
확실히 증가합니다.
분류 임계값을 올리면 대개 정밀도가 증가합니다. 하지만 정밀도는 임계값 증가에 따라 일정하게 증가하지는 않습니다.
아마도 증가할 것입니다.
일반적으로 분류 임계값을 올리면 거짓양성(FP)이 감소하므로 정밀도가 높아집니다.
아마도 감소할 것입니다.
일반적으로 분류 임계값을 올리면 거짓양성(FP)이 감소하므로 정밀도가 높아집니다.
확실히 감소합니다.
일반적으로 분류 임계값을 올리면 거짓양성(FP)이 감소하므로 정밀도가 높아집니다.

각 점은 하나의 결정 임계값에 있는 참양성(TP)과 거짓양성(FP) 비율입니다.

ROC 곡선은 다양한 분류 임계값의 참 양성(TP) 비율과 허위 양성(FP) 비율을 보여주는 하나의 곡선을 표시합니다.
  • AUC: 'ROC 곡선 아래 영역'
  • AUC: 'ROC 곡선 아래 영역'
  • 해석:
    • 임의의 양성 예측과 임의의 음성 예측을 선택할 때 내 모델이 정확한 순서로 순위를 매길 확률이 얼마나 될까요?
  • AUC: 'ROC 곡선 아래 영역'
  • 해석:
    • 임의의 양성 예측과 임의의 음성 예측을 선택할 때 내 모델이 정확한 순서로 순위를 매길 확률이 얼마나 될까요?
  • 직관: 가능한 모든 분류 임계값에서 집계된 성능의 집계 측정값을 제공합니다.
  • 로지스틱 회귀 예측은 편향되지 않아야 합니다.
    • 예측 평균 == 관찰 평균
  • 로지스틱 회귀 예측은 편향되지 않아야 합니다.
    • 예측 평균 == 관찰 평균
  • 편향을 보면 시스템의 상태를 판단할 수 있습니다.
    • 편향이 0이라고 해서 시스템 전체가 완벽하다는 것을 의미하지 않습니다.
    • 하지만 상태를 확인하는 데 매우 유용합니다.
  • 편향이 있으면 문제가 발생합니다.
    • 특성 세트가 불완전한가요?
    • 파이프라인에 결함이 있나요?
    • 학습 샘플이 편향적인가요?
  • 편향은 캘리브레이션 레이어에서 수정하지 말고 모델에서 수정하세요.
  • 데이터 내에서 편향을 찾으세요. 그러면 개선할 수 있습니다.
캘리브레이션 플롯