분류

이 모듈에서는 분류 작업에 로지스틱 회귀를 사용하는 방법을 보여주고 분류 모델의 효과를 평가하는 방법을 살펴봅니다.

분류

  • 확률 출력에 로지스틱 회귀를 사용하는 경우도 있습니다. 이 값은 (0, 1)에서 회귀한 것입니다.
  • 다른 경우 이진 이진 분류 값을 임곗값으로 적용합니다.
  • 임곗값 선택은 중요한 선택이며 조정할 수 있습니다.
  • 분류 모델은 어떻게 평가하나요?
  • 분류 모델은 어떻게 평가하나요?
  • 가능한 측정 방법: 정확성
    • 예측에서 정확하게 예측한 부분
  • 대부분의 경우 정확성은 나쁘거나 오해의 소지가 있는 측정항목입니다.
    • 대부분의 경우 실수마다 비용이 다르기 때문입니다.
    • 일반적인 사례에는 양성이나 음성이 매우 드문 클래스 불균형이 포함됩니다.
  • 클래스 불균형 문제의 경우 다양한 종류의 오류를 분리하는 데 유용합니다.
참양성
늑대라고 부르는 것은 올바른 행동입니다.
우리는 마을을 구했습니다.

거짓양성
오류: 늑대를 거짓으로 호출했습니다.
우리 모두에게 화가 나네요.

거짓음성
늑대는 있었지만 우리는 찾지 못했습니다. 모든 닭을 먹었습니다.
참음성
늑대도, 경보도 없습니다.
누구나 괜찮습니다.

  • 정밀도: (참양성) / (모든 양성 예측)
    • 모델이 '긍정적인' 클래스를 말할 때 맞았나요?
    • 직관: 모델이 '늑대'를 너무 자주 울었나요?
  • 정밀도: (참양성) / (모든 양성 예측)
    • 모델이 '긍정적인' 클래스를 말할 때 맞았나요?
    • 직관: 모델이 '늑대'를 너무 자주 울었나요?
  • 재현율: (참양성 수) / (모든 실제 양성 수)
    • 가능한 모든 양성 중에서 모델이 정확히 몇 개를 식별했나요?
    • 직관: 늑대를 놓친 적이 있나요?

아래 옵션을 살펴보세요.

이메일을 '스팸'과 '스팸 아님', 두 가지 카테고리로 분류하는 분류 모델을 살펴보겠습니다. 분류 임곗값을 높이면 정밀도는 어떻게 될까요?
확실히 증가합니다.
분류 임곗값을 높이면 일반적으로 정밀도가 높아집니다. 하지만 임곗값이 올라가면 정밀도가 단조롭게 증가한다는 보장이 없습니다.
증가할 수 있습니다.
일반적으로 분류 임곗값을 높이면 거짓양성이 감소하므로 정밀도가 높아집니다.
감소한 것 같습니다.
일반적으로 분류 임곗값을 높이면 거짓양성이 감소하므로 정밀도가 높아집니다.
확실히 감소합니다.
일반적으로 분류 임곗값을 높이면 거짓양성이 감소하므로 정밀도가 높아집니다.

각 포인트는 하나의 결정 임곗값에서 TP 및 FP 비율입니다.

다양한 분류 임곗값에서 TP 비율과 FP 비율을 비교하여 보여주는 ROC 곡선입니다.
  • AUC: 'ROC 곡선 아래 영역'
  • AUC: 'ROC 곡선 아래 영역'
  • 해석:
    • 임의의 양성 예측과 임의의 음성 예측을 선택했을 때 내 모델이 올바른 순서로 순위가 지정될 확률은 얼마나 될까요?
  • AUC: 'ROC 곡선 아래 영역'
  • 해석:
    • 임의의 양성 예측과 임의의 음성 예측을 선택했을 때 내 모델이 올바른 순서로 순위가 지정될 확률은 얼마나 될까요?
  • 직관: 가능한 모든 분류 임곗값에서 집계된 성능의 집계 측정 제공
  • 로지스틱 회귀 예측은 편향되지 않아야 합니다.
    • 예측 평균 == 관찰 평균
  • 로지스틱 회귀 예측은 편향되지 않아야 합니다.
    • 예측 평균 == 관찰 평균
  • 편향은 카나리아 방식입니다.
    • 편향이 0이라고 해서 시스템 내의 모든 것이 완벽하다고는 할 수 없습니다.
    • 하지만 상태를 확인하는 데 좋습니다.
  • 편향이 있으면 문제가 발생합니다.
    • 특성 세트가 불완전한가요?
    • 파이프라인에 버그가 있나요?
    • 학습 샘플이 편향되었나요?
  • 보정 레이어로 편향을 보정하지 말고 모델에서 수정하세요.
  • 데이터 내에서 편향을 찾으세요. 그러면 개선할 수 있습니다.
보정 차트