로지스틱 회귀

로지스틱 회귀정확히 0 또는 1을 예측하는 대신 확률(0과 1 사이의 값, 0과 1은 제외)을 생성합니다. 스팸 감지의 로지스틱 회귀 모델을 예로 들어보겠습니다. 모델이 특정 이메일 메시지에서 추론한 값이 0.932이면 이메일 메시지가 스팸일 확률이 0.932입니다. 더 정확히 말하면 무한히 학습할 경우 모델이 0.932로 예측했다면 그 데이터의 93.2%가 실제로 스팸이고 나머지 6.8%가 스팸이 아님을 의미합니다.

로지스틱 회귀

  • 구부러진 동전의 앞면이 나올 확률을 예측하는 문제를 생각해보세요.
  • 구부러진 각도, 동전의 질량 등의 특성을 사용할 수 있습니다.
  • 사용할 수 있는 가장 단순한 모델은 어떤 모델인가요?
  • 어떤 문제가 발생할 수 있나요?
구부러진 동전 2개
  • 많은 문제에 확률 추정치가 출력으로 필요합니다.
  • 로지스틱 회귀를 입력합니다.
  • 많은 문제에 확률 추정치가 출력으로 필요합니다.
  • 로지스틱 회귀를 입력합니다.
  • 확률 추정치가 보정되므로 편리합니다.
    • 예를 들어 p(주택 판매) * 가격 = 예상 결과
  • 많은 문제에 확률 추정치가 출력으로 필요합니다.
  • 로지스틱 회귀를 입력합니다.
  • 확률 추정치가 보정되므로 편리합니다.
    • 예를 들어 p(주택 판매) * 가격 = 예상 결과
  • 이진 분류가 필요한 경우에도 유용합니다.
    • 스팸인가요, 스팸이 아닌가요? → p(스팸)

$$ y' = \frac{1}{1 + e^{-(w^Tx+b)}} $$

\(\text{위의 경우,} \) \(x\text{: 익숙한 선형 모델을 제공합니다}\) \(1+e^{-(...)}\text{: 시그모이드를 적용합니다}\)

로지스틱 방정식의 그래프

$$ LogLoss = \sum_{(x,y)\in D} -y\,log(y') - (1 - y)\,log(1 - y') $$

LogLoss 방정식
  • 정규화는 로지스틱 회귀에 매우 중요합니다.
    • 점근선을 기억하세요.
    • 고차원에서 계속 손실을 0으로 만들려고 시도합니다.
  • 정규화는 로지스틱 회귀에 매우 중요합니다.
    • 점근선을 기억하세요.
    • 고차원에서 계속 손실을 0으로 만들려고 시도합니다.
  • 두 전략은 다음과 같은 상황에 특히 유용합니다.
    • L2 정규화(L2 가중치 감소라고도 함): 아주 큰 가중치에 페널티를 줍니다.
    • 조기 중단: 학습 단계 또는 학습률을 제한합니다.
  • 선형 로지스틱 회귀는 매우 효율적입니다.
    • 학습 및 예측 시간이 매우 빠릅니다.
    • 짧고 뚱뚱한 모델이 RAM을 많이 사용합니다.