로지스틱 회귀: 모델 학습

로지스틱 회귀의 손실 함수

선형 회귀의 손실 함수는 제곱 손실입니다. 로지스틱 회귀의 손실 함수는 로그 손실로 다음과 같이 정의됩니다.

$$로그 손실 = \sum_{(x,y)\in D} -ylog(y') - (1 - y)log(1 - y')$$

여기서

  • (x,y)∈D는 라벨이 있는 예(x,y 쌍)가 많이 포함된 데이터 세트입니다.
  • y는 라벨이 있는 예의 라벨입니다. 로지스틱 회귀이므로 y 값은 모두 0 또는 1이어야 합니다.
  • y'x의 특성 세트에 대한 예측 값(0~1 사이의 값)입니다.

로그 손실 방정식은 정보 이론에서 말하는 섀넌의 엔트로피 측정과 밀접한 관련이 있습니다. 또한 우도 함수의 음의 로그로 yBernoulli 분포를 가정합니다. 실제로 손실 함수를 최소화하면 최대 우도 추정치가 생성됩니다.

로지스틱 회귀의 정규화

정규화는 로지스틱 회귀 모델링에서 매우 중요합니다. 정규화하지 않으면 로지스틱 회귀의 점근 특성이 고차원에서 계속 손실을 0으로 만들려고 시도합니다. 결과적으로 대부분의 로지스틱 회귀 모델에서 모델 복잡성을 줄이기 위해 다음 두 전략 중 하나를 사용합니다.

  • L2 정규화
  • 조기 중단, 즉 학습 단계 수 또는 학습률을 제한합니다.

세 번째 전략인 L1 정규화에 관해서는 후속 모듈에서 설명하겠습니다.

각 예에 고유 ID를 할당하고 각 ID를 자체 특성에 매핑한다고 가정합니다. 정규화 함수를 지정하지 않으면 모델이 완전히 과적합됩니다. 모델이 모든 예에서 손실을 0으로 만들려고 하지만 0으로 만들지 않아 각 표시 특성의 가중치를 +무한대 또는 -무한대로 만들기 때문입니다. 한 예에서 하나만 발생하는 드문 교차가 아주 많은 경우 특성 교차가 포함된 고차원 데이터에서 이러한 일이 발생할 수 있습니다.

다행히 L2나 조기 중단을 사용하면 이러한 문제가 발생하지 않습니다.