로지스틱 회귀: 손실 및 정규화

로지스틱 회귀의 손실 함수

선형 회귀의 손실 함수는 제곱 손실입니다. 로지스틱 회귀의 손실 함수는 로그 손실이며, 다음과 같이 정의됩니다.

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

각 매개변수는 다음과 같습니다.

  • \((x,y)\in D\) 는 라벨이 지정된 많은 예( \((x,y)\) 쌍)가 포함된 데이터 세트입니다.
  • \(y\) 는 라벨이 지정된 예의 라벨입니다. 로지스틱 회귀이므로 \(y\) 의 모든 값은 0 또는 1이어야 합니다.
  • \(y'\) 은 \(x\)의 특성 집합을 고려하여 예측 값 (0~1 사이의 값)입니다.

로지스틱 회귀의 정규화

정규화는 로지스틱 회귀 모델링에 매우 중요합니다. 정규화하지 않으면 로지스틱 회귀의 점근성 특성으로 인해 고차원에서 손실이 계속 0이 됩니다. 결과적으로 대부분의 로지스틱 회귀 모델은 다음 두 전략 중 하나를 사용하여 모델 복잡도를 완화합니다.

  • L2 정규화
  • 조기 중단, 즉 학습 단계 수 또는 학습률을 제한합니다.

(세 번째 전략인 L1 정규화에 대해서는 후속 모듈에서 살펴보겠습니다.)

각 예시에 고유 ID를 할당하고 각 ID를 자체 특성에 매핑한다고 가정해 보겠습니다. 정규화 함수를 지정하지 않으면 모델이 완전히 과적합됩니다. 모델이 모든 예시에서 손실을 0으로 만들려고 하지 않고 결코 0이 되지 않도록 하여 각 지표 특성의 가중치를 +무한대 또는 -무한대로 늘리기 때문입니다. 이는 각각 하나의 예시에서만 발생하는 희귀한 교차가 매우 많을 때 특성 교차가 있는 고차원 데이터에서 발생할 수 있습니다.

다행히 L2 또는 조기 중단을 사용하면 이러한 문제가 발생하지 않습니다.