단순성을 위한 정규화: 람다

모델 개발자는 람다 (정규화율이라고도 함)라고 하는 스칼라를 곱하여 정규화 항의 전반적인 영향을 조정합니다. 즉, 모델 개발자는 다음을 수행하는 것을 목표로 합니다.

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

L2 정규화를 수행하면 모델에 다음과 같은 효과가 발생합니다.

  • 가중치 값을 0으로 유도 (정확히 0은 아님)
  • 정규(종 모양 또는 가우시안) 분포로 가중치 평균을 0으로 유도합니다.

람다 값을 늘리면 정규화 효과가 강화됩니다. 예를 들어 높은 람다 값의 가중치 히스토그램은 그림 2와 같을 수 있습니다.

평균이 0이고 정규 분포인 모델 가중치의 히스토그램입니다.

그림 2. 가중치 히스토그램

람다 값을 낮추면 그림 3과 같이 더 평평한 히스토그램이 생성되는 경향이 있습니다.

평평한 분포와 정규 분포 사이의 어딘가에 있는 평균이 0인 모델 가중치의 히스토그램입니다.

그림 3. 더 낮은 람다 값으로 생성된 가중치의 히스토그램

람다 값을 선택할 때 목표는 단순성과 학습 데이터 적합성 간에 적절한 균형을 맞추는 것입니다.

  • 람다 값이 너무 높으면 모델은 단순해지지만 데이터가 과소적합될 위험이 있습니다. 모델이 유용한 예측을 할 수 있을 만큼 학습 데이터에 대해 충분히 학습하지 못할 수 있습니다.

  • 람다 값이 너무 낮으면 모델이 더 복잡해지고 데이터가 과적합될 위험이 있습니다. 모델이 학습 데이터의 특이성에 대해 너무 많이 학습하므로 새 데이터에 일반화할 수 없습니다.

이상적인 람다 값은 이전에 본 적이 없는 새로운 데이터로 잘 일반화되는 모델을 생성합니다. 안타깝지만 이상적인 람다 값은 데이터에 따라 달라지므로 수동 또는 자동으로조정.