이 페이지는 Cloud Translation API를 통해 번역되었습니다.

단순성을 위한 정규화: 람다

모델 개발자는 람다 (정규화율이라고도 함)라고 하는 스칼라를 곱하여 정규화 항의 전반적인 영향을 조정합니다. 즉, 모델 개발자는 다음을 수행하는 것을 목표로 합니다.

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

L₂ 정규화를 수행하면 모델에 다음과 같은 효과가 발생합니다.

가중치 값을 0으로 유도 (정확히 0은 아님)
정규(종 모양 또는 가우시안) 분포로 가중치 평균을 0으로 유도합니다.

람다 값을 늘리면 정규화 효과가 강화됩니다. 예를 들어 높은 람다 값의 가중치 히스토그램은 그림 2와 같을 수 있습니다.

그림 2. 가중치 히스토그램

람다 값을 낮추면 그림 3과 같이 더 평평한 히스토그램이 생성되는 경향이 있습니다.

평평한 분포와 정규 분포 사이의 어딘가에 있는 평균이 0인 모델 가중치의 히스토그램입니다.

그림 3. 더 낮은 람다 값으로 생성된 가중치의 히스토그램

람다 값을 선택할 때 목표는 단순성과 학습 데이터 적합성 간에 적절한 균형을 맞추는 것입니다.

람다 값이 너무 높으면 모델은 단순해지지만 데이터가 과소적합될 위험이 있습니다. 모델이 유용한 예측을 할 수 있을 만큼 학습 데이터에 대해 충분히 학습하지 못할 수 있습니다.
람다 값이 너무 낮으면 모델이 더 복잡해지고 데이터가 과적합될 위험이 있습니다. 모델이 학습 데이터의 특이성에 대해 너무 많이 학습하므로 새 데이터에 일반화할 수 없습니다.

이상적인 람다 값은 이전에 본 적이 없는 새로운 데이터로 잘 일반화되는 모델을 생성합니다. 안타깝지만 이상적인 람다 값은 데이터에 따라 달라지므로 수동 또는 자동으로조정.

더하기 아이콘을 클릭하여 L₂ 정규화와 학습률에 대해 알아보세요.

학습률과 람다는 밀접한 관련이 있습니다. 강력한 L₂ 정규화 값은 특성 가중치를 0에 가깝게 유도하는 경향이 있습니다. 낮은 학습률 (조기 중단 포함)은 0으로부터의 보폭이 그다지 크지 않기 때문에 동일한 효과를 내는 경우가 많습니다. 따라서 학습률과 람다를 동시에 조정하면 혼란스러운 결과가 나타날 수 있습니다.

조기 중단이란 모델이 완전히 수렴되기 전에 학습을 종료하는 것을 의미합니다. 실제로 학습이 온라인 (연속적) 방식일 경우 일정 부분 암묵적으로 학습을 조기에 중단하는 경우가 많습니다. 즉, 일부 새로운 트렌드에는 아직 수렴하기에 충분한 데이터가 없습니다.

앞서 언급했듯이 정규화 매개변수 변경으로 인한 효과는 학습률 또는 반복 횟수의 변화로 인한 효과와 혼동될 수 있습니다. 한 가지 유용한 방법 (고정된 데이터 배치로 학습할 때)은 조기 중단으로는 효과가 없을 만큼 충분한 반복 횟수를 제공하는 것입니다.

고객센터

L2 정규화

플레이그라운드 실습: L2 정규화

단순성을 위한 정규화: 람다

더하기 아이콘을 클릭하여 L2 정규화와 학습률에 대해 알아보세요.

더하기 아이콘을 클릭하여 L₂ 정규화와 학습률에 대해 알아보세요.