아래 옵션을 살펴보세요.
밀접한 상관관계가 있는 두 특성이 있는 선형 모델을 상상해 보세요. 즉,
이 두 특성은 서로 거의 동일하지만 하나가 되는 것입니다.
임의의 노이즈가 조금 포함된 것을 확인할 수 있습니다. 이 모델을 학습시키면
L2 정규화를 사용해 모델을 학습시키는 경우 가중치는 어떻게 될까요?
어떻게 해야 할까요?
두 특성 모두 거의 동일하고 중간 정도의 가중치를 갖게 됩니다.
L2 정규화는 인코더-디코더 아키텍처를
가중치와 동일한 가중치가
두 특성 중 하나만 사용했을 텐데
확인할 수 있습니다
하나의 특성은 큰 가중치를 갖게 됩니다. 다른 하나에는
가중치가 거의 0.0이어야 합니다.
L2 정규화는 큰 가중치에 더 페널티를 더함
훨씬 효율적입니다. 따라서 하나의 체중이 감소하기 시작하더라도
L2 정규화는 비교적 속도가 빠르며
큰 가중치가 가볍게 떨어질 경우
더 작은 가중치를 가질 수 있습니다.
하나의 특성은 큰 가중치를 갖게 됩니다. 다른 하나에는
가중치가 정확히 0.0이어야 합니다.
L2 정규화는 일반적으로
정확히 0.0으로 설정해야 합니다. 반대로 L1 정규화는
(나중에 설명) 가중치는 정확히 0.0이 됩니다.