정규화

정규화의 목표는 유사한 규모로 특성을 변환하는 것입니다. 이렇게 하면 모델의 성능 및 학습 안정성이 향상됩니다.

한눈에 보는 정규화 기법

네 가지 일반적인 정규화 기법이 유용할 수 있습니다.

  • 범위로 조정
  • 클리핑
  • 로그 확장
  • Z-점수

다음 차트는 각 정규화 기술이 왼쪽의 원시 특성 (가격) 분포에 미치는 영향을 보여줍니다. 이 차트는 자동차 데이터 세트 아래의 UCI 머신러닝 저장소에 포함된 1985년 자동차 제조연도서의 데이터 세트를 기반으로 합니다.

5개 그래프: 1. 원시 분포. 2. 원시 분포와 형태가 같은 범위로 조정된 원시 분포. 3. 원시 분포가 잘려 가장 높은 값이 제거됩니다. 4. 대수로 조정된 원시 분포로, 분포 중에 데이터를 묶습니다. 5. 원시 분포와 유사한 형태를 갖는 분포의 z-점수입니다.

그림 1. 정규화 기술의 요약입니다.

범위로 확장

MLCC에서 저장확장이 부동 소수점 특성 값(예: 100~900)을 표준 범위(일반적으로 0 및 1(또는 경우에 따라 -1~+1))로 변환한다는 의미입니다. 범위로 확장하는 경우에는 다음과 같은 간단한 공식을 사용하세요.

\[ x' = (x - x_{min}) / (x_{max} - x_{min}) \]

범위로 확장하는 것은 다음 두 조건이 모두 충족되는 경우에 적합합니다.

  • 데이터의 이상점과 하한을 대략적으로 알고 있고 이상점은 거의 또는 전혀 없습니다.
  • 데이터가 이 범위에 대략적으로 균일하게 분산되어 있습니다.

좋은 예로 나이를 들 수 있습니다. 대부분의 연령 값은 0에서 90 사이여야 하며, 범위의 모든 부분에 상당한 수가 있습니다.

반면 소득 수준이 높은 소수의 사람만 사용할 수 있기 때문에 소득 조정은 사용하지 않습니다. 소득의 선형 척도 상한은 매우 높은 것이며 대부분의 사람은 음계의 작은 부분에 압착됩니다.

특성 클리핑

데이터 세트에 극단적 이상점이 포함되어 있으면 특정 값 위 (또는 이하)의 모든 특성 값을 고정 값으로 제한하는 특성 클리핑을 시도할 수 있습니다. 예를 들어 40을 초과하는 모든 온도 값을 정확히 40으로 자를 수 있습니다.

다른 정규화 전후에 특성 클리핑을 적용할 수 있습니다.

수식: 이상점을 방지하기 위해 최솟값/최댓값을 설정합니다.

기본 분포와 최대 게재빈도의 비교 네이티브 분포에서 거의 모든 값은 1~4 범위에 해당하지만 일부 값은 5~55 범위에 속합니다. 제한된 분포에서 원래 4보다 큰 모든 값은 이제 4가 됩니다.

그림 2. 원시 배포와 잘린 버전을 비교합니다.

또 다른 간단한 자르기 전략은 z-score를 사용하여 +-NURI를 자르는 것입니다 (예: +-3√로 제한). 는 표준 편차입니다.

로그 확장

로그 배율은 값 로그를 계산하여 넓은 범위에서 좁은 범위로 압축합니다.

\[ x' = log(x) \]

로그 배율은 몇몇 값에 많은 포인트가 있지만 다른 대부분의 값에는 포인트가 적은 경우에 유용합니다. 이러한 데이터 배포를 전원법 분포라고 합니다. 영화 평점이 좋은 예입니다. 아래 차트에서 대부분의 영화는 평점이 매우 낮고 (꼬리에 있는 데이터) 평점이 많은 경우 (헤드의 데이터) 로그 배율은 분포를 변경하여 선형 모델 성능을 개선하는 데 도움이 됩니다.

원시 데이터와 원시 데이터의 로그를 비교하는 두 가지 그래프 원시 데이터 그래프에는 헤드에 많은 평점이 표시되며 이어서 롱테일이 있습니다. 로그 그래프는 보다 균등하게 분산됩니다.

그림 3. 로그와 원시 배포를 비교합니다.

Z 점수

Z-점수는 평균과의 표준 편차 수를 나타내는 배율의 변이입니다. z-score를 사용하여 특성 분포가 평균 0과 std = 1이 되도록 할 수 있습니다. 이상점이 몇 개 있지만 클리핑이 필요할 만큼 극단적이지 않을 때는 유용합니다.

z의 z 점수를 계산하는 수식은 다음과 같습니다.

\[ x' = (x - μ) / σ \]

원시 데이터와 Z-점수로 정규화된 데이터를 비교하는 두 개의 그래프 원시 데이터는 5,000~45,000 범위의 대략적인 푸아송 분포를 보여줍니다.
정규화된 데이터 범위는 -1~+4입니다.

그림 4. 원시 분포와 z 점수 분포를 비교합니다.

z-점수는 약 -1에서 +4 사이의 40,000 내지 범위를 포함하는 원시 값을 압착합니다.

이상점이 정말 극단적인지 확실하지 않다고 합시다. 이 경우 모델에서 학습하지 않아야 하는 특성 값이 없으면 z 점수로 시작하세요. 예를 들어 값이 측정 오류 또는 쿼크의 결과인 경우가 있습니다.

요약

정규화 기술수식사용하기 적합한 경우
선형 배율 $$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$ 특성이 고정 범위에 균일하게 분산되는 경우.
클리핑 if x > max, x' = max. if x < min, x> = min 특성에 극단적인 이상점이 포함된 경우
로그 확장 x' = log(x) 기능이 전력법을 준수하는 경우
Z 점수 x' = (x - μ) / x 특성 분포에 극단적인 이상점이 포함되지 않는 경우.