숫자 데이터 변환

숫자 데이터에는 두 가지 종류의 변환을 적용해야 할 수 있습니다.

  • 정규화 - 숫자 데이터를 다른 숫자 데이터와 동일한 배율로 변환합니다.
  • 버케팅 - 숫자 (일반적으로 연속) 데이터를 범주형 데이터로 변환합니다.

숫자 특성을 정규화하는 이유

서로 다른 범위 (예: 연령 및 소득)를 포괄하는 숫자 특성이 있는 데이터 세트를 정규화하는 것이 좋습니다. 특성의 범위가 다를 때 경사하강법은 '바운스'되고 수렴 속도를 저하시킬 수 있습니다. AdagradAdam과 같은 옵티마이저는 각 기능마다 별도의 효과적인 학습률을 생성하여 이러한 문제로부터 보호합니다.

또한 '도시 인구'와 같이 넓은 범위를 포함하는 숫자 숫자 하나를 정규화하는 것이 좋습니다. '도시 채우기' 특성을 정규화하지 않으면 모델을 학습시키면 NaN 오류가 발생할 수 있습니다. 안타깝게도 Adagrad와 Adam과 같은 옵티마이저는 단일 특성 내에 광범위한 값이 있는 경우 NaN 오류를 방지할 수 없습니다.