ممکن است لازم باشد دو نوع تبدیل برای داده های عددی اعمال کنید:
- عادی سازی - تبدیل داده های عددی به مقیاس مشابه سایر داده های عددی.
- Bucketing - تبدیل داده های عددی (معمولاً پیوسته) به داده های طبقه بندی شده.
چرا ویژگی های عددی را عادی کنیم؟
ما قویاً توصیه میکنیم مجموعه دادهای را عادی کنید که دارای ویژگیهای عددی است که محدودههای متفاوتی را پوشش میدهد (به عنوان مثال، سن و درآمد). هنگامی که ویژگیهای مختلف دامنههای متفاوتی دارند، نزول گرادیان میتواند «جهش» داشته باشد و همگرایی را کاهش دهد. بهینه سازهایی مانند Adagrad و Adam با ایجاد نرخ یادگیری موثر جداگانه برای هر ویژگی از این مشکل محافظت می کنند.
ما همچنین توصیه میکنیم یک ویژگی عددی واحد را که طیف وسیعی از جمله «جمعیت شهر» را پوشش میدهد، عادی کنید. اگر ویژگی «جمعیت شهر» را عادی نکنید، آموزش مدل ممکن است خطاهای NaN ایجاد کند. متأسفانه، بهینهسازهایی مانند Adagrad و Adam نمیتوانند از خطاهای NaN در زمانی که طیف وسیعی از مقادیر در یک ویژگی وجود دارد جلوگیری کنند.