تبدیل داده های عددی

ممکن است لازم باشد دو نوع تبدیل برای داده های عددی اعمال کنید:

  • عادی سازی - تبدیل داده های عددی به مقیاس مشابه سایر داده های عددی.
  • Bucketing - تبدیل داده های عددی (معمولاً پیوسته) به داده های طبقه بندی شده.

چرا ویژگی های عددی را عادی کنیم؟

ما قویاً توصیه می‌کنیم مجموعه داده‌ای را عادی کنید که دارای ویژگی‌های عددی است که محدوده‌های متفاوتی را پوشش می‌دهد (به عنوان مثال، سن و درآمد). هنگامی که ویژگی‌های مختلف دامنه‌های متفاوتی دارند، نزول گرادیان می‌تواند «جهش» داشته باشد و همگرایی را کاهش دهد. بهینه سازهایی مانند Adagrad و Adam با ایجاد نرخ یادگیری موثر جداگانه برای هر ویژگی از این مشکل محافظت می کنند.

ما همچنین توصیه می‌کنیم یک ویژگی عددی واحد را که طیف وسیعی از جمله «جمعیت شهر» را پوشش می‌دهد، عادی کنید. اگر ویژگی «جمعیت شهر» را عادی نکنید، آموزش مدل ممکن است خطاهای NaN ایجاد کند. متأسفانه، بهینه‌سازهایی مانند Adagrad و Adam نمی‌توانند از خطاهای NaN در زمانی که طیف وسیعی از مقادیر در یک ویژگی وجود دارد جلوگیری کنند.