داده های مناسب برای جنگل های تصمیم گیری

جنگل‌های تصمیم‌گیری زمانی مؤثرتر هستند که یک مجموعه داده جدولی داشته باشید (داده‌هایی که ممکن است در صفحه‌گسترده، فایل csv یا جدول پایگاه داده ارائه کنید). داده‌های جدولی یکی از رایج‌ترین قالب‌های داده است و جنگل‌های تصمیم باید راه‌حل اصلی شما برای مدل‌سازی آن باشند.

جدول 1. نمونه ای از مجموعه داده های جدولی.

تعداد پاها تعداد چشم وزن (پوند) گونه (برچسب)
2 2 12 پنگوئن
8 6 0.1 عنکبوت
4 2 44 سگ

برخلاف شبکه‌های عصبی، جنگل‌های تصمیم به‌طور بومی داده‌های جدولی مدل را مصرف می‌کنند. هنگام توسعه جنگل های تصمیم گیری، لازم نیست کارهایی مانند موارد زیر را انجام دهید:

  • انجام پیش پردازش مانند عادی سازی ویژگی یا رمزگذاری یکباره.
  • Imputation را انجام دهید (به عنوان مثال، جایگزینی یک مقدار از دست رفته با -1 ).

با این حال، جنگل‌های تصمیم برای مصرف مستقیم داده‌های غیرجدولی (که داده‌های بدون ساختار نیز نامیده می‌شوند)، مانند تصاویر یا متن، مناسب نیستند. بله، راه‌حل‌هایی برای این محدودیت وجود دارد، اما شبکه‌های عصبی عموماً داده‌های بدون ساختار را بهتر مدیریت می‌کنند.

کارایی

جنگل های تصمیم گیری نمونه کارآمد هستند. به این معنا که جنگل‌های تصمیم برای آموزش در مجموعه داده‌های کوچک یا در مجموعه داده‌هایی که نسبت تعداد ویژگی‌ها / تعداد نمونه‌ها زیاد است (احتمالاً بیشتر از 1) مناسب هستند. اگرچه جنگل‌های تصمیم‌گیری نمونه کارآمد هستند، مانند همه مدل‌های یادگیری ماشینی، جنگل‌های تصمیم‌گیری زمانی بهترین عملکرد را دارند که داده‌های زیادی در دسترس باشد.

جنگل‌های تصمیم‌گیری معمولاً سریع‌تر از شبکه‌های عصبی قابل مقایسه استنباط می‌کنند. به عنوان مثال، یک جنگل تصمیم گیری با اندازه متوسط ​​استنتاج را در چند میکروثانیه بر روی یک CPU مدرن اجرا می کند.