Karar ormanları için uygun veriler

Karar ormanları, en iyi performansı bir tablo biçiminde veri kümeniz olduğunda (e-tablo, csv dosyası veya veritabanı tablosunda temsil edebileceğiniz veriler) verir. Tablo biçimindeki veriler, en yaygın veri biçimlerinden biridir. Karar ormanları, bunları modellemek için "gideceğiniz" çözüm olmalıdır.

Tablo 1. Tablo biçiminde bir veri kümesi örneği.

Bacak sayısı Göz sayısı Ağırlık (kg) Türler (etiket)
2 2 12 Penguen
8 6 0,1 Örümcek
4 2 44 Köpek

Nöral ağların aksine, karar ormanları yerel olarak model tablo verilerini kullanır. Karar ormanları geliştirirken aşağıdaki gibi işlemler yapmanız gerekmez:

  • Özellik normalleştirme veya tek sıcak kodlama gibi ön işleme yapın.
  • Hesaplama gerçekleştirin (örneğin, eksik bir değeri -1 ile değiştirin).

Ancak karar ormanları, görseller veya metin gibi ayrıntılı olmayan verileri (yapılandırılmamış veri olarak da adlandırılır) doğrudan kullanmaya uygun değildir. Evet, bu sınırlama için geçici çözümler vardır ancak nöral ağlar genellikle yapılandırılmamış verileri daha iyi işler.

Performans

Karar ormanları örnek etkilidir. Diğer bir deyişle, karar ormanları, küçük veri kümelerinde veya özellik sayısı / örnek sayısının yüksek olduğu veri kümelerinde (muhtemelen 1'den büyük) eğitim yapmak için uygundur. Karar ormanları, tüm makine öğrenimi modelleri gibi örnek verim açısından etkili olsa da bol miktarda veri olduğunda karar ormanları en iyi performansı gösterir.

Karar ormanları genellikle benzer nöral ağlardan daha hızlı tahmin eder. Örneğin, orta ölçekli bir karar ormanı, modern bir CPU üzerinde birkaç mikro saniye içinde çıkarım yapar.