Rastgele ormanlar

Rastgele orman (RF), her bir karar ağacının belirli bir rastgele gürültüyle eğitildiği bir karar ağaçları topluluğudur. Rastgele ormanlar, karar ağacı topluluğu oluşturmanın en popüler biçimidir. Bu ünitede, etkili bir rastgele orman inşa etme şansını artırmak için bağımsız karar ağaçları oluşturmaya yönelik çeşitli teknikler anlatılmaktadır.

Torbalama

Çağlama (buekleme, her bir karar ağacına eğitim kümesindeki örneklerin rastgele bir alt kümesi üzerinde eğitilmesi anlamına gelir. Başka bir deyişle, rastgele ormandaki her bir karar ağacı, örneklerin farklı bir alt kümesi üzerinde eğitilir.

Bagajlama tuhaf bir durumdur. Her karar ağacı, orijinal eğitim kümesindekiyle aynı sayıda örnek kullanılarak eğitilir. Örneğin, orijinal eğitim kümesinde 60 örnek varsa her bir karar ağacı 60 örnekle eğitilir. Ancak paketleme, her bir karar ağacını bu örneklerin yalnızca bir alt kümesindeki (genellikle %67) eğitir. Bu nedenle, belirli bir karar ağacını eğitirken alt kümedeki 40 örneğin bazılarının yeniden kullanılması gerekir. Bu yeniden kullanıma, "değişimle" eğitim adı verilir.

Örneğin Tablo 6'da, bagaj oluşturmanın altı örneği üç karar ağacına nasıl dağıtabileceği gösterilmektedir. Aşağıdakilere dikkat edin:

  • Her karar ağacı toplam altı örnek üzerinden eğitilir.
  • Her bir karar ağacı, farklı bir örnek kümesi üzerinden eğitilir.
  • Her karar ağacı belirli örnekleri yeniden kullanır. Örneğin, 4. örnek, eğitim karar ağacı 1'de iki kez kullanılır. Bu nedenle, 4. örneğin öğrenilen ağırlığı, karar ağacı 1'de etkin bir şekilde iki katına çıkar.

Tablo 6. Üç karar ağacında altı eğitim örneğini toplama. Her sayı, belirli bir eğitim örneğinin (#1-6) belirli bir karar ağacının eğitim veri kümesinde (1-3) kaç kez tekrarlandığını gösterir.

eğitim örnekleri
#1 #2 #3 #4 #5 #6
orijinal veri kümesi 1 1 1 1 1 1
karar ağacı 1 1 1 0 2 1 1
karar ağacı 2 3 0 1 0 2 0
karar ağacı 3 0 1 3 1 0 1

Torbalamada her karar ağacı neredeyse her zaman orijinal eğitim setindeki toplam örnek sayısına göre eğitilir. Her bir karar ağacını daha fazla veya daha az örnekle eğitmek, rastgele ormanın kalitesini düşürür.

Rastgele orman makalesinde bulunmasa da örneklerin örneklenmesi bazen "değiştirilmeksizin" yapılır. Yani, bir karar ağacı eğitim kümesinde bir eğitim örneği birden fazla kez bulunamaz. Örneğin, önceki tabloda tüm değerler 0 ya da 1 olur.

YDF Kodu
Eğitimi, YDF'de yer alan aşağıdaki atamayla değiştirebilirsiniz: bootstrap_training_dataset=False

Özellik örnekleme

Özellik örnekleme, mevcut tüm özellikler için en iyi durumu aramak yerine her düğümde özelliklerin yalnızca rastgele bir alt kümesinin test edilmesi anlamına gelir. Test edilen özellikler kümesi, karar ağacının her bir düğümünde rastgele örneklenir.

Aşağıdaki karar ağacı, özellik / özellik örneklemesini göstermektedir. Burada bir karar ağacı 5 özellikle (f1-f5) öğretilmiştir. Mavi düğümler test edilen özellikleri gösterirken, beyazlar test edilmemiştir. Koşul, en iyi test edilen özelliklere göre (kırmızı bir dış çizgiyle gösterilmiştir) oluşturulmuştur.

Hepsi beş özelliği gösteren üç düğüm. Kök düğüm ve alt düğümlerinden biri, beş özelliğin üçünü test eder. Diğer alt düğüm, beş özelliğin ikisini test eder.

Şekil 21. Özellik örnekleme.

 

Özellik örnekleme oranı, önemli bir normalleştirme hiperparametresidir. Yukarıdaki şekilde ~3⁄5 oranında bir oran kullanılmıştır. Rastgele orman uygulamalarının çoğu, varsayılan olarak sınıflandırma için regresyon özelliklerinin 1/3'ünü ve karekök(özellik sayısı) özelliklerini test eder.

TF-DF'de aşağıdaki hiperparametreler özellik örneklemeyi kontrol eder:

  • num_candidate_attributes
  • num_candidate_attributes_ratio

Örneğin, num_candidate_attributes_ratio=0.5 ise her düğümde özelliklerin yarısı test edilir.

Karar ağacı normalleştirmesini devre dışı bırakma

Rastgele bir ormandaki karar ağaçları, budama yapılmadan eğitilir. (Fazla sığdırma ve budama bölümünü inceleyin). Bu da tahmin kalitesinin düşük olduğu fazla karmaşık ağaçlar üretir. Ağaçları tek tek düzenli hale getirmek yerine, daha doğru genel tahminler elde etmek için ağaçlar bir araya getiriliyor.

Rastgele bir ormanın eğitim ve test doğruluğunun farklı olmasını expect. Rastgele bir ormanın eğitim doğruluğu genellikle çok daha yüksektir (bazen %100'e eşittir). Bununla birlikte, rastgele bir ormanda çok yüksek eğitim doğruluğu normaldir ve rastgele ormanın aşırı sığdırıldığını göstermez.

İki rastgelelik kaynağı (çuvallama ve özellik örnekleme), karar ağaçları arasındaki göreli bağımsızlığı sağlar. Bu bağımsızlık, tek tek karar ağaçlarının aşırı uyumunu önler. Sonuç olarak, kombine aşırı uymaz. Bu pratik olmayan etkiyi bir sonraki ünitede açıklayacağız.

Saf rastgele ormanlar, yaprak başına maksimum derinlik veya minimum gözlem sayısı olmadan eğitilir. Pratikte, yaprak başına maksimum derinliğin ve minimum gözlem sayısının sınırlandırılması faydalıdır. Varsayılan olarak, birçok rastgele orman aşağıdaki varsayılanları kullanır:

  • maksimum derinlik ~16
  • yaprak başına minimum gözlem sayısı yaklaşık 5.

Bu hiperparametreleri ayarlayabilirsiniz.

YDF Kodu
YDF'nin Tuner aracı, hiperparametreleri ayarlamanın basit bir yoludur. Daha fazla ayrıntı için YDF'nin Ayarlama eğiticisine bakın.

Gürültünün netliği

Rastgele gürültü neden rastgele bir ormanın kalitesini artırır? Rastgele gürültünün faydalarını göstermek için Şekil 22'de, klasik (budanılmış) bir karar ağacının ve elips desenli birkaç basit iki boyutlu problem örneğine göre eğitilmiş rastgele bir ormanın tahminleri gösterilmektedir.

Üç nokta kalıplarının, eksene hizalı koşullarla karar ağacı ve karar ormanı algoritmaları tarafından öğrenmesi oldukça zordur. Bu nedenle iyi bir örnek teşkil ederler. Budanan karar ağacının rastgele ormanla aynı kalitede tahmin alamadığına dikkat edin.

Üç görsel. Kesin Referans etiketli ilk görsel
mükemmel bir elips. Budanmış karar ağacı etiketli ikinci resim,
elips ile dikdörtgen arasında bir yerde bulunuyor. Rastgele orman olarak etiketlenmiş üçüncü resim tam bir elips değildir, budama karar ağacı adlı resimden çok elipse çok daha yakındır.

Şekil 22. Kesin referans ve budanmış tek bir karar ağacı tarafından oluşturulan tahminler ve rastgele bir orman tarafından oluşturulan tahminler karşılaştırması.

Bir sonraki grafikte, rastgele ormanın budanmamış ilk üç karar ağacıyla ilgili tahminler gösterilmektedir. Diğer bir deyişle, karar ağaçlarının tümü aşağıdakilerin bir kombinasyonuyla eğitilir:

  • bagaj hazırlama
  • özellik örnekleme
  • budama işlevi devre dışı bırakılıyor

Bu üç karar ağacına ait bireysel tahminlerin, önceki resimde budanan karar ağacı tahminlerinden kötü olduğuna dikkat edin. Bununla birlikte, bağımsız karar ağaçlarındaki hatalar zayıf bir şekilde ilişkilendirildiği için, üç karar ağacı etkili tahminler oluşturmak için bir bütün halinde birleşir.

Çok gürültülü üç elips.

Şekil 23. Etkili bir topluluk oluşturabilecek, budan derlenmemiş üç karar ağacı.

Rastgele bir ormanın karar ağaçları budanmadığından, rastgele bir ormanın eğitilmesi için doğrulama veri kümesi gerekmez. Pratikte ve özellikle de küçük veri kümelerinde modeller mevcut tüm verilere göre eğitilmelidir.

Rastgele bir orman eğitilirken, daha fazla karar ağacı eklendikçe hata neredeyse her zaman azalır, yani modelin kalitesi neredeyse her zaman artar. Evet, daha fazla karar ağacı eklemek rastgele ormanın hatasını neredeyse her zaman azaltır. Başka bir deyişle, daha fazla karar ağacı eklemek, rastgele ormanın fazla genişlemesine neden olamaz. Bir noktada model gelişmeyi durdurur. Leo Breiman şöyle dedi: "Daha fazla ağaç eklendiğinden, Rastgele Ormanlar aşırı sığmaz".

Örneğin, aşağıdaki grafikte daha fazla karar ağacı eklendikçe rastgele bir orman modelinin test değerlendirmesi gösterilmektedir. Doğruluk, yaklaşık 0,865 seviyesine ulaşana kadar hızla iyileşir. Bununla birlikte, daha fazla karar ağacı eklenmesi doğruluğun azalmasına neden olmaz; diğer bir deyişle,model fazla uyumsuz olmaz. Bu davranış (çoğunlukla) her zaman doğrudur ve hiperparametrelerden bağımsızdır.

Önceki paragrafta açıklanan doğruluk grafiği ile karar ağaçlarının sayısının karşılaştırması.

Şekil 24. Rastgele ormana daha fazla karar ağacı eklendikçe doğruluk sabit kalır.