Makine Öğrenimi Sözlüğü: Karar Ormanları

Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Bu sayfada Karar Ormanı sözlük terimleri bulunmaktadır. Tüm sözlük terimleri için burayı tıklayın.

A

özellik örneklemesi

#df

Her karar ağacı, durum hakkında bilgi edinirken olası özelliklerin yalnızca rastgele bir alt kümesini dikkate aldığı karar ormanı eğitimi taktiğidir. Genel olarak, her bir düğüm için farklı bir özellik alt kümesi örneklenir. Buna karşılık, özellik örneklemesi olmadan bir karar ağacı eğitilirken, her bir düğüm için olası tüm özellikler dikkate alınır.

eksene hizalı koşul

#df

Karar ağacında, yalnızca tek bir özelliği içeren durum. Örneğin, alan bir özellikse, eksene hizalı bir koşul şudur:

area > 200

Şeffaf koşul ile kontrast oluşturun.

B

valiz taşıma

#df

Her bir bileşen modelinin, değiştirilen verilerle örneklenmiş eğitim örneklerinin rastgele bir alt kümesi üzerinde eğitildiği bir topluluk eğitme yöntemidir. Örneğin, rastgele orman, pozlamayla eğitilmiş bir karar ağacı koleksiyonudur.

bagaj terimi byaygınaggrecaping için kullanılan bir terimin kısaltılmış halidir.

ikili koşul

#df

Karar ağacında, yalnızca evet veya hayır olmak üzere yalnızca iki olası sonucu olan bir durum. Örneğin, ikili koşul şu şekildedir:

temperature >= 100

İkili olmayan koşul ile kontrast yaratın.

C

koşul

#df

Karar ağacında, bir ifadeyi değerlendiren tüm düğümler. Örneğin, bir karar ağacının aşağıdaki kısmı iki koşul içerir:

İki durumdan oluşan bir karar ağacı: (x > 0) ve (y > 0).

Koşul, bölünmüş grup veya test olarak da adlandırılır.

Yaprak ile kontrast durumu.

Şuna da bakabilirsiniz:

G

karar ormanı

#df

Birden fazla karar ağacından oluşturulan model. Karar ormanı, karar ağaçlarının tahminlerini toplayarak bir tahminde bulunur. Popüler karar orman türleri arasında Rastgele ormanlar ve gradyan takviyeli ağaçlar bulunur.

karar ağacı

#df

Bir dizi koşuldan ve hiyerarşik bir şekilde düzenlenmiş ayrıcalardan oluşan gözetimli bir öğrenme modeli. Aşağıda bir karar ağacı verilmiştir:

Hiyerarşik olarak düzenlenen ve beş yaprağa dönüşen dört koşuldan oluşan bir karar ağacı.

E

entropi

#df

Bilgi teorisinde, bir olasılık dağılımının ne kadar öngörülemez olduğuna dair bir açıklama. Alternatif olarak, entropi de her örnekte ne kadar bilgi bulunduğu olarak tanımlanır. Bir dağılım, rastgele değişkenin tüm değerlerinin eşit olma ihtimaline sahip olduğunda mümkün olan en yüksek entropiye sahip olur.

İki olası değere sahip kümenin entropisi (ör. ikili sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Bu örnekte:

  • H entropidir.
  • p, "1" örneklerinin oranıdır.
  • q, "0" örneklerinin oranıdır. q = (1 - p)
  • log genellikle log2'dir. Bu durumda entropi birimi biraz

Örneğin, şunları varsayalım:

  • 100 örneği "1'" değerini içerir
  • 300 örneği "0" değerini içerir

Bu nedenle entropi değeri:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit (örnek başına)

Tamamen dengeli bir set (örneğin, 200&0;000 ve 200°1) entropisi örnek başına 1,0 bittir. Bir set daha dengeli hale geldikçe grubun entropisi 0, 0'a doğru yükselir.

Karar ağaçlarında entropi, sınıflandırma karar ağacının büyümesi sırasında bırakmanın koşulları seçmesine yardımcı olmak için bilgi edinmenin formüle edilmesine yardımcı olur.

Entropi ile şununla karşılaştır:

Entropi genellikle Shannon entropisi olarak adlandırılır.

C

özelliklerin önem derecesi

#df

Değişken önem dereceleri ile eş anlamlıdır.

Y

gini saflığı

#df

entropi benzeri bir metrik. Ayırıcılar, sınıflandırma için karar ağaçları için koşullar oluşturmak üzere gini saflıktan veya entropiden elde edilen değerleri kullanır. Bilgi edinme, entropiden türetilir. Gini saflığından türetilen metrik için evrensel olarak kabul edilen eşdeğer bir terim yoktur; ancak bu adsız metrik, bilgi edinme kadar önemlidir.

Gini saflığı da gini endeksi veya gini olarak da adlandırılır.

gradyan artırma

#df

Zayıf modellerin güçlü bir modelin kalitesini (kaybetme oranını azaltacak şekilde) yinelemek için eğitildiği bir eğitim algoritmasıdır. Örneğin, zayıf bir model doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, önceden eğitilmiş tüm zayıf modellerin toplamı haline gelir.

En basit şekilde, gradyan takviyesinin en basit biçiminde, her bir iterasyonda güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Daha sonra, güçlü modelin çıkışı, gradyan inişine benzer şekilde, tahmin edilen gradyan çıkarılarak güncellenir.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Bu örnekte:

  • $F_{0}$, güçlü ilk modeldir.
  • Bir sonraki etkili model $F_{i+1}$.
  • Mevcut güçlü model $F_{i}$.
  • $\xi$, 0,0 ile 1,0 arasında bir değerdir.Bu değer, gradyan inişteki öğrenme oranına benzer.küçültme olarak adlandırılır.
  • $f_{i}$, $F_{i}$ için kayıp gradyanını tahmin etmek üzere eğitilen zayıf modeldir.

Renk geçişi güçlendirmenin modern varyasyonları, hesaplamalardaki ikinci türevi (Hessian) da içerir.

Karar ağaçları genellikle gradyan güçlendirmede zayıf modeller olarak kullanılır. gradyan takviyeli (karar) ağaçlar konusuna bakın.

gradyan artırılmış (karar) ağaçlar (GBT)

#df

Aşağıdaki durumlarda bir karar ormanı türü:

I

çıkarım yolu

#df

Karar ağacında, çıkarım sırasında, belirli bir örneğin kökten geçip diğer koşullara yönlendirdiği yol, yaprak ile sonlandırılır. Örneğin, aşağıdaki karar ağacındaki daha kalın oklar, aşağıdaki özellik değerlerine sahip bir örneğin çıkarım yolunu gösterir:

  • x = 7
  • y = 12
  • z = -3

Aşağıdaki çizimde çıkarım yolu, yaprağa (Zeta) ulaşmadan önce üç koşuldan geçer.

Dört koşul ve beş yapraktan oluşan bir karar ağacı.
          Kök koşul (x > 0). Yanıt Evet olduğu için çıkarım yolu, kökten bir sonraki koşula (y > 0) gider.
          Yanıt Evet olduğu için çıkarım yolu sonraki koşula (z > 0) gider. Yanıt Hayır olduğu için çıkarım yolu, yaprak (Zeta) adlı terminal düğümüne gider.

Üç kalın ok, çıkarım yolunu gösterir.

bilgi edinme

#df

Karar ormanlarında bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki fark. Bir düğüm entropisi, ilgili düğümdeki örneklerin entropisidir.

Örneğin, aşağıdaki entropi değerlerini göz önünde bulundurun:

  • Üst düğümün entropisi = 0,6
  • 16 alakalı örnek içeren tek bir alt düğümün entropisi = 0,2
  • 24 alakalı örnek içeren başka bir alt düğümün entropisi = 0,1

Örneklerin% 40'ı alt düğüm, %60'ı ise başka alt düğümdedir. Bu nedenle:

  • Alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Böylece bilgi elde edilir:

  • bilgi edinme = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
  • bilgi kazancı = 0,6 - 0,14 = 0,46

Çoğu kopya, bilgi kazancını en üst düzeye çıkaran koşullar oluşturmayı amaçlar.

set durumunda

#df

Karar ağacı'nda, bir öğe grubunda bir öğenin varlığını test eden bir durum yer alır. Örneğin, aşağıdakiler bir grup içi koşuldur:

  house-style in [tudor, colonial, cape]

Çıkarım sırasında ev stili özelliğinin değeri tudor veya colonial veya cape ise bu koşul Evet olarak değerlendirilir. Ev stili özelliğin değeri farklı bir değerse (örneğin, ranch) bu koşul Hayır olarak değerlendirilir.

Ayarlanmış koşullar genellikle tek bir kodlamayla kodlanmış özellikleri test eden koşullardan daha verimli karar ağaçları sağlar.

L

yaprak

#df

Karar ağacındaki herhangi bir uç nokta. Durum'dan farklı olarak, bir yaprak test gerçekleştirmez. Yaprak, bunun yerine olası bir tahmindir. Yaprak, çıkarım yolunun terminal düğümüdür.

Örneğin, aşağıdaki karar ağacı üç yaprak içerir:

Üç yaprağa yönlendiren iki koşulu olan bir karar ağacı.

H

düğüm (karar ağacı)

#df

Karar ağacında herhangi bir durum veya yaprak.

İki koşulu ve üç yaprağı olan bir karar ağacı.

ikili olmayan koşul

#df

İkiden fazla olası sonuç içeren bir durum. Örneğin, aşağıdaki ikili olmayan koşul üç olası sonuç içerir:

Üç olası sonuca yol açan bir koşul (number_of_legs = ?). Sonuçlardan biri (sayı_sayısı_8 = 8), örümcek adlı bir yapraka yol açar. İkinci sonuç (number_of_legs = 4), köpek adlı bir yaprağa yol açar. Üçüncü bir sonuç (leg_of_legs = 2), penguen adlı bir yapraka yol açar.

O

blok koşulu

#df

Karar ağacında, birden fazla özellik içeren durum. Örneğin, yükseklik ve genişlik her iki özellik deyse aşağıdaki durum bir engel koşuludur:

  height > width

Eksenle uyumlu koşul ile kontrast oluşturun.

kol dışı değerlendirme (OOB değerlendirmesi)

#df

Bir karar ormanının kalitesini değerlendirmek için her bir karar ağacının bu karar ağacının eğitim'i sırasında kullanılmayan örneklere karşı test edilmesini sağlayan bir mekanizma. Örneğin, aşağıdaki şemada sistemin, her karar ağacını örneklerin yaklaşık üçte ikisi hakkında eğittiğini ve örneklerin kalan üçte üçüne göre değerlendirdiğini unutmayın.

Üç karar ağacından oluşan bir karar ormanı.
          Bir karar ağacı, örneklerin üçte ikisi üzerinde eğitim verir ve kalan üçte birlik kısmı OOB değerlendirmesinde kullanır.
          İkinci karar ağacı, önceki karar ağacından örneklerin üçte ikisi üzerinde eğitir ve ardından OOB değerlendirmesi için önceki karar ağacından farklı bir üçte biri kullanır.

"Kapsam dışında değerlendirme", çapraz doğrulama mekanizmasının bilişimsel açıdan verimli ve konservatif bir yaklaşımıdır. Çapraz doğrulamada, her bir çapraz doğrulama turu için bir model eğitilir (örneğin, 10 katlı bir çapraz doğrulamada 10 model eğitilir). OOB değerlendirmesinde tek bir model eğitilir. bagaj, eğitim sırasında her ağaçtan bazı verileri depoladığından OOB değerlendirmesi, çapraz doğrulamayı tahmin etmek için bu verileri kullanabilir.

P

permütasyon değişkeni önemleri

#df

Özelliğin değerlerini permütledikten sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önem türü. Permütasyon değişkeninin önemi, modelden bağımsız olarak kullanılan bir metriktir.

K

rastgele orman

#df

Her karar ağacının bagaj gibi belirli bir rastgele gürültüyle eğitildiği karar ağaçlarından oluşan bir toplu.

Rastgele ormanlar, bir karar ormanı türüdür.

kök

#df

Karar ağacı'ndaki ilk düğüm (ilk koşul). Geleneksel olarak, diyagramlar karar ağacının en üstüne yerleştirilir. Örneğin:

İki koşulu ve üç yaprağı olan bir karar ağacı. Başlangıç koşulu (x > 2) köktür.

C

değiştirme yöntemiyle örnekleme

#df

Aynı öğenin birden çok kez seçilebileceği bir aday öğe kümesinden öğe seçme yöntemi. "Değişim amaçlı" kelime öbeği, her bir seçimden sonra seçilen öğenin aday öğeleri havuzuna döndürüleceği anlamına gelir. Ters örnek olmadan örnekleme, bir aday öğesinin yalnızca bir kez seçilebileceği anlamına gelir.

Örneğin, aşağıdaki meyve grubunu düşünün:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sistemin fig ilk öğeyi rastgele seçtiğini varsayalım. Değiştirme için örnekleme yapılmışsa sistem ikinci öğeyi aşağıdaki kümeden seçer:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Evet, sistem öncekiyle aynıdır. Bu nedenle, sistem fig öğesini tekrar seçebilir.

Numuneyi değiştirmeden örnekleme kullanıldığında, seçilen örnek tekrar seçilemez. Örneğin, sistem ilk örnek olarak fig öğesini rastgele seçerse fig tekrar seçilemez. Bu nedenle, sistem aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:

fruit = {kiwi, apple, pear, cherry, lime, mango}

küçült

#df

Aşırı sığdırma özelliğini kontrol eden gradyan takviyesi içindeki hiperparametre. Renk geçişi artırıcı küçülme, gradyan iniş içindeki öğrenme oranına benzer. Daraltma, 0,0 ile 1,0 arasında ondalık bir değerdir. Düşük bir küçültülmüş değer daha büyük bir küçültülmüş değerden daha büyük sığdırma değerini azaltır.

split

#df

Karar ağacında, durum için başka bir addır.

ayırıcı

#df

Bir karar ağacı eğitilirken her düğümde en iyi durumu bulmaktan sorumlu rutin (ve algoritma)

T

test

#df

Karar ağacında, durum için başka bir addır.

eşik (karar ağaçları için)

#df

Eksenle uyumlu durumda, bir özelliğin karşılaştırıldığı değer. Örneğin, 75 değeri aşağıdaki koşulda eşik değeridir:

grade >= 75

V

değişken önemleri

#df

Her bir özelliğin modele göre göreli önemini belirten bir puan grubu.

Örneğin, ev fiyatlarını tahmin eden bir karar ağacı düşünün. Bu karar ağacının üç özelliği kullandığını varsayalım: boyut, yaş ve stil. Üç özellik için değişen önem düzeyleri, {size=5.8, age=2.5, style=4.7} olarak hesaplanırsa karar ağacı için boyutun yaş veya stilden daha önemli olduğu belirlenir.

Çeşitli değişken önem metrikleri mevcuttur. Bu metrikler, makine öğrenimi uzmanlarının modellerin farklı yönleri hakkında bilgi sahibi olmasını sağlayabilir.

W

kalabalığın bilgeliği

#df

Geniş bir kullanıcı grubunun (kalabalıktan) gelen görüş veya tahminleri ortalamasını alma fikri genellikle şaşırtıcı derecede iyi sonuçlar veriyor. Örneğin, kullanıcıların büyük bir kavanozda paketlenmiş jelibon sayısını tahmin ettiği bir oyunu ele alalım. Çoğu bağımsız tahmin yanlış olsa da tüm tahminlerin ortalaması, şaşırtıcı şekilde kavanozdaki gerçek jeli fasulye sayısına yaklaşık olarak yakındır.

Topluluklar, kalabalığın bilgeliği ile benzer bir yazılım örneğidir. Bağımsız modeller çılgın şekilde yanlış tahminlerde bulunsa bile birçok modelin tahminlerine ortalama uygulandığında genellikle şaşırtıcı derecede iyi tahminler elde edilir. Örneğin, tek bir karar ağacı hatalı tahminlerde bulunsa da bir karar ormanı genellikle çok iyi tahminler yapar.