Bu sayfada Karar Ormanı sözlük terimleri bulunmaktadır. Tüm sözlük terimleri için burayı tıklayın.
A
özellik örneklemesi
Her karar ağacı, durum hakkında bilgi edinirken olası özelliklerin yalnızca rastgele bir alt kümesini dikkate aldığı karar ormanı eğitimi taktiğidir. Genel olarak, her bir düğüm için farklı bir özellik alt kümesi örneklenir. Buna karşılık, özellik örneklemesi olmadan bir karar ağacı eğitilirken, her bir düğüm için olası tüm özellikler dikkate alınır.
eksene hizalı koşul
Karar ağacında, yalnızca tek bir özelliği içeren durum. Örneğin, alan bir özellikse, eksene hizalı bir koşul şudur:
area > 200
Şeffaf koşul ile kontrast oluşturun.
B
valiz taşıma
Her bir bileşen modelinin, değiştirilen verilerle örneklenmiş eğitim örneklerinin rastgele bir alt kümesi üzerinde eğitildiği bir topluluk eğitme yöntemidir. Örneğin, rastgele orman, pozlamayla eğitilmiş bir karar ağacı koleksiyonudur.
bagaj terimi byaygınaggrecaping için kullanılan bir terimin kısaltılmış halidir.
ikili koşul
Karar ağacında, yalnızca evet veya hayır olmak üzere yalnızca iki olası sonucu olan bir durum. Örneğin, ikili koşul şu şekildedir:
temperature >= 100
İkili olmayan koşul ile kontrast yaratın.
C
koşul
Karar ağacında, bir ifadeyi değerlendiren tüm düğümler. Örneğin, bir karar ağacının aşağıdaki kısmı iki koşul içerir:
Koşul, bölünmüş grup veya test olarak da adlandırılır.
Yaprak ile kontrast durumu.
Şuna da bakabilirsiniz:
G
karar ormanı
Birden fazla karar ağacından oluşturulan model. Karar ormanı, karar ağaçlarının tahminlerini toplayarak bir tahminde bulunur. Popüler karar orman türleri arasında Rastgele ormanlar ve gradyan takviyeli ağaçlar bulunur.
karar ağacı
Bir dizi koşuldan ve hiyerarşik bir şekilde düzenlenmiş ayrıcalardan oluşan gözetimli bir öğrenme modeli. Aşağıda bir karar ağacı verilmiştir:
E
entropi
Bilgi teorisinde, bir olasılık dağılımının ne kadar öngörülemez olduğuna dair bir açıklama. Alternatif olarak, entropi de her örnekte ne kadar bilgi bulunduğu olarak tanımlanır. Bir dağılım, rastgele değişkenin tüm değerlerinin eşit olma ihtimaline sahip olduğunda mümkün olan en yüksek entropiye sahip olur.
İki olası değere sahip kümenin entropisi (ör. ikili sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Bu örnekte:
- H entropidir.
- p, "1" örneklerinin oranıdır.
- q, "0" örneklerinin oranıdır. q = (1 - p)
- log genellikle log2'dir. Bu durumda entropi birimi biraz
Örneğin, şunları varsayalım:
- 100 örneği "1'" değerini içerir
- 300 örneği "0" değerini içerir
Bu nedenle entropi değeri:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit (örnek başına)
Tamamen dengeli bir set (örneğin, 200&0;000 ve 200°1) entropisi örnek başına 1,0 bittir. Bir set daha dengeli hale geldikçe grubun entropisi 0, 0'a doğru yükselir.
Karar ağaçlarında entropi, sınıflandırma karar ağacının büyümesi sırasında bırakmanın koşulları seçmesine yardımcı olmak için bilgi edinmenin formüle edilmesine yardımcı olur.
Entropi ile şununla karşılaştır:
- gini saflığı
- entropi kayıp işlevi
Entropi genellikle Shannon entropisi olarak adlandırılır.
C
özelliklerin önem derecesi
Değişken önem dereceleri ile eş anlamlıdır.
Y
gini saflığı
entropi benzeri bir metrik. Ayırıcılar, sınıflandırma için karar ağaçları için koşullar oluşturmak üzere gini saflıktan veya entropiden elde edilen değerleri kullanır. Bilgi edinme, entropiden türetilir. Gini saflığından türetilen metrik için evrensel olarak kabul edilen eşdeğer bir terim yoktur; ancak bu adsız metrik, bilgi edinme kadar önemlidir.
Gini saflığı da gini endeksi veya gini olarak da adlandırılır.
gradyan artırma
Zayıf modellerin güçlü bir modelin kalitesini (kaybetme oranını azaltacak şekilde) yinelemek için eğitildiği bir eğitim algoritmasıdır. Örneğin, zayıf bir model doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, önceden eğitilmiş tüm zayıf modellerin toplamı haline gelir.
En basit şekilde, gradyan takviyesinin en basit biçiminde, her bir iterasyonda güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Daha sonra, güçlü modelin çıkışı, gradyan inişine benzer şekilde, tahmin edilen gradyan çıkarılarak güncellenir.
Bu örnekte:
- $F_{0}$, güçlü ilk modeldir.
- Bir sonraki etkili model $F_{i+1}$.
- Mevcut güçlü model $F_{i}$.
- $\xi$, 0,0 ile 1,0 arasında bir değerdir.Bu değer, gradyan inişteki öğrenme oranına benzer.küçültme olarak adlandırılır.
- $f_{i}$, $F_{i}$ için kayıp gradyanını tahmin etmek üzere eğitilen zayıf modeldir.
Renk geçişi güçlendirmenin modern varyasyonları, hesaplamalardaki ikinci türevi (Hessian) da içerir.
Karar ağaçları genellikle gradyan güçlendirmede zayıf modeller olarak kullanılır. gradyan takviyeli (karar) ağaçlar konusuna bakın.
gradyan artırılmış (karar) ağaçlar (GBT)
Aşağıdaki durumlarda bir karar ormanı türü:
- Eğitim, gradyan güçlendirme özelliğinden yararlanır.
- Zayıf model bir karar ağacıdır.
I
çıkarım yolu
Karar ağacında, çıkarım sırasında, belirli bir örneğin kökten geçip diğer koşullara yönlendirdiği yol, yaprak ile sonlandırılır. Örneğin, aşağıdaki karar ağacındaki daha kalın oklar, aşağıdaki özellik değerlerine sahip bir örneğin çıkarım yolunu gösterir:
- x = 7
- y = 12
- z = -3
Aşağıdaki çizimde çıkarım yolu, yaprağa (Zeta
) ulaşmadan önce üç koşuldan geçer.
Üç kalın ok, çıkarım yolunu gösterir.
bilgi edinme
Karar ormanlarında bir düğümün entropisi ile alt düğümlerinin entropisinin ağırlıklı (örnek sayısına göre) toplamı arasındaki fark. Bir düğüm entropisi, ilgili düğümdeki örneklerin entropisidir.
Örneğin, aşağıdaki entropi değerlerini göz önünde bulundurun:
- Üst düğümün entropisi = 0,6
- 16 alakalı örnek içeren tek bir alt düğümün entropisi = 0,2
- 24 alakalı örnek içeren başka bir alt düğümün entropisi = 0,1
Örneklerin% 40'ı alt düğüm, %60'ı ise başka alt düğümdedir. Bu nedenle:
- Alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Böylece bilgi elde edilir:
- bilgi edinme = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
- bilgi kazancı = 0,6 - 0,14 = 0,46
Çoğu kopya, bilgi kazancını en üst düzeye çıkaran koşullar oluşturmayı amaçlar.
set durumunda
Karar ağacı'nda, bir öğe grubunda bir öğenin varlığını test eden bir durum yer alır. Örneğin, aşağıdakiler bir grup içi koşuldur:
house-style in [tudor, colonial, cape]
Çıkarım sırasında ev stili özelliğinin değeri tudor
veya colonial
veya cape
ise bu koşul Evet olarak değerlendirilir. Ev stili özelliğin değeri farklı bir değerse (örneğin, ranch
) bu koşul Hayır olarak değerlendirilir.
Ayarlanmış koşullar genellikle tek bir kodlamayla kodlanmış özellikleri test eden koşullardan daha verimli karar ağaçları sağlar.
L
yaprak
Karar ağacındaki herhangi bir uç nokta. Durum'dan farklı olarak, bir yaprak test gerçekleştirmez. Yaprak, bunun yerine olası bir tahmindir. Yaprak, çıkarım yolunun terminal düğümüdür.
Örneğin, aşağıdaki karar ağacı üç yaprak içerir:
H
düğüm (karar ağacı)
Karar ağacında herhangi bir durum veya yaprak.
ikili olmayan koşul
İkiden fazla olası sonuç içeren bir durum. Örneğin, aşağıdaki ikili olmayan koşul üç olası sonuç içerir:
O
blok koşulu
Karar ağacında, birden fazla özellik içeren durum. Örneğin, yükseklik ve genişlik her iki özellik deyse aşağıdaki durum bir engel koşuludur:
height > width
Eksenle uyumlu koşul ile kontrast oluşturun.
kol dışı değerlendirme (OOB değerlendirmesi)
Bir karar ormanının kalitesini değerlendirmek için her bir karar ağacının bu karar ağacının eğitim'i sırasında kullanılmayan örneklere karşı test edilmesini sağlayan bir mekanizma. Örneğin, aşağıdaki şemada sistemin, her karar ağacını örneklerin yaklaşık üçte ikisi hakkında eğittiğini ve örneklerin kalan üçte üçüne göre değerlendirdiğini unutmayın.
"Kapsam dışında değerlendirme", çapraz doğrulama mekanizmasının bilişimsel açıdan verimli ve konservatif bir yaklaşımıdır. Çapraz doğrulamada, her bir çapraz doğrulama turu için bir model eğitilir (örneğin, 10 katlı bir çapraz doğrulamada 10 model eğitilir). OOB değerlendirmesinde tek bir model eğitilir. bagaj, eğitim sırasında her ağaçtan bazı verileri depoladığından OOB değerlendirmesi, çapraz doğrulamayı tahmin etmek için bu verileri kullanabilir.
P
permütasyon değişkeni önemleri
Özelliğin değerlerini permütledikten sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önem türü. Permütasyon değişkeninin önemi, modelden bağımsız olarak kullanılan bir metriktir.
K
rastgele orman
Her karar ağacının bagaj gibi belirli bir rastgele gürültüyle eğitildiği karar ağaçlarından oluşan bir toplu.
Rastgele ormanlar, bir karar ormanı türüdür.
kök
Karar ağacı'ndaki ilk düğüm (ilk koşul). Geleneksel olarak, diyagramlar karar ağacının en üstüne yerleştirilir. Örneğin:
C
değiştirme yöntemiyle örnekleme
Aynı öğenin birden çok kez seçilebileceği bir aday öğe kümesinden öğe seçme yöntemi. "Değişim amaçlı" kelime öbeği, her bir seçimden sonra seçilen öğenin aday öğeleri havuzuna döndürüleceği anlamına gelir. Ters örnek olmadan örnekleme, bir aday öğesinin yalnızca bir kez seçilebileceği anlamına gelir.
Örneğin, aşağıdaki meyve grubunu düşünün:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sistemin fig
ilk öğeyi rastgele seçtiğini varsayalım.
Değiştirme için örnekleme yapılmışsa sistem ikinci öğeyi aşağıdaki kümeden seçer:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Evet, sistem öncekiyle aynıdır. Bu nedenle, sistem fig
öğesini tekrar seçebilir.
Numuneyi değiştirmeden örnekleme kullanıldığında, seçilen örnek tekrar seçilemez. Örneğin, sistem ilk örnek olarak fig
öğesini rastgele seçerse fig
tekrar seçilemez. Bu nedenle, sistem aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:
fruit = {kiwi, apple, pear, cherry, lime, mango}
küçült
Aşırı sığdırma özelliğini kontrol eden gradyan takviyesi içindeki hiperparametre. Renk geçişi artırıcı küçülme, gradyan iniş içindeki öğrenme oranına benzer. Daraltma, 0,0 ile 1,0 arasında ondalık bir değerdir. Düşük bir küçültülmüş değer daha büyük bir küçültülmüş değerden daha büyük sığdırma değerini azaltır.
split
Karar ağacında, durum için başka bir addır.
ayırıcı
Bir karar ağacı eğitilirken her düğümde en iyi durumu bulmaktan sorumlu rutin (ve algoritma)
T
test
Karar ağacında, durum için başka bir addır.
eşik (karar ağaçları için)
Eksenle uyumlu durumda, bir özelliğin karşılaştırıldığı değer. Örneğin, 75 değeri aşağıdaki koşulda eşik değeridir:
grade >= 75
V
değişken önemleri
Her bir özelliğin modele göre göreli önemini belirten bir puan grubu.
Örneğin, ev fiyatlarını tahmin eden bir karar ağacı düşünün. Bu karar ağacının üç özelliği kullandığını varsayalım: boyut, yaş ve stil. Üç özellik için değişen önem düzeyleri, {size=5.8, age=2.5, style=4.7} olarak hesaplanırsa karar ağacı için boyutun yaş veya stilden daha önemli olduğu belirlenir.
Çeşitli değişken önem metrikleri mevcuttur. Bu metrikler, makine öğrenimi uzmanlarının modellerin farklı yönleri hakkında bilgi sahibi olmasını sağlayabilir.
W
kalabalığın bilgeliği
Geniş bir kullanıcı grubunun (kalabalıktan) gelen görüş veya tahminleri ortalamasını alma fikri genellikle şaşırtıcı derecede iyi sonuçlar veriyor. Örneğin, kullanıcıların büyük bir kavanozda paketlenmiş jelibon sayısını tahmin ettiği bir oyunu ele alalım. Çoğu bağımsız tahmin yanlış olsa da tüm tahminlerin ortalaması, şaşırtıcı şekilde kavanozdaki gerçek jeli fasulye sayısına yaklaşık olarak yakındır.
Topluluklar, kalabalığın bilgeliği ile benzer bir yazılım örneğidir. Bağımsız modeller çılgın şekilde yanlış tahminlerde bulunsa bile birçok modelin tahminlerine ortalama uygulandığında genellikle şaşırtıcı derecede iyi tahminler elde edilir. Örneğin, tek bir karar ağacı hatalı tahminlerde bulunsa da bir karar ormanı genellikle çok iyi tahminler yapar.