Bu sayfa Karar Ormanları sözlük terimlerini içerir. Tüm sözlük terimleri için burayı tıklayın.
CEVAP
özellik örnekleme
Her karar ağacının durumu öğrenirken olası özelliklerin yalnızca rastgele bir alt kümesini dikkate aldığı bir karar ormanı eğitme taktiği. Genellikle her düğüm için farklı bir özellik alt kümesi örneklenir. Öte yandan, özellik örnekleme olmadan bir karar ağacını eğitirken her bir düğüm için olası tüm özellikler göz önünde bulundurulur.
eksene ayarlı koşul
Karar ağacında yalnızca tek bir özellik içeren koşul. Örneğin, alan bir özellikse aşağıdakiler eksene hizalı bir koşuldur:
area > 200
Eğik durumla kontrast.
B
torbalama
Bir topluluğu eğitme yönteminde, her bileşen modeli değiştirilerek örneklenmiş rastgele bir eğitim örneği alt kümesi üzerinde eğitilir. Örneğin, rastgele orman, torbalama konusunda eğitilmiş karar ağaçları koleksiyonudur.
bagaj terimi, bootstrap aggregating kelimesinin kısaltmasıdır.
ikili koşul
Karar ağacında genellikle evet veya hayır olmak üzere yalnızca iki olası sonucu olan bir koşul. Örneğin, aşağıdaki ikili bir koşuldur:
temperature >= 100
İkili olmayan koşul ile kontrast.
C
koşul
Karar ağacında, bir ifadeyi değerlendiren tüm düğümler. Örneğin, karar ağacının aşağıdaki bölümünde iki koşul bulunur:
Koşullara ayırma veya test de denir.
Yaprak ile kontrast durumu.
Şuna da bakabilirsiniz:
D
karar ormanı
Birden fazla karar ağacından oluşturulan bir model. Bir karar ormanı, karar ağaçlarındaki tahminleri birleştirerek bir tahminde bulunur. Popüler karar ormanı türleri arasında rastgele ormanlar ve gradyan güçlendirilmiş ağaçlar yer alır.
karar ağacı
Bir dizi conditions ve hiyerarşik olarak düzenlenmiş conditions oluşan gözetimli bir öğrenim modeli. Örneğin, aşağıda bir karar ağacı verilmiştir:
E
entropi
Bilgi teorisinde, bir olasılık dağılımının ne kadar öngörülemez olduğuna dair bir açıklama. Alternatif olarak entropi, her örneğin ne kadar bilgi içerdiği olarak da tanımlanır. Rastgele bir değişkenin tüm değerlerinin eşit olasılığa sahip olduğu durumlarda, dağılım mümkün olan en yüksek entropiye sahip olur.
"0" ve "1" şeklinde iki olası değere sahip bir kümenin entropisi (örneğin, ikili sınıflandırma sorunundaki etiketler) aşağıdaki formüle sahiptir:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Bu örnekte:
- H, entropidir.
- p, "1" örneklerinin oranıdır.
- q, "0" örneklerinin oranıdır. q = (1 - p) değerine dikkat edin.
- log genellikle log2'dir. Bu durumda entropi birimi birazdır.
Örneğin, aşağıdakileri varsayalım:
- "1" değerini içeren 100 örnek
- "0" değerini içeren 300 örnek
Bu durumda entropi değeri şöyle olur:
- k = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = Örnek başına 0,81 bit
Mükemmel dengeli bir kümenin (örneğin, 200 "0" ve 200 "1") örnek başına 1,0 bitlik bir entropisi olur. Bir küme daha dengesiz hale geldikçe entropi 0, 0'a doğru ilerler.
Karar ağaçlarında entropi, bilgi kazanımının belirlenmesine yardımcı olarak bölücü'nün sınıflandırma karar ağacının gelişimi sırasında koşulları seçmesine yardımcı olur.
Entropiyi şununla karşılaştır:
- gini kirliliği
- çapraz entropi kayıp işlevi
Entropi genellikle Shannon entropisi olarak adlandırılır.
F
özelliğin önem düzeyi
Değişken önemlerin eş anlamlısı.
G
gini kirliliği
Entropi'ye benzer bir metrik. Ayırıcılar, karar ağaçları sınıflandırmak için koşulları oluşturmak amacıyla gini saflığından veya entropiden türetilen değerleri kullanır. Bilgi kazancı entropiden türetilir. Gini bozulmasından türetilen metrik için evrensel olarak kabul edilen bir eşdeğer terim yoktur, ancak bu adsız metrik, bilgi kazancı kadar önemlidir.
Gini saflığı, gini endeksi veya kısaca gini olarak da adlandırılır.
gradyan güçlendirmeli (karar) ağaçlar (GBT)
Bir karar ormanı türü:
- Eğitim, gradyan artırmaya dayanır.
- Zayıf model bir karar ağacıdır.
gradyan güçlendirme
Zayıf modellerin, güçlü bir modelin kalitesini yinelemeli olarak iyileştirmek (kaybı azaltmak) için eğitildiği bir eğitim algoritması. Örneğin, zayıf bir model, doğrusal veya küçük bir karar ağacı modeli olabilir. Güçlü model, daha önce eğitilmiş tüm zayıf modellerin toplamı olur.
Gradyan artırmanın en basit biçiminde, her iterasyonda güçlü modelin kayıp gradyanını tahmin etmek için zayıf bir model eğitilir. Daha sonra, gradyan azalmaya benzer şekilde tahmin edilen gradyan çıkarılarak güçlü modelin çıkışı güncellenir.
Bu örnekte:
- $F_{0}$, güçlü başlangıç modelidir.
- $F_{i+1}$, diğer güçlü modeldir.
- $F_{i}$ şu an kullanılan güçlü model.
- $\xi$, 0,0 ile 1,0 arasında bir değerdir. Daraltma, gradyan inişindeki öğrenme hızına benzer.
- $f_{i}$, $F_{i}$ tutarındaki kayıp gradyanını tahmin etmek için eğitilen zayıf modeldir.
Gradyan artırmanın modern varyasyonları, hesaplamalarında kaybın ikinci türevini (Hessian) da içerir.
Karar ağaçları, gradyan güçlendirmede yaygın olarak zayıf modeller olarak kullanılır. Gradyan güçlendirmeli (karar) ağaçlara bakın.
İ
çıkarım yolu
Bir karar ağacında, çıkarım sırasında belirli bir örneğin kökten diğer koşullara aldığı ve bir yaprak ile sonlandırılan rota. Örneğin, aşağıdaki karar ağacında, daha kalın oklar aşağıdaki özellik değerlerini içeren bir örnek için çıkarım yolunu gösterir:
- x = 7
- y = 12
- z = -3
Aşağıdaki çizimde gösterilen çıkarım yolu, yaprağa (Zeta
) ulaşmadan önce üç koşuldan geçer.
Üç kalın ok, çıkarım yolunu gösteriyor.
bilgi kazancı
Karar ormanlarında bir düğümün entropisi ile alt düğümlerinin entropilerinin ağırlıklı (örnek sayısına göre) toplamı arasındaki fark. Bir düğümün entropisi, o düğümdeki örneklerin entropisidir.
Örneğin, aşağıdaki entropi değerlerini göz önünde bulundurun:
- üst düğümün entropisi = 0,6
- 16 alakalı örnek ile bir alt düğümün entropisi = 0,2
- 24 ilgili örnekle birlikte başka bir alt düğümün entropisi = 0,1
Dolayısıyla, örneklerin% 40'ı bir alt düğümde, %60'ı ise diğer alt düğümdedir. Bu nedenle:
- alt düğümlerin ağırlıklı entropi toplamı = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Yani bilgi kazancı:
- bilgi kazancı = üst düğümün entropisi - alt düğümlerin ağırlıklı entropi toplamı
- bilgi kazancı = 0,6 - 0,14 = 0,46
Çoğu bölücü, bilgi kazancını en üst düzeye çıkaran koşullar oluşturmaya çalışır.
ayarlı koşul
Karar ağacında, bir öğe kümesinde bir öğenin varlığını test eden bir koşul. Örneğin, aşağıdaki ayarlanmış bir koşuldur:
house-style in [tudor, colonial, cape]
Çıkarım sırasında ev tarzı özellik değeri tudor
veya colonial
ya da cape
ise bu koşul Evet olarak değerlendirilir. Ev tarzı özelliğinin değeri başka bir şeyse (örneğin, ranch
) bu koşul Hayır olarak değerlendirilir.
Yerleşik koşullar genellikle tek sıcak kodlanmış özellikleri test eden koşullardan daha verimli karar ağaçları sağlar.
L
yaprak
Karar ağacındaki herhangi bir uç nokta. Koşul'un aksine, yaprak test gerçekleştirmez. Daha ziyade, yaprak olası bir tahmindir. Yaprak aynı zamanda çıkarım yolunun terminal düğümüdür.
Örneğin, aşağıdaki karar ağacı üç yaprak içerir:
N
düğüm (karar ağacı)
Karar ağacında, herhangi bir koşul veya yaprak.
ikili olmayan koşul
İkiden fazla olası sonuç içeren bir koşul. Örneğin, aşağıdaki ikili olmayan koşul üç olası sonuç içerir:
O
eğik durum
Karar ağacında birden fazla özellik içeren bir koşul. Örneğin, yükseklik ve genişlik her iki özellik de ise, şu durumda eğik bir koşul olur:
height > width
Eksene hizalı koşul ile kontrast.
sıradan değerlendirmesi (OOB değerlendirmesi)
Her bir karar ağacının kalitesini, ilgili karar ağacının eğitimi sırasında kullanılmayan örnekler ile karşılaştırarak test ederek karar ormanının kalitesini değerlendirme mekanizması. Örneğin, aşağıdaki şemada, sistemin her bir karar ağacını örneklerin yaklaşık üçte ikisi üzerinde eğittiğine ve daha sonra kalan örneklerin üçte birine göre değerlendirme yaptığına dikkat edin.
Torba dışı değerlendirme, çapraz doğrulama mekanizmasının hesaplama açısından verimli ve ölçülü bir yaklaşımıdır. Çapraz doğrulamada, her bir çapraz doğrulama turu için bir model eğitilir (örneğin, 10 katlık çapraz doğrulama için 10 model eğitilir). OOB değerlendirmesiyle tek bir model eğitilir. bagaj eğitim sırasında her bir ağaçtan bazı veri tuttuğundan, OOB değerlendirmesi, çapraz doğrulamayı yaklaşık olarak belirlemek için bu verileri kullanabilir.
P
permütasyon değişkeninin önemleri
Özelliğin değerlerini perspektiften sonra bir modelin tahmin hatasındaki artışı değerlendiren bir değişken önem türü. Permütasyon değişkeninin önemi, modelden bağımsız bir metriktir.
R
Rastgele Orman
Her karar ağacının, çuval gibi belirli bir rastgele gürültüyle eğitildiği bir karar ağaçları topluluğu.
Rastgele ormanlar, bir karar ormanı türüdür.
kök
Bir karar ağacındaki başlangıç düğümü (ilk koşul). Kural olarak, diyagramlar kökü karar ağacının en üstüne yerleştirir. Örneğin:
S
değiştirme ile örnekleme
Aynı öğenin birden çok kez seçilebildiği bir aday öğe grubundan öğe seçme yöntemi. "Değiştirilecek" ifadesi, her seçimden sonra seçilen öğenin aday öğeler havuzuna döndürüleceği anlamına gelir. Ters yöntem olan değiştirmeden örnekleme, bir aday öğenin yalnızca bir kez seçilebileceği anlamına gelir.
Örneğin, aşağıdaki meyve grubunu ele alalım:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sistemin fig
öğesini ilk öğe olarak rastgele seçtiğini varsayalım.
Değiştirme yöntemiyle örnekleme kullanılıyorsa sistem, aşağıdaki kümeden ikinci öğeyi seçer:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Evet, bu daha önce olduğu gibi aynı. Bu nedenle sistem fig
grubunu yeniden seçebilir.
Değiştirmeden örnekleme kullanılıyorsa bir numune tekrar seçilemez. Örneğin, sistem rastgele ilk örnek olarak fig
değerini seçerse fig
tekrar seçilemez. Bu nedenle, sistem aşağıdaki (azaltılmış) kümeden ikinci örneği seçer:
fruit = {kiwi, apple, pear, cherry, lime, mango}
küçülme
gradyan güçlendirmede fazla uyumu kontrol eden bir hiperparametre. Gradyan artırmada küçülme, gradyan inişteki öğrenme hızına benzer. Daralma 0,0 ile 1,0 arasında bir ondalık değerdir. Düşük bir küçültme değeri, fazla sığdırmayı daha büyük bir küçültme değerinden daha fazla azaltır.
split
Karar ağacında, koşul için başka bir ad verilir.
ayırıcı
Bir karar ağacı eğitilirken her düğümde en iyi koşulu bulmaktan sorumlu rutin (ve algoritma).
T
test
Karar ağacında, koşul için başka bir ad verilir.
eşik (karar ağaçları için)
Eksenli koşulda, bir özelliğin karşılaştırıldığı değer. Örneğin, aşağıdaki koşulda eşik değeri 75'tir:
grade >= 75
V
değişken önemleri
Her bir özelliğin model için göreli önemini gösteren puanlar.
Örneğin, ev fiyatlarını tahmin eden bir karar ağacı ele alalım. Bu karar ağacının üç özelliği kullandığını varsayalım: boyut, yaş ve stil. Üç özellik için bir değişken önem grubu {size=5.8, age=2.5, style=4.7} olarak hesaplanırsa karar ağacında boyut, yaş veya stilden daha önemlidir.
Makine öğrenimi uzmanlarına modellerin farklı yönleri hakkında bilgi verebilecek farklı değişken önem metrikleri vardır.
W
kalabalığın bilgeliği
Büyük bir grubun ("kalabalık") düşüncelerinin veya tahminlerinin ortalamasını almanın genellikle şaşırtıcı şekilde iyi sonuçlar sağladığı fikri. Örneğin, insanların büyük bir kavanoza konulan jelibon sayısını tahmin ettiği bir oyun düşünün. Bireysel tahminlerin çoğu yanlış olsa da, tüm tahminlerin ortalamasının kavanozdaki gerçek jelibon sayısına şaşırtıcı derecede yakın olduğu gözlemlenmiştir.
Topluluklar, kalabalığın bilgeliğinin yazılım analogudur. Tek tek modeller son derece yanlış tahminler yapsa bile birçok modelin tahmininin ortalaması genellikle şaşırtıcı derecede iyi tahminler oluşturur. Örneğin, tek bir karar ağacı kötü tahminlerde bulunsa da karar ormanı genellikle çok iyi tahminlerde bulunur.