Karar ağaçları

Karar ormanı modelleri, karar ağaçlarından oluşur. Karar ormanı öğrenme algoritmaları (rastgele ormanlar gibi), en azından kısmen karar ağaçlarının öğrenilmesine dayanır.

Kursun bu bölümünde küçük bir örnek veri kümesini inceleyecek ve tek bir karar ağacının nasıl eğitildiğini öğreneceksiniz. Sonraki bölümlerde karar ağaçlarının karar ormanlarını eğitmek için nasıl birleştirildiğini öğreneceksiniz.

YDF Kodu

YDF'de bireysel karar ağacı modellerini eğitmek için CART öğrencisini kullanın:

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

Model

Karar ağacı, hiyerarşik olarak ağaç şeklinde düzenlenmiş bir dizi "sorudan" oluşan bir modeldir. Bu sorular genellikle koşul, bölünmüş veya test olarak adlandırılır. Bu derste "koşul" terimini kullanacağız. Yaprak olmayan her düğüm bir koşul içerir ve her yaprak düğümü bir tahmin içerir.

Botanik ağaçlar genellikle kökü alt kısmında olacak şekilde büyür; ancak karar ağaçları genellikle en üstteki kök (ilk düğüm) ile temsil edilir.

İki koşul ve üç yaprak içeren bir karar ağacı. İlk koşul (kök) num_legs >= 3; ikinci koşul ise num_eyes >= 3'tür. Üç yaprak; penguen, örümcek
ve köpek.

Şekil 1. Basit bir sınıflandırma kararı ağacı. Yeşil renkteki gösterge, karar ağacının bir parçası değildir.

 

Bir karar ağacı modelinin çıkarımı, bir örneği koşullara göre kökten (üstte) yaprak düğümlerinden birine (alttaki) yönlendirerek hesaplanır. Ulaşılan yaprağın değeri, karar ağacının tahminidir. Ziyaret edilen düğümler kümesine çıkarım yolu denir. Örneğin, aşağıdaki özellik değerlerini göz önünde bulundurun:

num_legs num_eyes
4 2

Tahmin, köpek olur. Çıkarım yolu şöyle olur:

  1. num_legs ≥ 3 → Evet
  2. num_eyes ≥ 3 → Hayır

Şekil 1'deki görselin aynısı olmakla birlikte bu çizim, iki koşulda köpek için yaprakta son bulan çıkarım yolunu göstermektedir.

Şekil 2. Örnekteki *köpek* yaprağında son bulan çıkarım yolu *{num_legs : 4, num_eyes : 2}*.

 

Önceki örnekte, karar ağacının yaprakları sınıflandırma tahminleri içerir. Yani her yaprak, bir dizi olası tür arasında bir hayvan türü içerir.

Benzer şekilde, karar ağaçları yaprakları regresif tahminlerle (sayısal değerler) etiketleyerek sayısal değerleri tahmin edebilir. Örneğin, aşağıdaki karar ağacı, bir hayvanın 0 ile 10 arasında sayısal sevimlilik puanını tahmin etmektedir.

Her yaprağın farklı bir kayan nokta sayısı içerdiği bir karar ağacı.

Şekil 3. Sayısal tahminde bulunan bir karar ağacı.