Gradyan güçlendirme (isteğe bağlı birim)

Regresyon sorunlarında, imzalı hatayı, tahmin ve etiket arasındaki fark olarak tanımlamak mantıklıdır. Ancak bu strateji diğer problem türlerinde genellikle kötü sonuçlara yol açar. Renk geçişi artırmak için kullanılan daha iyi bir strateji:

  • Sinir ağlarında kullanılan kayıp işlevlerine benzer bir kayıp fonksiyonu tanımlayın. Örneğin, bir sınıflandırma probleminin entropisi (günlük kaybı olarak da bilinir).
  • Güçlü model çıkışına göre kayıp gradyanını tahmin etmek için zayıf modeli eğitin.

Resmi olarak, $y$'nın etiket, $p$ değerinin tahmin olduğu $L(y,p)$ kayıp fonksiyonu verildiğinde, $i$ adımında zayıf modeli eğitmek için $z_i$ sahte yanıtı şu şekildedir:

$$ z_i = \frac {\partial L(y, F_i)} {\partial F_i} $$

Bu örnekte:

  • $F_i$, güçlü modelin tahminidir.

Yukarıdaki örnek bir regresyon problemiydi: Amaç sayısal bir değeri tahmin etmektir. Regresyon durumunda, kareli hata yaygın bir kayıp işlevidir:

$$ L(y,p) = (y - p)^2 $$

Bu durumda, gradyan şöyle olur:

$$ z = \frac {\partial L(y, F_i)} {\partial F_i} = \frac {\partial(y-p)^2} {\partial p} = 2(y - p) = 2 \ \text{signed error} $$

Kelimelerin sıralanmasında, gradyan 2 faktörlü bir örneğimizde verilen imzalı hatadır. Küçülme nedeniyle sabit faktörlerin önemli olmadığını unutmayın. Bu denkliğin yalnızca kareli hata kaybı olan regresyon problemleri için geçerli olduğunu unutmayın. Diğer gözetimli öğrenme problemlerinde (örneğin sınıflandırma, sıralama, yüzdelik dilimi kaybıyla regresyon) gradyan ve imzalı hata arasında bir eşdeğerlik yoktur.

Newton'un yöntem adımıyla yaprak ve yapı optimizasyonu

Newton'un yöntemi, gradyan iniş gibi bir optimizasyon yöntemidir. Bununla birlikte, optimize etmek için yalnızca işlevin gradyanını kullanan gradyan inişinin aksine, Newton'un yöntemi, optimizasyon için hem gradyanı (birinci türev) hem de işlevin ikinci türevini kullanır.

Bir gradyan azalma adımı aşağıdaki gibidir:

$$ x_{i+1} = x_i - \frac {df}{dx}(x_i) = x_i - f'(x_i) $$

ve Newton'un yöntemini şöyle sıralayabiliriz:

$$ x_{i+1} = x_i - \frac {\frac {df}{dx} (x_i)} {\frac {d^2f}{d^2x} (x_i)} = x_i - \frac{f'(x_i)}{f''(x_i)}$$

İsteğe bağlı olarak, Newton'un yöntemi, gradyan güçlendirilmiş ağaçların eğitimine iki yolla entegre edilebilir:

  1. Bir ağaç eğitildikten sonra, her yaprağa bir Newton adımı uygulanır ve ağacın değerini geçersiz kılar. Ağaç yapısına dokunulmaz, yalnızca yaprak değerleri değişir.
  2. Bir ağacın büyümesi sırasında, koşullar Newton formülünün bir bileşenini içeren bir puana göre seçilir. Ağacın yapısı etkilenir.
YDF Kodu
YDF'de:
  • YDF, yaprağa her zaman bir Newton adımı uygular (1. seçenek).
  • 2. seçeneği use_hessian_gain=True ile etkinleştirebilirsiniz.