Basitlik için Normalleştirme: L2 Normalleştirme

Aşağıdaki genelleme eğrisini göz önünde bulundurun. Bu eğri, hem eğitim kümesi hem de doğrulama için belirlenen kaybı, eğitim iterasyonlarının sayısına göre gösterir.

Eğitim setinin kayıp işlevi kademeli olarak azalır. Buna karşılık, doğrulama grubuna ilişkin kayıp işlevi azalır, ancak daha sonra yükselmeye başlar.

Şekil 1. Eğitim seti ve doğrulama kümesinde kayıp.

Şekil 1'de eğitim kaybının kademeli olarak azaldığı, ancak doğrulama kaybının nihayetinde arttığı bir model gösterilmektedir. Diğer bir deyişle bu genelleştirme eğrisi, modelin eğitim kümesindeki verilere fazla uyum sağladığını gösterir. İçimizdeki Ockham'a yön vererek, karmaşık modelleri cezalandırarak fazla eşleşmeyi önleyebiliriz. Buna düzenleme adı verilen bir ilke denir.

Diğer bir deyişle, sadece kaybı en aza indirmeyi (deneysel risk en aza indirme) hedeflemek yerine:

$$\text{minimize(Loss(Data|Model))}$$

şimdi de yapısal riskleri en aza indirme olarak adlandırılan kayıp+karmaşıklığı en aza indireceğiz:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

Eğitim optimizasyonu algoritmamız artık iki terimden oluşan bir işleve dönüştü: modelin verilere ne kadar uyduğunu ölçen kayıp terimi ve model karmaşıklığını ölçen normalleştirme terimi.

Makine Öğrenimi Crash Course, model karmaşıklığını düşünmek için yaygın (ve biraz da birbiriyle alakalı) iki yola odaklanıyor:

  • Modeldeki tüm özelliklerin ağırlıklarının bir işlevi olarak model karmaşıklığı.
  • Sıfır olmayan ağırlıklara sahip toplam özellik sayısının bir işlevi olarak model karmaşıklığı. (Sonraki modülde bu yaklaşım ele alınmaktadır.)

Model karmaşıklığı ağırlıklardan kaynaklanıyorsa mutlak değeri yüksek bir özellik ağırlığı, düşük mutlak değere sahip bir özellik ağırlığından daha karmaşıktır.

Normalleştirme terimini, tüm özellik ağırlıklarının karelerinin toplamı olarak tanımlayan L2 normalleştirme formülünü kullanarak karmaşıklığı sayabiliriz:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

Bu formülde, sıfıra yakın ağırlıkların model karmaşıklığı üzerinde çok az etkisi olurken, aykırı ağırlıkların büyük bir etkisi olabilir.

Örneğin, aşağıdaki ağırlıklara sahip bir doğrusal model:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

L2 normalleştirme terimi 26,915'tir:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

Ancak, kare değerinin karesi 25 olan \(w_3\) (yukarıda kalın harflerle gösterilmiştir), neredeyse tüm karmaşıklığa katkıda bulunur. Diğer beş ağırlığın tamamının karelerinin toplamı L2 normalleştirme terimine yalnızca 1,915 ekler.