Doğrusal regresyon: Kayıp

Kayıp, modelin tahminlerinin ne kadar yanlış olduğunu açıklayan sayısal bir metriktir. Kayıp, modelin tahminleri ile gerçek etiketler arasındaki mesafeyi ölçer. Bir modeli eğitmenin amacı, kaybı en düşük olası değere indirerek en aza indirmektir.

Aşağıdaki resimde, veri noktalarından modele çizilen oklar olarak kaybı görselleştirebilirsiniz. Oklar, modelin tahminlerinin gerçek değerlerden ne kadar uzak olduğunu gösterir.

Şekil 9. Kayıp çizgileri, veri noktalarını modele bağlar.

Şekil 9. Kayıp, gerçek değerden tahmin edilen değere kadar ölçülür.

Kayıp mesafesi

İstatistik ve makine öğreniminde kayıp, tahmin edilen değerler ile gerçek değerler arasındaki farkı ölçer. Kayıp, yön yerine değerler arasındaki mesafeye odaklanır. Örneğin, bir model 2 değerini tahmin ediyorsa ancak gerçek değer 5 ise kaybın negatif olmasını (2-5=-3) önemsemeyiz. Bunun yerine, değerler arasındaki mesafenin 3 olmasını önemseriz. Bu nedenle, kaybı hesaplamaya yönelik tüm yöntemlerde işaret kaldırılır.

İşareti kaldırmak için en yaygın kullanılan iki yöntem şunlardır:

  • Gerçek değer ile tahmin arasındaki farkın mutlak değerini alın.
  • Gerçek değer ile tahmin arasındaki farkın karesini alın.

Kayıp türleri

Doğrusal regresyonda dört ana kayıp türü vardır. Bunlar aşağıdaki tabloda özetlenmiştir.

Kayıp türü Tanım Denklem
L1 kaybı Tahmin edilen değerler ile gerçek değerler arasındaki farkın mutlak değerlerinin toplamı. $ ∑ | gerçek\ değer - tahmini\ değer | $
Ortalama mutlak hata (MAE) Bir dizi *N* örnekteki L1 kayıplarının ortalaması. $ \frac{1}{N} ∑ | actual\ value - predicted\ value | $
L2 kaybı Tahmin edilen değerler ile gerçek değerler arasındaki kare farkının toplamı. $ ∑(gerçek\ değer - tahmin\ edilen\ değer)^2 $
Ortalama karesel hata (MSE) Bir dizi *N* örneğindeki L2 kayıplarının ortalaması. $ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $

L1 kaybı ile L2 kaybı (veya MAE ile MSE) arasındaki işlevsel fark, kare almadır. Tahmin ile etiket arasındaki fark büyük olduğunda kare alma işlemi kaybı daha da artırır. Fark küçük olduğunda (1'den az) kare alma işlemi kaybı daha da küçültür.

Birden fazla örneği aynı anda işlerken MAE veya MSE kullanılsın ya da kullanılmasın, kayıpların tüm örnekler arasında ortalamasını almanızı öneririz.

Kayıp hesaplama örneği

Önceki en uygun çizgi kullanılarak tek bir örnek için L2 kaybı hesaplanır. En uygun çizgiye göre ağırlık ve sapma için aşağıdaki değerleri elde ettik:

  • $ \small{Weight: -4.6} $
  • $ \small{Bias: 34} $

Model, 1.075 kg ağırlığındaki bir arabanın 10,2 km/litre yakıt tükettiğini tahmin ediyorsa ancak gerçekte 11 km/litre yakıt tüketiyorsa L2 kaybını aşağıdaki gibi hesaplarız:

Değer Denklem Sonuç
Tahmin

$\small{bias + (weight * feature\ value)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$
Gerçek değer $ \small{ label } $ $ \small{ 26 } $
L2 kaybı

$ \small{ (gerçek\ değer - tahmin\ edilen\ değer)^2 } $

$\small{ (26 - 23.1)^2 }$

$\small{8.41}$

Bu örnekte, tek bir veri noktası için L2 kaybı 8,41'dir.

Kayıp seçme

MAE veya MSE kullanıp kullanmayacağınıza karar verirken veri kümesini ve belirli tahminleri nasıl ele almak istediğinizi göz önünde bulundurabilirsiniz. Bir veri kümesindeki çoğu özellik değeri genellikle belirli bir aralığa girer. Örneğin, arabalar normalde 900 kg ile 2.250 kg arasında ağırlığa sahiptir ve 3-21 km/litre yakıt tüketir. 3.600 kg ağırlığındaki veya galon başına 100 mil yol giden bir araba, normal aralığın dışındadır ve aykırı değer olarak kabul edilir.

Aykırı değer, bir modelin tahminlerinin gerçek değerlerden ne kadar uzak olduğunu da ifade edebilir. Örneğin, 3.000 pound tipik araç ağırlığı aralığındadır ve galon başına 40 mil tipik yakıt verimliliği aralığındadır. Ancak, 1.360 kg ağırlığında olan ve 1 litre yakıtla 17 km yol giden bir araba, modelin tahmini açısından aykırı değer olur. Çünkü model, 1.360 kg ağırlığındaki bir arabanın 1 litre yakıtla yaklaşık 8,5 km yol gideceğini tahmin eder.

En iyi kayıp işlevini seçerken modelin aykırı değerleri nasıl ele almasını istediğinizi göz önünde bulundurun. Örneğin, MSE modeli aykırı değerlere doğru kaydırırken MAE bunu yapmaz. L2 kaybı, aykırı değer için L1 kaybından çok daha yüksek bir ceza alır. Örneğin, aşağıdaki resimlerde MAE kullanılarak eğitilmiş bir model ve MSE kullanılarak eğitilmiş bir model gösterilmektedir. Kırmızı çizgi, tahmin yapmak için kullanılacak tam olarak eğitilmiş bir modeli temsil eder. Aykırı değerler, MAE ile eğitilen modelden ziyade MSE ile eğitilen modele daha yakındır.

Şekil 10. Model, aykırı değerlere daha fazla ağırlık verir.

Şekil 10. MSE ile eğitilen bir model, modeli aykırı değerlere yaklaştırır.

Şekil 11. Model, aykırı değerlerden daha fazla uzaklaştırılır.

Şekil 11. MAE ile eğitilmiş bir model, aykırı değerlerden daha uzaktır.

Model ile veriler arasındaki ilişkiye dikkat edin:

  • MSE. Model, aykırı değerlere daha yakın ancak diğer veri noktalarının çoğundan daha uzaktır.

  • MAE. Model, aykırı değerlerden daha uzakta ancak diğer veri noktalarının çoğuna daha yakındır.

Anlayıp anlamadığınızı kontrol etme

Aşağıdaki iki grafiği inceleyin:

10 puanlık bir olay örgüsü.
      Noktalardan 6'sının ortasından bir çizgi geçer. 2 nokta, çizginin 1 birim üzerinde; diğer 2 nokta ise çizginin 1 birim altında. 10 puanlık bir olay örgüsü. Noktalardan 8'inin ortasından bir çizgi geçer. 1 nokta, çizginin 2 birim üzerinde; diğer 1 nokta ise çizginin 2 birim altında.
Önceki grafiklerde gösterilen iki veri kümesinden hangisinin Ortalama Kare Hatası (MSE) daha yüksek?
Soldaki veri kümesi.
Satırdaki altı örnek toplamda 0 kaybına neden olur. Çizgi üzerinde olmayan dört örnek, çizgiden çok uzak değildir. Bu nedenle, sapmalarının karesini almak yine de düşük bir değer verir: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
Sağdaki veri kümesi.
Satırdaki sekiz örnek toplamda 0 kaybına neden oluyor. Ancak, çizginin dışında yalnızca iki nokta bulunsa da bu noktaların her ikisi de çizginin dışında, soldaki şekildeki aykırı noktaların iki katı kadar uzakta yer alır. Kare kaybı bu farklılıkları artırır. Bu nedenle, iki birimlik bir sapma, bir birimlik bir sapmaya kıyasla dört kat daha fazla kayba neden olur: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$