Mantıksal regresyon: Kayıp ve normalleştirme

Mantıksal regresyon modelleri, doğrusal regresyon modelleriyle aynı işlem kullanılarak eğitilir. Ancak iki temel fark vardır:

Aşağıdaki bölümlerde bu iki husus daha ayrıntılı olarak ele alınmaktadır.

Günlük Kaybı

Doğrusal regresyon modülünde, kare kaybı (L2 kaybı olarak da bilinir) kayıp işlevi olarak kullanıldı. Karesel kayıp, çıkış değerlerinin değişim hızının sabit olduğu doğrusal modellerde iyi sonuç verir. Örneğin, $y' = b + 3x_1$ doğrusal modeli verildiğinde, giriş değeri $x_1$ her 1 artırıldığında çıkış değeri $y'$ 3 artar.

Ancak, lojistik regresyon modelinin değişim oranı sabit değildir. Olasılık hesaplama bölümünde gördüğünüz gibi, sigmoid eğrisi doğrusal değil, S şeklindedir. Log-odds ($z$) değeri 0'a yaklaştığında $z$ değerindeki küçük artışlar, $z$ büyük bir pozitif veya negatif sayı olduğunda $y$ değerinde çok daha büyük değişikliklere neden olur. Aşağıdaki tabloda, 5 ile 10 arasındaki giriş değerleri için sigmoid işlevinin çıkışı ve sonuçlardaki farklılıkları yakalamak için gereken ilgili hassasiyet gösterilmektedir.

giriş lojistik çıktı Gerekli hassasiyet basamakları
5 0,993 3
6 0,997 3
7 0,999 3
8 0,9997 4
9 0,9999 4
10 0,99998 5

Sigmoid işlevinin hatalarını hesaplamak için karesel kayıp kullandıysanız çıkış 0 ve 1 değerlerine yaklaştıkça bu değerleri izlemek için gereken hassasiyeti korumak üzere daha fazla belleğe ihtiyacınız olur.

Bunun yerine, lojistik regresyonun kayıp fonksiyonu Log Loss'tur. Log Loss denklemi, yalnızca verilerden tahmine olan mesafeyi değil, değişikliğin büyüklüğünün logaritmasını döndürür. Günlük kaybı aşağıdaki şekilde hesaplanır:

$\text{Log Loss} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$

Bu örnekte:

  • \(N\) , veri kümesindeki etiketli örneklerin sayısıdır.
  • \(i\) , veri kümesindeki bir örneğin dizinidir (ör. \((x_3, y_3)\) veri kümesindeki üçüncü örnektir)
  • \(y_i\) , \(i\). örneğin etiketidir. Bu mantıksal regresyon olduğundan \(y_i\) değeri 0 veya 1 olmalıdır.
  • \(y_i'\) , \(x_i\)içindeki özellikler kümesi göz önüne alındığında \(i\). örneğe ilişkin modelinizin tahminidir (0 ile 1 arasında bir değer).

Mantıksal regresyonda düzenlileştirme

Eğitim sırasında model karmaşıklığını cezalandırma mekanizması olan düzenlileştirme, lojistik regresyon modellemede son derece önemlidir. Düzenlileştirme olmadan, lojistik regresyonun asimptotik yapısı, modelin çok sayıda özelliğe sahip olduğu durumlarda kaybı 0'a doğru itmeye devam eder. Bu nedenle, çoğu lojistik regresyon modeli, model karmaşıklığını azaltmak için aşağıdaki iki stratejiden birini kullanır: