Sınıflandırma

Bu modül, sınıflandırma görevleri için lojistik regresyonun nasıl kullanılabileceğini gösterir ve sınıflandırma modellerinin etkinliğini nasıl değerlendireceğini açıklar.

Sınıflandırma

  • Bazen olasılık çıktıları için lojistik regresyon kullanırız. Bu, (0, 1) değerinde bir regresyondur
  • Diğer zamanlarda, ayrı bir ikili sınıflandırma için değeri eşikliyiz.
  • Eşik seçimi önemli bir tercihtir ve bu ayar yapılabilir
  • Sınıflandırma modellerini nasıl değerlendiririz?
  • Sınıflandırma modellerini nasıl değerlendiririz?
  • Olası ölçümlerden biri: Doğruluk
    • doğru girdi oranı
  • Çoğu durumda, doğruluk kötü veya yanıltıcı bir metriktir
    • Çoğu zaman, farklı hata türlerinin farklı maliyetleri vardır
    • Olumlu veya olumsuz durumların son derece nadir olduğu tipik durum, sınıf dengesizliğini içerir.
  • Sınıf dengeli olmayan sorunlar için farklı hata türlerini birbirinden ayırmak yararlı olur
Doğru Pozitifler
Kurdu doğru şekilde adlandırdık.
Şehri kurtardık.

Yanlış Pozitifler
Hata: Kurttan yanlış çağrıda bulunduk.
Herkes bize kızgındır.

Yanlış Negatifler
Kurt vardı ancak bulamadık. Tüm tavuklarımızı yedi.
Gerçek Negatifler
Kurt yok, alarm yok.
Herkes iyidir.

  • Hassasiyet: (Gerçek Pozitifler) / (Tüm Pozitif Tahminler)
    • Modelin "olumlu" olduğu söylendiğinde, doğru muydu?
    • Sezgi: Model "kurt"u çok sık mı ağladı?
  • Hassasiyet: (Gerçek Pozitifler) / (Tüm Pozitif Tahminler)
    • Modelin "olumlu" olduğu söylendiğinde, doğru muydu?
    • Sezgi: Model "kurt"u çok sık mı ağladı?
  • Geri Çağırma: (Gerçek Pozitifler) / (Tüm Gerçek Pozitifler)
    • Model, olası tüm pozitif örneklerden kaçını doğru şekilde tespit etti?
    • Sezgi: Kurtları kaçırdınız mı?

Aşağıdaki seçenekleri keşfedin.

E-postaları iki kategoriye ayıran bir sınıflandırma modeli kullanmayı düşünün: "spam" veya "spam değil". Sınıflandırma eşiğini yükseltirseniz kesinliğe ne olur?
Kesinlikle artar.
Sınıflandırma eşiğinin yükseltilmesi genellikle hassasiyeti artırır; ancak, eşik yükseltildiğinde hassasiyetin monoton olarak artacağı garanti edilmez.
Muhtemelen artar.
Genel olarak, sınıflandırma eşiğini yükseltmek yanlış pozitifleri azaltır ve böylece hassasiyeti artırır.
Muhtemelen düşüyor.
Genel olarak, sınıflandırma eşiğini yükseltmek yanlış pozitifleri azaltır ve böylece hassasiyeti artırır.
Kesinlikle azaltın.
Genel olarak, sınıflandırma eşiğini yükseltmek yanlış pozitifleri azaltır ve böylece hassasiyeti artırır.

Her puan, bir karar eşiğinde TP ve FP oranıdır.

Farklı sınıflandırma eşiklerinde TP Oranı ve FP Oranı'nın gösterildiği ROC Eğrisi.
  • AUC: "ROC Eğrisi altındaki alan"
  • AUC: "ROC Eğrisi altındaki alan"
  • Yorum:
    • Rastgele pozitif ve rastgele negatifi seçersek, modelimin bunları doğru sırada sıralama olasılığı nedir?
  • AUC: "ROC Eğrisi altındaki alan"
  • Yorum:
    • Rastgele pozitif ve rastgele negatifi seçersek, modelimin bunları doğru sırada sıralama olasılığı nedir?
  • Sezgi: Tüm olası sınıflandırma eşiklerinde toplanan performansın toplu bir ölçümünü verir
  • Lojistik Regresyon tahminleri tarafsız olmamalıdır.
    • tahminlerin ortalaması == gözlemlerin ortalaması
  • Lojistik Regresyon tahminleri tarafsız olmamalıdır.
    • tahminlerin ortalaması == gözlemlerin ortalaması
  • Ön yargı bir kanaryadır.
    • Sistemin her yönüyle sıfır olması, sistemdeki her şeyin mükemmel olduğu anlamına gelmez.
    • Ancak muhteşem bir sağlık kontrolü.
  • Taraflıysanız bir sorununuz var.
    • Özellik grubu eksik mi?
    • Hatalı hat mı?
    • Taraflı eğitim örneği mi?
  • Kalibrasyon katmanıyla ağırlıklandırmayı düzeltmeyin, modeli düzeltin.
  • Veri dilimlerinde sapma olup olmadığına bakın. Bu, iyileştirmeleri sağlayabilir.
Kalibrasyon grafiği