Klasifikasi

Modul ini menunjukkan cara regresi logistik dapat digunakan untuk tugas klasifikasi, dan mengeksplorasi cara mengevaluasi keefektifan model klasifikasi.

Klasifikasi

  • Terkadang, kita menggunakan regresi logistik untuk keluaran probabilitas -- ini adalah regresi (0, 1)
  • Di lain waktu, kita akan menggunakan nilai batas untuk klasifikasi biner diskrit
  • Pilihan batas adalah pilihan yang penting, dan dapat disesuaikan
  • Bagaimana cara mengevaluasi model klasifikasi?
  • Bagaimana cara mengevaluasi model klasifikasi?
  • Salah satu pengukuran yang memungkinkan: Akurasi
    • Fraksi dari prediksi milik kita yang benar
  • Sering kali, akurasi adalah metrik yang buruk atau menyesatkan
    • Sering kali terjadi ketikan jenis masalah yang berbeda memiliki ongkos yang berbeda
    • Kasus yang umum terjadi meliputi kelas tidak seimbang, ketika positif atau negatif sangat jarang
  • Untuk masalah kelas tidak seimbang, hal ini berguna untuk memisahkan jenis masalah yang berbeda
Positif Benar
Kita berteriak "serigala!" saat benar-benar melihat serigala
Kita menyelamatkan desa.

Positif Palsu
Error: kita berteriak "serigala!" saat tidak melihat serigala.
Semua orang marah kepada kita.

Negatif Palsu
Ada serigala, namun kita tidak melihatnya. Serigala tersebut memakan semua ayam kita.
Negatif Benar
Tidak ada serigala, tidak ada alarm.
Semua orang baik-baik saja.

  • Presisi: (Positif Benar)/(Semua Prediksi Positif)
    • Kapan waktu yang tepat model mengatakan kelas "positif"?
    • Intuisi: Apakah model berteriak "serigala!" terlalu sering?
  • Presisi: (Positif Benar)/(Semua Prediksi Positif)
    • Kapan waktu yang tepat model mengatakan kelas "positif"?
    • Intuisi: Apakah model berteriak "serigala!" terlalu sering?
  • Perolehan: (Positif Benar)/(Semua Positif Aktual)
    • Dari semua positif yang mungkin, berapa kali model mengidentifikasi dengan benar?
    • Intuisi: Apa model melewatkan serigala?

Pelajari opsi di bawah.

Pertimbangkan model klasifikasi yang memisahkan email menjadi dua kategori: "spam" atau "bukan spam". Jika Anda meningkatkan batas klasifikasi, apa yang akan terjadi pada presisi?
Pasti meningkat.
Meningkatkan batas klasifikasi biasanya akan meningkatkan presisi; namun, presisi tidak dijamin akan meningkat secara monoton mengikuti batas yang kita tingkatkan.
Mungkin meningkat.
Umumnya, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.
Mungkin menurun.
Umumnya, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.
Pasti menurun.
Umumnya, meningkatkan batas klasifikasi akan mengurangi positif palsu, dan meningkatkan presisi.

Setiap poin adalah rasio PB dan PP di satu batas keputusan.

Kurva KOP menunjukkan Rasio PB vs Rasio PP pada batas klasifikasi yang berbeda.
  • ABK: "Area di Bawah Kurva KOP"
  • ABK: "Area di Bawah Kurva KOP"
  • Interpretasi:
    • Jika kita memilih positif acak dan negatif acak, berapa probabilitas model saya mengurutkannya dalam urutan yang benar?
  • ABK: "Area di Bawah Kurva KOP"
  • Interpretasi:
    • Jika kita memilih positif acak dan negatif acak, berapa probabilitas model saya mengurutkannya dalam urutan yang benar?
  • Intuisi: memberikan gabungan pengukuran performa yang digabungkan di semua batas klasifikasi yang mungkin
  • Prediksi Regresi Logistik tidak boleh bias.
    • rata-rata prediksi == rata-rata observasi
  • Prediksi Regresi Logistik tidak boleh bias.
    • rata-rata prediksi == rata-rata observasi
  • Bias adalah sebuah petunjuk.
    • Tidak ada bias saja bukan berarti semuanya di sistem Anda sudah sempurna.
    • Namun alangkah baiknya jika melakukan pemeriksaan.
  • Jika memiliki bias, berarti Anda memiliki masalah.
    • Set fitur tidak lengkap?
    • Pipeline bermasalah?
    • Contoh pelatihan bias?
  • Jangan perbaiki bias dengan lapisan kalibrasi, perbaiki di modelnya.
  • Cari bias di setiap data -- hal ini dapat mengarah ke peningkatan.
Plot kalibrasi