Klasifikasi

Modul ini menunjukkan bagaimana regresi logistik dapat digunakan untuk tugas klasifikasi, dan mempelajari cara mengevaluasi efektivitas model klasifikasi.

Klasifikasi

  • Terkadang, kami menggunakan regresi logistik untuk output probabilitas -- ini merupakan regresi (0, 1)
  • Di lain waktu, kita akan menggunakan nilai minimum untuk klasifikasi biner terpisah
  • Pilihan ambang batas adalah pilihan penting, dan dapat disesuaikan
  • Bagaimana cara kami mengevaluasi model klasifikasi?
  • Bagaimana cara kami mengevaluasi model klasifikasi?
  • Satu cara yang dapat dilakukan: Akurasi
    • pecahan prediksi yang kami dapatkan dengan benar
  • Dalam banyak kasus, akurasi adalah metrik yang buruk atau menyesatkan
    • Paling sering jika jenis kesalahan yang berbeda memiliki biaya yang berbeda
    • Kasus yang umum terjadi meliputi ketidakseimbangan class, jika positif atau negatif sangat jarang
  • Untuk masalah kelas tidak seimbang, berguna untuk memisahkan berbagai jenis kesalahan
Positif Benar
Kami memanggil serigala dengan benar!
Kita telah menyelamatkan kota.

Positif Palsu (PP)
Error: kami memanggil serigala dengan tidak benar.
Semua orang marah kepada kami.

Negatif Palsu
Ada serigala, tetapi kami tidak melihatnya. Ia memakan semua ayam kita.
Negatif Benar
Tidak ada serigala, tidak ada alarm.
Semua orang baik-baik saja.

  • Presisi: (Positif Benar) / (Semua Prediksi Positif)
    • Ketika model mengatakan class "positif", benar?
    • Intuisi: Apakah model berteriak "serigala" terlalu sering?
  • Presisi: (Positif Benar) / (Semua Prediksi Positif)
    • Ketika model mengatakan class "positif", benar?
    • Intuisi: Apakah model berteriak "serigala" terlalu sering?
  • Perolehan: (Positif Benar)/ (Semua Positif Aktual)
    • Dari semua kemungkinan positif, berapa banyak yang diidentifikasi model dengan benar?
    • Intuisi: Apakah model ini melewatkan serigala?

Pelajari opsi-opsi di bawah.

Pertimbangkan model klasifikasi yang memisahkan email menjadi dua kategori: "spam" atau "bukan spam". Jika Anda meningkatkan batas klasifikasi, apa yang akan terjadi pada presisi?
Tentu meningkat.
Meningkatkan batas klasifikasi biasanya akan meningkatkan presisi; tetapi, presisi tidak dijamin akan meningkat secara monoton seiring kita menaikkan batas tersebut.
Mungkin meningkat.
Secara umum, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.
Mungkin menurun.
Secara umum, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.
Tentu saja menurun.
Secara umum, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.

Setiap titik merupakan rasio TP dan PP pada satu nilai minimum keputusan.

Kurva ROC yang menampilkan Rasio TP vs Rasio FP pada batas klasifikasi yang berbeda.
  • ABK: "Area di Bawah Kurva ROC"
  • ABK: "Area di Bawah Kurva ROC"
  • Interpretasi:
    • Jika kita memilih positif acak dan negatif acak, berapa probabilitas model saya mengurutkannya dalam urutan yang benar?
  • ABK: "Area di Bawah Kurva ROC"
  • Interpretasi:
    • Jika kita memilih positif acak dan negatif acak, berapa probabilitas model saya mengurutkannya dalam urutan yang benar?
  • Intuisi: memberikan ukuran gabungan performa yang digabungkan dari semua batas klasifikasi yang memungkinkan
  • Prediksi Regresi Logistik tidak boleh bias.
    • rata-rata prediksi == rata-rata pengamatan
  • Prediksi Regresi Logistik tidak boleh bias.
    • rata-rata prediksi == rata-rata pengamatan
  • Bias adalah sebuah petunjuk.
    • Tidak ada bias saja bukan berarti semuanya di sistem Anda sudah sempurna.
    • Namun, pemeriksaan kesehatan yang baik.
  • Jika Anda memiliki bias, berarti Anda memiliki masalah.
    • Set fitur tidak lengkap?
    • Pipeline bermasalah?
    • Contoh pelatihan yang bias?
  • Jangan perbaiki bias dengan lapisan kalibrasi, perbaiki di model.
  • Cari bias dalam potongan data -- hal ini dapat memandu peningkatan.
Plot kalibrasi