Modul ini menunjukkan cara regresi logistik dapat digunakan untuk tugas klasifikasi, dan mengeksplorasi cara mengevaluasi keefektifan model klasifikasi.
Klasifikasi
Klasifikasi vs. Regresi
- Terkadang, kita menggunakan regresi logistik untuk keluaran probabilitas -- ini adalah regresi (0, 1)
- Di lain waktu, kita akan menggunakan nilai batas untuk klasifikasi biner diskrit
- Pilihan batas adalah pilihan yang penting, dan dapat disesuaikan
Metrik Evaluasi: Akurasi
- Bagaimana cara mengevaluasi model klasifikasi?
Metrik Evaluasi: Akurasi
- Bagaimana cara mengevaluasi model klasifikasi?
- Salah satu pengukuran yang memungkinkan: Akurasi
- Fraksi dari prediksi milik kita yang benar
Akurasi Dapat Menyesatkan
- Sering kali, akurasi adalah metrik yang buruk atau menyesatkan
- Sering kali terjadi ketikan jenis masalah yang berbeda memiliki ongkos yang berbeda
- Kasus yang umum terjadi meliputi kelas tidak seimbang, ketika positif atau negatif sangat jarang
Positif Benar dan Positif Palsu
- Untuk masalah kelas tidak seimbang, hal ini berguna untuk memisahkan jenis masalah yang berbeda
Positif Benar Kita berteriak "serigala!" saat benar-benar melihat serigala Kita menyelamatkan desa. |
Positif Palsu Error: kita berteriak "serigala!" saat tidak melihat serigala. Semua orang marah kepada kita. |
Negatif Palsu Ada serigala, namun kita tidak melihatnya. Serigala tersebut memakan semua ayam kita. |
Negatif Benar Tidak ada serigala, tidak ada alarm. Semua orang baik-baik saja. |
Metrik Evaluasi: Presisi dan Perolehan
- Presisi: (Positif Benar)/(Semua Prediksi Positif)
- Kapan waktu yang tepat model mengatakan kelas "positif"?
- Intuisi: Apakah model berteriak "serigala!" terlalu sering?
Metrik Evaluasi: Presisi dan Perolehan
- Presisi: (Positif Benar)/(Semua Prediksi Positif)
- Kapan waktu yang tepat model mengatakan kelas "positif"?
- Intuisi: Apakah model berteriak "serigala!" terlalu sering?
- Perolehan: (Positif Benar)/(Semua Positif Aktual)
- Dari semua positif yang mungkin, berapa kali model mengidentifikasi dengan benar?
- Intuisi: Apa model melewatkan serigala?
Setelah selesai, tekan putar ▶ untuk melanjutkan
Pelajari opsi di bawah.
Pertimbangkan model klasifikasi yang memisahkan email menjadi dua kategori: "spam" atau "bukan spam". Jika Anda meningkatkan batas klasifikasi, apa yang akan terjadi pada presisi?
Pasti meningkat.
Meningkatkan batas klasifikasi biasanya akan meningkatkan presisi; namun, presisi tidak dijamin akan meningkat secara monoton mengikuti batas yang kita tingkatkan.
Mungkin meningkat.
Umumnya, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.
Mungkin menurun.
Umumnya, meningkatkan batas klasifikasi akan mengurangi positif palsu, sehingga meningkatkan presisi.
Pasti menurun.
Umumnya, meningkatkan batas klasifikasi akan mengurangi positif palsu, dan meningkatkan presisi.
Kurva KOP
Setiap poin adalah rasio PB dan PP di satu batas keputusan.
Metrik evaluasi: ABK
- ABK: "Area di Bawah Kurva KOP"
Metrik evaluasi: ABK
- ABK: "Area di Bawah Kurva KOP"
- Interpretasi:
- Jika kita memilih positif acak dan negatif acak, berapa probabilitas model saya mengurutkannya dalam urutan yang benar?
Metrik evaluasi: ABK
- ABK: "Area di Bawah Kurva KOP"
- Interpretasi:
- Jika kita memilih positif acak dan negatif acak, berapa probabilitas model saya mengurutkannya dalam urutan yang benar?
- Intuisi: memberikan gabungan pengukuran performa yang digabungkan di semua batas klasifikasi yang mungkin
Bias Prediksi
- Prediksi Regresi Logistik tidak boleh bias.
- rata-rata prediksi == rata-rata observasi
Bias Prediksi
- Prediksi Regresi Logistik tidak boleh bias.
- rata-rata prediksi == rata-rata observasi
- Bias adalah sebuah petunjuk.
- Tidak ada bias saja bukan berarti semuanya di sistem Anda sudah sempurna.
- Namun alangkah baiknya jika melakukan pemeriksaan.
Bias Prediksi (lanjutan)
- Jika memiliki bias, berarti Anda memiliki masalah.
- Set fitur tidak lengkap?
- Pipeline bermasalah?
- Contoh pelatihan bias?
- Jangan perbaiki bias dengan lapisan kalibrasi, perbaiki di modelnya.
- Cari bias di setiap data -- hal ini dapat mengarah ke peningkatan.