Klasifikasi: Periksa Pemahaman Anda: KOP dan ABK

KOP dan ABK

Pelajari opsi di bawah.

Mana dari kurva KOP berikut yang menghasilkan nilai ABK yang lebih besar dari 0,5?
Kurva KOP dengan garis vertikal berjalan dari (0,0) ke (0,1), dan horizontal dari (0,1) ke (1,1). Rasio PB adalah 1,0 untuk semua rasio PP.

Ini adalah kurva KOP terbaik yang mungkin, karena kurva tersebut mengurutkan semua positif di atas semua negatif. Kurva tersebut memiliki ABK 1,0.

Dalam praktiknya, jika memiliki pengklasifikasi "sempurna" dengan ABK 1,0, Anda harus curiga, karena kemungkinan hal itu mengindikasikan bug di model Anda. Misalnya, Anda mungkin memiliki overfit untuk melatih data, atau data label yang dapat direplikasi dalam salah satu fitur Anda.

Kurva KOP dengan garis horizontal berjalan dari (0,0) ke (1,0), dan garis vertikal dari (1,0) ke (1,1). Rasio PP adalah 1,0 untuk semua rasio PB
Ini adalah kurva KOP paling buruk yang mungkin; kurva tersebut mengurutkan semua negatif di atas semua positif, dan memiliki ABK 0,0. Jika Anda membalik setiap prediksi (membalikkan negatif menjadi positif dan positif menjadi negatif), sebenarnya Anda memiliki pengklasifikasi yang sempurna.
Kurva KOP dengan satu garis diagonal berjalan dari (0,0) ke (1,1). Rasio PP dan PB meningkat secara linear pada rasio yang sama.
Kurva KOP ini memiliki ABK 0,5, yang berarti kurva tersebut memberikan urutan yang lebih tinggi pada contoh positif acak dibanding contoh negatif acak 50% dari waktu. Dengan demikian, model klasifikasi yang sesuai pada dasarnya tidak berharga, karena kemampuan prediksi tidak lagi lebih baik daripada tebakan acak.
Kurva KOP yang melengkung ke atas dan ke kanan dari (0,0) ke (1,1). Rasio PB meningkat pada rasio yang lebih cepat daripada rasio PP.
Kurva KOP ini memiliki ABK 0,5 dan 1,0, yang berarti kurva tersebut memberikan urutan yang lebih tinggi pada contoh positif acak dibanding contoh negatif acak lebih dari 50% dari waktu. Nilai ABK klasifikasi biner dalam dunia nyata umumnya termasuk dalam rentang ini.
Kurva KOP yang melengkung ke kanan dan ke atas dari (0,0) ke (1,1). Rasio PP meningkat pada rasio yang lebih cepat dari Rasio PB.
Kurva KOP ini memiliki ABK 0 dan 0,5, yang berarti kurva tersebut memberikan urutan yang lebih tinggi pada contoh positif acak dibanding contoh negatif acak kurang dari 50% dari waktu. Model yang sesuai sebenarnya memiliki performa yang lebih buruk daripada tebakan acak. Jika Anda melihat kurva KOP seperti ini, kemungkinan kurva tersebut mengindikasikan bahwa terdapat bug di data Anda.

ABK dan Prediksi Penskalaan

Pelajari opsi di bawah.

Bagaimana mengalikan semua prediksi dari model yang diberikan dengan 2,0 (misalnya, jika model memprediksi 0,4, kita mengalikan dengan 2,0 untuk mendapatkan prediksi 0,8) dapat mengubah performa model seperti yang diukur oleh ABK?
Tidak berubah. ABK hanya memperhatikan skor prediksi relatif.
Ya, ABK didasarkan pada prediksi relatif, sehingga tranformasi prediksi yang mempertahankan urutan relatif tidak memiliki pengaruh di ABK. Hal ini jelas tidak berlaku pada metrik lain seperti galat kuadrat, kerugian log, atau bias prediksi (dibahas nanti).
Hal tersebut akan membuat ABK menjadi buruk, karena nilai prediksi kini terpisah terlalu jauh.
Cukup menarik, meskipun nilai-nilai prediksi adalah berbeda (dan kemungkinan sangat jauh dari kenyataannya), mengalikan semua dengan 2,0 akan membuat pengurutan prediksi relatif tetap sama. Karena ABK hanya memerhatikan urutan relatif, hal itu tidak akan terpengaruh oleh penskalaan prediksi sederhana.
Hal itu akan membuat ABK menjadi lebih baik, karena nilai-nilai prediksi terpisah sangat jauh.
Jumlah penyebaran antara prediksi tidak benar-benar berdampak pada ABK. Bahkan, skor prediksi untuk positif benar yang diambil secara acak hanyalah sedikit lebih besar (sebesar epsilon kecil) daripada negatif yang diambil secara acak, yang akan dihitung sebagai kontribusi sukses terhadap keseluruhan skor ABK.