Klasifikasi: Kurva KOP dan ABK

Kurva KOP

Kurva KOP (kurva karakteristik operasi penerima) adalah grafik yang menunjukkan performa model klasifikasi di semua batas klasifikasi. Kurva ini menandai dua parameter:

  • Rasio Positif Benar
  • Rasio Positif Palsu

Rasio Positif Benar (RPB) adalah sinonim untuk perolehan dan maka dari itu didefinisikan sebagai berikut:

$$RPB = \frac{PB} {PB + NP}$$

Rasio Positif Palsu (RPP) didefinisikan sebagai berikut:

$$RPP = \frac{PP} {PP + NB}$$

Kurva KOP menandai RPB vs. RPP di batas klasifikasi yang berbeda. Menurunkan batas klasifikasi akan mengkasifikasikan item sebagai positif serta meningkatkan Positif Palsu dan Positif Benar. Gambar berikut menunjukkan kurva KOP standar.

Kurva KOP menunjukkan Rasio PB vs Rasio PP pada batas klasifikasi yang berbeda.

Gambar 4. Rasio PB vs. PB di batas klasifikasi yang berbeda.

Untuk menghitung poin di kurva KOP, kita dapat mengevaluasi model regresi logistik berkali-kali dengan batas klasifikasi yang berbeda, namun hal ini akan menjadi tidak efisien. Untungnya, terdapat algoritme berdasarkan pengurutan yang efisien yang dapat memberikan informasi ini kepada kita, disebut ABK.

ABK: Area di Bawah Kurva KOP

ABK adalah singkatan dari "Area di Bawah kurva KOP". Yakni, ABK mengukur seluruh area dua dimensi di bawah seluruh kurva KOP (pikirkan kalkulus integral) dari (0,0) hingga (1,1).

ABK (Area di Bawah Kurva KOP).

Gambar 5. ABK (Area di Bawah Kurva KOP).

ABK memberikan gabungan pengukuran performa di seluruh batas klasifikasi yang mungkin. Salah satu cara untuk menafsirkan ABK yaitu sebagai probabilitas bahwa model memberikan urutan yang lebih tinggi pada contoh positif acak dibanding contoh negatif acak. Misalnya, di contoh berikut, yang disusun dari kiri ke kanan berdasarkan kenaikan dari prediksi regresi logistik:

Contoh positif dan negatif diurutkan dalam urutan naik skor regresi logistik

Gambar 6. Prediksi diurutkan berdasarkan kenaikan dari skor regresi logistik.

ABK mewakili probabilitas contoh positif acak (hijau) diposisikan di sebelah kanan contoh negatif acak (merah).

Rentang ABK berkisar dari 0 hingga 1. Model yang memiliki prediksi 100% salah memiliki ABK 0,0. Model yang memiliki prediksi 100% benar memiliki ABK 1,0.

ABK diinginkan karena dua alasan berikut:

  • ABK adalah invariansi skala. Hal tersebut mengukur seberapa baik prediksi diurutkan, bukan nilai absolut mereka.
  • ABK adalah invarian batas klasifikasi. Hal tersebut mengukur kualitas prediksi model terlepas dari batas klasifikasi yang dipilih.

Namun, kedua alasan tersebut memiliki hal yang perlu diperhatikan, yang mungkin membatasi kegunaan ABK di kasus penggunaan tertentu:

  • Invariansi skala tidak selalu diinginkan. Misalnya, terkadang kita sangat memerlukan keluaran probabilitas yang dikalibrasi, dan ABK tidak akan memberi tahu kita akan hal itu.

  • Invariansi batas klasifikasi tidak selalu diinginkan. Pada kasus di mana terdapat perbedaan ongkos negatif palsu vs. positif palsu yang besar, mungkin penting untuk meminimalkan salah satu jenis kesalahan klasifikasi. Misalnya, saat melakukan deteksi spam email, kemungkinan Anda ingin memprioritaskan meminimalkan positif palsu (meskipun hal tersebut membuat jumlah negatif palsu akan meningkat secara signifikan). ABK bukanlah metrik yang berguna untuk jenis pengoptimalan ini.