Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait

Positif dan negatif benar serta palsu digunakan untuk menghitung beberapa metrik berguna untuk mengevaluasi model. Metrik evaluasi yang paling berarti bergantung pada model dan tugas tertentu, biaya dari berbagai kesalahan klasifikasi, dan apakah set data seimbang atau tidak seimbang.

Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sering kali, pengguna menyesuaikan nilai minimum untuk mengoptimalkan salah satu metrik ini.

Akurasi

Akurasi adalah proporsi semua klasifikasi yang benar, baik positif maupun negatif. Secara matematis, jarak ini didefinisikan sebagai:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dalam contoh klasifikasi spam, akurasi mengukur bagian dari semua email yang diklasifikasikan dengan benar.

Model yang sempurna akan memiliki nol positif palsu dan nol negatif palsu, dan oleh karena itu akurasi 1,0, atau 100%.

Karena menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), dengan set data yang seimbang, dengan jumlah contoh yang serupa di kedua kelas, akurasi dapat berfungsi sebagai ukuran kualitas model yang kasar. Oleh karena itu, metrik ini sering kali menjadi metrik evaluasi default yang digunakan untuk model generik atau tidak ditentukan yang menjalankan tugas generik atau tidak ditentukan.

Namun, jika set data tidak seimbang, atau jika satu jenis kesalahan (FN atau FP) lebih merugikan daripada yang lain, seperti yang terjadi di sebagian besar aplikasi dunia nyata, lebih baik mengoptimalkan salah satu metrik lainnya.

Untuk set data yang sangat tidak seimbang, di mana satu kelas sangat jarang muncul, misalnya 1% dari waktu, model yang memprediksi negatif 100% dari waktu akan mendapatkan skor akurasi 99%, meskipun tidak berguna.

Perolehan, atau rasio positif benar

Rasio positif benar (TPR), atau proporsi semua positif sebenarnya yang diklasifikasikan dengan benar sebagai positif, juga dikenal sebagai perolehan.

Recall secara matematis didefinisikan sebagai:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Negatif palsu adalah positif sebenarnya yang salah diklasifikasikan sebagai negatif, sehingga muncul di penyebut. Dalam contoh klasifikasi spam, recall mengukur fraksi email spam yang diklasifikasikan dengan benar sebagai spam. Itulah sebabnya nama lain untuk recall adalah probabilitas deteksi: metrik ini menjawab pertanyaan "Berapa fraksi email spam yang terdeteksi oleh model ini?"

Model sempurna hipotetis akan memiliki negatif palsu nol dan oleh karena itu, memiliki perolehan (TPR) 1,0, yang berarti, rasio deteksi 100%.

Dalam set data yang tidak seimbang di mana jumlah positif aktual sangat rendah, perolehan adalah metrik yang lebih bermakna daripada akurasi karena mengukur kemampuan model untuk mengidentifikasi semua instance positif dengan benar. Untuk aplikasi seperti prediksi penyakit, mengidentifikasi kasus positif dengan benar sangatlah penting. Negatif palsu biasanya memiliki konsekuensi yang lebih serius daripada positif palsu. Untuk contoh konkret yang membandingkan metrik perolehan dan akurasi, lihat catatan dalam definisi perolehan.

Rasio positif palsu

Rasio positif palsu (FPR) adalah proporsi semua negatif aktual yang diklasifikasikan secara salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Secara matematis, jarak ini didefinisikan sebagai:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, itulah sebabnya positif palsu muncul di penyebut. Dalam contoh klasifikasi spam, FPR mengukur fraksi email sah yang salah diklasifikasikan sebagai spam, atau tingkat alarm palsu model.

Model yang sempurna akan memiliki positif palsu nol dan oleh karena itu FPR 0,0, yang berarti, rasio alarm palsu 0%.

Untuk set data yang tidak seimbang, FPR umumnya merupakan metrik yang lebih informatif daripada akurasi. Namun, jika jumlah negatif sebenarnya sangat rendah, FPR mungkin bukan pilihan yang ideal, karena volatilitasnya. Misalnya, jika hanya ada empat negatif aktual dalam set data, satu kesalahan klasifikasi akan menghasilkan FPR sebesar 25%, sedangkan kesalahan klasifikasi kedua akan menyebabkan FPR melonjak menjadi 50%. Dalam kasus seperti ini, presisi (dijelaskan berikutnya) mungkin merupakan metrik yang lebih stabil untuk mengevaluasi efek positif palsu.

Presisi

Presisi adalah proporsi semua klasifikasi positif model yang sebenarnya positif. Secara matematis, jarak ini didefinisikan sebagai:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dalam contoh klasifikasi spam, presisi mengukur fraksi email yang diklasifikasikan sebagai spam yang sebenarnya adalah spam.

Model sempurna hipotetis akan memiliki positif palsu nol dan oleh karena itu presisi 1,0.

Dalam set data yang tidak seimbang di mana jumlah positif sebenarnya sangat, sangat rendah, misalnya 1-2 contoh secara total, presisi kurang bermakna dan kurang berguna sebagai metrik.

Presisi meningkat seiring penurunan positif palsu, sedangkan perolehan meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, peningkatan nilai minimum klasifikasi cenderung mengurangi jumlah positif palsu dan meningkatkan jumlah negatif palsu, sedangkan penurunan nilai minimum memiliki efek yang berlawanan. Akibatnya, presisi dan perolehan sering kali menunjukkan hubungan terbalik, di mana peningkatan salah satunya akan memperburuk yang lainnya.

Cobalah sendiri:

Pilihan metrik dan pertimbangan

Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan memilih nilai minimum bergantung pada biaya, manfaat, dan risiko dari masalah tertentu. Dalam contoh klasifikasi spam, sering kali lebih masuk akal untuk memprioritaskan perolehan, yaitu mengambil semua email spam, atau presisi, yaitu mencoba memastikan bahwa email berlabel spam memang spam, atau beberapa keseimbangan antara keduanya, di atas tingkat akurasi minimum tertentu.

Metrik Panduan
Akurasi

Gunakan sebagai indikator kasar kemajuan/konvergensi pelatihan model untuk set data yang seimbang.

Untuk performa model, gunakan hanya bersama dengan metrik lain.

Hindari untuk set data yang tidak seimbang. Pertimbangkan untuk menggunakan metrik lain.

Recall
(Rasio positif benar)
Gunakan saat negatif palsu lebih mahal daripada positif palsu.
Rasio positif palsu Gunakan jika positif palsu lebih mahal daripada negatif palsu.
Presisi Gunakan jika akurasi prediksi positif sangat penting.

Latihan: Periksa pemahaman Anda

Model menghasilkan 5 TP, 6 TN, 3 FP, dan 2 FN. Hitung recall.
0,714
Recall dihitung sebagai \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Perolehan mempertimbangkan semua positif aktual, bukan semua klasifikasi yang benar. Rumus untuk recall adalah \(\frac{TP}{TP+FN}\).
0,625
Perolehan mempertimbangkan semua positif aktual, bukan semua klasifikasi positif. Rumus untuk recall adalah \(\frac{TP}{TP+FN}\)
Model menghasilkan 3 TP, 4 TN, 2 FP, dan 1 FN. Hitung presisi.
0,6
Presisi dihitung sebagai \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Presisi mempertimbangkan semua klasifikasi positif, bukan semua positif sebenarnya. Rumus presisi adalah \(\frac{TP}{TP+FP}\).
0,429
Presisi mempertimbangkan semua klasifikasi positif, bukan semua klasifikasi yang benar. Rumus presisi adalah \(\frac{TP}{TP+FP}\)
Anda sedang membangun pengklasifikasi biner yang memeriksa foto perangkap serangga untuk mengetahui apakah ada spesies invasif berbahaya. Jika model mendeteksi spesies tersebut, ahli entomologi (ilmuwan serangga) yang bertugas akan diberi tahu. Deteksi awal serangga ini sangat penting untuk mencegah infestasi. Alarm palsu (positif palsu) mudah ditangani: entomolog melihat bahwa foto tersebut salah diklasifikasikan dan menandainya sebagai salah. Dengan asumsi tingkat akurasi yang dapat diterima, metrik mana yang harus dioptimalkan untuk model ini?
Recall
Dalam skenario ini, alarm palsu (FP) berbiaya rendah, dan negatif palsu berbiaya tinggi, jadi sebaiknya maksimalkan recall, atau probabilitas deteksi.
Rasio positif palsu (FPR)
Dalam skenario ini, alarm palsu (FP) berbiaya rendah. Mencoba meminimalkannya dengan risiko kehilangan positif sebenarnya tidak masuk akal.
Presisi
Dalam skenario ini, alarm palsu (FP) tidak terlalu berbahaya, jadi mencoba meningkatkan kebenaran klasifikasi positif tidak masuk akal.