Positif dan negatif benar serta palsu digunakan untuk menghitung beberapa metrik yang berguna untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna bergantung pada model tertentu dan tugas tertentu, biaya berbagai kesalahan klasifikasi, dan apakah set data seimbang atau tidak seimbang.
Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sering kali, pengguna menyesuaikan nilai minimum untuk mengoptimalkan salah satu metrik ini.
Akurasi
Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Secara matematis, hal ini didefinisikan sebagai:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email yang diklasifikasikan dengan benar.
Model yang sempurna tidak akan memiliki positif palsu dan negatif palsu, sehingga akurasinya 1,0, atau 100%.
Karena menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), dengan set data yang seimbang, dengan jumlah contoh yang serupa di kedua class, akurasi dapat berfungsi sebagai ukuran kualitas model yang kasar. Karena alasan ini, metrik ini sering kali menjadi metrik evaluasi default yang digunakan untuk model generik atau tidak ditentukan yang melakukan tugas generik atau tidak ditentukan.
Namun, jika set data tidak seimbang, atau jika satu jenis kesalahan (FN atau FP) lebih mahal daripada yang lain, yang merupakan kasus di sebagian besar aplikasi di dunia nyata, sebaiknya optimalkan salah satu metrik lainnya.
Untuk set data yang sangat tidak seimbang, dengan satu class yang sangat jarang muncul, misalnya 1% dari waktu, model yang memprediksi negatif 100% dari waktu akan mendapatkan skor 99% akurasi, meskipun tidak berguna.
Perolehan, atau rasio positif benar
Rasio positif benar (TPR), atau proporsi semua positif sebenarnya yang dikaitkan dengan benar sebagai positif, juga dikenal sebagai recall.
Secara matematis, recall didefinisikan sebagai:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Negatif palsu adalah positif sebenarnya yang salah diklasifikasikan sebagai negatif, itulah sebabnya nilai ini muncul di penyebut. Dalam contoh klasifikasi spam, recall mengukur fraksi email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya nama lain untuk recall adalah probabilitas deteksi: metrik ini menjawab pertanyaan "Berapa fraksi email spam yang terdeteksi oleh model ini?"
Model sempurna hipotetis tidak akan memiliki negatif palsu sehingga recall (TPR)-nya adalah 1, 0, yang berarti rasio deteksi 100%.
Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, recall adalah metrik yang lebih bermakna daripada akurasi karena mengukur kemampuan model untuk mengidentifikasi semua instance positif dengan benar. Untuk aplikasi seperti prediksi penyakit, identifikasi kasus positif dengan benar sangatlah penting. Negatif palsu biasanya memiliki konsekuensi yang lebih serius daripada positif palsu. Untuk contoh konkret yang membandingkan metrik recall dan akurasi, lihat catatan dalam definisi recall.
Rasio positif palsu
Rasio positif palsu (FPR) adalah proporsi dari semua negatif sebenarnya yang diklasifikasikan secara salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Secara matematis, hal ini didefinisikan sebagai:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, itulah sebabnya positif palsu muncul di denominator. Dalam contoh klasifikasi spam, FPR mengukur fraksi email yang sah yang salah diklasifikasikan sebagai spam, atau rasio alarm palsu model.
Model yang sempurna tidak akan memiliki positif palsu sehingga FPR-nya 0,0, yang berarti rasio alarm palsu 0%.
Dalam set data yang tidak seimbang dengan jumlah negatif yang sebenarnya sangat rendah, misalnya 1-2 contoh secara total, FPR kurang bermakna dan kurang berguna sebagai metrik.
Presisi
Presisi adalah proporsi dari semua klasifikasi positif model yang benar-benar positif. Secara matematis, definisinya adalah:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Dalam contoh klasifikasi spam, presisi mengukur fraksi email yang diklasifikasikan sebagai spam yang sebenarnya merupakan spam.
Model sempurna hipotetis tidak akan memiliki positif palsu, sehingga presisinya adalah 1,0.
Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, presisi kurang bermakna dan kurang berguna sebagai metrik.
Presisi meningkat seiring dengan penurunan positif palsu, sedangkan perolehan meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, menaikkan nilai minimum klasifikasi cenderung mengurangi jumlah positif palsu dan meningkatkan jumlah negatif palsu, sedangkan menurunkan nilai minimum akan memberikan efek sebaliknya. Akibatnya, presisi dan recall sering kali menunjukkan hubungan terbalik, dengan meningkatkan salah satunya akan memperburuk yang lain.
Coba sendiri:
Apa arti NaN dalam metrik?
NaN, atau "not a number", muncul saat membagi dengan 0, yang dapat terjadi dengan salah satu metrik ini. Misalnya, jika TP dan FP sama-sama 0, formula presisi memiliki 0 di denominator, sehingga menghasilkan NaN. Meskipun dalam beberapa kasus NaN dapat menunjukkan performa sempurna dan dapat diganti dengan skor 1,0, NaN juga dapat berasal dari model yang praktis tidak berguna. Misalnya, model yang tidak pernah memprediksi positif akan memiliki 0 TP dan 0 FP sehingga penghitungan presisinya akan menghasilkan NaN.
Pilihan metrik dan kompromi
Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan memilih nilai minimum bergantung pada biaya, manfaat, dan risiko masalah tertentu. Dalam contoh klasifikasi spam, sering kali lebih baik memprioritaskan recall, yaitu menangkap semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam memang spam, atau beberapa keseimbangan antara keduanya, di atas beberapa tingkat akurasi minimum.
Metrik | Panduan |
---|---|
Akurasi | Gunakan sebagai indikator kasar progres/konvergensi pelatihan model untuk set data yang seimbang. Untuk performa model, hanya gunakan dalam kombinasi dengan metrik lain. Hindari untuk set data yang tidak seimbang. Pertimbangkan untuk menggunakan metrik lain. |
Perolehan (Rasio positif benar) |
Gunakan jika negatif palsu lebih mahal daripada positif palsu. |
Rasio positif palsu | Gunakan jika positif palsu lebih mahal daripada negatif palsu. |
Presisi | Gunakan jika sangat penting bagi prediksi positif untuk akurat. |
(Opsional, lanjutan) Skor F1
Skor F1 adalah rata-rata harmonis (semacam rata-rata) presisi dan perolehan.
Secara matematis, hal ini diberikan oleh:
Metrik ini menyeimbangkan pentingnya presisi dan recall, dan lebih baik daripada akurasi untuk set data yang tidak seimbang. Jika presisi dan recall memiliki skor sempurna 1,0, F1 juga akan memiliki skor sempurna 1,0. Secara lebih luas, jika presisi dan perolehan memiliki nilai yang mendekati, F1 akan mendekati nilainya. Jika presisi dan perolehan sangat berbeda, F1 akan mirip dengan metrik mana pun yang lebih buruk.