Keadilan: Mengevaluasi Bias

Saat mengevaluasi model, metrik yang dihitung terhadap seluruh set validasi atau pengujian tidak selalu memberikan gambaran yang akurat tentang seberapa adil model tersebut.

Pertimbangkan model baru yang dikembangkan untuk memprediksi keberadaan kanker yang dievaluasi berdasarkan kumpulan validasi 1.000 pasien' rekam medis. 500 data berasal dari pasien perempuan, dan 500 data berasal dari pasien laki-laki. Matriks konfusi berikut berisi ringkasan untuk 1.000 contoh tersebut:

Positif Benar (TP): 16 Positif Palsu (PP): 4
Negatif Palsu (NP): 6 Negatif Benar (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Hasil ini terlihat menjanjikan: presisi 80% dan perolehan 72,7%. Namun, apa yang terjadi jika kita menghitung hasilnya secara terpisah untuk setiap kelompok pasien? Mari kita bagi hasilnya menjadi dua matriks konfusi yang terpisah: satu untuk pasien perempuan dan satu untuk pasien laki-laki.

Hasil Pasien Wanita

Positif Benar (TP): 10 Positif Palsu (PP): 1
Negatif Palsu (NP): 1 Negatif Benar (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Hasil Pasien Laki-Laki

Positif Benar (TP): 6 Positif Palsu (PP): 3
Negatif Palsu (NP): 5 Negatif Benar (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Saat kami menghitung metrik secara terpisah untuk pasien perempuan dan laki-laki, kami melihat perbedaan yang mencolok dalam performa model untuk setiap kelompok.

Pasien perempuan:

  • Dari 11 pasien perempuan yang benar-benar menderita kanker, model dengan tepat memprediksi positif untuk 10 pasien (tingkat perolehan: 90,9%). Dengan kata lain, model ini melewatkan diagnosis tumor pada 9,1% kasus perempuan.

  • Demikian pula, saat model menampilkan positif untuk tumbuhan pada pasien perempuan, model benar dalam 10 dari 11 kasus (tingkat presisi: 90,9%); dengan kata lain, model ini salah memprediksi kanker pada 9,1% kasus perempuan.

Pasien laki-laki:

  • Namun, dari 11 pasien laki-laki yang benar-benar menderita Tumor, model dengan tepat memprediksi positif untuk 6 pasien (tingkat penarikan: 54,5%). Artinya, model ini melewatkan diagnosis tumor pada 45,5% kasus pria.

  • Dan jika model menampilkan positif untuk tumor pada pasien laki-laki, model hanya benar dalam 6 dari 9 kasus (tingkat presisi: 66,7%), dengan kata lain, model salah memprediksi kanker pada 33,3% kasus laki-laki.

Sekarang kita memiliki pemahaman yang lebih baik tentang bias yang melekat dalam prediksi model, serta risiko terhadap setiap subgrup jika model tersebut akan dirilis untuk penggunaan medis di populasi umum.

Referensi Keadilan Tambahan

Keadilan adalah subkolom yang relatif baru dalam disiplin machine learning. Untuk mempelajari lebih lanjut riset dan inisiatif yang ditujukan guna mengembangkan alat dan teknik baru untuk mengidentifikasi dan mengurangi bias dalam model machine learning, lihat Halaman referensi Keadilan Machine Learning Google di Google.