Praktik ML: Keadilan dalam Perspective API

Memeriksa Pemahaman Anda: Mengidentifikasi dan Memperbaiki Bias

Mengidentifikasi Bias

Di Latihan #1: Menjelajahi Model, Anda mengonfirmasi bahwa model mengklasifikasikan komentar dengan istilah identitas secara tidak proporsional sebagai negatif. Metrik mana yang membantu menjelaskan penyebab bias ini? Pelajari opsi di bawah ini.
Akurasi

Akurasi mengukur persentase total prediksi yang benar—persentase prediksi yang positif benar atau negatif benar. Dengan membandingkan akurasi untuk subgrup yang berbeda (seperti demografi gender yang berbeda), kami dapat mengevaluasi performa relatif model untuk setiap grup dan dapat berfungsi sebagai indikator efek bias pada model.

Namun, karena akurasi memperhitungkan prediksi yang benar dan salah secara agregat, akurasi tidak membedakan antara dua jenis prediksi yang benar dan dua jenis prediksi yang salah. Dengan melihat akurasi saja, kami tidak dapat menentukan pengelompokan dasar dari positif benar, negatif benar, positif palsu, dan negatif palsu, yang akan memberikan lebih banyak insight tentang sumber bias.

Rasio positif palsu

Rasio positif palsu (FPR) adalah persentase contoh negatif aktual (komentar negatif) yang salah diklasifikasikan sebagai positif (komentar negatif). FPR merupakan indikator efek bias pada model. Saat membandingkan FPR untuk subgrup yang berbeda (seperti demografi gender yang berbeda), kami mendapati bahwa komentar teks yang berisi istilah identitas terkait gender lebih cenderung diklasifikasikan sebagai negatif (positif palsu) daripada komentar yang tidak berisi istilah tersebut.

Namun, kita tidak ingin mengukur efek bias; kita ingin menemukan penyebabnya. Untuk melakukannya, kita perlu melihat lebih dekat input ke formula FPR.

Negatif aktual dan positif aktual
Pada set data pelatihan dan pengujian model ini, Positif aktual adalah contoh komentar yang negatif, dan negatif sebenarnya adalah contoh komentar yang tidak negatif. Mengingat bahwa istilah identitas itu sendiri netral, kita mengharapkan jumlah komentar positif aktual dan negatif aktual yang berisi istilah identitas tertentu. Jika kita melihat jumlah negatif aktual yang tidak proporsional, hal ini menandakan bahwa model tidak melihat banyak contoh istilah identitas yang digunakan dalam konteks positif atau netral. Dalam hal ini, model mungkin akan mempelajari korelasi antara istilah identitas dan toksisitas.
Recall
Perolehan adalah persentase prediksi positif aktual yang diklasifikasikan dengan benar sebagai positif. Ini memberi tahu kita persentase komentar negatif yang berhasil ditangkap model. Di sini, kami berfokus pada bias terkait positif palsu (komentar tidak negatif yang diklasifikasikan sebagai negatif), dan penarikan tidak memberikan insight apa pun tentang masalah ini.

Memperbaiki Bias

Manakah dari tindakan berikut yang mungkin merupakan metode efektif untuk mengatasi bias dalam data pelatihan yang digunakan dalam Latihan #1 dan Latihan #2? Pelajari opsi di bawah ini.
Tambahkan lebih banyak contoh negatif (tidak negatif) yang berisi istilah identitas ke set pelatihan.
Menambahkan lebih banyak contoh negatif (komentar yang sebenarnya tidak negatif) yang berisi istilah identitas akan membantu menyeimbangkan set pelatihan. Model ini kemudian akan melihat keseimbangan yang lebih baik antara istilah identitas yang digunakan dalam konteks negatif dan tidak negatif, sehingga model dapat mempelajari bahwa istilah itu sendiri netral.
Tambahkan lebih banyak contoh positif (negatif) yang berisi istilah identitas ke set pelatihan.
Contoh toksik sudah terlalu banyak direpresentasikan dalam subkumpulan contoh yang berisi istilah identitas. Jika kita menambahkan lebih banyak lagi contoh ini ke set pelatihan, kita sebenarnya akan memperburuk bias yang sudah ada, bukan memperbaikinya.
Tambahkan lebih banyak contoh negatif (tidak negatif) tanpa istilah identitas ke set pelatihan.
Istilah identitas sudah kurang terwakili dalam contoh negatif. Menambahkan lebih banyak contoh negatif tanpa istilah identitas akan meningkatkan ketidakseimbangan ini dan tidak akan membantu memperbaiki bias.
Tambahkan lebih banyak contoh positif (negatif) tanpa istilah identitas ke set pelatihan.

Ada kemungkinan bahwa menambahkan lebih banyak contoh positif tanpa istilah identitas dapat membantu memutus asosiasi antara istilah identitas dan toksisitas yang telah dipelajari sebelumnya oleh model.

Mengevaluasi Bias

Anda telah melatih pengklasifikasi toksisitas teks Anda sendiri dari awal, yang akan digunakan oleh tim engineer Anda untuk secara otomatis menyembunyikan tampilan komentar yang diklasifikasikan sebagai negatif. Anda khawatir bahwa setiap bias terhadap toksisitas untuk komentar terkait gender dapat mengakibatkan penghapusan wacana tidak negatif tentang gender, dan ingin menilai bias terkait gender dalam prediksi pengklasifikasi. Manakah dari metrik berikut yang harus Anda gunakan untuk mengevaluasi model? Pelajari opsi di bawah ini.
Rasio positif palsu (FPR)
Dalam produksi, model ini akan digunakan untuk otomatis menyembunyikan prediksi positif (negatif). Tujuan Anda adalah untuk memastikan model tidak menekan positif palsu (komentar tidak negatif yang salah diklasifikasikan oleh model sebagai negatif) untuk komentar terkait gender pada rasio yang lebih tinggi daripada komentar secara keseluruhan. Membandingkan FPR untuk subgrup gender dengan FPR secara keseluruhan adalah cara yang bagus untuk mengevaluasi perbaikan bias untuk kasus penggunaan Anda.
Rasio negatif palsu (FNR)
FNR mengukur tingkat saat model salah mengklasifikasikan class positif (di sini, "negatif") sebagai kelas negatif ("nonnegatif"). Dalam kasus penggunaan ini, Anda akan diberi tahu pada tingkat mana komentar yang benar-benar negatif akan melewati filter dan ditampilkan kepada pengguna. Di sini, perhatian utama Anda adalah bagaimana bias terwujud dalam upaya untuk menekan wacana tidak negatif. FNR tidak memberi Anda insight apa pun tentang dimensi performa model ini.
Akurasi
Akurasi mengukur persentase prediksi model yang benar, dan sebaliknya, persentase prediksi yang salah. Untuk kasus penggunaan ini, akurasi memberi tahu Anda seberapa besar kemungkinan filter tersebut menekan wacana tidak negatif atau menampilkan wacana negatif. Masalah utama Anda adalah masalah sebelumnya, bukan masalah yang kedua. Karena akurasi menggabungkan kedua masalah tersebut, metrik evaluasi yang ideal tidak dapat digunakan di sini.
AUC
ABK memberikan pengukuran mutlak dari kemampuan prediktif model. Ini adalah metrik yang baik untuk menilai performa secara keseluruhan. Namun, di sini Anda secara khusus mementingkan tingkat penyembunyian komentar, dan ABK tidak memberi Anda insight langsung tentang masalah ini.
Moderator konten telah ditambahkan ke tim Anda, dan product manager telah memutuskan untuk mengubah cara penerapan pengklasifikasi Anda. Alih-alih menyembunyikan komentar yang diklasifikasikan sebagai negatif secara otomatis, software pemfilteran akan melaporkan komentar tersebut untuk ditinjau oleh moderator konten. Karena manusia akan meninjau komentar yang diberi label negatif, bias tidak akan lagi terwujud dalam bentuk penyembunyian konten. Manakah dari metrik berikut yang mungkin ingin Anda gunakan untuk mengukur bias—dan efek perbaikan bias—sekarang? Pelajari opsi di bawah ini.
Rasio positif palsu (FPR)
Rasio positif palsu akan menunjukkan persentase komentar tidak negatif yang salah diklasifikasikan sebagai negatif. Karena moderator manusia sekarang akan mengaudit semua komentar yang diberi label model "negatif", dan akan mendeteksi sebagian besar positif palsu (PP), FPR tidak lagi menjadi masalah utama.
Rasio negatif palsu (FNR)
Meskipun moderator manusia akan mengaudit semua komentar yang berlabel "negatif" dan memastikan bahwa positif palsu tidak ditekan, mereka tidak akan meninjau komentar yang berlabel "tidak negatif". Hal ini menimbulkan kemungkinan bias yang terkait dengan negatif palsu (NP). Anda dapat menggunakan FNR (persentase positif aktual yang diklasifikasikan sebagai negatif) untuk secara sistematis mengevaluasi apakah komentar negatif untuk subgrup gender lebih cenderung diberi label sebagai tidak negatif dibandingkan komentar secara keseluruhan.
Presisi
Presisi menunjukkan persentase prediksi positif yang benar-benar positif—dalam hal ini, persentase prediksi "negatif" yang benar. Karena moderator manusia akan mengaudit semua prediksi "negatif", Anda tidak perlu menjadikan salah satu metrik evaluasi utama secara akurat.
Recall
Recall menunjukkan persentase positif sebenarnya yang diklasifikasikan dengan benar. Dari nilai ini, Anda dapat memperoleh persentase positif aktual yang salah diklasifikasikan (1 - perolehan), yang merupakan metrik berguna untuk mengukur apakah komentar negatif terkait gender disalahartikan secara tidak proporsional sebagai "tidak negatif" dibandingkan dengan komentar secara keseluruhan.