Keadilan: Periksa Pemahaman Anda

Jenis Bias

Pelajari opsi-opsi di bawah.

Manakah dari prediksi model berikut yang telah terpengaruh oleh bias seleksi?
Aplikasi smartphone pengenalan tulis tangan Jerman menggunakan model yang sering salah mengklasifikasikan karakter RecyclerView (Eszett) sebagai karakter B, karena dilatih pada korpus sampel tulisan tangan Amerika, yang sebagian besar ditulis dalam bahasa Inggris.
Model ini dipengaruhi oleh jenis bias seleksi yang disebut bias cakupan: data pelatihan (tulisan tangan bahasa Inggris Amerika) tidak merepresentasikan jenis data yang diberikan oleh target audiens model (tulisan tangan Jerman).
Para engineer membuat model untuk memprediksi kemungkinan seseorang mengembangkan diabetes berdasarkan asupan makanan harian mereka. Model ini dilatih menggunakan 10.000 "buku harian makanan" yang dikumpulkan dari sekelompok orang yang dipilih secara acak di seluruh dunia yang mewakili berbagai kelompok usia, latar belakang etnis, dan gender. Namun, saat model di-deploy, akurasi model tersebut sangat buruk. Para engineer kemudian mendapati bahwa peserta buku harian makanan enggan mengakui volume yang sebenarnya dari makanan tidak sehat yang mereka makan, dan lebih cenderung mendokumentasikan konsumsi makanan bergizi daripada camilan yang kurang sehat.
Tidak ada bias seleksi dalam model ini; peserta yang memberikan data pelatihan adalah sampel perwakilan pengguna dan dipilih secara acak. Sebagai gantinya, model ini dipengaruhi oleh bias pelaporan. Konsumsi makanan tidak sehat dilaporkan pada frekuensi yang jauh lebih rendah daripada kejadian sebenarnya di dunia nyata.
Engineer di sebuah perusahaan mengembangkan model untuk memprediksi tingkat pergantian karyawan (persentase karyawan yang berhenti dari pekerjaan mereka setiap tahun) berdasarkan data yang dikumpulkan dari survei yang dikirim ke semua karyawan. Setelah beberapa tahun menggunakannya, para engineer memutuskan bahwa estimasi omzet model lebih dari 20% lebih. Saat melakukan wawancara keluar dengan karyawan yang keluar dari perusahaan, mereka mendapati bahwa lebih dari 80% orang yang tidak puas dengan pekerjaan mereka memilih untuk tidak menyelesaikan survei, dibandingkan dengan tingkat pengunduran diri seluruh perusahaan sebesar 15%.
Model ini dipengaruhi oleh jenis bias seleksi yang disebut bias abstain. Orang yang tidak puas dengan pekerjaan mereka kurang terwakili dalam set data pelatihan karena mereka memilih tidak ikut survei di seluruh perusahaan dengan rasio yang jauh lebih tinggi daripada seluruh populasi karyawan.
Para engineer yang mengembangkan sistem rekomendasi film berhipotesis bahwa orang yang menyukai film horor juga akan menyukai film fiksi ilmiah. Namun,saat melatih model pada 50.000 pengguna, daftar tersebut tidak menunjukkan korelasi antara preferensi untuk horor dan fiksi ilmiah; sebaliknya, model ini menunjukkan korelasi yang kuat antara preferensi untuk horor dan dokumenter. Hal ini tampak aneh bagi mereka, sehingga mereka melatih ulang model lima kali lagi menggunakan hyperparameter yang berbeda. Model terlatih terakhir mereka menunjukkan korelasi 70% antara preferensi untuk horor dan untuk fiksi ilmiah, sehingga mereka dengan percaya diri merilisnya ke produksi.
Tidak ada bukti untuk bias seleksi, tetapi model ini kemungkinan dipengaruhi oleh bias eksperimen, karena engineer terus melakukan iterasi pada model mereka sampai model tersebut mengonfirmasi hipotesis yang sudah ada sebelumnya.

Mengevaluasi Bias

Model deteksi sarkasme dilatih pada 80.000 pesan teks: 40.000 pesan dikirim oleh orang dewasa (18 tahun ke atas) dan 40.000 pesan dikirim oleh anak di bawah umur (kurang dari 18 tahun). Model ini kemudian dievaluasi pada set pengujian 20.000 pesan: 10.000 dari orang dewasa dan 10.000 dari anak di bawah umur. Matriks konfusi berikut menunjukkan hasil untuk setiap kelompok (prediksi positif menandakan klasifikasi "sarkastik"; prediksi negatif menandakan klasifikasi "bukan sarkastik"):

Dewasa

Positif Benar (TP): 512 Positif Palsu (PP): 51
Negatif Palsu (NP): 36 Negatif Benar (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Anak di bawah umur

Positif Benar (TP): 2147 Positif Palsu (PP): 96
Negatif Palsu (NP): 2177 Negatif Benar (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Pelajari opsi-opsi di bawah.

Manakah dari pernyataan berikut yang benar tentang performa set pengujian model?
Secara keseluruhan, model berperforma lebih baik pada contoh dari orang dewasa daripada contoh dari anak di bawah umur.

Model ini mencapai tingkat presisi dan perolehan lebih dari 90% saat mendeteksi sarkasme dalam pesan teks dari orang dewasa.

Meskipun model mencapai tingkat presisi yang sedikit lebih tinggi untuk anak di bawah umur daripada orang dewasa, tingkat perolehan jauh lebih rendah untuk anak di bawah umur, sehingga menghasilkan prediksi yang kurang dapat diandalkan untuk kelompok ini.

Model gagal mengklasifikasikan sekitar 50% anak di bawah umur & 39; pesan sarkastik sebagai "sarkastik."
Tingkat ingatan 0,497 untuk anak di bawah umur menunjukkan bahwa model tersebut memprediksi "tidak sarkastik"; untuk sekitar 50% anak di bawah umur' teks sarkastik.
Sekitar 50% pesan yang dikirim oleh anak di bawah umur diklasifikasikan sebagai "sarkastik" secara tidak benar.
Tingkat presisi 0,957 menunjukkan bahwa lebih dari 95% anak di bawah umur adalah pesan yang diklasifikasikan sebagai sarkastik.
10.000 pesan yang dikirim oleh orang dewasa adalah set data tidak seimbang di kelas.
Jika kita membandingkan jumlah pesan dari orang dewasa yang sebenarnya sarkastik (TP+FN = 548) dengan jumlah pesan yang sebenarnya tidak sarkastik (TN + FP = 9452), kita akan melihat bahwa "bukan sarkastik" label melebihi jumlah "sarkastik" label dengan rasio sekitar 1.
10.000 pesan yang dikirim oleh anak di bawah umur adalah set data tidak seimbang di kelas.
Jika kita membandingkan jumlah pesan dari anak di bawah umur yang memang sarkastik (TP+FN = 4324) dengan jumlah pesan yang sebenarnya tidak sarkastik (TN + FP = 5676), kita melihat bahwa ada label rasio 1,3:1 dan bukan sarkastik. Mengingat bahwa distribusi label antara dua class hampir 50/50, ini bukan set data kelas tidak seimbang.

Pelajari opsi-opsi di bawah.

Para engineer berupaya melatih ulang model ini untuk mengatasi inkonsistensi dalam akurasi deteksi sarkasme di seluruh demografi usia, tetapi model tersebut telah dirilis ke produksi. Manakah dari strategi titik henti sementara berikut yang akan membantu mengurangi error dalam prediksi model?
Batasi penggunaan model hanya untuk pesan teks yang dikirim oleh orang dewasa.

Model ini memiliki performa yang baik pada pesan teks dari orang dewasa (dengan tingkat presisi dan perolehan di atas 90%), sehingga membatasi penggunaannya untuk grup ini akan menghindari error sistematis dalam mengklasifikasikan anak di bawah umur & 39; pesan teks.

Ketika model memprediksi "bukan sarkastik" untuk pesan teks yang dikirimkan oleh anak di bawah umur, sesuaikan output sehingga model tersebut menampilkan nilai "tidak yakin" sebagai gantinya.

Tingkat presisi untuk pesan teks yang dikirim oleh anak di bawah umur bernilai tinggi, yang berarti bahwa jika model ini memprediksi "sarkastik" untuk grup ini, nilainya hampir selalu benar.

Masalahnya, ingatan sangat rendah bagi anak di bawah umur. Model gagal mengidentifikasi sarkasme pada sekitar 50% contoh. Mengingat bahwa prediksi negatif model untuk anak di bawah umur tidak lebih baik daripada tebakan acak, kita dapat menghindari error ini dengan tidak memberikan prediksi dalam kasus ini.

Batasi penggunaan model hanya untuk pesan teks yang dikirim oleh anak di bawah umur.

Error sistematis dalam model ini khusus untuk pesan teks yang dikirim oleh anak di bawah umur. Membatasi penggunaan model ke grup yang lebih rentan terhadap error tidak akan membantu.

Menyesuaikan output model agar menampilkan "sarkastik" untuk semua pesan teks yang dikirim oleh anak di bawah umur, terlepas dari apa yang diprediksi model.

Selalu memprediksi "sarkastik" untuk anak di bawah umur' pesan teks akan meningkatkan tingkat penarikan dari 0,497 menjadi 1,0, karena model tidak akan lagi gagal mengidentifikasi pesan apa pun sebagai sarkastik. Namun, peningkatan pada perolehan ini akan mengorbankan presisi. Semua negatif benar akan diubah menjadi positif palsu:

Positif Benar (TP): 4324 Positif Palsu (PP): 5676
Negatif Palsu (NP): 0 Negatif Benar (TN): 0

yang akan menurunkan tingkat presisi dari 0,957 menjadi 0,432. Jadi, menambahkan kalibrasi ini akan mengubah jenis error, tetapi tidak akan mengurangi besarnya error.