Kami akan menghapus Kursus Singkat Machine Learning dari situs ini pada tanggal 30 Juli 2021. Versi bahasa Inggris akan tetap tersedia.

Keadilan: Periksa Pemahaman Anda

Jenis Bias

Pelajari opsi di bawah.

Manakah dari prediksi model berikut yang telah dipengaruhi oleh bias seleksi?
Aplikasi smartphone pengenalan tulis tangan Jerman menggunakan model yang sering salah mengklasifikasikan huruf ß (Eszett) sebagai huruf B, karena model tersebut dilatih pada korpus sampel tulisan tangan Amerika, yang kebanyakan ditulis dalam bahasa Inggris.
Model ini dipengaruhi oleh jenis bias seleksi yang disebut bias cakupan: data pelatihan (tulisan tangan bahasa Inggris Amerika) tidak merepresentasikan jenis data yang diberikan oleh target audiens model (tulisan tangan Jerman).
Para engineer membuat sebuah model untuk memprediksi kemungkinan seseorang terjangkit diabetes berdasarkan konsumsi makanan mereka sehari-hari. Model ini dilatih menggunakan 10.000 "catatan harian makanan". Catatan harian ini dikumpulkan dari sekelompok orang yang dipilih secara acak di seluruh dunia, yang terdiri dari berbagai kelompok usia, latar belakang etnis, dan jenis kelamin. Namun, saat model diterapkan, akurasi model tersebut sangat buruk. Para engineer kemudian mendapati bahwa peserta catatan harian makanan enggan mengakui volume yang sebenarnya dari makanan tidak sehat yang mereka konsumsi, dan lebih cenderung menuliskan konsumsi makanan bergizi daripada camilan yang kurang sehat.
Tidak ada bias seleksi dalam model ini; peserta yang memberikan data pelatihan merupakan sampel perwakilan dari pengguna dan mereka dipilih secara acak. Model ini justru dipengaruhi oleh bias pelaporan. Konsumsi makanan tidak sehat dilaporkan pada frekuensi yang jauh lebih rendah daripada kejadian yang sebenarnya di dunia nyata.
Engineer di sebuah perusahaan mengembangkan model untuk memprediksi tingkat pergantian karyawan (persentase jumlah karyawan yang mengundurkan diri tiap tahunnya) berdasarkan data yang dikumpulkan dari survei yang dikirim ke semua karyawan. Setelah beberapa tahun menggunakan model tersebut, engineer mendapati bahwa model mengecilkan jumlah pergantian karyawan hingga lebih dari 20%. Ketika melakukan wawancara pengunduran diri dengan karyawan yang keluar dari perusahaan, mereka mendapati bahwa lebih dari 80% karyawan yang tidak puas dengan pekerjaan mereka memilih untuk tidak mengisi survei, dibandingkan dengan tingkat pengunduran diri seluruh perusahaan sebesar 15%.
Model ini dipengaruhi oleh jenis bias seleksi yang disebut bias abstain. Orang yang tidak puas dengan pekerjaannya kurang direpresentasikan dalam kumpulan data pelatihan karena mereka abstain dari survei perusahaan dengan tingkat yang lebih tinggi daripada seluruh populasi karyawan.
Engineer yang mengembangkan sistem rekomendasi film memiliki hipotesis bahwa orang yang menyukai film horor juga akan menyukai film fiksi ilmiah. Namun, saat engineer tersebut melatih model pada 50.000 daftar tontonan pengguna, model tersebut tidak menunjukkan korelasi semacam itu antara preferensi untuk horor dan untuk fiksi ilmiah; sebaliknya, model justru menunjukkan korelasi yang kuat antara preferensi untuk horor dan untuk dokumenter. Hal ini tampak aneh bagi para engineer, sehingga mereka melatih kembali model tersebut sebanyak lima kali menggunakan hyperparameter. Model terakhir mereka menunjukkan 70% korelasi antara preferensi untuk horor dan untuk fiksi ilmiah, oleh karena itu mereka dengan yakin merilisnya ke produksi.
Tidak ada bukti untuk bias seleksi, namun model ini kemungkinan dipengaruhi oleh bias pelaku eksperimen, karena engineer terus melakukan iterasi pada model mereka sampai model tersebut mengonfirmasi hipotesis yang sudah ada sebelumnya.

Mengevaluasi Bias

Model deteksi sarkasme dilatih pada 80.000 pesan teks: 40.000 pesan dikirim oleh orang dewasa (18 tahun ke atas) dan 40.000 pesan dikirim oleh anak di bawah umur (kurang dari 18 tahun). Model ini kemudian dievaluasi pada set pengujian 20.000 pesan: 10.000 dari orang dewasa dan 10.000 dari anak di bawah umur. Matriks konfusi berikut menunjukkan hasil untuk setiap kelompok (prediksi positif menandakan klasifikasi "sarkastik"; prediksi negatif menandakan klasifikasi "tidak sarkastik".

Orang dewasa

Positif Benar (PB): 512 Positif Palsu (PP): 51
Negatif Palsu (NP): 36 Negatif Benar (NB): 9401
$$\text{Presisi} = \frac{PB}{PB+PP} = 0,909$$
$$\text{Perolehan} = \frac{PB}{PB+NP} = 0,934$$

Anak-anak

Positif Benar (PB): 2147 Positif Palsu (PP): 96
Negatif Palsu (NP): 2177 Negatif Benar (NB): 5580
$$\text{Presisi} = \frac{PB}{PB+PP} = 0,957$$
$$\text{Perolehan} = \frac{PB}{PB+NP} = 0,497$$

Pelajari opsi di bawah.

Manakah dari pernyataan berikut yang benar tentang performa set pengujian model?
Secara keseluruhan, model memiliki performa yang lebih baik pada contoh dari orang dewasa daripada contoh dari anak di bawah umur.

Tingkat presisi dan perolehan model mencapai lebih dari 90% saat mendeteksi sarkasme di pesan teks orang dewasa.

Meskipun model mencapai tingkat presisi yang sedikit lebih tinggi untuk anak di bawah umur daripada orang dewasa, namun tingkat perolehan jauh lebih rendah untuk anak di bawah umur, sehingga prediksi kurang dapat diandalkan untuk kelompok ini.

Model gagal mengklasifikasikan sekitar 50% pesan sarkastik sebagai "sarkastik".
Tingkat perolehan 0,497 untuk anak di bawah umur menunjukkan bahwa model memprediksi "tidak sarkastik" untuk sekitar 50% dari pesan teks sarkastik anak di bawah umur.
Sekitar 50% dari pesan yang dikirim oleh anak di bawah umur salah diklasifikasikan sebagai "sarkastik".
Tingkat presisi 0,957 menunjukkan bahwa lebih dari 95% pesan anak di bawah umur yang diklasifikasikan sebagai "sarkastik" memang merupakan pesan sarkastik.
10.000 pesan yang dikirim oleh orang dewasa adalah kumpulan data kelas tidak seimbang.
Jika kita membandingkan jumlah pesan dari orang dewasa yang memang sarkastik (PB+NP = 548) dengan jumlah pesan yang memang tidak sarkastik (NB+PP = 9452), kita akan melihat bahwa label "tidak sarkastik" melebihi jumlah label "sarkastik" dengan rasio sekitar 17:1.
10.000 pesan yang dikirim oleh anak di bawah umur adalah kumpulan data kelas tidak seimbang.
Jika kita membandingkan jumlah pesan dari anak di bawah umur yang memang sarkastik (PB+NP = 4324) dengan jumlah pesan yang memang tidak sarkastik (NB+PP = 5676), kita melihat bahwa ada rasio 1,3:1 label "tidak sarkastik" dibandingkan dengan label "sarkastik". Mengingat bahwa distribusi label antara dua kelas mendekati 50/50, ini bukan kumpulan data kelas tidak seimbang.

Pelajari opsi di bawah.

Engineer berusaha melatih ulang model ini untuk mengatasi inkonsistensi dalam akurasi deteksi sarkasme melintasi seluruh demografi usia, namun model telah diluncurkan ke produksi. Manakah dari strategi solusi sementara berikut yang akan membantu mengurangi error dalam prediksi model?
Membatasi penggunaan model hanya untuk pesan teks yang dikirim oleh orang dewasa.

Model ini memiliki performa yang baik pada pesan teks dari orang dewasa (dengan tingkat presisi dan perolehan di atas 90%), sehingga membatasi penggunaan model hanya untuk kelompok ini akan menghindari error sistematis dalam mengklasifikasikan pesan teks dari anak di bawah umur.

Ketika model memprediksi "tidak sarkastik" untuk pesan teks yang dikirim oleh anak di bawah umur, sesuaikan keluaran sehingga model menampilkan nilai "tidak yakin".

Tingkat presisi untuk pesan teks yang dikirim oleh anak di bawah umur tinggi, yang berarti bahwa saat model memprediksi "sarkastik" untuk kelompok ini, model hampir selalu benar.

Masalahnya adalah, pesan dari anak di bawah umur memiliki tingkat perolehan yang sangat rendah; Model gagal mengidentifikasi sarkasme pada sekitar 50% contoh. Mengingat bahwa prediksi negatif model untuk anak di bawah umur hampir tidak ada bedanya dengan dugaan tebakan acak, kita dapat menghindari error ini dengan tidak memberikan prediksi dalam kasus ini.

Membatasi penggunaan model hanya untuk pesan teks yang dikirim oleh anak di bawah umur.

Error sistematis dalam model ini khusus untuk pesan yang dikirim oleh anak di bawah umur. Membatasi penggunaan model hanya untuk kelompok ini lebih rentan terhadap error, tindakan ini tidak akan membantu.

Menyesuaikan keluaran model sehingga model menampilkan "sarkastik" untuk semua pesan teks yang dikirim oleh anak di bawah umur, terlepas dari apa yang diprediksi model.

Selalu memprediksi "sarkastik" untuk pesan teks anak di bawah umur akan meningkatkan tingkat perolehan dari 0,497 ke 1,0, karena model tidak akan lagi gagal mengidentifikasi pesan apa pun sebagai sarkastik. Namun, peningkatan pada perolehan ini akan mengorbankan presisi. Semua negatif benar akan diubah menjadi positif palsu:

Positif Benar (PB): 4324 Positif Palsu (PP): 5676
Negatif Palsu (NP): 0 Negatif Benar (NB): 0

yang akan menurunkan tingkat presisi dari 0,957 menjadi 0,432. Jadi, menambahkan kalibrasi ini akan mengubah jenis error, namun tidak akan mengurangi besarnya error.