Sistem ML di Dunia Nyata: Sastra

Dalam pelajaran ini, Anda akan melakukan debug pada masalah ML di dunia nyata* terkait dengan sastra abad ke-18.

Contoh di Dunia Nyata: Sastra Abad ke-18

  • Profesor Sastra Abad ke-18 ingin memprediksi afiliasi politik penulis hanya berdasarkan pada "metafora pikiran" yang digunakan penulis.
Buku Lama
  • Profesor Sastra Abad ke-18 ingin memprediksi afiliasi politik penulis hanya berdasarkan pada "metafora pikiran" yang digunakan penulis.
  • Tim peneliti membuat kumpulan data berlabel besar dengan berbagai karya penulis, kalimat demi kalimat, dan dibagi menjadi set pelatihan/validasi/pengujian.
Buku Lama
  • Profesor Sastra Abad ke-18 ingin memprediksi afiliasi politik penulis hanya berdasarkan pada "metafora pikiran" yang digunakan penulis.
  • Tim peneliti membuat kumpulan data berlabel besar dengan berbagai karya penulis, kalimat demi kalimat, dan dibagi menjadi set pelatihan/validasi/pengujian.
  • Model yang dilatih melakukan pengujian data hampir sempurna, namun para peneliti merasa hasilnya akurat secara mencurigakan. Apa kira-kira yang keliru?
Buku Lama

Menurut Anda, mengapa keakuratan pengujian bernilai tinggi secara mencurigakan? Lihat apakah Anda dapat mengetahui masalahnya, lalu klik tombol Putar ▶ di bawah untuk mencari tahu apakah Anda benar.

  • Pembagian Data A: Peneliti menempatkan beberapa contoh milik setiap penulis di set pelatihan, beberapa di set validasi, beberapa di set pengujian.
Semua contoh milik Richardson mungkin ada di set pelatihan, sementara semua contoh milik Swift mungkin ada di set validasi.
Diagram yang menunjukkan rincian contoh penulis dalam set pelatihan, validasi, dan pengujian. Contoh dari setiap penulis ditunjukkan di setiap set.
  • Pembagian Data B: Peneliti menempatkan semua contoh milik setiap penulis dalam satu set.
Diagram yang menunjukkan rincian contoh penulis dalam set pelatihan, validasi, dan pengujian. Set pelatihan hanya berisi contoh dari Swift, set validasi hanya berisi contoh dari Blake, dan set pengujian hanya berisi contoh dari Defoe.
  • Pembagian Data A: Peneliti menempatkan beberapa contoh milik setiap penulis di set pelatihan, beberapa di set validasi, beberapa di set pengujian.
  • Pembagian Data B: Peneliti menempatkan semua contoh milik setiap penulis dalam satu set.
  • Hasil: Model yang dilatih pada Pembagian Data A memiliki keakuratan yang jauh lebih tinggi daripada model yang dilatih pada Pembagian Data B.

Nilai moral: pertimbangkan dengan teliti cara Anda membagi contoh.

Pahami apa yang diwakili oleh data.

* Kita menggunakan "Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" oleh Sculley dan Pasanek sebagai landasan modul ini secara bebas, dengan membuat beberapa perubahan.