ระบบ ML ในชีวิตจริง: วรรณกรรม

ในบทเรียนนี้ คุณจะได้แก้ไขข้อบกพร่อง ML ที่มีอยู่จริง* ที่เกี่ยวข้องกับวรรณกรรมสมัยศตวรรษที่ 18

ตัวอย่างโลกแห่งความจริง: วรรณกรรมศตวรรษที่ 18

  • ศาสตราจารย์แห่งวรรณกรรมแห่งศตวรรษที่ 18 ต้องการคาดคะเนความเกี่ยวข้องทางการเมืองของผู้เขียนโดยอิงตาม{0}คําเปรียบเทียบในเชิงจิตวิทยา" ที่ผู้แต่งใช้เท่านั้น
หนังสือเก่า
  • ศาสตราจารย์แห่งวรรณกรรมแห่งศตวรรษที่ 18 ต้องการคาดคะเนความเกี่ยวข้องทางการเมืองของผู้เขียนโดยอิงตาม{0}คําเปรียบเทียบในเชิงจิตวิทยา" ที่ผู้แต่งใช้เท่านั้น
  • ทีมนักวิจัยจัดทําชุดข้อมูลขนาดใหญ่ที่มีป้ายกํากับผู้แต่งจํานวนมาก
หนังสือเก่า
  • ศาสตราจารย์แห่งวรรณกรรมแห่งศตวรรษที่ 18 ต้องการคาดคะเนความเกี่ยวข้องทางการเมืองของผู้เขียนโดยอิงตาม{0}คําเปรียบเทียบในเชิงจิตวิทยา" ที่ผู้แต่งใช้เท่านั้น
  • ทีมนักวิจัยจัดทําชุดข้อมูลขนาดใหญ่ที่มีป้ายกํากับผู้แต่งจํานวนมาก
  • โมเดลที่ผ่านการฝึกอบรมแทบจะไม่แสดงในข้อมูลการทดสอบอย่างสมบูรณ์แบบ แต่นักวิจัยกลับรู้สึกว่าผลลัพธ์มีความแม่นยํามาก ข้อผิดพลาดที่อาจเกิดขึ้น
หนังสือเก่า

คุณคิดว่าทําไมความแม่นยําในการทดสอบจึงสูง ดูว่าคุณแก้ปัญหาได้หรือไม่ แล้วคลิกปุ่มเล่น ⋅ ด้านล่างเพื่อดูว่าคุณแก้ไขได้หรือไม่

  • ฝั่งข้อมูล ก: นักวิจัยใส่ตัวอย่างบางรายการของผู้เขียนแต่ละคนในชุดการฝึก บางส่วนอยู่ในชุดการตรวจสอบ บางส่วนอยู่ในชุดทดสอบ
ตัวอย่างของ Richardson' ทั้งหมดอาจอยู่ในชุดการฝึก ในขณะที่ตัวอย่างของ Swift' ทั้งหมดอาจอยู่ในชุดการตรวจสอบ
แผนภาพที่แสดงรายละเอียดของตัวอย่างผู้เขียนในชุดการฝึก การตรวจสอบ และการทดสอบ ตัวอย่างจากผู้แต่งทั้ง 3 คนจะแสดงในชุดแต่ละชุด
  • การแยกข้อมูล B: นักวิจัยใส่ตัวอย่างของผู้เขียนแต่ละคนลงในชุดเดียว
แผนภาพที่แสดงรายละเอียดของตัวอย่างผู้เขียนในชุดการฝึก การตรวจสอบ และการทดสอบ โดยชุดการฝึกจะมีเฉพาะตัวอย่างจาก Swift และชุดการตรวจสอบจะมีเพียงตัวอย่างจาก Blake เท่านั้น โดยชุดการทดสอบจะมีเฉพาะตัวอย่างจาก Defoe
  • ฝั่งข้อมูล ก: นักวิจัยใส่ตัวอย่างบางรายการของผู้เขียนแต่ละคนในชุดการฝึก บางส่วนอยู่ในชุดการตรวจสอบ บางส่วนอยู่ในชุดทดสอบ
  • การแยกข้อมูล B: นักวิจัยใส่ตัวอย่างของผู้เขียนแต่ละคนลงในชุดเดียว
  • ผลลัพธ์: โมเดลที่ฝึกเกี่ยวกับการแยกข้อมูล A มีความแม่นยําสูงกว่าโมเดลที่ฝึกบน Data B อย่างมาก

ศีลธรรม: พิจารณาวิธีแยกตัวอย่างอย่างรอบคอบ

รู้ว่าข้อมูลแสดงถึงอะไร

* เราทําโมดูลนี้แบบหลวมๆ (ทําการแก้ไขไปตามทาง) ใน "ความหมายและการทําเหมือง: ผลกระทบจากการสันนิษฐานโดยนัยในการทําเหมืองข้อมูล สําหรับสิทธิมนุษยชนและสิทธิพลเมือง โดย Sculley และ Pasanek