สรุป

หลักสูตรนี้ได้อธิบายถึงกับดักข้อมูลที่พบบ่อยมากมาย ตั้งแต่คุณภาพของชุดข้อมูล ไปจนถึงการคิด การแสดงภาพ และการวิเคราะห์ทางสถิติ

ผู้ปฏิบัติงานด้าน ML ควรพิจารณาดังนี้

  • ฉันเข้าใจลักษณะของชุดข้อมูลและ เงื่อนไขที่ใช้ในการรวบรวมข้อมูลนั้นดีเพียงใด
  • ข้อมูลของฉันมีปัญหาด้านคุณภาพหรืออคติใดบ้าง มีปัจจัยที่ทำให้เกิดความสับสน หรือไม่
  • การใช้ชุดข้อมูลเหล่านี้อาจทำให้เกิดปัญหาต่อเนื่องใดบ้าง
  • เมื่อฝึกโมเดลที่ทำการคาดการณ์หรือการจัดประเภท ชุดข้อมูลที่ใช้ฝึกโมเดลมีตัวแปรที่เกี่ยวข้องทั้งหมดหรือไม่

ไม่ว่าผู้ปฏิบัติงานด้าน ML จะค้นพบอะไรก็ตาม ควรตรวจสอบอคติในการยืนยันของตนเองเสมอ จากนั้นตรวจสอบสิ่งที่ค้นพบกับสัญชาตญาณและสามัญสำนึก และตรวจสอบทุกครั้งที่ข้อมูลขัดแย้งกับสิ่งเหล่านี้

อ่านเพิ่มเติม

ไคโร อัลเบอร์โต How Charts Lie: Getting Smarter about Visual Information นิวยอร์ก: W.W. Norton, 2019

Huff, Darrell. How to Lie with Statistics NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.

Jones, Ben. หลีกเลี่ยงข้อผิดพลาดเกี่ยวกับข้อมูล Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data NY: W.W. Norton, 2013