การจัดประเภท: การให้น้ำหนักพิเศษกับการคาดการณ์

การคำนวณอคติในการคาดการณ์ เป็นการตรวจสอบอย่างรวดเร็วที่สามารถแจ้งปัญหาเกี่ยวกับโมเดลหรือข้อมูลการฝึก ตั้งแต่เนิ่นๆ

อคติในการคาดการณ์คือความแตกต่างระหว่างค่าเฉลี่ยของการคาดการณ์ของโมเดล กับค่าเฉลี่ยของป้ายกำกับข้อมูลจากการสังเกตการณ์โดยตรงในข้อมูล โมเดลที่ฝึกในชุดข้อมูล ซึ่งมีอีเมลที่เป็นสแปม 5% ควรคาดการณ์โดยเฉลี่ยว่าอีเมล 5% ที่จัดประเภทเป็นสแปม กล่าวอีกนัยหนึ่งคือ ค่าเฉลี่ยของป้ายกำกับในชุดข้อมูลความจริงพื้นฐานคือ 0.05 และค่าเฉลี่ยของการคาดการณ์ของโมเดลควรเป็น 0.05 ด้วย ในกรณีนี้ โมเดลจะไม่มีอคติในการคาดการณ์ แน่นอนว่าโมเดลอาจยังมีปัญหาอื่นๆ

หากโมเดลคาดการณ์ว่าอีเมลเป็นสแปม 50% ของเวลา แสดงว่ามีข้อผิดพลาดในชุดข้อมูลการฝึก ชุดข้อมูลใหม่ที่ใช้กับโมเดล หรือตัวโมเดลเอง ความแตกต่างที่สำคัญระหว่างค่าทั้ง 2 นี้แสดงให้เห็นว่าโมเดลมีอคติในการคาดการณ์

อคติในการคาดการณ์อาจเกิดจากสาเหตุต่อไปนี้

  • อคติหรือสัญญาณรบกวนในข้อมูล รวมถึงการสุ่มตัวอย่างที่มีอคติสำหรับชุดการฝึก
  • การปรับค่าปกติที่มากเกินไป ซึ่งหมายความว่าโมเดลนั้นเรียบง่ายเกินไปและสูญเสียความซับซ้อนที่จำเป็นไป
  • ข้อบกพร่องในไปป์ไลน์การฝึกโมเดล
  • ชุดฟีเจอร์ที่ระบุในโมเดลไม่เพียงพอสำหรับงาน