การคำนวณอคติในการคาดการณ์ เป็นการตรวจสอบอย่างรวดเร็วที่สามารถแจ้งปัญหาเกี่ยวกับโมเดลหรือข้อมูลการฝึก ตั้งแต่เนิ่นๆ
อคติในการคาดการณ์คือความแตกต่างระหว่างค่าเฉลี่ยของการคาดการณ์ของโมเดล กับค่าเฉลี่ยของป้ายกำกับข้อมูลจากการสังเกตการณ์โดยตรงในข้อมูล โมเดลที่ฝึกในชุดข้อมูล ซึ่งมีอีเมลที่เป็นสแปม 5% ควรคาดการณ์โดยเฉลี่ยว่าอีเมล 5% ที่จัดประเภทเป็นสแปม กล่าวอีกนัยหนึ่งคือ ค่าเฉลี่ยของป้ายกำกับในชุดข้อมูลความจริงพื้นฐานคือ 0.05 และค่าเฉลี่ยของการคาดการณ์ของโมเดลควรเป็น 0.05 ด้วย ในกรณีนี้ โมเดลจะไม่มีอคติในการคาดการณ์ แน่นอนว่าโมเดลอาจยังมีปัญหาอื่นๆ
หากโมเดลคาดการณ์ว่าอีเมลเป็นสแปม 50% ของเวลา แสดงว่ามีข้อผิดพลาดในชุดข้อมูลการฝึก ชุดข้อมูลใหม่ที่ใช้กับโมเดล หรือตัวโมเดลเอง ความแตกต่างที่สำคัญระหว่างค่าทั้ง 2 นี้แสดงให้เห็นว่าโมเดลมีอคติในการคาดการณ์
อคติในการคาดการณ์อาจเกิดจากสาเหตุต่อไปนี้
- อคติหรือสัญญาณรบกวนในข้อมูล รวมถึงการสุ่มตัวอย่างที่มีอคติสำหรับชุดการฝึก
- การปรับค่าปกติที่มากเกินไป ซึ่งหมายความว่าโมเดลนั้นเรียบง่ายเกินไปและสูญเสียความซับซ้อนที่จำเป็นไป
- ข้อบกพร่องในไปป์ไลน์การฝึกโมเดล
- ชุดฟีเจอร์ที่ระบุในโมเดลไม่เพียงพอสำหรับงาน