Việc tính toán độ lệch dự đoán là một bước kiểm tra nhanh có thể gắn cờ các vấn đề với mô hình hoặc dữ liệu huấn luyện ngay từ đầu.
Độ lệch dự đoán là sự khác biệt giữa giá trị trung bình của các dự đoán của mô hình và giá trị trung bình của nhãn sự thật cơ bản trong dữ liệu. Một mô hình được huấn luyện trên một tập dữ liệu trong đó 5% email là thư rác sẽ dự đoán rằng trung bình 5% email mà mô hình phân loại là thư rác. Nói cách khác, giá trị trung bình của nhãn trong tập dữ liệu chân thực là 0,05 và giá trị trung bình của các dự đoán của mô hình cũng phải là 0,05. Nếu đúng như vậy, mô hình sẽ không có sai lệch dự đoán. Tất nhiên, mô hình vẫn có thể gặp phải các vấn đề khác.
Nếu mô hình dự đoán 50% thời gian là email rác, thì có vấn đề với tập dữ liệu huấn luyện, tập dữ liệu mới mà mô hình được áp dụng hoặc với chính mô hình. Bất kỳ sự khác biệt đáng kể nào giữa hai giá trị trung bình đều cho thấy mô hình có một số thiên kiến dự đoán.
Độ lệch của dự đoán có thể là do:
- Thành kiến hoặc nhiễu trong dữ liệu, bao gồm cả việc lấy mẫu thiên vị cho tập huấn luyện
- Điều chỉnh quá mức, nghĩa là mô hình đã được đơn giản hoá quá mức và mất đi một số độ phức tạp cần thiết
- Lỗi trong quy trình huấn luyện mô hình
- Tập hợp các tính năng được cung cấp cho mô hình không đủ cho nhiệm vụ