ভবিষ্যদ্বাণী পক্ষপাত গণনা করা একটি দ্রুত পরীক্ষা যা মডেল বা প্রশিক্ষণ ডেটার সাথে সমস্যাগুলিকে প্রাথমিকভাবে চিহ্নিত করতে পারে।
ভবিষ্যদ্বাণী পক্ষপাত হল একটি মডেলের ভবিষ্যদ্বাণীর গড় এবং ডেটাতে গ্রাউন্ড-ট্রুথ লেবেলের গড়ের মধ্যে পার্থক্য। একটি ডেটাসেটে প্রশিক্ষিত মডেল যেখানে ৫% ইমেল স্প্যাম, গড়ে ৫% ইমেল স্প্যাম বলে ভবিষ্যদ্বাণী করতে পারে। অন্য কথায়, গ্রাউন্ড-ট্রুথ ডেটাসেটে লেবেলের গড় ০.০৫ এবং মডেলের ভবিষ্যদ্বাণীর গড়ও ০.০৫ হওয়া উচিত। যদি এটি হয়, তাহলে মডেলটিতে কোনও ভবিষ্যদ্বাণী পক্ষপাত নেই। অবশ্যই, মডেলটিতে এখনও অন্যান্য সমস্যা থাকতে পারে।
যদি মডেলটি ৫০% সময় ভবিষ্যদ্বাণী করে যে কোনও ইমেল স্প্যাম, তাহলে প্রশিক্ষণ ডেটাসেটে, মডেলটি যে নতুন ডেটাসেটে প্রয়োগ করা হয়েছে, অথবা মডেলটিতেই কিছু ভুল আছে। দুটি মাধ্যমের মধ্যে যেকোনো উল্লেখযোগ্য পার্থক্য ইঙ্গিত দেয় যে মডেলটিতে কিছু ভবিষ্যদ্বাণী পক্ষপাত রয়েছে।
ভবিষ্যদ্বাণী পক্ষপাতের কারণ হতে পারে:
- প্রশিক্ষণ সেটের জন্য পক্ষপাতদুষ্ট নমুনা সহ ডেটাতে পক্ষপাত বা শব্দ
- অত্যধিক শক্তিশালী নিয়মিতকরণ, যার অর্থ মডেলটি অতি সরলীকৃত করা হয়েছিল এবং কিছু প্রয়োজনীয় জটিলতা হারিয়েছিল।
- মডেল প্রশিক্ষণ পাইপলাইনে বাগ
- মডেলটিতে প্রদত্ত বৈশিষ্ট্যগুলির সেটটি কাজের জন্য অপর্যাপ্ত।