पूर्वानुमान में होने वाले पक्षपात का हिसाब लगाने से, मॉडल या ट्रेनिंग डेटा से जुड़ी समस्याओं का पता शुरुआती दौर में ही लगाया जा सकता है.
अनुमान में पूर्वाग्रह, डेटा में मॉडल के अनुमानों के औसत और ग्राउंड-ट्रुथ लेबल के औसत के बीच का अंतर होता है. अगर किसी मॉडल को ऐसे डेटासेट पर ट्रेन किया गया है जिसमें 5% ईमेल स्पैम हैं, तो उसे औसतन यह अनुमान लगाना चाहिए कि उसके हिसाब से 5% ईमेल स्पैम हैं. दूसरे शब्दों में, ग्राउंड-ट्रुथ डेटासेट में मौजूद लेबल का औसत 0.05 है. इसलिए, मॉडल की अनुमानित वैल्यू का औसत भी 0.05 होना चाहिए. अगर ऐसा होता है, तो मॉडल में अनुमान से जुड़ा कोई पूर्वाग्रह नहीं होता. बेशक, मॉडल में अब भी अन्य समस्याएं हो सकती हैं.
अगर मॉडल 50% समय यह अनुमान लगाता है कि कोई ईमेल स्पैम है, तो इसका मतलब है कि ट्रेनिंग डेटासेट, मॉडल पर लागू किया गया नया डेटासेट या मॉडल में कोई गड़बड़ी है. दोनों के औसत में कोई भी बड़ा अंतर होने का मतलब है कि मॉडल में अनुमान लगाने से जुड़ा कुछ पूर्वाग्रह है.
पूर्वानुमान में पूर्वाग्रह इन वजहों से हो सकता है:
- डेटा में मौजूद पूर्वाग्रह या नॉइज़. इसमें ट्रेनिंग सेट के लिए पक्षपात वाली सैंपलिंग भी शामिल है
- बहुत ज़्यादा रेगुलराइज़ेशन. इसका मतलब है कि मॉडल को बहुत ज़्यादा आसान बना दिया गया है और इसमें कुछ ज़रूरी जटिलताएं नहीं हैं
- मॉडल ट्रेनिंग पाइपलाइन में मौजूद बग
- मॉडल को दी गई सुविधाओं का सेट, टास्क के लिए काफ़ी नहीं है