निष्पक्षता: अपनी समझ की जांच करना

बायस के टाइप

नीचे दिए गए विकल्प देखें.

चुनाव में मापदंड से बाहर होने की वजह से, इनमें से किस मॉडल के अनुमान पर असर पड़ा है?
जर्मन लिखावट की पहचान करने वाले एक स्मार्टफ़ोन ऐप्लिकेशन में ऐसे मॉडल का इस्तेमाल किया जाता है जिसमें Bs (Eszett) वर्णों को B वर्णों की कैटगरी में रखा जाता है. ऐसा इसलिए किया जाता है, क्योंकि यह अमेरिकन हैंडराइटिंग के नमूनों पर आधारित होता है और ज़्यादातर मामलों में इसे अंग्रेज़ी में लिखा जाता है.
इस मॉडल पर, कवरेज बायस नाम के एक तरह के बायस का असर हुआ था: ट्रेनिंग डेटा (अमेरिकन इंग्लिश में हैंडराइटिंग) उस तरह का डेटा नहीं था जिस तरह कोई मॉडल (टारगेट ऑडियंस) (जर्मन हैंडराइटिंग) देता है.
इंजीनियर ने एक मॉडल बनाया, जिससे यह अनुमान लगाया जा सकता है कि उन्हें दिन में कितनी बार खाना चाहिए. इसके बाद, उन्होंने डायबिटीज़ का पता लगाया. इस मॉडल को दुनिया भर के अलग-अलग उम्र समूहों, जातीय बैकग्राउंड, और लिंग को पेश करने वाले लोगों के बिना किसी क्रम के चुने गए ग्रुप से इकट्ठा किया गया था. हालांकि, जब मॉडल को लागू किया गया था, तब उसकी स्थिति बहुत खराब थी. इंजीनियर्स को बाद में पता चला कि फ़ूड डायरी में हिस्सा लेने वाले लोग, यह खाने में दिलचस्पी नहीं रखते थे कि वे खाने में किस तरह की पौष्टिक चीज़ें नहीं खाते हैं. इस बात की ज़्यादा संभावना है कि उन्होंने खाने-पीने के लिहाज़ से पौष्टिक खाने की ज़रूरत को पूरा नहीं किया है.
इस मॉडल में कोई चुना जाने वाला पक्षपात नहीं है; ट्रेनिंग डेटा देने वाले उपयोगकर्ताओं का सैंपल, सैंपल के तौर पर लिया गया था और उन्हें बिना किसी क्रम के चुना गया था. इसके बजाय, इस मॉडल पर रिपोर्टिंग बायस का असर हुआ. नुकसान पहुंचाने वाले खाने की मात्रा ज़्यादा होने की संभावना, असल ज़िंदगी की तुलना में कम रिपोर्ट की गई.
सभी कर्मचारियों को भेजे गए एक सर्वे से मिले डेटा के आधार पर, एक कंपनी के इंजीनियरों ने कर्मचारियों का टर्नओवर रेट (हर साल नौकरी छोड़ने वाले कर्मचारियों का प्रतिशत) का अनुमान लगाने के लिए एक मॉडल डेवलप किया. कई सालों तक इस्तेमाल करने के बाद, इंजीनियर को पता चला कि मॉडल में टर्नओवर 20% से ज़्यादा नहीं रह सकता. कंपनी छोड़ने वाले कर्मचारियों के साथ एग्ज़िट इंटरव्यू लेते समय, उन्हें पता चला कि 80% से ज़्यादा ऐसे लोग जो अपनी नौकरियों से संतुष्ट नहीं थे, उन्होंने 15% कंपनी के ऑप्ट आउट दर की तुलना में सर्वे को पूरा नहीं करने का फ़ैसला लिया.
इस मॉडल पर, गैर-रिस्पॉन्स बायस नाम के एक तरह के बायस का असर पड़ा था. जो लोग अपनी नौकरियों से संतुष्ट नहीं थे, उन्हें ट्रेनिंग डेटा सेट में कम महत्व दिया गया. इसकी वजह यह है कि उन्होंने कंपनी के पूरे सर्वे के मुकाबले, पूरी कंपनी के सर्वे में हिस्सा लेने की दर से ऑप्ट आउट किया.
फ़िल्मों के सुझाव देने वाले सिस्टम को डेवलप करने वाले इंजीनियर ने, अनुमान लगाया कि जिन लोगों को डरावनी फ़िल्में पसंद हैं उन्हें विज्ञान से जुड़ी काल्पनिक फ़िल्में भी पसंद आएंगी. जब उन्होंने 50,000 उपयोगकर्ताओं और वॉचलिस्ट पर किसी मॉडल को ट्रेनिंग दी, तो {0} हॉरर और साइंस फ़िक्शन के बीच ऐसा कोई संबंध नहीं दिखाया गया था. इसके बजाय, उन्होंने हॉरर और डॉक्यूमेंट्री के लिए प्राथमिकताओं के बीच एक मज़बूत संबंध दिखाया. यह उन्हें अजीब लगा, इसलिए उन्होंने अलग-अलग हाइपरपैरामीटर का इस्तेमाल करके मॉडल को पांच बार फिर से ट्रेनिंग दी. उनके फ़ाइनल ट्रेनिंग मॉडल ने, हॉरर और साइंस फ़िक्शन के बीच के संबंध में 70% संबंध दिखाया. इसलिए, उन्होंने पूरे विश्वास के साथ इसे प्रोडक्शन के लिए रिलीज़ किया.
सेलर बायस के बारे में कोई सबूत नहीं है. हालांकि, हो सकता है कि इस मॉडल पर प्रयोग करने वाले का पक्षपात हुआ हो. इसकी वजह यह है कि इंजीनियर ने तब तक अपने मॉडल पर प्रयोग करना जारी रखा, जब तक कि वह पहले से मौजूद किसी अनुमान की पुष्टि नहीं करता.

बायस का आकलन

सारंग की पहचान करने वाले मॉडल को 80,000 मैसेज पर ट्रेनिंग दी गई थी: वयस्कों के 40,000 मैसेज (18 साल और उससे ज़्यादा उम्र के) और नाबालिगों को भेजे गए 40,000 मैसेज (18 साल से कम). इसके बाद, मॉडल का आकलन 20,000 मैसेज के एक सेट के आधार पर किया गया: वयस्कों के लिए 10,000 और नाबालिगों से 10,000 मैसेज. ये भ्रम पैदा करने वाली मैट्रिक्स हर ग्रुप के नतीजे दिखाती हैं (सकारात्मक अनुमान यह दिखाता है कि कोई कोट & "

वयस्क

ट्रू पॉज़िटिव (टीपी): 512 गलत पॉज़िटिव (एफ़पी): 51
गलत नेगेटिव (एफ़एन): 36 ट्रू नेगेटिव (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

नाबालिग

ट्रू पॉज़िटिव (टीपी): 2147 गलत पॉज़िटिव (एफ़पी): 96
नेगेटिव नेगेटिव (FN): 2177 ट्रू नेगेटिव (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

नीचे दिए गए विकल्प देखें.

मॉडल के टेस्ट-सेट की परफ़ॉर्मेंस के बारे में इनमें से कौनसी बातें सही हैं?
कुल मिलाकर, यह मॉडल बड़ों के उदाहरणों की तुलना में नाबालिगों के उदाहरणों की तुलना में बेहतर परफ़ॉर्म करता है.

यह मॉडल वयस्कों के लिए मैसेज में व्यंग्य करने का पता लगाकर, 90% से ज़्यादा सटीक और रीकॉल की दर हासिल कर लेता है.

हालांकि, यह मॉडल वयस्कों की तुलना में नाबालिगों के लिए, थोड़ा ज़्यादा सटीक रेट हासिल करता है. साथ ही, नाबालिगों के लिए रीकॉल रेट बहुत कम होता है. इस वजह से, इस ग्रुप के लिए अनुमान कम सटीक हो जाते हैं.

इस मॉडल में, करीब 50% नाबालिगों और व्यंग्य वाले मैसेज को कैटगरी में बांटा गया है.
नाबालिगों को प्रॉडक्ट वापस मंगाए जाने की दर 0.497 है. इससे यह पता चलता है कि मॉडल, वयस्कों के लिए अनुमान लगाने में लगने वाले अनुमानित समय के बारे में अनुमान लगाता है, न कि 50%, और व्यंग्य वाले टेक्स्ट का.
नाबालिगों से भेजे जाने वाले करीब 50% मैसेज को कोट के तौर पर गलत कैटगरी में रखा जाता है.
0.957 का सटीक रेट बताता है कि 95% से ज़्यादा नाबालिगों' मैसेज की कैटगरी में रखा गया "arcastic" असल में व्यंग्य करने वाला है.
वयस्कों के भेजे गए 10,000 मैसेज, क्लास के लिए असंतुलित डेटासेट होते हैं.
अगर हम वयस्कों के हिसाब से उन मैसेज की संख्या की तुलना करते हैं जो असल में व्यंग्य वाले (TP+FN = 548) हैं और उन मैसेज की संख्या जो असल में व्यंग्य वाले (TN + FP = 9452 नहीं हैं) हैं, तो हम देखते हैं कि ये मैसेज व्यंग्य, कोट, और 1 के अनुपात में नहीं हैं.
नाबालिगों की ओर से भेजे गए 10,000 मैसेज, क्लास के लिए असंतुलित डेटासेट होते हैं.
अगर हम नाबालिगों के ऐसे मैसेज की तुलना करते हैं जो असल में व्यंग्य वाले (TP+FN = 4324) हैं और उन मैसेज की संख्या जो असल में व्यंग्य वाले (TN + FP = 5676) नहीं हैं, तो हमें पता चलता है कि 1.3:1 के अनुपात में, लेबल और सारकास्ट के लेबल शामिल हैं किसी दो क्लास के बीच लेबल का डिस्ट्रिब्यूशन, 50/50 के करीब होता है. इसलिए, यह क्लास का असंतुलित डेटासेट नहीं होता है.

नीचे दिए गए विकल्प देखें.

इंजीनियर इस मॉडल को फिर से ट्रेनिंग दे रहे हैं, ताकि उम्र से जुड़ी जनसांख्यिकी (उम्र, लिंग, आय, शिक्षा वगैरह) में अधूरी जानकारी का पता लगाया जा सके. हालांकि, इसे पहले ही प्रोडक्शन में रिलीज़ कर दिया गया है. नीचे दी गई इनमें से कौनसी रणनीति, मॉडल और उसके अनुमान की गड़बड़ियों को कम करने में मदद करेगी?
वयस्कों के भेजे गए मैसेज पर मॉडल और उनके इस्तेमाल पर पाबंदी लगाएं.

यह मॉडल वयस्कों के लिए मैसेज पर अच्छा परफ़ॉर्म करता है. इसमें 90% से ज़्यादा सटीक और रीकॉल की दरें शामिल हैं. इसलिए, इस ग्रुप के इस्तेमाल पर रोक लगाने से सिस्टम की सामान्य गड़बड़ियों को कम करने के साथ-साथ नाबालिगों को मैसेज करने की सुविधा नहीं मिल पाएगी.

जब मॉडल, वयस्कों के लिए भेजे गए मैसेज के लिए अनुमान लगाता है, ताक-झांक नहीं करता, तो आउटपुट में बदलाव करें, ताकि मॉडल की वैल्यू "unsure" मिल सके.

नाबालिगों से भेजे जाने वाले मैसेज की सटीक दर ज़्यादा होती है. इसका मतलब है कि जब मॉडल इस ग्रुप का अनुमान लगाता है, तब यह करीब-करीब सही होता है.

समस्या यह है कि नाबालिगों को प्रॉडक्ट वापस मंगाना बहुत कम है. इसलिए, मॉडल सिर्फ़ 50% उदाहरणों में व्यंग्य करने की पहचान नहीं कर पाता. इस बात को ध्यान में रखते हुए कि नाबालिगों के लिए मॉडल और#39 के गलत अनुमान, रैंडम अनुमानों से बेहतर नहीं हैं. इसलिए, हम इन मामलों में अनुमान लगाकर इन गड़बड़ियों से बच सकते हैं.

नाबालिगों को भेजे गए मैसेज के लिए, मॉडल के इस्तेमाल पर पाबंदी लगाएं.

इस मॉडल में सिस्टम से जुड़ी गड़बड़ियां, नाबालिगों को भेजे गए मैसेज के लिए होती हैं. मॉडल पर पाबंदी लगाने (#39) में, गड़बड़ी होने की संभावना ज़्यादा होने से ग्रुप को इस्तेमाल करने से मदद नहीं मिलेगी.

मॉडल के आउटपुट में बदलाव करें, ताकि नाबालिगों के भेजे गए सभी मैसेज के लिए यह खास तौर पर कोट और कोट कर सके. भले ही, मॉडल ने मूल रूप से क्या अनुमान लगाया हो.

नाबालिगों के लिए हमेशा अनुमान लगाने और उलझाने वाले &कोटेशन; हालांकि, प्रॉडक्ट की रीकॉल की संख्या में हुई बढ़ोतरी की वजह से, सटीक जानकारी नहीं मिल पाएगी. सभी सही नेगेटिव 'गलत' को बदल दिया जाएगा:

True पॉज़िटिव (टीपी): 4324 गलत पॉज़िटिव (एफ़पी): 5676
गलत नेगेटिव (एफ़एन): 0 सही नेगेटिव (TN): 0

जो सटीक होने की दर को 0.957 से घटाकर 0.432 कर देगा. इसलिए, इस कैलिब्रेशन को जोड़ने से गड़बड़ी का टाइप बदल जाएगा. हालांकि, इससे गड़बड़ी का असर कम नहीं होगा.