निष्पक्षता: बायस की पहचान करना

अपने डेटा को एक्सप्लोर करते समय, यह तय किया जाता है कि इसे अपने मॉडल में सबसे सही तरीके से प्रज़ेंट कैसे किया जाए. साथ ही, यह भी ज़रूरी है कि निष्पक्षता से जुड़ी समस्याओं को ध्यान में रखा जाए. साथ ही, यह भी देखा जाए कि क्या इन मापदंडों से भेदभाव हो सकता है.

भेदभाव कहां हो सकता है? यहां आपके डेटा सेट में ध्यान देने योग्य तीन लाल फ़्लैग दिए गए हैं.

फ़ीचर की वैल्यू मौजूद नहीं हैं

अगर आपके डेटा सेट में एक या उससे ज़्यादा ऐसी सुविधाएं हैं जिनमें बहुत सारे उदाहरणों के लिए वैल्यू मौजूद नहीं हैं, तो यह इस बात का संकेत हो सकता है कि आपके डेटा सेट की कुछ खास विशेषताओं को कम दिखाया गया है.

उदाहरण के लिए, नीचे दी गई टेबल में, कैलिफ़ोर्निया हाउसिंग डेटासेट में मौजूद सुविधाओं के सबसेट के लिए, आंकड़ों की खास जानकारी दी गई है. इन पंडों को DataFrame पांडा DataFrame में सेव किया गया है और DataFrame.describe से जनरेट किया गया है. ध्यान दें कि सभी सुविधाओं में 17,000 का count है, जो यह बताता है कि कोई भी मान मौजूद नहीं है:

longitude latitude कुल_रूम जनसंख्या परिवार Median_income median_house_value
सोलर पैनलों की संख्या 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0
मध्यमान (मीन) -119.6 35.6 2,643.7 1,429.6 501.2 3.9 2,073
एसएफ़टीपी 2.0 2.1 2,179 1,147.9 384.5 यूरो 1,160
मि -124.3 नंबर 3,250 2.0 3.0 1.0 0.5 15.0
25% -121.8 साल यूरो 1,462.0 790.00 2,820.00 2.6 1,194
50% -118.5 से 34.2 2,127.0 1,167.0 409.00 3.5 1,804
75% -118.0 साल 37.7 3151 1721 605.2 4.8 2,650
ज़्यादा से ज़्यादा -114.3 नंबर 42.0 3,7937.0 35682.0 6082.0 15.0 500.0

मान लीजिए इसके बजाय, तीन सुविधाओं (population, households, और median_income) में सिर्फ़ 3000 की गिनती थी—इसका मतलब यह है कि हर सुविधा के लिए 14,000 वैल्यू मौजूद नहीं थीं:

longitude latitude कुल_रूम जनसंख्या परिवार Median_income median_house_value
सोलर पैनलों की संख्या 17,000.0 17,000.0 17,000.0 3,000.0 3,000.0 3,000.0 17,000.0
मध्यमान (मीन) -119.6 35.6 2,643.7 1,429.6 501.2 3.9 2,073
एसएफ़टीपी 2.0 2.1 2,179 1,147.9 384.5 यूरो 1,160
मि -124.3 नंबर 3,250 2.0 3.0 1.0 0.5 15.0
25% -121.8 साल यूरो 1,462.0 790.00 2,820.00 2.6 1,194
50% -118.5 से 34.2 2,127.0 1,167.0 409.00 3.5 1,804
75% -118.0 साल 37.7 3151 1721 605.2 4.8 2,650
ज़्यादा से ज़्यादा -114.3 नंबर 42.0 3,7937.0 35682.0 6082.0 15.0 500.0

इन 14,000 वैल्यू को शामिल न करने पर, घरों की मीडियन आय को घर के मीडियन कीमतों के साथ सही तरीके से जोड़ना मुश्किल हो जाएगा. किसी मॉडल को इस डेटा पर ट्रेनिंग देने से पहले, उन वैल्यू की वजह की जांच करना सही होगा जिनकी वजह से आय और जनसंख्या डेटा मौजूद नहीं है.

अचानक मिलने वाली सुविधाओं की वैल्यू

डेटा को एक्सप्लोर करते समय, आपको ऐसे उदाहरणों को भी देखना चाहिए जिनमें खास तौर पर, वर्ण के हिसाब से न के बराबर या अलग-अलग वर्ण हों. इन अनचाही सुविधाओं की वैल्यू से पता चल सकता है कि डेटा इकट्ठा करने के दौरान हुई समस्याएं या ऐसी गड़बड़ियां हैं जो भेदभाव की स्थिति पैदा कर सकती हैं.

उदाहरण के लिए, कैलिफ़ोर्निया के हाउसिंग डेटा सेट के कुछ उद्धरण के उदाहरण यहां देखें:

longitude latitude कुल_रूम जनसंख्या परिवार Median_income median_house_value
1 -121.7 38.0 रुपये 7,105.0 3,523.0 1088.0 5.0 0.2
2 -122.4 पेज 37.8 डॉलर 2,479.0 1816.0 496.00 3.1 0.3
3 -122.0 37.0 2,813.0 1,337.0 477.0 रुपये 3.7 0.3
4 -103.5 साल 43.8 2,212 803.00 1,44.0 5.3 0.2
5 -117.1 नंबर 32.8 साल 2963.0 1,162 556.00 3.6 0.2
6 -118.0 साल 33.7 3,396.0 1,542 472.0 7.4 0.4

क्या आप किसी सुविधा के लिए अनचाहे मान बता सकते हैं?

डेटा स्क्यू

आपके डेटा में किसी भी तरह की दिक्कतों से, आपके मॉडल में फ़र्क़ दिख सकता है. ऐसा तब हो सकता है, जब कुछ खास ग्रुप या विशेषताएं, असल ज़िंदगी के मुकाबले कम या ज़्यादा बार-बार दिखाई जाती हैं.

अगर आपने पुष्टि कार्यक्रम को पूरा किया है, तो आपको यह याद हो सकता है कि कैलिफ़ोर्निया के हाउसिंग डेटा सेट को ट्रेनिंग और पुष्टि सेट में स्प्लिट करने से पहले, रैंडम तौर पर सेट न होने की वजह से डेटा में क्या बदलाव हुए. पहली इमेज पूरे डेटा सेट से लिए गए डेटा के सबसेट को दिखाती है, जो खास तौर पर कैलिफ़ोर्निया के उत्तर-पश्चिम क्षेत्र को दिखाता है.

कैलिफ़ोर्निया राज्य का मैप, कैलिफ़ोर्निया हाउसिंग डेटा सेट के डेटा से भरा है.
          हर बिंदु, हाउसिंग ब्लॉक को दिखाता है. सभी बिंदुओं को उत्तरी कैलिफ़ोर्निया में इकट्ठा किया जाता है. इनमें
          दक्षिणी कैलिफ़ोर्निया के कोई बिंदु नहीं होते हैं, लेकिन ये डेटा की भौगोलिक बनावट को दिखाते हैं

इमेज 1. कैलिफ़ोर्निया राज्य का मैप, कैलिफ़ोर्निया हाउसिंग डेटा सेट के डेटा से भरा है. हर बिंदु एक हाउसिंग ब्लॉक दिखाता है. इसमें नीले से लेकर लाल रंग तक के घर के मीडियन कीमत के हिसाब से रंग होते हैं, जो कि कम से ज़्यादा के बीच होते हैं.

अगर इस सैंपल का इस्तेमाल, किसी मॉडल को ट्रेनिंग देने के लिए किया गया, ताकि कैलिफ़ोर्निया में मौजूद घर की कीमतों का अनुमान लगाया जा सके, तो कैलिफ़ोर्निया के दक्षिणी हिस्सों में मौजूद घरों की कीमतें कम होना समस्या पैदा कर सकती है. मॉडल में एन्कोड किए गए भौगोलिक मापदंड से, उन समुदायों में घर के खरीदारों पर बुरा असर पड़ सकता है जिनके बारे में जानकारी नहीं दी गई है.