अपने डेटा को एक्सप्लोर करते समय, यह तय किया जाता है कि इसे अपने मॉडल में सबसे सही तरीके से प्रज़ेंट कैसे किया जाए. साथ ही, यह भी ज़रूरी है कि निष्पक्षता से जुड़ी समस्याओं को ध्यान में रखा जाए. साथ ही, यह भी देखा जाए कि क्या इन मापदंडों से भेदभाव हो सकता है.
भेदभाव कहां हो सकता है? यहां आपके डेटा सेट में ध्यान देने योग्य तीन लाल फ़्लैग दिए गए हैं.
फ़ीचर की वैल्यू मौजूद नहीं हैं
अगर आपके डेटा सेट में एक या उससे ज़्यादा ऐसी सुविधाएं हैं जिनमें बहुत सारे उदाहरणों के लिए वैल्यू मौजूद नहीं हैं, तो यह इस बात का संकेत हो सकता है कि आपके डेटा सेट की कुछ खास विशेषताओं को कम दिखाया गया है.
उदाहरण के लिए, नीचे दी गई टेबल में, कैलिफ़ोर्निया हाउसिंग डेटासेट में मौजूद सुविधाओं के सबसेट के लिए, आंकड़ों की खास जानकारी दी गई है. इन पंडों को DataFrame
पांडा DataFrame
में सेव किया गया है और DataFrame.describe
से जनरेट किया गया है. ध्यान दें कि सभी सुविधाओं में 17,000 का count
है, जो यह बताता है कि
कोई भी मान मौजूद नहीं है:
longitude | latitude | कुल_रूम | जनसंख्या | परिवार | Median_income | median_house_value | |
---|---|---|---|---|---|---|---|
सोलर पैनलों की संख्या | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 |
मध्यमान (मीन) | -119.6 | 35.6 | 2,643.7 | 1,429.6 | 501.2 | 3.9 | 2,073 |
एसएफ़टीपी | 2.0 | 2.1 | 2,179 | 1,147.9 | 384.5 | यूरो | 1,160 |
मि | -124.3 नंबर | 3,250 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 साल | यूरो | 1,462.0 | 790.00 | 2,820.00 | 2.6 | 1,194 |
50% | -118.5 से | 34.2 | 2,127.0 | 1,167.0 | 409.00 | 3.5 | 1,804 |
75% | -118.0 साल | 37.7 | 3151 | 1721 | 605.2 | 4.8 | 2,650 |
ज़्यादा से ज़्यादा | -114.3 नंबर | 42.0 | 3,7937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
मान लीजिए इसके बजाय, तीन सुविधाओं (population
, households
, और median_income
) में
सिर्फ़ 3000
की गिनती थी—इसका मतलब यह है कि हर सुविधा के लिए 14,000 वैल्यू मौजूद नहीं थीं:
longitude | latitude | कुल_रूम | जनसंख्या | परिवार | Median_income | median_house_value | |
---|---|---|---|---|---|---|---|
सोलर पैनलों की संख्या | 17,000.0 | 17,000.0 | 17,000.0 | 3,000.0 | 3,000.0 | 3,000.0 | 17,000.0 |
मध्यमान (मीन) | -119.6 | 35.6 | 2,643.7 | 1,429.6 | 501.2 | 3.9 | 2,073 |
एसएफ़टीपी | 2.0 | 2.1 | 2,179 | 1,147.9 | 384.5 | यूरो | 1,160 |
मि | -124.3 नंबर | 3,250 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 साल | यूरो | 1,462.0 | 790.00 | 2,820.00 | 2.6 | 1,194 |
50% | -118.5 से | 34.2 | 2,127.0 | 1,167.0 | 409.00 | 3.5 | 1,804 |
75% | -118.0 साल | 37.7 | 3151 | 1721 | 605.2 | 4.8 | 2,650 |
ज़्यादा से ज़्यादा | -114.3 नंबर | 42.0 | 3,7937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
इन 14,000 वैल्यू को शामिल न करने पर, घरों की मीडियन आय को घर के मीडियन कीमतों के साथ सही तरीके से जोड़ना मुश्किल हो जाएगा. किसी मॉडल को इस डेटा पर ट्रेनिंग देने से पहले, उन वैल्यू की वजह की जांच करना सही होगा जिनकी वजह से आय और जनसंख्या डेटा मौजूद नहीं है.
अचानक मिलने वाली सुविधाओं की वैल्यू
डेटा को एक्सप्लोर करते समय, आपको ऐसे उदाहरणों को भी देखना चाहिए जिनमें खास तौर पर, वर्ण के हिसाब से न के बराबर या अलग-अलग वर्ण हों. इन अनचाही सुविधाओं की वैल्यू से पता चल सकता है कि डेटा इकट्ठा करने के दौरान हुई समस्याएं या ऐसी गड़बड़ियां हैं जो भेदभाव की स्थिति पैदा कर सकती हैं.
उदाहरण के लिए, कैलिफ़ोर्निया के हाउसिंग डेटा सेट के कुछ उद्धरण के उदाहरण यहां देखें:
longitude | latitude | कुल_रूम | जनसंख्या | परिवार | Median_income | median_house_value | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 38.0 रुपये | 7,105.0 | 3,523.0 | 1088.0 | 5.0 | 0.2 |
2 | -122.4 पेज | 37.8 डॉलर | 2,479.0 | 1816.0 | 496.00 | 3.1 | 0.3 |
3 | -122.0 | 37.0 | 2,813.0 | 1,337.0 | 477.0 रुपये | 3.7 | 0.3 |
4 | -103.5 साल | 43.8 | 2,212 | 803.00 | 1,44.0 | 5.3 | 0.2 |
5 | -117.1 नंबर | 32.8 साल | 2963.0 | 1,162 | 556.00 | 3.6 | 0.2 |
6 | -118.0 साल | 33.7 | 3,396.0 | 1,542 | 472.0 | 7.4 | 0.4 |
क्या आप किसी सुविधा के लिए अनचाहे मान बता सकते हैं?
डेटा स्क्यू
आपके डेटा में किसी भी तरह की दिक्कतों से, आपके मॉडल में फ़र्क़ दिख सकता है. ऐसा तब हो सकता है, जब कुछ खास ग्रुप या विशेषताएं, असल ज़िंदगी के मुकाबले कम या ज़्यादा बार-बार दिखाई जाती हैं.
अगर आपने पुष्टि कार्यक्रम को पूरा किया है, तो आपको यह याद हो सकता है कि कैलिफ़ोर्निया के हाउसिंग डेटा सेट को ट्रेनिंग और पुष्टि सेट में स्प्लिट करने से पहले, रैंडम तौर पर सेट न होने की वजह से डेटा में क्या बदलाव हुए. पहली इमेज पूरे डेटा सेट से लिए गए डेटा के सबसेट को दिखाती है, जो खास तौर पर कैलिफ़ोर्निया के उत्तर-पश्चिम क्षेत्र को दिखाता है.
इमेज 1. कैलिफ़ोर्निया राज्य का मैप, कैलिफ़ोर्निया हाउसिंग डेटा सेट के डेटा से भरा है. हर बिंदु एक हाउसिंग ब्लॉक दिखाता है. इसमें नीले से लेकर लाल रंग तक के घर के मीडियन कीमत के हिसाब से रंग होते हैं, जो कि कम से ज़्यादा के बीच होते हैं.
अगर इस सैंपल का इस्तेमाल, किसी मॉडल को ट्रेनिंग देने के लिए किया गया, ताकि कैलिफ़ोर्निया में मौजूद घर की कीमतों का अनुमान लगाया जा सके, तो कैलिफ़ोर्निया के दक्षिणी हिस्सों में मौजूद घरों की कीमतें कम होना समस्या पैदा कर सकती है. मॉडल में एन्कोड किए गए भौगोलिक मापदंड से, उन समुदायों में घर के खरीदारों पर बुरा असर पड़ सकता है जिनके बारे में जानकारी नहीं दी गई है.