अपना डेटा बदलना: अपनी समझ की जांच करना

नीचे दिए गए सवालों के लिए, अपने जवाब की जांच करने के लिए, अपनी पसंद के ऐरो पर क्लिक करें:

आप रिग्रेशन मॉडल के लिए डेटा पहले से प्रोसेस कर रहे हैं. किस तरह के बदलाव करने ज़रूरी हैं? लागू होने वाले सभी विकल्पों को सही का निशान लगाकर चुनें.
सभी गैर-न्यूमेरिक सुविधाओं को अंकों में शामिल करना.
सही. यह एक ज़रूरी बदलाव है. आपको स्ट्रिंग को कुछ अंकों वाले प्रज़ेंटेशन में बदलना होगा, क्योंकि स्ट्रिंग पर मैट्रिक्स गुणा नहीं किया जा सकता.
नंबर वाले डेटा को सामान्य बनाएं.
संख्या वाले डेटा को सामान्य बनाने से मदद मिल सकती है, लेकिन यह क्वालिटी में बदलाव करने का एक वैकल्पिक तरीका है.

 

नीचे दिए गए चार्ट को देखें. डेटा में बदलाव करने की कौनसी तकनीक, सबसे शुरुआत के साथ सबसे ज़्यादा काम की साबित होगी और क्यों? मान लें कि रूम का हिसाब लगाने के लिए, रूम के पर्सोना और घर के किराये को लेकर लीनियर रिलेशनशिप पता करना ज़रूरी है.
Z-स्कोर
अगर बाहरी चीज़ें ज़्यादा अहम नहीं हैं, तो Z-score एक अच्छा विकल्प है. हालांकि, बाहरी मामले बहुत ज़्यादा मायने रखते हैं.
क्लिपिंग
क्लिप करने के मामले में यह एक अच्छा विकल्प है, क्योंकि डेटा सेट में बहुत ज़्यादा बाहरी चीज़ें शामिल हैं. दूसरी सामान्य सेटिंग लागू करने से पहले, आपको बहुत ज़्यादा पाबंदी वाले गड़बड़ियों को ठीक करना चाहिए.
लॉग स्केलिंग
अगर आपका डेटा, पावर कानून के तहत काम करता है, तो लॉग स्केलिंग का इस्तेमाल करना एक अच्छा विकल्प है. हालांकि, यह डेटा पावर कानून के बंटवारे के बजाय, सामान्य डिस्ट्रिब्यूशन के हिसाब से होता है.
बकेटिंग (बिनिंग)
क्वांटाइल बकेट, काम के डेटा के लिए अच्छा तरीका हो सकता है. हालांकि, इस मामले में, इस एक्स्ट्रीम का असर बहुत ज़्यादा बाहरी वजहों से होता है. साथ ही, आप चाहते हैं कि मॉडल, लीनियर रिलेशनशिप के बारे में सीखे. इसलिए, इसे रूम में बदलने के बजाय, रूम के हिसाब से अंकों का इस्तेमाल करें, जो बकेटिंग में काम करता है. इसके बजाय, सामान्य बनाने की तकनीक आज़माएं.

यह अलग-अलग रूम रूम की तुलना दिखाने वाला चार्ट है. इसमें, रूम में ठहरने वाले लोगों की संख्या को, उस घर में मौजूद लोगों की संख्या से भाग दिया जाता है.  ज़्यादातर डेटा 5 से 55 तक के पॉइंट के साथ 0 से 5 के बीच बांटे जाते हैं.

 

नीचे दिए गए चार्ट को देखें. डेटा में बदलाव करने की कौनसी तकनीक, सबसे शुरुआत के साथ सबसे ज़्यादा काम की साबित होगी और क्यों?
Z-स्कोर
अगर आउटलायर इतने ज़्यादा अहम नहीं हैं कि आपको क्लिप बनाने की ज़रूरत है, तो Z-score एक अच्छा विकल्प है. हालांकि, ऐसा नहीं है. डेटा का तिरछा करने का तरीका संकेत के तौर पर होना चाहिए.
क्लिपिंग
जब बहुत ज़्यादा बाहरी चीज़ें होती हैं, तो क्लिपिंग का इस्तेमाल करना एक अच्छा विकल्प है. हालांकि, इस चार्ट में पावर कानून के बारे में जानकारी दी जा रही है. इस समस्या को ठीक करने के लिए, आम तौर पर इस्तेमाल होने वाली एक और तकनीक भी उपलब्ध है.
लॉग स्केलिंग
लॉग स्केलिंग यहां एक अच्छा विकल्प है, क्योंकि यह डेटा, पावर कानून के तहत काम करता है.
बकेटिंग (बिनिंग)
क्वांटाइल बकेट, गलत डेटा के लिए अच्छा तरीका हो सकता है. हालांकि, आप लीनियर रिलेशनशिप सीखने के लिए मॉडल को खोज रहे हैं. इसलिए, आपको अपना डेटा अंकों में रखना चाहिए और उसे बकेट में नहीं रखना चाहिए. इसके बजाय, सामान्य बनाने की तकनीक आज़माएं.

बार का वह ग्राफ़ जिसके निचले हिस्से में बहुत ज़्यादा बार होते हैं. पहले बार की तीव्रता 1,200 है, दूसरे बार की तीव्रता 360 है, तीसरे बार की तीव्रता 300 है. 15वें बार तक, इसका तीव्रता करीब 30 था. पूंछ की लंबाई 10 से ज़्यादा नहीं होने पर कई दूसरे 90 बार भी बने रहते हैं.

 

नीचे दिए गए चार्ट को देखें. क्या लीनियर मॉडल, कंप्रेस करने के अनुपात और शहर के एएमपी पेजों के बीच के संबंधों का अनुमान लगाता है? अगर नहीं, तो मॉडल को बेहतर बनाने के लिए, डेटा को कैसे बदला जा सकता है?
हां, हो सकता है कि मॉडल को लीनियर रिलेशनशिप मिले और वह सटीक अनुमान लगा पाए.
हालांकि, मॉडल को लीनियर रिलेशनशिप मिलता है, लेकिन मॉडल बहुत सटीक अनुमान नहीं लगा सकता. ऐसा होने की वजह जानने के लिए, डेटा मॉडलिंग की कसरत में सेट किए गए इस डेटा को ट्रेनिंग दी जा सकती है.
नहीं. स्केल करने के बाद शायद मॉडल ज़्यादा सटीक होगा.
आप लीनियर स्केलिंग लागू कर सकते हैं, लेकिन कंप्रेस करने के अनुपात और शहर के वैल्यू फ़ॉर्मैट के बीच के संबंध की ढलान पहले जैसी ही दिखेगी. आपको दो और स्लोप देखने होंगे, जिनमें से एक है: कम कंप्रेशन अनुपात में पॉइंट का ग्रुप और दूसरा ऊपर के लिए.
नहीं. दो अलग-अलग व्यवहार हो रहे हैं. बीच में कोई थ्रेशोल्ड सेट करने और बकेट की गई सुविधा का इस्तेमाल करने से आपको यह समझने में मदद मिल सकती है कि उन दो क्षेत्रों में क्या हो रहा है.
सही. यह साफ़ तौर पर पता होना चाहिए कि आपको सीमाएं क्यों और कैसे सेट करनी हैं. डेटा मॉडलिंग की ट्रेनिंग में, आपको इस बारे में ज़्यादा जानकारी मिलेगी कि यह तरीका किस तरह एक बेहतर मॉडल बनाने में आपकी मदद कर सकता है.

हाइवे-एमपीजी को कंप्रेस करने का अनुपात दिखाने वाला स्कैटर प्लॉट. डेटा के दो अलग-अलग
क्लंप, दूसरे ग्रुप की तुलना में एक गुना ज़्यादा, कंप्रेस- रेशियो की ऐक्सिस के उलट वाले सिरे पर दिखते हैं. बड़ा Chromebook, 7 से 12 तक की कंप्रेस किए गए अनुपात को कवर करता है. वहीं, छोटे स्निपेट में, कंप्रेस किए जाने वाले अनुपात का अनुपात 21 से 23 तक होता है. आम तौर पर, हाइवे-एमपीजी बड़े क्लंप की तुलना में छोटे
क्लंप की तुलना में थोड़ा कम होता है.

 

मिलते-जुलते ऐप्लिकेशन की टीम आपको बता रही है कि उन्होंने एमएल प्रोजेक्ट में क्या प्रगति की है. उन्होंने एक शब्दावली का हिसाब लगाया और एक मॉडल को ऑफ़लाइन ट्रेनिंग दी. हालांकि, वे पुराने होने की समस्याओं से बचना चाहते हैं. इसलिए, अब वे एक अलग मॉडल को ऑनलाइन ट्रेनिंग देने जा रहे हैं. इसके बाद क्या हो सकता है?
नया डेटा आने पर मॉडल अप-टू-डेट रहेगा. दूसरी टीम को इनपुट डेटा की लगातार निगरानी करनी होगी.
हालांकि, पुराने तरीके से ट्रेनिंग देने का मुख्य फ़ायदा यह है कि डाइनैमिक ट्रेनिंग की मदद से, ऐसे शब्दों का इस्तेमाल किया जाता है जिन्हें ऑफ़लाइन ट्रेनिंग वाले मॉडल में इस्तेमाल किया जाता है, तो उनमें समस्याएं आती हैं.
इस तरह के इंडेक्स से पता चल सकता है कि जिस इंडेक्स का इस्तेमाल किया जा रहा है वह शब्दों का इस्तेमाल करने से मेल नहीं खाता.
सही. अपने साथ काम करने वालों को ट्रेनिंग या सेवा देने के दौरान आने वाले खतरों के बारे में चेतावनी दें. साथ ही, सुझाव दें कि वे Google की ट्रेनिंग के लिए डेटा तैयार करने और फ़ीचर इंजीनियरिंग के बारे में ज़्यादा जानें.