डेटा सेट का साइज़ और क्वालिटी

“कचरा फेंकना”

पहले की कहावत मशीन लर्निंग पर लागू होती है. आखिरकार, आपका मॉडल केवल आपके डेटा जितना ही अच्छा होता है. लेकिन आप अपने डेटा सेट की क्वालिटी को कैसे मापते हैं और उसमें सुधार कैसे करते हैं? काम के नतीजे पाने के लिए, आपको कितना डेटा चाहिए? ये सवाल इस बात पर निर्भर करते हैं कि किस तरह की समस्या को हल किया जा रहा है.

डेटा सेट का साइज़

बुनियादी नियम के मुताबिक, आपके मॉडल को ऐसे उदाहरणों को ट्रेनिंग देना ज़रूरी है जिनका साइज़, ज़्यादा से ज़्यादा एक खास क्रम के हिसाब से हो. आम तौर पर, बड़े डेटा सेट वाले छोटे मॉडल, छोटे डेटा सेट पर मिलने वाले खास मॉडल से बेहतर होते हैं. Google के पास, बड़े डेटा सेट पर लीनियर रिग्रेशन मॉडल को ट्रेनिंग देने में काफ़ी सफलता मिली है.

किस बात को डेटा के तौर पर गिना जाता है? यह प्रोजेक्ट पर निर्भर करता है. इन डेटा सेट के आकार का ध्यान रखें:

डेटा सेट साइज़ (उदाहरणों की संख्या)
आयरिस के फूल का डेटा सेट 150 (कुल सेट)
MovieLens (20 मिलियन डेटा सेट) 20,000,263 (कुल सेट)
Google Gmail स्मार्ट जवाब 2,38,00,000 (ट्रेनिंग सेट)
Google पुस्तकें Ngram 4,68,00,00,000 (कुल सेट)
Google Translate ट्रिलियन

जैसा कि आप देख सकते हैं, डेटा सेट कई साइज़ में उपलब्ध होते हैं.

डेटा सेट की क्वालिटी

अगर डेटा गलत है, तो बहुत ज़्यादा डेटा इस्तेमाल करने में भी काम नहीं है. सवाल यह है कि इसे कोट और क्वालिटी में किस तरह गिना जाता है? यह एक फ़ज़ी शब्द है. अनुभव को तैयार करने की कोशिश करें और वह विकल्प चुनें जिससे सबसे बेहतर नतीजे मिलें. इसी सोच के साथ, गुणवत्ता वाला डेटा सेट एक ऐसा कारोबार है जो आपको अपने कारोबार की समस्याओं को ध्यान में रखते हुए कामयाब होने में मदद करता है. दूसरे शब्दों में, अगर डेटा अपनी पसंद के काम को पूरा करे, तो उसे अच्छा माना जाएगा.

हालांकि, डेटा इकट्ठा करते समय इसकी क्वालिटी के बारे में ज़्यादा सटीक जानकारी देने में मदद मिलती है. क्वालिटी से जुड़े कुछ आसपेक्ट, बेहतर परफ़ॉर्मेंस वाले मॉडल से मेल खाते हैं:

  • विश्वसनीयता
  • सुविधा का प्रतिनिधित्व
  • कम कर पाना

विश्वसनीयता

भरोसेमंद वह डिग्री है जिससे आप अपने डेटा को भरोसा कर सकते हैं. किसी भरोसेमंद डेटा सेट पर प्रशिक्षित मॉडल से, गैर-भरोसेमंद डेटा पर प्रशिक्षित मॉडल की तुलना में संभावित उपयोगी अनुमान मिलने की संभावना ज़्यादा होती है. विश्वसनीयता का आकलन करते समय, आपको ये चीज़ें तय करनी होंगी:

  • लेबल से जुड़ी गड़बड़ियां कितनी आम हैं? उदाहरण के लिए, अगर आपके डेटा को उपयोगकर्ताओं ने लेबल किया है, तो कभी-कभी लोग गलतियां कर सकते हैं.
  • क्या आपके काम की सुविधाएं शोर हैं? उदाहरण के लिए, जीपीएस मेज़रमेंट में उतार-चढ़ाव. कुछ शोर ठीक है. आप अपने सभी शोर के डेटा सेट को कभी भी पूरी तरह नहीं मिटा पाएंगे. आप और उदाहरण भी इकट्ठा कर सकते हैं.
  • क्या डेटा आपकी समस्या के हिसाब से फ़िल्टर किया गया है? उदाहरण के लिए, क्या आपके डेटा सेट में बॉट की खोज क्वेरी शामिल हैं? अगर आप स्पैम का पता लगाने वाला सिस्टम बना रहे हैं, तो शायद इसका जवाब हां है, लेकिन अगर आप मानवों के लिए खोज के नतीजों को बेहतर बनाना चाहते हैं, तो नहीं.

डेटा भरोसेमंद नहीं है? मशीन लर्निंग क्रैश कोर्स को याद करें कि इनमें से एक या ज़्यादा वजहों से, डेटा सेट में कई उदाहरण भरोसेमंद नहीं हैं:

  • वे वैल्यू जिनका इस्तेमाल नहीं किया गया है. उदाहरण के लिए, कोई व्यक्ति किसी घर की उम्र का मान डालना भूल गया.
  • डुप्लीकेट उदाहरण. उदाहरण के लिए, सर्वर ने गलती से एक ही लॉग को दो बार अपलोड कर दिया है.
  • खराब लेबल. उदाहरण के लिए, किसी व्यक्ति ने ओक के पेड़ की तस्वीर को मैपल के तौर पर गलत लेबल कर दिया है.
  • सुविधाओं का गलत मान. उदाहरण के लिए, किसी व्यक्ति ने अतिरिक्त अंक टाइप किया है या थर्मामीटर को धूप में छोड़ दिया गया है.

Google Translate ने अपने डेटा पर भरोसा करने और सबसे अच्छे सबसेट ( &quot) को चुनने पर भरोसा किया; इसका मतलब है कि कुछ डेटा में दूसरे हिस्सों की तुलना में बेहतर क्वालिटी वाले लेबल थे.

सुविधा का प्रतिनिधित्व

मशीन लर्निंग क्रैश कोर्स से याद रखें कि डेटा का मिलान काम की सुविधाओं के साथ मैप करना है. आप इन सवालों पर विचार करना चाहेंगे:

  • मॉडल में डेटा कैसे दिखाया जाता है?
  • क्या आपको संख्या वाली वैल्यू सामान्य बनानी चाहिए?
  • आपको आउटलायर को कैसे हैंडल करना चाहिए?

इस कोर्स के अपना डेटा पूरी तरह बदलें सेक्शन में, सुविधा दिखाने पर फ़ोकस किया जाएगा.

ट्रेनिंग बनाम अनुमान

मान लें कि आपको ऑफ़लाइन शानदार नतीजे मिलते हैं. फिर आपके लाइव प्रयोग में, नतीजों को होल्ड पर नहीं रखा जाता. ऐसा क्यों हुआ?

यह समस्या ट्रेनिंग/सर्विंग स्क्यू के बारे में बताती है. इसका मतलब है कि ट्रेनिंग के समय और सर्विंग के समय, आपकी मेट्रिक के लिए अलग-अलग नतीजे तय किए जाते हैं. अव्यवस्थित होने की वजहें कम हो सकती हैं, लेकिन उनका आपके नतीजों पर बुरा असर हो सकता है. हमेशा इस बात पर विचार करें कि अनुमान के समय आपके मॉडल के लिए कौनसा डेटा उपलब्ध है. ट्रेनिंग के दौरान, सिर्फ़ उन सुविधाओं का इस्तेमाल करें जो आपके पास उपलब्ध हैं. पक्का करें कि आपका ट्रेनिंग सेट, विज्ञापन दिखाने वाले ट्रैफ़िक के बारे में बताता हो.