सुपरवाइज़्ड लर्निंग

सुपरवाइज़्ड लर्निंग के टास्क अच्छी तरह से तैयार किए जाते हैं और इन्हें कई स्थितियों में लागू किया जा सकता है. जैसे- स्पैम की पहचान करना या बारिश या बर्फ़बारी का अनुमान लगाना.

सुपरवाइज़्ड लर्निंग के बुनियादी सिद्धांत

सुपरवाइज़्ड मशीन लर्निंग, इन मुख्य सिद्धांतों पर आधारित है:

  • डेटा
  • मॉडल
  • ट्रेनिंग
  • मूल्यांकन हो रहा है
  • अनुमान

डेटा

मशीन लर्निंग का आधार डेटा है. डेटा, शब्दों और टेबल में स्टोर किए गए शब्दों और संख्या के रूप में या इमेज और ऑडियो फ़ाइलों में कैप्चर किए गए पिक्सल और वेवफ़ॉर्म के रूप में मिलता है. हम मिलते-जुलते डेटा को डेटासेट में सेव करते हैं. उदाहरण के लिए, हमारे पास नीचे दी गई चीज़ों का डेटासेट हो सकता है:

  • बिल्लियों के चित्र
  • मकान की कीमतें
  • मौसम की जानकारी

डेटासेट, अलग-अलग उदाहरणों से मिलकर बने होते हैं. इनमें सुविधाएं और एक लेबल शामिल होता है. ऐसा उदाहरण जिसे स्प्रेडशीट में एक लाइन में रखा गया है. सुविधाएं ऐसी वैल्यू होती हैं जिनका इस्तेमाल करके, निगरानी में रखा गया मॉडल लेबल का अनुमान लगाता है. लेबल "जवाब" या वह वैल्यू होती है जिसके बारे में हम मॉडल से अनुमान लगाना चाहते हैं. बारिश का अनुमान लगाने वाले मौसम मॉडल में ये सुविधाएँ शामिल हो सकती हैं: अक्षांश, देशांतर, तापमान, नमीरता, क्लाउड कवरेज, हवा की दिशा, और वायुओं के दबाव. लेबल रेनफ़ॉल की रकम होगा.

जिन उदाहरणों में सुविधाएं और लेबल, दोनों शामिल होते हैं उन्हें लेबल किए गए उदाहरण कहा जाता है.

लेबल किए गए दो उदाहरण

प्लेसहोल्डर इमेज।

इसके उलट, बिना लेबल वाले उदाहरणों में सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. जब आप मॉडल बना लेते हैं, तब मॉडल सुविधाओं से लेबल का अनुमान लगाता है.

बिना लेबल वाले दो उदाहरण

प्लेसहोल्डर इमेज।

डेटासेट की विशेषताएं

डेटासेट की विशेषता उसके साइज़ और विविधता के आधार पर दी जाती है. आकार उदाहरणों की संख्या बताता है. विविधता से पता चलता है कि उदाहरण में क्या जानकारी दी गई है. अच्छे डेटासेट बड़े और अलग-अलग तरह के होते हैं.

कुछ डेटासेट बड़े और अलग-अलग तरह के होते हैं. हालांकि, कुछ डेटासेट बड़े होते हैं, लेकिन उनमें कम विविधता होती है. साथ ही, कुछ डेटासेट छोटे होते हैं, लेकिन उनमें बहुत ज़्यादा विविधता होती है. दूसरे शब्दों में, बड़ा डेटासेट अलग-अलग तरह के होने की गारंटी नहीं देता. साथ ही, बहुत ज़्यादा विविधता वाला डेटासेट, उदाहरण के लिए काफ़ी नहीं है.

उदाहरण के लिए, किसी डेटासेट में 100 साल की वैल्यू का डेटा हो सकता है, लेकिन सिर्फ़ जुलाई महीने का. जनवरी में बारिश का अनुमान लगाने के लिए इस डेटासेट का इस्तेमाल करने से, अनुमान के लिहाज़ से खराब नतीजे मिल सकते हैं. इसके उलट, हो सकता है कि एक डेटासेट में सिर्फ़ कुछ साल ही हों, लेकिन उसमें हर महीने शामिल हो. यह डेटासेट खराब अनुमान दे सकता है, क्योंकि इसमें बदलाव को मापने के लिए ज़रूरत के मुताबिक साल नहीं हैं.

अपनी समझ देखें

मशीन लर्निंग के लिए, डेटासेट के कौनसे एट्रिब्यूट इस्तेमाल करना सबसे सही होगा?
बड़ा साइज़ / ज़्यादा विविधता
मशीन लर्निंग सिस्टम के लिए ज़रूरी है कि डेटा में मौजूद पैटर्न को समझने के लिए, इसके इस्तेमाल के कई उदाहरण दिए गए हों. इस तरह के डेटासेट पर तैयार किए गए मॉडल से, नए डेटा के लिए बेहतर अनुमान मिलने की संभावना ज़्यादा होती है.
बड़ा साइज़ / कम विविधता
मशीन लर्निंग मॉडल उतने ही अच्छे हैं जितने कि उन्हें ट्रेनिंग देने के लिए इस्तेमाल किए जाने वाले उदाहरण. कोई मॉडल, नॉवेल के डेटा के बारे में ऐसे अनुमान दिखाएगा जिनके लिए उसने कभी ट्रेनिंग नहीं दी.
छोटा साइज़ / ज़्यादा विविधता
ज़्यादातर मॉडल को छोटे डेटासेट में भरोसेमंद पैटर्न नहीं मिलते. इसलिए, ये अनुमान उतना भरोसेमंद नहीं होंगे जितना बड़ा डेटासेट उपलब्ध कराता है.
छोटा साइज़ / कम विविधता
अगर आपका डेटासेट छोटा है और उसमें ज़्यादा बदलाव नहीं हुए हैं, तो शायद आपको मशीन लर्निंग से फ़ायदा न मिले.

किसी डेटासेट की विशेषताओं की संख्या के आधार पर भी पहचाना जा सकता है. उदाहरण के लिए, कुछ मौसम के डेटासेट में सैकड़ों सुविधाएं हो सकती हैं, जिनमें सैटलाइट से ली गई तस्वीरों से लेकर क्लाउड कवरेज वैल्यू तक शामिल हैं. अन्य डेटासेट में सिर्फ़ तीन या चार सुविधाएं हो सकती हैं, जैसे कि नमी, वायुमंडल का दबाव, और तापमान. ज़्यादा सुविधाओं वाले डेटासेट से, मॉडल को ज़्यादा पैटर्न खोजने और बेहतर अनुमान लगाने में मॉडल मदद मिल सकती है. हालांकि, ज़्यादा सुविधाओं वाले डेटासेट हमेशा ऐसे मॉडल नहीं बनाते जो बेहतर अनुमान लगाते हैं. इसकी वजह यह हो सकती है कि कुछ सुविधाओं का लेबल के साथ कोई खास संबंध न हो.

मॉडल

सुपरवाइज़्ड लर्निंग में, मॉडल, संख्याओं का जटिल संग्रह होता है. यह किसी खास इनपुट सुविधा के पैटर्न से लेकर किसी आउटपुट लेबल की वैल्यू तक, गणित के हिसाब से संबंध के बारे में बताता है. मॉडल, ट्रेनिंग के ज़रिए इन पैटर्न के बारे में पता लगाता है.

ट्रेनिंग

निगरानी में रखे गए मॉडल के लिए यह ट्रेनिंग ज़रूरी है, ताकि वह अनुमान लगा सके. किसी मॉडल को ट्रेनिंग देने के लिए, हम मॉडल को लेबल किए गए उदाहरणों के साथ एक डेटासेट देते हैं. मॉडल का मकसद, सुविधाओं से लेबल का अनुमान लगाने के लिए सबसे अच्छे तरीके पर काम करना है. यह मॉडल, इसकी अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करके सबसे अच्छा समाधान ढूंढता है. अनुमानित और असल वैल्यू के बीच के अंतर के आधार पर, मॉडल धीरे-धीरे अपने समाधान को अपडेट करता है. इसे लॉस के तौर पर परिभाषित किया जाता है. दूसरे शब्दों में कहें, तो मॉडल, सुविधाओं और लेबल के बीच गणितीय संबंध को समझता है, ताकि यह अनदेखे डेटा का सबसे अच्छा अनुमान लगा सके.

उदाहरण के लिए, अगर मॉडल में बारिश के लिए 1.15 inches का अनुमान लगाया गया था, लेकिन असल वैल्यू .75 inches थी, तो मॉडल अपने सलूशन में बदलाव करता है, ताकि अनुमान .75 inches के आस-पास दिखे. जब यह मॉडल डेटासेट के हर उदाहरण को देख लेता है, तो कुछ मामलों में, कई बार—यह हर एक उदाहरण के लिए औसतन सबसे अच्छे अनुमान लगाता है.

यहां मॉडल की ट्रेनिंग के बारे में बताया गया है:

  1. मॉडल, लेबल किया गया एक उदाहरण लेता है और अनुमान दिखाता है.

    अनुमान लगाते हुए किसी मॉडल की इमेज.

    पहला डायग्राम. लेबल किए गए उदाहरण से अनुमान लगाता एमएल मॉडल.

     

  2. मॉडल, अपनी अनुमानित वैल्यू की तुलना असल वैल्यू से करता है और उसके समाधान को अपडेट करता है.

    किसी मॉडल की इमेज, जो अपने अनुमान की असल वैल्यू से तुलना कर रही है.

    दूसरा डायग्राम. एमएल मॉडल अपनी अनुमानित वैल्यू अपडेट कर रहा है.

     

  3. मॉडल, डेटासेट में लेबल किए गए हर उदाहरण के लिए इस प्रोसेस को दोहराता है.

    ऐसी इमेज जिसमें किसी मॉडल की असल वैल्यू के बजाय अनुमान की प्रोसेस को दोहराया जा रहा है.

    तीसरा डायग्राम. ट्रेनिंग डेटासेट में लेबल किए गए हर उदाहरण के लिए, अपने अनुमानों को अपडेट करता एमएल मॉडल.

     

इस तरह, मॉडल को धीरे-धीरे सुविधाओं और लेबल के बीच सही संबंध के बारे में पता चल जाता है. क्रमिक समझ की यह वजह भी है कि बड़े और अलग-अलग तरह के डेटासेट, बेहतर मॉडल बनाते हैं. इस मॉडल ने वैल्यू की एक बड़ी रेंज के साथ ज़्यादा डेटा देखा है. साथ ही, इसने सुविधाओं और लेबल के बीच संबंध को बेहतर तरीके से समझने में मदद की है.

ट्रेनिंग के दौरान, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर, कॉन्फ़िगरेशन और उन सुविधाओं में मामूली बदलाव कर सकते हैं जिनका इस्तेमाल मॉडल अनुमान लगाने के लिए करता है. उदाहरण के लिए, कुछ सुविधाओं में दूसरों के मुकाबले ज़्यादा अनुमानित जानकारी होती है. इसलिए, मशीन लर्निंग विशेषज्ञ यह चुन सकते हैं कि ट्रेनिंग के दौरान मॉडल किन सुविधाओं का इस्तेमाल करे. उदाहरण के लिए, मान लें कि मौसम के डेटासेट में time_of_day को सुविधा के तौर पर शामिल किया गया है. ऐसे मामले में, एमएल प्रैक्टिशनर, ट्रेनिंग के दौरान time_of_day को जोड़ या हटा सकता है. इससे वह यह देख सकेगा कि मॉडल उसके साथ या उसके बिना बेहतर अनुमान लगाता है या नहीं.

मूल्यांकन हो रहा है

हम किसी प्रशिक्षित मॉडल का आकलन करके यह तय करते हैं कि उसने कितनी अच्छी तरह सीखा है. मॉडल का आकलन करते समय, हम लेबल किए गए डेटासेट का इस्तेमाल करते हैं. हालांकि, हम सिर्फ़ मॉडल को डेटासेट की सुविधाएं देते हैं. फिर हम मॉडल के अनुमानों की तुलना लेबल की सही वैल्यू से करते हैं.

एक इमेज, जिसमें एक प्रशिक्षित मॉडल को असल वैल्यू से तुलना करके, उसका अनुमान दिखाया गया है.

चौथा डायग्राम. एमएल मॉडल का आकलन करने के लिए, उसके अनुमानों की तुलना असल वैल्यू से करना.

 

मॉडल के अनुमानों के आधार पर, हम मॉडल को असल दुनिया के ऐप्लिकेशन में डिप्लॉय करने से पहले, ज़्यादा ट्रेनिंग और आकलन कर सकते हैं.

अपनी समझ देखें

किसी मॉडल को अनुमान लगाने से पहले ट्रेनिंग देने की ज़रूरत क्यों होती है?
किसी मॉडल को डेटासेट में मौजूद सुविधाओं और लेबल के बीच गणित के हिसाब से संबंध समझने के लिए ट्रेनिंग देना ज़रूरी है.
मॉडल की ट्रेनिंग की ज़रूरत नहीं है. मॉडल ज़्यादातर कंप्यूटर पर उपलब्ध होते हैं.
किसी मॉडल की ट्रेनिंग ज़रूरी है, ताकि उसका अनुमान लगाने के लिए डेटा की ज़रूरत न पड़े.

अनुमान

मॉडल का आकलन करने से मिले नतीजों से संतुष्ट होने पर, हम बिना लेबल वाले उदाहरणों के लिए अनुमान लगा सकते हैं. इन्हें अनुमान कहा जाता है. मौसम की जानकारी देने वाले ऐप्लिकेशन के उदाहरण में, हम मॉडल को मौसम की मौजूदा स्थितियों के बारे में बताएंगे. जैसे, तापमान, वायुमंडल, और नमी की स्थिति. इससे, बारिश की मात्रा का अनुमान भी लगाया जाएगा.