सुपरवाइज़्ड लर्निंग के टास्क अच्छी तरह से तैयार किए जाते हैं और इन्हें कई स्थितियों में लागू किया जा सकता है. जैसे- स्पैम की पहचान करना या बारिश या बर्फ़बारी का अनुमान लगाना.
सुपरवाइज़्ड लर्निंग के बुनियादी सिद्धांत
सुपरवाइज़्ड मशीन लर्निंग, इन मुख्य सिद्धांतों पर आधारित है:
- डेटा
- मॉडल
- ट्रेनिंग
- मूल्यांकन हो रहा है
- अनुमान
डेटा
मशीन लर्निंग का आधार डेटा है. डेटा, शब्दों और टेबल में स्टोर किए गए शब्दों और संख्या के रूप में या इमेज और ऑडियो फ़ाइलों में कैप्चर किए गए पिक्सल और वेवफ़ॉर्म के रूप में मिलता है. हम मिलते-जुलते डेटा को डेटासेट में सेव करते हैं. उदाहरण के लिए, हमारे पास नीचे दी गई चीज़ों का डेटासेट हो सकता है:
- बिल्लियों के चित्र
- मकान की कीमतें
- मौसम की जानकारी
डेटासेट, अलग-अलग उदाहरणों से मिलकर बने होते हैं. इनमें सुविधाएं और एक लेबल शामिल होता है. ऐसा उदाहरण जिसे स्प्रेडशीट में एक लाइन में रखा गया है. सुविधाएं ऐसी वैल्यू होती हैं जिनका इस्तेमाल करके, निगरानी में रखा गया मॉडल लेबल का अनुमान लगाता है. लेबल "जवाब" या वह वैल्यू होती है जिसके बारे में हम मॉडल से अनुमान लगाना चाहते हैं. बारिश का अनुमान लगाने वाले मौसम मॉडल में ये सुविधाएँ शामिल हो सकती हैं: अक्षांश, देशांतर, तापमान, नमीरता, क्लाउड कवरेज, हवा की दिशा, और वायुओं के दबाव. लेबल रेनफ़ॉल की रकम होगा.
जिन उदाहरणों में सुविधाएं और लेबल, दोनों शामिल होते हैं उन्हें लेबल किए गए उदाहरण कहा जाता है.
लेबल किए गए दो उदाहरण
इसके उलट, बिना लेबल वाले उदाहरणों में सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. जब आप मॉडल बना लेते हैं, तब मॉडल सुविधाओं से लेबल का अनुमान लगाता है.
बिना लेबल वाले दो उदाहरण
डेटासेट की विशेषताएं
डेटासेट की विशेषता उसके साइज़ और विविधता के आधार पर दी जाती है. आकार उदाहरणों की संख्या बताता है. विविधता से पता चलता है कि उदाहरण में क्या जानकारी दी गई है. अच्छे डेटासेट बड़े और अलग-अलग तरह के होते हैं.
कुछ डेटासेट बड़े और अलग-अलग तरह के होते हैं. हालांकि, कुछ डेटासेट बड़े होते हैं, लेकिन उनमें कम विविधता होती है. साथ ही, कुछ डेटासेट छोटे होते हैं, लेकिन उनमें बहुत ज़्यादा विविधता होती है. दूसरे शब्दों में, बड़ा डेटासेट अलग-अलग तरह के होने की गारंटी नहीं देता. साथ ही, बहुत ज़्यादा विविधता वाला डेटासेट, उदाहरण के लिए काफ़ी नहीं है.
उदाहरण के लिए, किसी डेटासेट में 100 साल की वैल्यू का डेटा हो सकता है, लेकिन सिर्फ़ जुलाई महीने का. जनवरी में बारिश का अनुमान लगाने के लिए इस डेटासेट का इस्तेमाल करने से, अनुमान के लिहाज़ से खराब नतीजे मिल सकते हैं. इसके उलट, हो सकता है कि एक डेटासेट में सिर्फ़ कुछ साल ही हों, लेकिन उसमें हर महीने शामिल हो. यह डेटासेट खराब अनुमान दे सकता है, क्योंकि इसमें बदलाव को मापने के लिए ज़रूरत के मुताबिक साल नहीं हैं.
अपनी समझ देखें
किसी डेटासेट की विशेषताओं की संख्या के आधार पर भी पहचाना जा सकता है. उदाहरण के लिए, कुछ मौसम के डेटासेट में सैकड़ों सुविधाएं हो सकती हैं, जिनमें सैटलाइट से ली गई तस्वीरों से लेकर क्लाउड कवरेज वैल्यू तक शामिल हैं. अन्य डेटासेट में सिर्फ़ तीन या चार सुविधाएं हो सकती हैं, जैसे कि नमी, वायुमंडल का दबाव, और तापमान. ज़्यादा सुविधाओं वाले डेटासेट से, मॉडल को ज़्यादा पैटर्न खोजने और बेहतर अनुमान लगाने में मॉडल मदद मिल सकती है. हालांकि, ज़्यादा सुविधाओं वाले डेटासेट हमेशा ऐसे मॉडल नहीं बनाते जो बेहतर अनुमान लगाते हैं. इसकी वजह यह हो सकती है कि कुछ सुविधाओं का लेबल के साथ कोई खास संबंध न हो.
मॉडल
सुपरवाइज़्ड लर्निंग में, मॉडल, संख्याओं का जटिल संग्रह होता है. यह किसी खास इनपुट सुविधा के पैटर्न से लेकर किसी आउटपुट लेबल की वैल्यू तक, गणित के हिसाब से संबंध के बारे में बताता है. मॉडल, ट्रेनिंग के ज़रिए इन पैटर्न के बारे में पता लगाता है.
ट्रेनिंग
निगरानी में रखे गए मॉडल के लिए यह ट्रेनिंग ज़रूरी है, ताकि वह अनुमान लगा सके. किसी मॉडल को ट्रेनिंग देने के लिए, हम मॉडल को लेबल किए गए उदाहरणों के साथ एक डेटासेट देते हैं. मॉडल का मकसद, सुविधाओं से लेबल का अनुमान लगाने के लिए सबसे अच्छे तरीके पर काम करना है. यह मॉडल, इसकी अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करके सबसे अच्छा समाधान ढूंढता है. अनुमानित और असल वैल्यू के बीच के अंतर के आधार पर, मॉडल धीरे-धीरे अपने समाधान को अपडेट करता है. इसे लॉस के तौर पर परिभाषित किया जाता है. दूसरे शब्दों में कहें, तो मॉडल, सुविधाओं और लेबल के बीच गणितीय संबंध को समझता है, ताकि यह अनदेखे डेटा का सबसे अच्छा अनुमान लगा सके.
उदाहरण के लिए, अगर मॉडल में बारिश के लिए 1.15 inches
का अनुमान लगाया गया था, लेकिन असल वैल्यू
.75 inches
थी, तो मॉडल अपने सलूशन में बदलाव करता है, ताकि अनुमान
.75 inches
के आस-पास दिखे. जब यह मॉडल डेटासेट के हर उदाहरण को देख लेता है, तो
कुछ मामलों में, कई बार—यह हर एक उदाहरण के लिए
औसतन सबसे अच्छे अनुमान लगाता है.
यहां मॉडल की ट्रेनिंग के बारे में बताया गया है:
मॉडल, लेबल किया गया एक उदाहरण लेता है और अनुमान दिखाता है.
पहला डायग्राम. लेबल किए गए उदाहरण से अनुमान लगाता एमएल मॉडल.
मॉडल, अपनी अनुमानित वैल्यू की तुलना असल वैल्यू से करता है और उसके समाधान को अपडेट करता है.
दूसरा डायग्राम. एमएल मॉडल अपनी अनुमानित वैल्यू अपडेट कर रहा है.
मॉडल, डेटासेट में लेबल किए गए हर उदाहरण के लिए इस प्रोसेस को दोहराता है.
तीसरा डायग्राम. ट्रेनिंग डेटासेट में लेबल किए गए हर उदाहरण के लिए, अपने अनुमानों को अपडेट करता एमएल मॉडल.
इस तरह, मॉडल को धीरे-धीरे सुविधाओं और लेबल के बीच सही संबंध के बारे में पता चल जाता है. क्रमिक समझ की यह वजह भी है कि बड़े और अलग-अलग तरह के डेटासेट, बेहतर मॉडल बनाते हैं. इस मॉडल ने वैल्यू की एक बड़ी रेंज के साथ ज़्यादा डेटा देखा है. साथ ही, इसने सुविधाओं और लेबल के बीच संबंध को बेहतर तरीके से समझने में मदद की है.
ट्रेनिंग के दौरान, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर, कॉन्फ़िगरेशन और उन सुविधाओं में मामूली बदलाव कर सकते हैं जिनका इस्तेमाल मॉडल अनुमान लगाने के लिए करता है. उदाहरण के लिए,
कुछ सुविधाओं में दूसरों के मुकाबले ज़्यादा अनुमानित जानकारी होती है. इसलिए, मशीन लर्निंग विशेषज्ञ यह चुन सकते हैं कि ट्रेनिंग के दौरान मॉडल किन सुविधाओं का इस्तेमाल करे. उदाहरण
के लिए, मान लें कि मौसम के डेटासेट में time_of_day
को सुविधा के तौर पर शामिल किया गया है. ऐसे मामले में, एमएल प्रैक्टिशनर, ट्रेनिंग के दौरान time_of_day
को जोड़ या हटा सकता है. इससे वह यह देख सकेगा कि मॉडल उसके साथ या उसके बिना बेहतर अनुमान लगाता है या नहीं.
मूल्यांकन हो रहा है
हम किसी प्रशिक्षित मॉडल का आकलन करके यह तय करते हैं कि उसने कितनी अच्छी तरह सीखा है. मॉडल का आकलन करते समय, हम लेबल किए गए डेटासेट का इस्तेमाल करते हैं. हालांकि, हम सिर्फ़ मॉडल को डेटासेट की सुविधाएं देते हैं. फिर हम मॉडल के अनुमानों की तुलना लेबल की सही वैल्यू से करते हैं.
चौथा डायग्राम. एमएल मॉडल का आकलन करने के लिए, उसके अनुमानों की तुलना असल वैल्यू से करना.
मॉडल के अनुमानों के आधार पर, हम मॉडल को असल दुनिया के ऐप्लिकेशन में डिप्लॉय करने से पहले, ज़्यादा ट्रेनिंग और आकलन कर सकते हैं.
अपनी समझ देखें
अनुमान
मॉडल का आकलन करने से मिले नतीजों से संतुष्ट होने पर, हम बिना लेबल वाले उदाहरणों के लिए अनुमान लगा सकते हैं. इन्हें अनुमान कहा जाता है. मौसम की जानकारी देने वाले ऐप्लिकेशन के उदाहरण में, हम मॉडल को मौसम की मौजूदा स्थितियों के बारे में बताएंगे. जैसे, तापमान, वायुमंडल, और नमी की स्थिति. इससे, बारिश की मात्रा का अनुमान भी लगाया जाएगा.