अपनी समझ को आज़माएं

यहां दिए गए सवालों की मदद से, एमएल के मुख्य सिद्धांतों को अच्छी तरह से समझा जा सकता है.

अनुमानित पावर

सुपरवाइज़्ड एमएल मॉडल को लेबल किए गए उदाहरणों के साथ डेटासेट का इस्तेमाल करके ट्रेनिंग दी जाती है. मॉडल, सुविधाओं से लेबल का अनुमान लगाने का तरीका सीखता है. हालांकि, डेटासेट की हर सुविधा में अनुमान लगाने वाली सुविधा नहीं होती. कुछ मामलों में, सिर्फ़ कुछ ही सुविधाएं लेबल के अनुमान के तौर पर काम करती हैं. नीचे दिए गए डेटासेट में, लेबल के रूप में कीमत और बाकी कॉलम को सुविधाओं के तौर पर इस्तेमाल करें.

ऑटोमोबाइल एट्रिब्यूट का एक लेबल किया गया उदाहरण.

आपके हिसाब से, कार की कीमत का अनुमान लगाने के लिए, कौनसी तीन सुविधाएं सबसे ज़्यादा इस्तेमाल की जा सकती हैं?
Make_model, साल, मील.
किसी कार के ब्रैंड/मॉडल, साल, और मील की कीमत के बारे में सबसे अच्छी तरह से अनुमान लगाया जा सकता है.
रंग, ऊंचाई, create_model.
किसी कार की ऊंचाई और रंग से, उसकी कीमत के बारे में अनुमान नहीं लगाया जा सकता.
माइल, गियरबॉक्स, create_model.
गियरबॉक्स, कीमत का मुख्य अनुमान नहीं दिखाता.
Tire_size, व्हील_base, साल.
टायर के साइज़ और पहिए के आधार पर, कार की कीमत का अनुमान नहीं लगाया जा सकता.

सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग

समस्या के आधार पर, आप निगरानी में रखे गए या बिना निगरानी वाले तरीके का इस्तेमाल करेंगे. उदाहरण के लिए, अगर आपको उस वैल्यू या कैटगरी की जानकारी पहले से है जिसका आपको अनुमान लगाना है, तो आपको माता-पिता की निगरानी वाले मोड में सीखने की सुविधा इस्तेमाल करनी होगी. हालांकि, अगर आपको यह जानना है कि आपके डेटासेट में मिलते-जुलते उदाहरणों के कोई सेगमेंट या ग्रुप शामिल हैं या नहीं, तो 'निगरानी में नहीं रखी गई जानकारी' का इस्तेमाल करें.

मान लें कि आपके पास किसी ऑनलाइन शॉपिंग वेबसाइट के लिए उपयोगकर्ताओं का एक डेटासेट था और उसमें ये कॉलम थे:

ग्राहक के एट्रिब्यूट की लाइन की इमेज.

अगर आपको यह जानना है कि आपकी साइट पर किस तरह के उपयोगकर्ता आते हैं, तो क्या आपके पास माता-पिता की निगरानी वाले मोड में या बिना निगरानी वाली लर्निंग का इस्तेमाल करने का विकल्प होगा?
अनसुपरवाइज़्ड लर्निंग.
हम इस मॉडल में मिलते-जुलते ग्राहकों के ग्रुप बनाना चाहते हैं. इसलिए, हम बिना निगरानी वाली लर्निंग का इस्तेमाल करेंगे. इस मॉडल में उपयोगकर्ताओं को शामिल कर लेने के बाद, हम हर क्लस्टर के लिए अपने नाम बनाएंगे. उदाहरण के लिए, "छूट पाने वाले," "डील हंटर," "सर्फ़", "लॉयल", और "घुमक्कड़".
सुपरवाइज़्ड लर्निंग, क्योंकि मैं यह अनुमान लगाने की कोशिश कर रही हूं कि उपयोगकर्ता किस क्लास से जुड़ा है.
सुपरवाइज़्ड लर्निंग में, डेटासेट में वह लेबल होना चाहिए जिसका आपको अनुमान लगाना है. डेटासेट में, ऐसा कोई लेबल नहीं है जो उपयोगकर्ता की किसी कैटगरी के बारे में बताता हो.

मान लें कि आपके पास इन कॉलम वाले घरों के लिए, ऊर्जा के इस्तेमाल का डेटासेट था:

होम एट्रिब्यूट की लाइन की इमेज.

नए बनाए गए घर के लिए, हर साल इस्तेमाल होने वाले किलोवाट घंटे का अनुमान लगाने के लिए, किस तरह के एमएल का इस्तेमाल किया जाएगा?
सुपरवाइज़्ड लर्निंग.
सुपरवाइज़्ड लर्निंग, लेबल किए गए उदाहरणों के साथ ट्रेनिंग देता है. इस डेटासेट में, "हर साल इस्तेमाल किए जाने वाले किलोवाट घंटे" का लेबल होगा. इसकी वजह यह है कि आपको मॉडल से इसी वैल्यू का अनुमान लगाना है. इसमें "स्क्वेयर फ़ुटेज", "जगह की जानकारी”, और "साल बनाया गया” जैसी सुविधाएं होंगी.
अनसुपरवाइज़्ड लर्निंग.
अनसुपरवाइज़्ड लर्निंग में ऐसे उदाहरणों का इस्तेमाल किया जाता है जिन्हें लेबल नहीं किया गया है. इस उदाहरण में, "हर साल इस्तेमाल किया जाने वाला किलोवाट घंटे" एक लेबल होगा, क्योंकि इस वैल्यू का अनुमान, आपको मॉडल से लगाना है.

मान लें कि आपके पास एक फ़्लाइट डेटासेट है, जिसमें ये कॉलम हैं:

फ़्लाइट के डेटा की लाइन की इमेज.

अगर आपको कोच के टिकट की कीमत का अनुमान लगाना है, तो क्या आप रिग्रेशन या कैटगरी का इस्तेमाल करेंगे?
रिग्रेशन
रिग्रेशन मॉडल का आउटपुट, अंकों वाली वैल्यू होता है.
कैटगरी
क्लासिफ़िकेशन मॉडल का आउटपुट, अलग-अलग वैल्यू होती है. आम तौर पर, यह कोई शब्द होता है. इस मामले में, कोच के टिकट की कीमत अंकों में है.
इस डेटासेट के आधार पर, क्या किसी कोच टिकट की कीमत को "ज़्यादा", "औसत" या "कम" में बताने के लिए, क्लासिफ़िकेशन मॉडल को ट्रेनिंग दी जा सकती है?
हां, लेकिन हमें पहले coach_ticket_cost कॉलम में मौजूद संख्या वाली वैल्यू को कैटगरी के आधार पर कैटगरी वाली वैल्यू में बदलना होगा.
डेटासेट से क्लासिफ़िकेशन मॉडल बनाया जा सकता है. इसके लिए, आपको कुछ ऐसा करना होगा:
  1. फ़्लाइट की रवानगी वाले हवाई अड्डे से, डेस्टिनेशन एयरपोर्ट तक के टिकट का औसत किराया देखें.
  2. वे थ्रेशोल्ड तय करें जिनसे "ज़्यादा", "औसत", और "कम" माना जाएगा.
  3. अनुमानित लागत की तुलना थ्रेशोल्ड से करें और उस कैटगरी के आउटपुट दें जिसमें वैल्यू शामिल है.
नहीं. क्लासिफ़िकेशन मॉडल नहीं बनाया जा सकता. coach_ticket_cost की वैल्यू संख्या के तौर पर होती हैं, न कि कैटगरी के हिसाब से.
थोड़ी सी मेहनत करके, क्लासिफ़िकेशन मॉडल बनाया जा सकता है.
नहीं. क्लासिफ़िकेशन मॉडल, सिर्फ़ spam या not_spam जैसी दो कैटगरी का अनुमान लगाते हैं. इस मॉडल को तीन कैटगरी का अनुमान लगाना होगा.
क्लासिफ़िकेशन मॉडल, कई कैटगरी का अनुमान लगा सकते हैं. इन्हें मल्टी-क्लास क्लासिफ़िकेशन मॉडल कहा जाता है.

ट्रेनिंग और आकलन

मॉडल को ट्रेनिंग देने के बाद, हम लेबल किए गए उदाहरणों वाले डेटासेट का इस्तेमाल करके, इसका आकलन करते हैं. साथ ही, मॉडल की अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करते हैं.

सवाल के लिए दो सबसे सही जवाब चुनें.

अगर मॉडल के अनुमान काफ़ी दूर हैं, तो उन्हें बेहतर बनाने के लिए क्या किया जा सकता है?
मॉडल को फिर से पहचानना सिखाएँ. हालांकि, उन सुविधाओं का ही इस्तेमाल करें जो आपके हिसाब से, लेबल के लिए सबसे बेहतर अनुमान लगाती हैं.
मॉडल को कम सुविधाओं के साथ फिर से ट्रेनिंग दें, लेकिन इससे बेहतर अनुमान लगाने में मदद करने वाला मॉडल बनाया जा सकता है. इससे बेहतर अनुमान मिलते हैं.
उस मॉडल को ठीक नहीं किया जा सकता जिसके अनुमान बहुत दूर हों.
उस मॉडल को ठीक किया जा सकता है जिसका अनुमान लगाने की सुविधा बंद हो. ज़्यादातर मॉडल को तब तक ट्रेनिंग की कई बार करनी पड़ती है, जब तक वे काम के अनुमान नहीं लगा लेते.
बड़े और ज़्यादा तरह के डेटासेट का इस्तेमाल करके, मॉडल को फिर से सिखाएँ.
ज़्यादा उदाहरणों और वैल्यू की बड़ी रेंज वाले डेटासेट पर ट्रेनिंग वाले मॉडल, बेहतर अनुमान लगा सकते हैं. ऐसा इसलिए, क्योंकि इस मॉडल में सुविधाओं और लेबल के बीच के संबंध को बेहतर तरीके से समझा जा सकता है.
ट्रेनिंग का कोई दूसरा तरीका आज़माएं. उदाहरण के लिए, अगर आपने निगरानी में रखा गया तरीका इस्तेमाल किया है, तो बिना निगरानी वाला तरीका आज़माएं.
ट्रेनिंग के अलग तरीके से बेहतर अनुमान नहीं मिल सकते.

अब आप मशीन लर्निंग के सफ़र में अगला कदम उठाने के लिए तैयार हैं:

  • लोग + एआई गाइडबुक. अगर आपको मशीन लर्निंग का इस्तेमाल करने के लिए Googlers, इंडस्ट्री के विशेषज्ञों, और अकैडमिक रिसर्च के बारे में जानकारी देने वाले तरीकों, सबसे सही तरीकों, और उदाहरणों के बारे में जानना है.

  • समस्या को फ़्रेमिंग. अगर आपको एमएल मॉडल बनाने और इसमें होने वाली सामान्य गलतियों से बचने के लिए, फ़ील्ड पर आज़माए गए तरीके की तलाश है.

  • मशीन लर्निंग क्रैश कोर्स. अगर आप मशीन लर्निंग के बारे में ज़्यादा जानना चाहते हैं और इस बारे में ज़्यादा जानना चाहते हैं, तो