इस पेज का अनुवाद Cloud Translation API से किया गया है.

मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

इस पेज पर, एमएल के बुनियादी सिद्धांतों की ग्लॉसरी में शामिल शब्द दिए गए हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.

A

सटीक

#fundamentals

#मेट्रिक

सही कैटगरी के अनुमान की संख्या को अनुमान की कुल संख्या से भाग देने पर. यानी:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

उदाहरण के लिए, अगर किसी मॉडल ने 40 सही और 10 गलत अनुमानों का अनुमान लगाया है, तो उसका सटीक अनुमान:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

बाइनरी क्लासिफ़िकेशन, सही अनुमान और गलत अनुमान की अलग-अलग कैटगरी के लिए खास नाम उपलब्ध कराता है. इसलिए, बाइनरी क्लासिफ़िकेशन के लिए सटीक होने का फ़ॉर्मूला इस तरह है:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

कहां:

TP, ट्रू पॉज़िटिव (सही अनुमान) की संख्या है.
TN, ट्रू नेगेटिव (सही अनुमान) की संख्या है.
FP, फ़ॉल्स पॉज़िटिव (गलत अनुमान) की संख्या है.
FN, फ़ॉल्स निगेटिव (गलत अनुमान) की संख्या है.

सटीक होने की तुलना, प्रिसिज़न और रीकॉल से करें.

सटीक होने और क्लास के असंतुलित डेटासेट के बारे में जानकारी पाने के लिए, आइकॉन पर क्लिक करें.

हालांकि, यह कुछ मामलों में एक अहम मेट्रिक है, लेकिन अन्य मामलों में सटीक जानकारी देना बहुत गुमराह करने वाला हो सकता है. ध्यान दें कि आम तौर पर, सटीक नतीजे देने की क्षमता, क्लास के असंतुलित डेटासेट को प्रोसेस करने वाले क्लासिफ़िकेशन मॉडल का आकलन करने के लिए एक खराब मेट्रिक है.

उदाहरण के लिए, मान लें कि किसी उपोष्ण शहर में हर शताब्दी में सिर्फ़ 25 दिन बर्फ़बारी होती है. इस शहर में, बर्फबारी वाले दिनों (पॉज़िटिव क्लास) की तुलना में, बर्फबारी न होने वाले दिनों (नेगेटिव क्लास) की संख्या काफ़ी ज़्यादा है. इसलिए, इस शहर के लिए बर्फबारी का डेटासेट, क्लास के हिसाब से असंतुलित है. बाइनरी क्लासिफ़िकेशन के ऐसे मॉडल की कल्पना करें जिसे हर दिन बर्फ़बारी होने या न होने का अनुमान लगाना है. हालांकि, यह मॉडल हर दिन सिर्फ़ "बर्फ़बारी नहीं" का अनुमान लगाता है. यह मॉडल काफ़ी सटीक है, लेकिन इसमें अनुमान लगाने की सुविधा नहीं है. नीचे दी गई टेबल में, पिछले 100 साल के अनुमान के नतीजों की खास जानकारी दी गई है:

कैटगरी	नंबर
TP	0
TN	36499
एफ़पी	0
FN	25

इसलिए, इस मॉडल की सटीक जानकारी इस तरह है:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

99.93% सटीक होने का मतलब यह नहीं है कि मॉडल, असल में किसी चीज़ का अनुमान लगा सकता है.

आम तौर पर, क्लास के असंतुलित डेटासेट पर ट्रेन किए गए मॉडल का आकलन करने के लिए, सटीक नतीजे और रिकॉल, सटीक नतीजे से ज़्यादा काम की मेट्रिक होती हैं.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: सटीक, रीकॉल, सटीक और मिलती-जुलती मेट्रिक देखें.

ऐक्टिवेशन फ़ंक्शन

#fundamentals

यह एक ऐसा फ़ंक्शन है जिसकी मदद से न्यूरल नेटवर्क, फ़ीचर और लेबल के बीच नॉन-लीनियर (जटिल) संबंधों को सीखते हैं.

चालू करने के लोकप्रिय फ़ंक्शन में ये शामिल हैं:

ReLU
Sigmoid

ऐक्टिवेशन फ़ंक्शन के प्लॉट कभी भी एक सीधी रेखा नहीं होते. उदाहरण के लिए, ReLU ऐक्टिवेशन फ़ंक्शन के प्लॉट में दो सीधी रेखाएं होती हैं:

दो लाइनों का कार्टेशियन प्लॉट. पहली पंक्ति में, y की वैल्यू 0 है. यह वैल्यू x-ऐक्सिस पर -infinity,0 से 0,-0 तक चलती है.
दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है, इसलिए यह 0,0 से +infinity,+infinity तक चलती है.

सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट ऐसा दिखता है:

दो डाइमेंशन वाला कर्व प्लॉट, जिसमें x वैल्यू का डोमेन -इनफ़िनिटी से लेकर +पॉज़िटिव तक है. वहीं, y वैल्यू की रेंज करीब 0 से लेकर करीब 1 तक है. जब x 0 है, तो y 0.5 है. कर्व का ढलान हमेशा
सकारात्मक होता है. 0, 0.5 पर सबसे ज़्यादा ढलान होता है और x की वैल्यू बढ़ने पर,ढलान धीरे-धीरे कम होता जाता है.

उदाहरण देखने के लिए आइकॉन पर क्लिक करें.

किसी न्यूरल नेटवर्क में, ऐक्टिवेशन फ़ंक्शन, न्यूरॉन में सभी इनपुट के वेटेड योग में बदलाव करते हैं. वेटेड योग का हिसाब लगाने के लिए, न्यूरॉन काम की वैल्यू और वेट के प्रॉडक्ट को जोड़ता है. उदाहरण के लिए, मान लें कि किसी न्यूरॉन के लिए काम का इनपुट इन चीज़ों से मिलकर बना है:

इनपुट वैल्यू	इनपुट वज़न
2	-1.3
-1	0.6
3	0.4

इसलिए, अहमियत के हिसाब से कुल वैल्यू यह होगी:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

मान लें कि इस न्यूरल नेटवर्क के डिज़ाइनर ने ऐक्टिवेशन फ़ंक्शन के तौर पर, सिग्मॉइड फ़ंक्शन को चुना है. इस मामले में, न्यूरॉन -2.0 के सिग्मॉइड का हिसाब लगाता है, जो करीब 0.12 होता है. इसलिए, न्यूरॉन, न्यूरल नेटवर्क की अगली लेयर को -2.0 के बजाय 0.12 भेजता है. इस इमेज में, प्रोसेस का ज़रूरी हिस्सा दिखाया गया है:

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: ऐक्टिवेशन फ़ंक्शन देखें.

आर्टिफ़िशियल इंटेलिजेंस

#fundamentals

ऐसा प्रोग्राम या मॉडल जो इंसानों के मुकाबले बेहतर तरीके से काम कर सकता है. उदाहरण के लिए, टेक्स्ट का अनुवाद करने वाला प्रोग्राम या मॉडल या रेडियोलॉजिकल इमेज से बीमारियों की पहचान करने वाला प्रोग्राम या मॉडल, दोनों में आर्टिफ़िशियल इंटेलिजेंस का इस्तेमाल होता है.

मशीन लर्निंग, आर्टिफ़िशियल इंटेलिजेंस का एक उप-क्षेत्र है. हालांकि, हाल के वर्षों में कुछ संगठनों ने आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग शब्दों का इस्तेमाल एक-दूसरे के लिए करना शुरू कर दिया है.

AUC (आरओसी कर्व के नीचे का हिस्सा)

#fundamentals

#मेट्रिक

0.0 से 1.0 के बीच की संख्या, बाइनरी क्लासिफ़िकेशन मॉडल की, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने की क्षमता को दिखाती है. AUC का 1.0 के करीब होने का मतलब है कि मॉडल, एक-दूसरे से अलग-अलग क्लास को बेहतर तरीके से अलग कर सकता है.

उदाहरण के लिए, यहां दी गई इमेज में एक ऐसा क्लासिफ़िकेशन मॉडल दिखाया गया है जो पॉज़िटिव क्लास (हरे रंग के ओवल) को नेगेटिव क्लास (बैंगनी रंग के रेक्टैंगल) से पूरी तरह से अलग करता है. इस असली से ज़्यादा बेहतर मॉडल का AUC 1.0 है:

एक तरफ़ आठ पॉज़िटिव और दूसरी तरफ़ नौ नेगेटिव उदाहरणों वाली संख्या रेखा.

इसके उलट, नीचे दी गई इमेज में क्लासिफ़िकेशन मॉडल के नतीजे दिखाए गए हैं. इस मॉडल ने रैंडम नतीजे जनरेट किए हैं. इस मॉडल का AUC 0.5 है:

एक संख्या रेखा, जिसमें छह पॉज़िटिव और छह नेगेटिव उदाहरण हैं.
उदाहरणों का क्रम इस तरह है: पॉज़िटिव, नेगेटिव,
पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव
नेगेटिव, पॉज़िटिव, नेगेटिव.

हां, पिछले मॉडल का AUC 0.0 नहीं, बल्कि 0.5 है.

ज़्यादातर मॉडल, इन दोनों चरम स्थितियों के बीच में होते हैं. उदाहरण के लिए, यहां दिया गया मॉडल, सकारात्मक और नकारात्मक नतीजों को कुछ हद तक अलग करता है. इसलिए, इसका AUC 0.5 से 1.0 के बीच है:

एक संख्या रेखा, जिसमें छह पॉज़िटिव और छह नेगेटिव उदाहरण हैं.
उदाहरणों का क्रम यह है: नेगेटिव, नेगेटिव, नेगेटिव, नेगेटिव,
पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव,
पॉज़िटिव.

AUC, क्लासिफ़िकेशन थ्रेशोल्ड के लिए सेट की गई किसी भी वैल्यू को अनदेखा करता है. इसके बजाय, एयूसी, कैटगरी में बांटने की सभी संभावित सीमाओं को ध्यान में रखता है.

AUC और आरओसी कर्व के बीच के संबंध के बारे में जानने के लिए, आइकॉन पर क्लिक करें.

AUC, आरओसी कर्व के नीचे मौजूद एरिया को दिखाता है. उदाहरण के लिए, किसी ऐसे मॉडल के लिए आरओसी कर्व जो सकारात्मक और नकारात्मक नतीजों को पूरी तरह से अलग करता है, यह इस तरह दिखता है:

ऊपर दी गई इमेज में, स्लेटी रंग के हिस्से को एयूसी कहा जाता है. इस असामान्य मामले में, क्षेत्रफल का हिसाब लगाने के लिए, ग्रे क्षेत्र की लंबाई (1.0) को ग्रे क्षेत्र की चौड़ाई (1.0) से गुणा करें. इसलिए, 1.0 और 1.0 के प्रॉडक्ट का AUC, 1.0 होता है. यह AUC का सबसे ज़्यादा स्कोर होता है.

इसके उलट, क्लासफ़िकेशन मॉडल के लिए आरओसी कर्व इस तरह का होता है, जो क्लास को अलग नहीं कर सकता. इस धूसर हिस्से का क्षेत्रफल 0.5 है.

आम तौर पर, आरओसी कर्व ऐसा दिखता है:

इस कर्व के नीचे के हिस्से का हिसाब मैन्युअल तरीके से लगाना मुश्किल होता है. इसलिए, आम तौर पर कोई प्रोग्राम ज़्यादातर AUC वैल्यू का हिसाब लगाता है.

AUC की ज़्यादा औपचारिक परिभाषा के लिए, आइकॉन पर क्लिक करें.

AUC, इस बात की संभावना है कि क्लासिफ़िकेशन मॉडल को रैंडम तरीके से चुने गए पॉज़िटिव उदाहरण के सही होने का ज़्यादा भरोसा होगा, न कि रैंडम तरीके से चुने गए नेगेटिव उदाहरण के सही होने का.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन: आरओसी और AUC देखें.

B

बैकप्रोपगेशन

#fundamentals

यह एक ऐसा एल्गोरिदम है जो न्यूरल नेटवर्क में ग्रेडिएंट डिसेंट लागू करता है.

किसी न्यूरल नेटवर्क को ट्रेन करने के लिए, दो पास वाले इस साइकल के कई इटरेशन की ज़रूरत होती है:

फ़ॉरवर्ड पास के दौरान, सिस्टम उदाहरणों के बैच को प्रोसेस करता है, ताकि अनुमान(अनुमान) दिए जा सकें. सिस्टम हर अनुमानी वैल्यू की तुलना, हर लेबल वैल्यू से करता है. उदाहरण के लिए, अनुमान और लेबल वैल्यू के बीच का अंतर, लोस है. सिस्टम, मौजूदा बैच के कुल नुकसान का हिसाब लगाने के लिए, सभी उदाहरणों के नुकसान को इकट्ठा करता है.
बैकवर्ड पास (बैकप्रोपगेशन) के दौरान, सिस्टम सभी हाइडन लेयर में मौजूद सभी न्यूरॉन के वेट में बदलाव करके, लॉस को कम करता है.

आम तौर पर, न्यूरल नेटवर्क में कई हिडन लेयर होती हैं और हर लेयर में कई न्यूरॉन होते हैं. उनमें से हर न्यूरॉन, कुल नुकसान में अलग-अलग तरीके से योगदान देता है. बैकप्रोपगेशन से यह तय होता है कि किसी खास न्यूरॉन पर लागू किए गए वेट को बढ़ाना है या घटाना है.

लर्निंग रेट एक मल्टीप्लायर है, जो यह कंट्रोल करता है कि हर बैकवर्ड पास, हर वेट को किस हद तक बढ़ाता या घटाता है. ज़्यादा लर्निंग रेट से, हर वेट में कम लर्निंग रेट की तुलना में ज़्यादा बढ़ोतरी या गिरावट होगी.

कैलकुलस के हिसाब से, बैकप्रोपगेशन चेन नियम को लागू करता है. इसका मतलब है कि बैकप्रोपगेशन, हर पैरामीटर के हिसाब से गड़बड़ी के पार्शियल डेरिवेटिव का हिसाब लगाता है.

कई साल पहले, एमएल के विशेषज्ञों को बैकप्रोपगेशन लागू करने के लिए कोड लिखना पड़ता था. Keras जैसे आधुनिक एमएल एपीआई, अब आपके लिए बैकप्रोपगेशन लागू करते हैं. वाह!

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

बैच

#fundamentals

एक ट्रेनिंग के इटरेशन में इस्तेमाल किए गए उदाहरणों का सेट. बैच का साइज़, किसी बैच में मौजूद उदाहरणों की संख्या तय करता है.

बैच और इक्वोक के बीच के संबंध के बारे में जानने के लिए, इक्वोक देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: हाइपरपैरामीटर देखें.

बैच का आकार

#fundamentals

बैच में उदाहरणों की संख्या. उदाहरण के लिए, अगर बैच साइज़ 100 है, तो मॉडल हर इटरेशन में 100 उदाहरणों को प्रोसेस करता है.

बैच के साइज़ से जुड़ी लोकप्रिय रणनीतियां यहां दी गई हैं:

स्टोकास्टिक ग्रेडिएंट डिसेंट (एसजीडी), जिसमें बैच साइज़ 1 है.
पूरा बैच, जिसमें बैच का साइज़ पूरे ट्रेनिंग सेट में मौजूद उदाहरणों की संख्या होता है. उदाहरण के लिए, अगर ट्रेनिंग सेट में एक करोड़ उदाहरण हैं, तो एक करोड़ उदाहरणों का एक बैच बन जाएगा. आम तौर पर, पूरा बैच एक खराब रणनीति होती है.
मिनी-बैच, जिसमें आम तौर पर बैच का साइज़ 10 से 1,000 के बीच होता है. आम तौर पर, छोटा बैच सबसे असरदार रणनीति होती है.

ज़्यादा जानकारी के लिए, ये देखें:

मशीन लर्निंग क्रैश कोर्स में, प्रोडक्शन एमएल सिस्टम: स्टैटिक बनाम डाइनैमिक अनुमानी के बारे में जानकारी.
डीप लर्निंग ट्यूनिंग प्लेबुक.

पक्षपात (नैतिकता/निष्पक्षता)

#responsible

#fundamentals

1. किसी चीज़, व्यक्ति या ग्रुप के बारे में गलत धारणा, पूर्वाग्रह या किसी को दूसरों से ज़्यादा तरजीह देना. इन पूर्वाग्रहों का असर, डेटा इकट्ठा करने और उसका विश्लेषण करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके पर पड़ सकता है. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग की प्रोसेस की वजह से, सिस्टम में हुई गड़बड़ी. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:

इसे मशीन लर्निंग मॉडल में मौजूद बायस या अनुमान के बायस के साथ न जोड़ें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.

बायस (गणित) या बायस शब्द

#fundamentals

किसी ऑरिजिन से इंटरसेप्ट या ऑफ़सेट. बायस, मशीन लर्निंग मॉडल में एक पैरामीटर होता है. इसका चिह्न इनमें से किसी एक के तौर पर होता है:

b
w₀

उदाहरण के लिए, नीचे दिए गए फ़ॉर्मूला में बायस, b है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

किसी सामान्य दो-आयामी रेखा में, बायस का मतलब सिर्फ़ "y-इंटरसेप्ट" होता है. उदाहरण के लिए, नीचे दिए गए इलस्ट्रेशन में लाइन का बायस 2 है.

0.5 स्लोप और 2 बायस (y-इंटरसेप्ट) वाली लाइन का प्लॉट.

बायस मौजूद होता है, क्योंकि सभी मॉडल ऑरिजिन (0,0) से शुरू नहीं होते. उदाहरण के लिए, मान लें कि किसी मनोरंजन पार्क में प्रवेश करने के लिए 2 यूरो और वहां हर घंटे बिताने के लिए 0.5 यूरो का शुल्क लिया जाता है. इसलिए, कुल कीमत को मैप करने वाले मॉडल में 2 का बायस है, क्योंकि सबसे कम कीमत 2 यूरो है.

पक्षपात को नैतिकता और निष्पक्षता में पक्षपात या अनुमान में पक्षपात के साथ नहीं जोड़ा जाना चाहिए.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

बाइनरी क्लासिफ़िकेशन

#fundamentals

कैटगरी से जुड़ा एक तरह का टास्क, जिसमें एक-दूसरे से अलग दो कैटगरी में से किसी एक का अनुमान लगाया जाता है:

पॉज़िटिव क्लास
नेगेटिव क्लास

उदाहरण के लिए, यहां दिए गए दो मशीन लर्निंग मॉडल, दोनों ही बिनेरी क्लासिफ़िकेशन करते हैं:

यह मॉडल यह तय करता है कि ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) हैं या स्पैम नहीं (नेगेटिव क्लास).
यह एक ऐसा मॉडल है जो मेडिकल लक्षणों का आकलन करके यह तय करता है कि किसी व्यक्ति को कोई खास बीमारी (पॉज़िटिव क्लास) है या नहीं (नेगेटिव क्लास).

मल्टी-क्लास क्लासिफ़िकेशन के साथ तुलना करें.

लॉजिस्टिक रिग्रेशन और क्लासिफ़िकेशन थ्रेशोल्ड भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन देखें.

बकेट

#fundamentals

एक फ़ीचर को कई बाइनरी फ़ीचर में बदलना, जिन्हें आम तौर पर वैल्यू रेंज के आधार पर बकेट या बिन कहा जाता है. आम तौर पर, वीडियो को काटने की सुविधा लगातार उपलब्ध रहती है.

उदाहरण के लिए, तापमान को एक ही फ़्लोटिंग-पॉइंट फ़ीचर के तौर पर दिखाने के बजाय, तापमान की रेंज को अलग-अलग बकेट में बांटा जा सकता है, जैसे:

10 डिग्री सेल्सियस से कम तापमान को "ठंडा" कैटगरी में रखा जाएगा.
11 से 24 डिग्री सेल्सियस के तापमान को "उष्णकटिबंधीय" कैटगरी में रखा जाएगा.
25 डिग्री सेल्सियस से ज़्यादा तापमान को "गर्म" बकेट माना जाएगा.

मॉडल, एक ही बकेट में मौजूद हर वैल्यू को एक जैसा मानेगा. उदाहरण के लिए, वैल्यू 13 और 22, दोनों ही 'उष्णकटिबंधीय' बकेट में हैं. इसलिए, मॉडल दोनों वैल्यू को एक जैसा मानता है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

अगर तापमान को लगातार रिकॉर्ड होने वाली वैल्यू के तौर पर दिखाया जाता है, तो मॉडल, तापमान को एक ही वैल्यू के तौर पर इस्तेमाल करता है. अगर तापमान को तीन बकेट के तौर पर दिखाया जाता है, तो मॉडल हर बकेट को एक अलग फ़ीचर के तौर पर इस्तेमाल करता है. इसका मतलब है कि मॉडल, लेबल के साथ हर बकेट के अलग-अलग संबंधों को समझ सकता है. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल, हर बकेट के लिए अलग-अलग वेट सीख सकता है.

बकेट की संख्या बढ़ाने से, आपके मॉडल को सीखने के लिए रिलेशनशिप की संख्या बढ़ जाती है. इससे आपका मॉडल ज़्यादा जटिल हो जाता है. उदाहरण के लिए, ठंडी, सामान्य, और गर्म बकेट, आपके मॉडल को ट्रेनिंग देने के लिए, तीन अलग-अलग सुविधाएं हैं. अगर आपको दो और बकेट जोड़नी हैं, जैसे कि फ़्रीज़िंग और हॉट, तो आपके मॉडल को अब पांच अलग-अलग सुविधाओं पर ट्रेनिंग देनी होगी.

आपको कैसे पता चलता है कि कितनी बकेट बनानी हैं या हर बकेट की रेंज क्या होनी चाहिए? आम तौर पर, जवाब पाने के लिए ज़रूरत के मुताबिक प्रयोग करना पड़ता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: बाइनिंग देखें.

C

कैटगरी वाला डेटा

#fundamentals

ऐसी सुविधाएं जिनमें संभावित वैल्यू का कोई खास सेट हो. उदाहरण के लिए, traffic-light-state नाम की कैटगरी वाली किसी सुविधा पर विचार करें. इसमें इन तीन में से सिर्फ़ एक वैल्यू हो सकती है:

red
yellow
green

traffic-light-state को कैटगरी वाली सुविधा के तौर पर दिखाकर, कोई मॉडल ड्राइवर के व्यवहार पर red, green, और yellow के अलग-अलग असर के बारे में जान सकता है.

कैटगरी वाली सुविधाओं को कभी-कभी अलग-अलग सुविधाएं भी कहा जाता है.

न्यूमेरिकल डेटा के साथ तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी में बांटे गए डेटा के साथ काम करना देखें.

क्लास

#fundamentals

वह कैटगरी जिससे लेबल जुड़ा हो सकता है. उदाहरण के लिए:

स्पैम का पता लगाने वाले बाइनरी क्लासिफ़िकेशन मॉडल में, दो क्लास स्पैम और स्पैम नहीं हो सकती हैं.
कुत्ते की नस्लों की पहचान करने वाले मल्टी-क्लास क्लासिफ़िकेशन मॉडल में, क्लास पूडल, बीगल, पग वगैरह हो सकती हैं.

क्लासिफ़िकेशन मॉडल, किसी क्लास का अनुमान लगाता है. इसके उलट, रिग्रेशन मॉडल किसी क्लास के बजाय संख्या का अनुमान लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में क्लासिफ़िकेशन देखें.

क्लासिफ़िकेशन मॉडल

#fundamentals

ऐसा मॉडल जिसका अनुमान क्लास है. उदाहरण के लिए, यहां दिए गए सभी मॉडल, क्लासिफ़िकेशन मॉडल हैं:

ऐसा मॉडल जो इनपुट वाक्य की भाषा का अनुमान लगाता है (फ़्रेंच? स्पैनिश? इटैलियन?).
पेड़ की प्रजाति का अनुमान लगाने वाला मॉडल (मेपल? ओक? Baobab?).
यह एक ऐसा मॉडल है जो किसी खास बीमारी के लिए, पॉज़िटिव या नेगेटिव क्लास का अनुमान लगाता है.

इसके उलट, रेग्रेशन मॉडल, क्लास के बजाय संख्याओं का अनुमान लगाते हैं.

आम तौर पर, क्लासिफ़िकेशन मॉडल दो तरह के होते हैं:

बाइनरी क्लासिफ़िकेशन
मल्टी-क्लास क्लासिफ़िकेशन

श्रेणी में बाँटने की सीमा

#fundamentals

बाइनरी क्लासिफ़िकेशन में, 0 से 1 के बीच की संख्या, जो लॉजिस्टिक रिग्रेशन मॉडल के रॉ आउटपुट को पॉज़िटिव क्लास या नेगेटिव क्लास के अनुमान में बदलती है. ध्यान दें कि क्लासिफ़िकेशन थ्रेशोल्ड एक ऐसी वैल्यू है जिसे कोई व्यक्ति चुनता है, न कि मॉडल ट्रेनिंग से चुनी गई वैल्यू.

लॉजिस्टिक रिग्रेशन मॉडल, 0 से 1 के बीच की रॉ वैल्यू दिखाता है. इसके बाद:

अगर यह रॉ वैल्यू, कैटगरी के थ्रेशोल्ड से ज़्यादा है, तो 'पॉज़िटिव क्लास' का अनुमान लगाया जाता है.
अगर यह रॉ वैल्यू, कैटगरी तय करने के थ्रेशोल्ड से कम है, तो नेगेटिव क्लास का अनुमान लगाया जाता है.

उदाहरण के लिए, मान लें कि क्लासिफ़िकेशन थ्रेशोल्ड 0.8 है. अगर रॉ वैल्यू 0.9 है, तो मॉडल पॉज़िटिव क्लास का अनुमान लगाता है. अगर रॉ वैल्यू 0.7 है, तो मॉडल ने नेगेटिव क्लास का अनुमान लगाया है.

क्लासिफ़िकेशन थ्रेशोल्ड चुनने से, फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव की संख्या पर काफ़ी असर पड़ता है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

मॉडल या डेटासेट के बेहतर होने पर, इंजीनियर कभी-कभी कैटगरी तय करने के थ्रेशोल्ड में भी बदलाव करते हैं. कैटगरी तय करने की थ्रेशोल्ड में बदलाव होने पर, पॉज़िटिव कैटगरी के अनुमान अचानक नेगेटिव कैटगरी में बदल सकते हैं और इसके उलट भी हो सकता है.

उदाहरण के लिए, बीमारी का पता लगाने के लिए बाइनरी क्लासिफ़िकेशन मॉडल का इस्तेमाल करना. मान लें कि पहले साल में सिस्टम के चलने पर:

किसी मरीज की रॉ वैल्यू 0.95 है.
क्लासिफ़िकेशन थ्रेशोल्ड 0.94 है.

इसलिए, सिस्टम पॉज़िटिव क्लास का पता लगाता है. (मरीज़ डरते हुए कहता है, "ओह नहीं! मुझे बीमारी है!")

एक साल बाद, शायद वैल्यू इस तरह दिखें:

उसी मरीज की रॉ वैल्यू 0.95 पर बनी रहती है.
क्लासिफ़िकेशन थ्रेशोल्ड 0.97 हो जाता है.

इसलिए, सिस्टम अब उस मरीज को नेगेटिव क्लास के तौर पर फिर से कैटगरी में बांटता है. ("आपका दिन शुभ हो! मुझे बीमारी नहीं है.") एक ही मरीज़. अलग-अलग तरह की गड़बड़ियां.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में थ्रेशोल्ड और भ्रम वाली मैट्रिक देखें.

डेटा की कैटगरी तय करने वाला

#fundamentals

क्लासिफ़िकेशन मॉडल के लिए इस्तेमाल होने वाला सामान्य शब्द.

क्लास-असंतुलित डेटासेट

#fundamentals

डेटा को अलग-अलग कैटगरी में बांटने से जुड़ी समस्या के लिए डेटासेट, जिसमें हर क्लास के लेबल की कुल संख्या काफ़ी अलग-अलग होती है. उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन डेटासेट लें, जिसके दो लेबल इस तरह बांट दिए गए हैं:

1,000,000 नेगेटिव लेबल
10 पॉज़िटिव लेबल

नेगेटिव लेबल और पॉज़िटिव लेबल का अनुपात 1,00,000:1 है. इसलिए, यह क्लास-असंतुलित डेटासेट है.

इसके उलट, नीचे दिया गया डेटासेट क्लास के हिसाब से असंतुलित नहीं है, क्योंकि नेगेटिव लेबल के मुकाबले पॉज़िटिव लेबल का अनुपात 1 के करीब है:

517 नेगेटिव लेबल
483 पॉज़िटिव लेबल

एक से ज़्यादा क्लास वाले डेटासेट भी क्लास के हिसाब से असंतुलित हो सकते हैं. उदाहरण के लिए, यहां दिया गया कई क्लास वाला डेटासेट भी क्लास के हिसाब से असंतुलित है, क्योंकि एक लेबल में दो अन्य लेबल के मुकाबले ज़्यादा उदाहरण हैं:

क्लास "green" वाले 1,000,000 लेबल
क्लास "purple" वाले 200 लेबल
क्लास "नारंगी" वाले 350 लेबल

एन्ट्रोपी, बड़ी क्लास, और छोटी क्लास भी देखें.

क्लिपिंग

#fundamentals

आउटलायर को मैनेज करने के लिए, इनमें से कोई एक या दोनों काम करने की तकनीक:

feature की वैल्यू को, तय सीमा से ज़्यादा होने पर, तय सीमा तक कम करना.
कम से कम थ्रेशोल्ड से कम की सुविधा की वैल्यू को उस कम से कम थ्रेशोल्ड तक बढ़ाना.

उदाहरण के लिए, मान लें कि किसी खास सुविधा के लिए, 40 से 60 की सीमा से बाहर की वैल्यू की संख्या 0.5% से कम है. इस मामले में, ये काम किए जा सकते हैं:

60 (ज़्यादा से ज़्यादा थ्रेशोल्ड) से ज़्यादा की सभी वैल्यू को 60 पर क्लिप करें.
40 (न्यूनतम थ्रेशोल्ड) से कम की सभी वैल्यू को 40 पर क्लिप करें.

आउटलायर से मॉडल को नुकसान पहुंच सकता है. कभी-कभी, ट्रेनिंग के दौरान वेट का ओवरफ़्लो हो सकता है. कुछ आउटलायर, सटीक जानकारी जैसी मेट्रिक को काफ़ी खराब कर सकते हैं. नुकसान को कम करने के लिए, क्लिपिंग एक आम तकनीक है.

ग्रेडिएंट क्लिपिंग, ट्रेनिंग के दौरान ग्रेडिएंट की वैल्यू को तय की गई रेंज में रखती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: नॉर्मलाइज़ेशन देखें.

कन्फ़्यूज़न मैट्रिक्स

#fundamentals

NxN टेबल, जिसमें क्लासिफ़िकेशन मॉडल के सही और गलत अनुमान की संख्या की खास जानकारी होती है. उदाहरण के लिए, दो कैटगरी में बांटने वाले मॉडल के लिए, नीचे दिया गया कन्फ़्यूज़न मैट्रिक देखें:

	ट्यूमर (अनुमानित)	ट्यूमर नहीं (अनुमानित)
ट्यूमर (ग्राउंड ट्रूथ)	18 (TP)	1 (FN)
ट्यूमर नहीं (ग्राउंड ट्रूथ)	6 (FP)	452 (TN)

ऊपर दिया गया कन्फ़्यूज़न मैट्रिक्स, ये चीज़ें दिखाता है:

19 अनुमानों में से जिनमें ग्राउंड ट्रूथ ट्यूमर था, उनमें से मॉडल ने 18 को सही कैटगरी में रखा और एक को गलत कैटगरी में रखा.
458 अनुमानों में से, जिनमें ग्राउंड ट्रूथ ट्यूमर नहीं था उनमें से मॉडल ने 452 को सही कैटगरी में और 6 को गलत कैटगरी में रखा.

मल्टी-क्लास क्लासिफ़िकेशन वाली समस्या के लिए, कन्फ़्यूज़न मैट्रिक की मदद से, गलतियां होने के पैटर्न की पहचान की जा सकती है. उदाहरण के लिए, तीन क्लास वाले कई क्लास के क्लासिफ़िकेशन मॉडल के लिए, नीचे दिया गया कन्फ़्यूज़न मैट्रिक देखें. यह मॉडल, तीन अलग-अलग तरह के आइरिस (Virginica, Versicolor, और Setosa) की कैटगरी तय करता है. जब असल वैल्यू Virginica थी, तो कॉन्फ़्यूज़न मैट्रिक से पता चलता है कि मॉडल की ओर से, Setosa के मुकाबले Versicolor का गलत अनुमान लगाने की संभावना ज़्यादा थी:

	सेटोसा (अनुमानित)	वर्सिकोलर (अनुमानित)	Virginica (अनुमानित)
सेटोसा (ग्राउंड ट्रूथ)	88	12	0
वर्सिकोलर (ग्राउंड ट्रूथ)	6	141	7
Virginica (ग्राउंड ट्रूथ)	2	27	109

एक और उदाहरण के तौर पर, कॉन्फ़्यूज़न मैट्रिक से पता चल सकता है कि हाथ से लिखे गए अंकों को पहचानने के लिए ट्रेन किया गया मॉडल, गलती से 4 के बजाय 9 का अनुमान लगाता है या 7 के बजाय 1 का अनुमान लगाता है.

कन्फ़्यूज़न मैट्रिक में, परफ़ॉर्मेंस की कई मेट्रिक का हिसाब लगाने के लिए ज़रूरी जानकारी होती है. इनमें प्रिसिज़न और रीकॉल शामिल हैं.

लगातार चलने वाली सुविधा

#fundamentals

फ़्लोटिंग-पॉइंट फ़ीचर, जिसमें तापमान या वज़न जैसी वैल्यू की अनलिमिटेड रेंज हो सकती है.

अलग-अलग वैल्यू वाली सुविधा के साथ तुलना करें.

कन्वर्ज़न

#fundamentals

यह वह स्थिति होती है जब हर इटरेशन के साथ नुकसान की वैल्यू बहुत कम या बिल्कुल नहीं बदलती. उदाहरण के लिए, यहां दिया गया लॉस कर्व, करीब 700 बार दोहराए जाने पर कन्वर्ज़न का सुझाव देता है:

कार्टेशियन प्लॉट. X-ऐक्सिस मौजूद नहीं है. Y-ऐक्सिस, ट्रेनिंग के लैप की संख्या है. शुरुआती कुछ इटरेटेशन के दौरान, नुकसान बहुत ज़्यादा होता है, लेकिन इसके बाद यह तेज़ी से कम हो जाता है. करीब 100 बार दोहराए जाने के बाद भी, हानि कम हो रही है, लेकिन धीरे-धीरे. करीब 700 बार दोहराए जाने के बाद,
लॉस में कोई बदलाव नहीं होता.

जब अतिरिक्त ट्रेनिंग से मॉडल बेहतर नहीं होता, तब मॉडल कंसीव हो जाता है.

डीप लर्निंग में, लॉस वैल्यू कई बार एक जैसी या करीब-करीब एक जैसी रहती हैं. ऐसा कई बार होने के बाद, लॉस वैल्यू कम हो जाती है. लगातार लॉस वैल्यू की लंबी अवधि के दौरान, आपको कुछ समय के लिए कन्वर्ज़न होने का गलत एहसास हो सकता है.

एरली स्टॉपिंग भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में मॉडल कन्वर्ज़न और लॉस कर्व देखें.

D

DataFrame

#fundamentals

मेमोरी में डेटासेट दिखाने के लिए, pandas का लोकप्रिय डेटा टाइप.

डेटाफ़्रेम, टेबल या स्प्रेडशीट की तरह ही होता है. DataFrame के हर कॉलम का एक नाम (हेडर) होता है और हर पंक्ति की पहचान एक यूनीक नंबर से की जाती है.

DataFrame में मौजूद हर कॉलम को 2D ऐरे की तरह बनाया जाता है. हालांकि, हर कॉलम को अपना डेटा टाइप असाइन किया जा सकता है.

pandas.DataFrame के रेफ़रंस पेज को भी देखें.

डेटा सेट या डेटासेट

#fundamentals

रॉ डेटा का कलेक्शन, आम तौर पर (हालांकि, सिर्फ़) इनमें से किसी एक फ़ॉर्मैट में व्यवस्थित किया जाता है:

स्प्रेडशीट
CSV (कॉमा लगाकर अलग की गई वैल्यू) फ़ॉर्मैट में फ़ाइल

डीप मॉडल

#fundamentals

एक न्यूरल नेटवर्क जिसमें एक से ज़्यादा हाइडन लेयर हों.

डीप मॉडल को डीप न्यूरल नेटवर्क भी कहा जाता है.

वाइड मॉडल के साथ कंट्रास्ट करें.

घनी सुविधा

#fundamentals

ऐसी फ़ीचर जिसमें ज़्यादातर या सभी वैल्यू शून्य से ज़्यादा होती हैं. आम तौर पर, यह फ़्लोटिंग-पॉइंट वैल्यू वाला टेंसर होता है. उदाहरण के लिए, यहां दिया गया 10 एलिमेंट वाला टेंसर, डेंस है, क्योंकि इसकी नौ वैल्यू शून्य से ज़्यादा हैं:

स्पैस फ़ीचर के साथ तुलना करें.

गहराई

#fundamentals

न्यूरल नेटवर्क में इनका योग:

छिपी हुई लेयर की संख्या
आउटपुट लेयर की संख्या, जो आम तौर पर एक होती है
एंबेड करने की प्रोसेस को स्टोर करने के लिए बनी लेयर की संख्या

उदाहरण के लिए, पांच छिपी हुई लेयर और एक आउटपुट लेयर वाले न्यूरल नेटवर्क की गहराई 6 होती है.

ध्यान दें कि इनपुट लेयर से डेप्थ पर असर नहीं पड़ता.

डिस्क्रीट सुविधा

#fundamentals

संभावित वैल्यू के सीमित सेट वाली सुविधा. उदाहरण के लिए, ऐसी विशेषता जिसकी वैल्यू सिर्फ़ जानवर, सब्जी या खनिज हो सकती है, वह अलग-अलग (या कैटगरी वाली) विशेषता होती है.

लगातार चलने वाली सुविधा के साथ तुलना करें.

डाइनैमिक

#fundamentals

ऐसा काम जो बार-बार या लगातार किया जाता है. मशीन लर्निंग में, डाइनैमिक और ऑनलाइन शब्द एक जैसे माने जाते हैं. मशीन लर्निंग में डाइनैमिक और ऑनलाइन का इस्तेमाल आम तौर पर इन कामों के लिए किया जाता है:

डाइनैमिक मॉडल (या ऑनलाइन मॉडल) एक ऐसा मॉडल होता है जिसे बार-बार या लगातार फिर से ट्रेन किया जाता है.
डाइनैमिक ट्रेनिंग या ऑनलाइन ट्रेनिंग, बार-बार या लगातार ट्रेनिंग देने की प्रोसेस है.
डाइनैमिक अनुमान (या ऑनलाइन अनुमान) ऐसी प्रोसेस है जिसमें मांग के हिसाब से अनुमान जनरेट किए जाते हैं.

डाइनैमिक मॉडल

#fundamentals

ऐसा मॉडल जिसे बार-बार (शायद लगातार) फिर से ट्रेन किया जाता है. डाइनैमिक मॉडल एक "लाइफ़लौंग लर्नर" होता है, जो बदलते डेटा के हिसाब से लगातार अपडेट होता रहता है. डाइनैमिक मॉडल को ऑनलाइन मॉडल भी कहा जाता है.

स्टैटिक मॉडल के साथ तुलना करें.

E

जल्दी रुकना

#fundamentals

रेगुलराइज़ेशन का एक तरीका, जिसमें ट्रेनिंग के दौरान, ट्रेनिंग लॉस कम होने से पहले ट्रेनिंग को खत्म कर दिया जाता है. जल्दी रोकने की सुविधा का इस्तेमाल करके, पुष्टि करने वाले डेटासेट पर लॉस बढ़ने पर, मॉडल को ट्रेनिंग देना जान-बूझकर बंद किया जाता है. इसका मतलब है कि जब जनरलाइज़ेशन की परफ़ॉर्मेंस खराब हो जाती है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

ऐसा हो सकता है कि आपको यह अजीब लगे कि ट्रेनिंग को जल्दी क्यों रोका जाए. आखिर, जब तक नुकसान कम हो रहा है, तब तक मॉडल को ट्रेनिंग बंद करने के लिए कहना, किसी शेफ़ को डेज़र्ट पूरी तरह से पकने से पहले खाना बंद करने के लिए कहने जैसा हो सकता है. हालांकि, किसी मॉडल को बहुत ज़्यादा समय तक ट्रेनिंग देने पर, ओवरफ़िटिंग हो सकती है. इसका मतलब है कि अगर किसी मॉडल को बहुत ज़्यादा समय तक ट्रेन किया जाता है, तो हो सकता है कि मॉडल ट्रेनिंग डेटा के हिसाब से ही काम करे. इससे, मॉडल नए उदाहरणों के लिए सही अनुमान नहीं लगा पाता.

एम्बेड करने की प्रोसेस को स्टोर करने के लिए बनी लेयर

#language

#fundamentals

एक खास हाइडन लेयर, जो ज़्यादा डाइमेंशन वाली कैटगरी वाली सुविधा पर ट्रेनिंग करती है, ताकि धीरे-धीरे कम डाइमेंशन वाले एंबेड किए जा रहे वेक्टर को सीखा जा सके. एम्बेडिंग लेयर की मदद से, न्यूरल नेटवर्क को सिर्फ़ कैटगरी वाली हाई-डाइमेंशनल सुविधा पर ट्रेनिंग देने के मुकाबले, ज़्यादा बेहतर तरीके से ट्रेन किया जा सकता है.

उदाहरण के लिए, Earth पर फ़िलहाल पेड़ों की करीब 73,000 प्रजातियों की जानकारी उपलब्ध है. मान लें कि आपके मॉडल में पेड़ की प्रजाति एक सुविधा है. इसलिए, आपके मॉडल की इनपुट लेयर में 73,000 एलिमेंट वाला वन-हॉट वेक्टर शामिल है. उदाहरण के लिए, baobab को कुछ इस तरह दिखाया जाएगा:

73,000 एलिमेंट का कलेक्शन. पहले 6,232 एलिमेंट की वैल्यू
0 है. अगले एलिमेंट में वैल्यू 1 है. आखिरी 66,767 एलिमेंट में वैल्यू शून्य है.

73,000 एलिमेंट वाला कलेक्शन बहुत बड़ा है. अगर मॉडल में एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो 72,999 शून्य को गुणा करने की वजह से, ट्रेनिंग में काफ़ी समय लगेगा. मान लें कि आपने एम्बेडिंग लेयर को 12 डाइमेंशन के साथ चुना है. इस वजह से, एंबेड करने की प्रोसेस को स्टोर करने के लिए बनी लेयर, धीरे-धीरे हर पेड़ की प्रजाति के लिए एक नया एंबेडिंग वेक्टर सीख लेगी.

कुछ मामलों में, एम्बेडिंग लेयर के बजाय हैशिंग का इस्तेमाल करना बेहतर होता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में एम्बेड देखें.

epoch

#fundamentals

पूरे ट्रेनिंग सेट पर पूरा ट्रेनिंग पास, ताकि हर उदाहरण को एक बार प्रोसेस किया जा सके.

एक एपिसोड, N/बैच साइज़ के हिसाब से, इटरेशन की ट्रेनिंग दिखाता है. यहां N, उदाहरणों की कुल संख्या है.

उदाहरण के लिए, मान लें कि:

डेटासेट में 1,000 उदाहरण शामिल हैं.
बैच में 50 उदाहरण होते हैं.

इसलिए, एक एपॉच के लिए 20 बार दोहराना ज़रूरी है:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

उदाहरण

#fundamentals

सुविधाओं की एक पंक्ति की वैल्यू और हो सकता है कि एक लेबल भी हो. सुपरवाइज़्ड लर्निंग के उदाहरणों को आम तौर पर दो कैटगरी में बांटा जा सकता है:

लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. लेबल किए गए उदाहरणों का इस्तेमाल, ट्रेनिंग के दौरान किया जाता है.
बिना लेबल वाला उदाहरण में एक या उससे ज़्यादा सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. अनुमान लगाने के दौरान, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

उदाहरण के लिए, मान लें कि आपको किसी मॉडल को ट्रेनिंग देनी है, ताकि यह पता लगाया जा सके कि मौसम की स्थितियों का, छात्र/छात्रा के टेस्ट के स्कोर पर क्या असर पड़ता है. यहां लेबल किए गए तीन उदाहरण दिए गए हैं:

सुविधाएं			लेबल
तापमान	नमी	दबाव	टेस्ट का स्कोर
15	47	998	अच्छा
19	34	1020	बहुत बढ़िया
18	92	1012	खराब

यहां लेबल नहीं किए गए तीन उदाहरण दिए गए हैं:

तापमान	नमी	दबाव
12	62	1014
21	47	1017
19	41	1021

आम तौर पर, डेटासेट की लाइन, किसी उदाहरण का रॉ सोर्स होती है. इसका मतलब है कि आम तौर पर, किसी उदाहरण में डेटासेट के कॉलम का सबसेट शामिल होता है. इसके अलावा, उदाहरण में सिंथेटिक सुविधाएं भी शामिल हो सकती हैं. जैसे, फ़ीचर क्रॉस.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी देने वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

F

फ़ॉल्स नेगेटिव (FN)

#fundamentals

#मेट्रिक

ऐसा उदाहरण जिसमें मॉडल ने गलती से नेगेटिव क्लास का अनुमान लगाया है. उदाहरण के लिए, मॉडल का अनुमान है कि कोई ईमेल मैसेज स्पैम नहीं है (नेगेटिव क्लास), लेकिन वह ईमेल मैसेज असल में स्पैम है.

फ़ॉल्स पॉज़िटिव (FP)

#fundamentals

#मेट्रिक

ऐसा उदाहरण जिसमें मॉडल ने गलती से पॉज़िटिव क्लास का अनुमान लगाया है. उदाहरण के लिए, मॉडल का अनुमान है कि कोई ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) है, लेकिन वह ईमेल मैसेज वाकई स्पैम नहीं है.

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

#fundamentals

#मेट्रिक

असल नेगेटिव उदाहरणों का अनुपात, जिनके लिए मॉडल ने गलत तरीके से पॉज़िटिव क्लास का अनुमान लगाया. यहां दिया गया फ़ॉर्मूला, गलत नतीजे मिलने की दर का हिसाब लगाता है:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

फ़ॉल्स पॉज़िटिव रेट, आरओसी कर्व में एक्स-ऐक्सिस होता है.

सुविधा

#fundamentals

मशीन लर्निंग मॉडल का इनपुट वैरिएबल. उदाहरण में एक या उससे ज़्यादा सुविधाएं होती हैं. उदाहरण के लिए, मान लें कि आपको यह पता करना है कि मौसम की स्थिति का छात्र/छात्रा के टेस्ट के स्कोर पर क्या असर पड़ता है. इसके लिए, आपको किसी मॉडल को ट्रेनिंग देनी होगी. यहां दी गई टेबल में तीन उदाहरण दिए गए हैं. इनमें से हर उदाहरण में तीन सुविधाएं और एक लेबल है:

सुविधाएं			लेबल
तापमान	नमी	दबाव	टेस्ट का स्कोर
15	47	998	92
19	34	1020	84
18	92	1012	87

लेबल के साथ कंट्रास्ट करें.

सुविधाओं के बीच क्रॉस

#fundamentals

ऐसी एट्रिब्यूट वैल्यू जो कैटगरी या बकेट वाली एट्रिब्यूट वैल्यू को "क्रॉस करने" से बनती है.

उदाहरण के लिए, "मनोभाव का अनुमान लगाने" वाले मॉडल पर विचार करें, जो इन चार में से किसी एक बकेट में तापमान दिखाता है:

freezing
chilly
temperate
warm

साथ ही, हवा की रफ़्तार को इनमें से किसी एक बकेट में दिखाता है:

still
light
windy

फ़ीचर क्रॉस के बिना, लीनियर मॉडल, पिछली सात अलग-अलग बकेट में से हर एक पर अलग-अलग ट्रेनिंग करता है. इसलिए, मॉडल को उदाहरण के लिए, freezing पर ट्रेनिंग दी जाती है, जो उदाहरण के लिए, windy पर दी गई ट्रेनिंग से अलग होती है.

इसके अलावा, तापमान और हवा की स्पीड के लिए क्रॉस-फ़ीचर भी बनाई जा सकती है. इस सिंथेटिक सुविधा की ये 12 संभावित वैल्यू होंगी:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

फ़ीचर क्रॉस की मदद से, मॉडल को freezing-windy दिन और freezing-still दिन के मूड में अंतर पता चल सकता है.

अगर आपने दो ऐसी सुविधाओं से सिंथेटिक सुविधा बनाई है जिनमें हर सुविधा के लिए कई अलग-अलग बकेट हैं, तो बनाई गई सुविधा के क्रॉस में संभावित कॉम्बिनेशन की संख्या बहुत ज़्यादा होगी. उदाहरण के लिए, अगर एक फ़ीचर में 1,000 बकेट हैं और दूसरी फ़ीचर में 2,000 बकेट हैं, तो फ़ीचर क्रॉस में 2,000,000 बकेट होंगे.

फ़ॉर्मल तौर पर, क्रॉस एक कार्टेज़ियन प्रॉडक्ट है.

फ़ीचर क्रॉस का इस्तेमाल ज़्यादातर लीनियर मॉडल के साथ किया जाता है. साथ ही, इनका इस्तेमाल न्यूरल नेटवर्क के साथ बहुत कम किया जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी वाला डेटा: फ़ीचर क्रॉस देखें.

फ़ीचर इंजीनियरिंग

#fundamentals

#TensorFlow

यह एक ऐसी प्रोसेस है जिसमें ये चरण शामिल होते हैं:

यह तय करना कि मॉडल को ट्रेनिंग देने के लिए, कौनसी सुविधाएं काम की हो सकती हैं.
डेटासेट के रॉ डेटा को उन सुविधाओं के बेहतर वर्शन में बदलना.

उदाहरण के लिए, आपके हिसाब से temperature एक काम की सुविधा हो सकती है. इसके बाद, बकेट के साथ एक्सपेरिमेंट किया जा सकता है, ताकि यह ऑप्टिमाइज़ किया जा सके कि मॉडल अलग-अलग temperature रेंज से क्या सीख सकता है.

फ़ीचर इंजीनियरिंग को कभी-कभी फ़ीचर एक्सट्रैक्शन या फ़ीचराइज़ेशन भी कहा जाता है.

TensorFlow के बारे में ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

TensorFlow में, फ़ीचर इंजीनियरिंग का मतलब अक्सर रॉ लॉग फ़ाइल की एंट्री को tf.Example प्रोटोकॉल बफ़र में बदलना होता है. tf.Transform के बारे में भी जानें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूमेरिकल डेटा: कोई मॉडल, फ़ीचर वैक्टर का इस्तेमाल करके डेटा को कैसे डालता है देखें.

सुविधाओं का सेट

#fundamentals

आपका मशीन लर्निंग मॉडल, सुविधाओं के इस ग्रुप पर ट्रेन होता है. उदाहरण के लिए, मकान की कीमत का अनुमान लगाने वाले मॉडल के लिए, पिन कोड, प्रॉपर्टी का साइज़, और प्रॉपर्टी की स्थिति जैसी सामान्य सुविधाओं का सेट हो सकता है.

फ़ीचर वेक्टर

#fundamentals

feature वैल्यू का कलेक्शन, जिसमें उदाहरण शामिल है. फ़ीचर वेक्टर, ट्रेनिंग और अनुमान के दौरान इनपुट किया जाता है. उदाहरण के लिए, दो अलग-अलग फ़ीचर वाले मॉडल के लिए फ़ीचर वेक्टर यह हो सकता है:

[0.92, 0.56]

चार लेयर: एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर.
इनपुट लेयर में दो नोड हैं. एक में वैल्यू 0.92 है और दूसरे में वैल्यू 0.56 है.

हर उदाहरण, फ़ीचर वेक्टर के लिए अलग-अलग वैल्यू देता है. इसलिए, अगले उदाहरण के लिए फ़ीचर वेक्टर कुछ ऐसा हो सकता है:

[0.73, 0.49]

फ़ीचर इंजीनियरिंग से यह तय होता है कि फ़ीचर वेक्टर में फ़ीचर को कैसे दिखाया जाए. उदाहरण के लिए, पांच संभावित वैल्यू वाली बाइनरी कैटगरी वाली सुविधा को वन-हॉट कोड के ज़रिए दिखाया जा सकता है. इस मामले में, किसी उदाहरण के लिए फ़ीचर वेक्टर के हिस्से में चार शून्य और तीसरे स्थान पर एक 1.0 होगा, जैसा कि यहां बताया गया है:

[0.0, 0.0, 1.0, 0.0, 0.0]

एक और उदाहरण के लिए, मान लें कि आपके मॉडल में तीन सुविधाएं हैं:

एक बाइनरी कैटगरी वाली ऐसी सुविधा जिसमें पांच संभावित वैल्यू होती हैं. इन्हें एक-हॉट कोडिंग की मदद से दिखाया जाता है. उदाहरण के लिए: [0.0, 1.0, 0.0, 0.0, 0.0]
एक और बाइनरी कैटगरी वाली सुविधा, जिसमें तीन संभावित वैल्यू हैं. इन्हें वन-हॉट एन्कोडिंग की मदद से दिखाया गया है. उदाहरण के लिए: [0.0, 0.0, 1.0]
फ़्लोटिंग-पॉइंट वाली कोई सुविधा; उदाहरण के लिए: 8.3.

इस मामले में, हर उदाहरण के लिए फ़ीचर वेक्टर को नौ वैल्यू से दिखाया जाएगा. ऊपर दी गई सूची में उदाहरण के तौर पर दी गई वैल्यू के हिसाब से, फ़ीचर वेक्टर इस तरह का होगा:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

फ़ीडबैक लूप

#fundamentals

मशीन लर्निंग में, ऐसी स्थिति जिसमें किसी मॉडल के अनुमान से, उसी मॉडल या किसी दूसरे मॉडल के लिए ट्रेनिंग डेटा पर असर पड़ता है. उदाहरण के लिए, फ़िल्मों के सुझाव देने वाले मॉडल से, लोगों की पसंद पर असर पड़ेगा. इससे, फ़िल्म के सुझाव देने वाले बाद के मॉडल पर भी असर पड़ेगा.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में प्रोडक्शन के लिए एमएल सिस्टम: पूछे जाने वाले सवाल देखें.

G

सामान्यीकरण

#fundamentals

मॉडल की, नए और पहले कभी न देखे गए डेटा के लिए सटीक अनुमान लगाने की क्षमता. सामान्य नतीजे देने वाला मॉडल, ओवरफ़िटिंग वाले मॉडल के उलट होता है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

ट्रेनिंग सेट में मौजूद उदाहरणों के आधार पर, मॉडल को ट्रेन किया जाता है. इस वजह से, मॉडल को ट्रेनिंग सेट में मौजूद डेटा की खास बातें पता चलती हैं. सामान्यीकरण से यह पता चलता है कि आपका मॉडल, ट्रेनिंग सेट में न मौजूद उदाहरणों के आधार पर अच्छे अनुमान लगा सकता है या नहीं.

सामान्यीकरण को बढ़ावा देने के लिए, रेगुलराइज़ेशन की मदद से मॉडल को ट्रेनिंग सेट में मौजूद डेटा की खास बातों के हिसाब से कम ट्रेनिंग दी जाती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में जनरलाइज़ेशन देखें.

सामान्यीकरण कर्व

#fundamentals

इटरेशन की संख्या के फ़ंक्शन के तौर पर, ट्रेनिंग लॉस और पुष्टि करने से जुड़ा लॉस, दोनों का प्लॉट.

सामान्यीकरण कर्व की मदद से, ओवरफ़िटिंग का पता लगाया जा सकता है. उदाहरण के लिए, नीचे दिया गया जनरलाइज़ेशन कर्व, ओवरफ़िट होने का सुझाव देता है, क्योंकि पुष्टि करने से जुड़ा नुकसान, आखिरकार ट्रेनिंग के नुकसान से काफ़ी ज़्यादा हो जाता है.

कार्टिज़न ग्राफ़, जिसमें y-ऐक्सिस को लॉस और x-ऐक्सिस को
दोहराव के तौर पर लेबल किया गया है. दो प्लॉट दिखेंगे. एक प्लॉट में,
ट्रेनिंग लॉस दिखता है और दूसरे में पुष्टि करने से जुड़ा लॉस दिखता है.
दोनों प्लॉट एक जैसे शुरू होते हैं, लेकिन आखिर में ट्रेनिंग लॉस, पुष्टि करने के लिए इस्तेमाल किए गए लॉस से काफ़ी कम हो जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में जनरलाइज़ेशन देखें.

ग्रेडिएंट डिसेंट

#fundamentals

नुकसान को कम करने के लिए, गणित से जुड़ी एक तकनीक. ग्रेडिएंट डिसेंट, वेट और बायस में बार-बार बदलाव करता है. साथ ही, धीरे-धीरे सबसे अच्छा कॉम्बिनेशन ढूंढता है, ताकि लॉस को कम किया जा सके.

ग्रेडिएंट डिसेंट, मशीन लर्निंग से काफ़ी पुराना है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: ग्रेडिएंट डिसेंट देखें.

ग्राउंड ट्रूथ

#fundamentals

रीयलिटी.

असल में क्या हुआ.

उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन वाला मॉडल, यह अनुमान लगाता है कि विश्वविद्यालय के पहले साल में पढ़ रहा छात्र, छह साल के अंदर ग्रेजुएट होगा या नहीं. इस मॉडल के लिए असल जानकारी यह है कि छात्र ने असल में छह साल के अंदर ग्रेजुएट किया है या नहीं.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

हम मॉडल की क्वालिटी का आकलन, असल जानकारी के आधार पर करते हैं. हालांकि, ज़मीनी सच्चाई हमेशा पूरी तरह से सच्ची नहीं होती. उदाहरण के लिए, ग्राउंड ट्रूथ में संभावित गड़बड़ियों के इन उदाहरणों पर ध्यान दें:

ग्रेजुएशन के उदाहरण में, क्या हमें पक्के तौर पर पता है कि हर छात्र/छात्रा के ग्रेजुएशन के रिकॉर्ड हमेशा सही होते हैं? क्या विश्वविद्यालय के रिकॉर्ड सही हैं?
मान लें कि लेबल, इंस्ट्रूमेंट (उदाहरण के लिए, बैरोमीटर) से मेज़र की गई फ़्लोटिंग-पॉइंट वैल्यू है. हम कैसे पक्का कर सकते हैं कि हर इंस्ट्रूमेंट को एक ही तरह से कैलिब्रेट किया गया है या हर रीडिंग एक ही परिस्थिति में ली गई है?
अगर लेबल, किसी व्यक्ति की राय पर आधारित है, तो हम कैसे पक्का कर सकते हैं कि हर रेटर, इवेंट का आकलन एक ही तरह से कर रहा है? रेटिंग को एक जैसा रखने के लिए, विशेषज्ञ कभी-कभी रेटिंग देने में मदद करते हैं.

H

छिपी हुई लेयर

#fundamentals

न्यूरल नेटवर्क में एक लेयर, जो इनपुट लेयर (सुविधाएं) और आउटपुट लेयर (अनुमान) के बीच होती है. हर छिपी हुई लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में दो हिडन लेयर हैं. पहली लेयर में तीन न्यूरॉन और दूसरी लेयर में दो न्यूरॉन हैं:

डीप न्यूरल नेटवर्क में एक से ज़्यादा हाइडन लेयर होती हैं. उदाहरण के लिए, ऊपर दी गई इमेज में डीप नेटल नेटवर्क दिखाया गया है, क्योंकि मॉडल में दो हिडन लेयर हैं.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: नोड और छिपी हुई लेयर देखें.

हाइपर पैरामीटर

#fundamentals

वे वैरिएबल जिन्हें आपने या किसी हाइपरपैरामीटर ट्यूनिंग सेवाने मॉडल को ट्रेनिंग देने के दौरान, लगातार बदला है. उदाहरण के लिए, लर्निंग रेट एक हाइपरपैरामीटर है. किसी ट्रेनिंग सेशन से पहले, लर्निंग रेट को 0.01 पर सेट किया जा सकता है. अगर आपको लगता है कि 0.01 बहुत ज़्यादा है, तो अगले ट्रेनिंग सेशन के लिए, लर्निंग रेट को 0.003 पर सेट किया जा सकता है.

इसके उलट, पैरामीटर वे अलग-अलग वेट और बायस होते हैं जिन्हें मॉडल, ट्रेनिंग के दौरान सीखता है.

I

इंडिपेंडेंटली ऐंड आइडेंटिकल डिस्ट्रिब्यूटेड (i.i.d)

#fundamentals

ऐसा डेटा जो किसी ऐसे डिस्ट्रिब्यूशन से लिया गया हो जो बदलता नहीं है. साथ ही, इसमें ली गई हर वैल्यू, पहले ली गई वैल्यू पर निर्भर नहीं करती. आईआईडी, मशीन लर्निंग का आइडल गैस है. यह गणित का एक अहम कॉन्स्ट्रक्ट है, लेकिन असल दुनिया में इसे कभी भी सटीक तौर पर नहीं पाया जाता. उदाहरण के लिए, किसी वेब पेज पर आने वाले लोगों का डिस्ट्रिब्यूशन, कम समय के लिए आईआईडी हो सकता है. इसका मतलब है कि उस कम समय के दौरान डिस्ट्रिब्यूशन में बदलाव नहीं होता और आम तौर पर एक व्यक्ति की विज़िट, दूसरे व्यक्ति की विज़िट से अलग होती है. हालांकि, अगर इस समयावधि को बढ़ाया जाता है, तो वेब पेज पर आने वाले लोगों की संख्या में सीज़न के हिसाब से अंतर दिख सकता है.

नॉन-स्टेशनैरिटी भी देखें.

अनुमान

#fundamentals

मशीन लर्निंग में, लेबल नहीं किए गए उदाहरणों पर, ट्रेन किए गए मॉडल को लागू करके अनुमान लगाने की प्रोसेस.

आंकड़ों में, अनुमान का मतलब कुछ अलग होता है. ज़्यादा जानकारी के लिए, सांख्यिकीय अनुमान के बारे में Wikipedia का लेख देखें.

सुपरवाइज़्ड लर्निंग सिस्टम में, अनुमान लगाने की भूमिका को समझने के लिए, एआई के बारे में जानकारी देने वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

इनपुट लेयर

#fundamentals

न्यूरल नेटवर्क की लेयर, जिसमें फ़ीचर वेक्टर होता है. इसका मतलब है कि इनपुट लेयर, ट्रेनिंग या अनुमान के लिए उदाहरण देती है. उदाहरण के लिए, यहां दिए गए न्यूरल नेटवर्क की इनपुट लेयर में दो सुविधाएं हैं:

चार लेयर: एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर.

नतीजे को समझने की क्षमता

#fundamentals

मशीन लर्निंग मॉडल के फ़ैसले को समझने लायक शब्दों में, किसी व्यक्ति को बताने या पेश करने की क्षमता.

उदाहरण के लिए, ज़्यादातर लीनियर रिग्रेशन मॉडल को आसानी से समझा जा सकता है. (आपको हर फ़ीचर के लिए, ट्रेन किए गए वेट को देखना होगा.) फ़ैसले के फ़ॉरेस्ट को समझना भी आसान होता है. हालांकि, कुछ मॉडल को समझने के लिए, बेहतर विज़ुअलाइज़ेशन की ज़रूरत होती है.

एमएल मॉडल को समझने के लिए, लर्निंग इंटरप्रिटेबिलिटी टूल (एलआईटी) का इस्तेमाल किया जा सकता है.

इटरेशन

#fundamentals

ट्रेनिंग के दौरान, मॉडल के पैरामीटर का एक अपडेट. इन पैरामीटर में, मॉडल के वज़न और बायस शामिल हैं. बैच साइज़ से यह तय होता है कि मॉडल एक बार में कितने उदाहरणों को प्रोसेस करता है. उदाहरण के लिए, अगर बैच का साइज़ 20 है, तो पैरामीटर में बदलाव करने से पहले मॉडल 20 उदाहरणों को प्रोसेस करता है.

न्यूरल नेटवर्क को ट्रेन करते समय, एक बार के लिए दो पास किए जाते हैं:

किसी एक बैच पर लॉस का आकलन करने के लिए फ़ॉरवर्ड पास.
लॉस और लर्निंग रेट के आधार पर, मॉडल के पैरामीटर में बदलाव करने के लिए बैकवर्ड पास (बैकप्रोपगेशन).

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ग्रेडिएंट डिसेंट देखें.

L

L₀ रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो किसी मॉडल में शून्य से ज़्यादा वेट की कुल संख्या पर जुर्माना लगाता है. उदाहरण के लिए, ऐसे मॉडल को ज़्यादा दंडित किया जाएगा जिसमें 11 ग़ैर-शून्य वैल्यू वाली वैल्यू हैं. वहीं, ऐसे मॉडल को कम दंडित किया जाएगा जिसमें 10 ग़ैर-शून्य वैल्यू वाली वैल्यू हैं.

L₀ रेगुलराइज़ेशन को कभी-कभी L0-नॉर्म रेगुलराइज़ेशन भी कहा जाता है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

आम तौर पर, बड़े मॉडल में L₀ रेगुलराइज़ेशन का इस्तेमाल करना मुश्किल होता है. इसकी वजह यह है कि L₀ रेगुलराइज़ेशन, ट्रेनिंग को कॉन्वेक्स ऑप्टिमाइज़ेशन समस्या में बदल देता है.

L₁ लॉस

#fundamentals

#मेट्रिक

लॉस फ़ंक्शन, जो असल लेबल वैल्यू और मॉडल की अनुमानित वैल्यू के बीच के अंतर की एब्सोल्यूट वैल्यू का हिसाब लगाता है. उदाहरण के लिए, यहां पांच उदाहरणों वाले बैच के लिए, L₁ लॉस का हिसाब लगाया गया है:

उदाहरण की असल वैल्यू	मॉडल की अनुमानित वैल्यू	डेल्टा की ऐब्सलूट वैल्यू
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ लॉस

L₂ लॉस की तुलना में, L₁ लॉस, आउटलायर के लिए कम संवेदनशील होता है.

कुल गड़बड़ी का औसत, हर उदाहरण के लिए L₁ का औसत नुकसान होता है.

फ़ॉर्मल मैथ देखने के लिए, आइकॉन पर क्लिक करें.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

where:

$n$, उदाहरणों की संख्या है.
$y$, लेबल की असल वैल्यू है.
$\hat{y}$ वह वैल्यू है जिसका अनुमान मॉडल, $y$ के लिए लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन: लॉस देखें.

L₁ रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो वेट की कुल वैल्यू के अनुपात में, वेट को दंडित करता है. L₁ रेगुलराइज़ेशन से, काम की नहीं या कम काम की सुविधाओं के वेट को ठीक 0 पर सेट करने में मदद मिलती है. मॉडल से, वह सुविधा हटा दी जाती है जिसका वेट 0 होता है.

L₂ रेगुलराइज़ेशन के साथ तुलना करें.

L₂ लॉस

#fundamentals

#मेट्रिक

लॉस फ़ंक्शन, जो असल लेबल वैल्यू और मॉडल की अनुमानित वैल्यू के बीच के अंतर का स्क्वेयर कैलकुलेट करता है. उदाहरण के लिए, यहां पांच उदाहरणों के बैच के लिए, L₂ लॉस का हिसाब लगाया गया है:

उदाहरण की असल वैल्यू	मॉडल की अनुमानित वैल्यू	डेल्टा का स्क्वेयर
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ हार

स्क्वेयर करने की वजह से, L₂ लॉस, आउटलायर के असर को बढ़ा देता है. इसका मतलब है कि L₂ लॉस, L₁ लॉस के मुकाबले खराब अनुमानों पर ज़्यादा असर डालता है. उदाहरण के लिए, पिछले बैच के लिए L₁ लॉस, 16 के बजाय 8 होगा. ध्यान दें कि 16 में से 9 आउटलायर, एक ही डेटा पॉइंट के हैं.

रिग्रेशन मॉडल, आम तौर पर लॉस फ़ंक्शन के तौर पर L₂ लॉस का इस्तेमाल करते हैं.

वर्ग में गड़बड़ी का माध्य, हर उदाहरण के लिए L₂ का औसत लॉस होता है. स्क्वेयर्ड लॉस, L₂ लॉस का दूसरा नाम है.

फ़ॉर्मल मैथ देखने के लिए, आइकॉन पर क्लिक करें.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

where:

$n$, उदाहरणों की संख्या है.
$y$, लेबल की असल वैल्यू है.
$\hat{y}$ वह वैल्यू है जिसका अनुमान मॉडल, $y$ के लिए लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लॉजिस्टिक रिग्रेशन: लॉस और रेगुलराइज़ेशन देखें.

L₂ रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो वेटेज के स्क्वेयर के योग के अनुपात में, वेटेज पर जुर्माना लगाता है. L₂ रेगुलराइज़ेशन की मदद से, आउटलायर वेट (ज़्यादा पॉज़िटिव या कम नेगेटिव वैल्यू वाले वेट) को 0 के करीब लाया जा सकता है, लेकिन पूरी तरह से 0 नहीं. जिन सुविधाओं की वैल्यू 0 के बहुत करीब होती है वे मॉडल में बनी रहती हैं. हालांकि, इनसे मॉडल के अनुमान पर ज़्यादा असर नहीं पड़ता.

L₂ रेगुलराइज़ेशन, लीनियर मॉडल में जनरलाइज़ेशन को हमेशा बेहतर बनाता है.

L₁ रेगुलराइज़ेशन के साथ तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग: L2 रेगुलराइज़ेशन देखें.

लेबल

#fundamentals

सुपरवाइज़्ड मशीन लर्निंग में, उदाहरण का "जवाब" या "नतीजा" हिस्सा.

हर लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. उदाहरण के लिए, स्पैम का पता लगाने वाले डेटासेट में, लेबल "स्पैम" या "स्पैम नहीं" हो सकता है. बारिश के डेटासेट में, लेबल किसी खास अवधि के दौरान हुई बारिश की मात्रा हो सकती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी में सुपरवाइज़्ड लर्निंग देखें.

लेबल किए गए उदाहरण

#fundamentals

एक ऐसा उदाहरण जिसमें एक या उससे ज़्यादा सुविधाएं और एक लेबल शामिल हैं. उदाहरण के लिए, नीचे दी गई टेबल में घर की वैल्यू तय करने वाले मॉडल के तीन उदाहरण दिए गए हैं. इनमें से हर उदाहरण में तीन सुविधाएं और एक लेबल है:

कमरों की संख्या	बाथरूम की संख्या	घर की उम्र	मकान की कीमत (लेबल)
3	2	15	3,45,000 डॉलर
2	1	72	1,79,000 डॉलर
4	2	34	3,92,000 डॉलर

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल लेबल किए गए उदाहरणों पर ट्रेनिंग लेते हैं और लेबल नहीं किए गए उदाहरणों के आधार पर अनुमान लगाते हैं.

लेबल किए गए उदाहरण और लेबल नहीं किए गए उदाहरणों के बीच का अंतर.

lambda

#fundamentals

नियमित किराया का दूसरा नाम.

Lambda एक ओवरलोड किया गया शब्द है. यहां हम नियमित करने की प्रक्रिया में, इस शब्द की परिभाषा पर फ़ोकस कर रहे हैं.

लेयर

#fundamentals

न्यूरल नेटवर्क में न्यूरॉन का एक सेट. लेयर के तीन सामान्य टाइप ये हैं:

इनपुट लेयर, जो सभी सुविधाओं के लिए वैल्यू उपलब्ध कराती है.
एक या उससे ज़्यादा छिपी हुई लेयर, जो सुविधाओं और लेबल के बीच नॉन-लाइनर संबंधों का पता लगाती हैं.
आउटपुट लेयर, जो अनुमान देती है.

उदाहरण के लिए, यहां दिए गए इलस्ट्रेशन में एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क दिखाया गया है:

एक इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर वाला न्यूरल नेटवर्क. इनपुट लेयर में दो सुविधाएं होती हैं. पहली hidden लेयर में तीन न्यूरॉन और दूसरी hidden लेयर में दो न्यूरॉन होते हैं. आउटपुट लेयर में एक नोड होता है.

TensorFlow में, लेयर भी Python फ़ंक्शन हैं. ये टेंसर और कॉन्फ़िगरेशन के विकल्पों को इनपुट के तौर पर लेते हैं और आउटपुट के तौर पर दूसरे टेंसर जनरेट करते हैं.

सीखने की दर

#fundamentals

यह एक फ़्लोटिंग-पॉइंट नंबर है, जो ग्रेडिएंट डिसेंट एल्गोरिदम को बताता है कि हर इटरेशन पर, वैल्यू और बायस को कितनी ज़ोर से अडजस्ट करना है. उदाहरण के लिए, 0.3 की लर्निंग रेट, 0.1 की लर्निंग रेट के मुकाबले, वज़न और बायस को तीन गुना ज़्यादा तेज़ी से अडजस्ट करेगी.

लर्निंग रेट एक मुख्य हाइपरपैरामीटर है. अगर आपने लर्निंग रेट को बहुत कम सेट किया है, तो ट्रेनिंग में बहुत ज़्यादा समय लगेगा. अगर आपने लर्निंग रेट को बहुत ज़्यादा सेट किया है, तो ग्रेडिएंट डिसेंट को अक्सर कंसर्वेंस तक पहुंचने में परेशानी होती है.

गणित के हिसाब से ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

हर बार दोहराए जाने पर, ग्रेडिएंट डिसेंट एल्गोरिदम, लर्निंग रेट को ग्रेडिएंट से गुणा करता है. इस प्रोसेस से मिलने वाले प्रॉडक्ट को ग्रेडिएंट चरण कहा जाता है.

रेखीय

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का ऐसा संबंध जिसे सिर्फ़ जोड़ और गुणा के ज़रिए दिखाया जा सकता है.

लीनियर रिलेशनशिप का प्लॉट एक लाइन होती है.

nonlinear के साथ कंट्रास्ट करें.

लीनियर मॉडल

#fundamentals

मॉडल, जो अनुमान लगाने के लिए, हर सुविधा के लिए एक वज़न असाइन करता है. (लीनियर मॉडल में भी बायस शामिल होता है.) इसके उलट, डीप मॉडल में, फ़ीचर और अनुमान के बीच का संबंध आम तौर पर नॉन-लाइनर होता है.

आम तौर पर, डीप मॉडल की तुलना में लीनियर मॉडल को ट्रेन करना आसान होता है. साथ ही, इन मॉडल को समझना भी आसान होता है. हालांकि, डीप मॉडल, सुविधाओं के बीच जटिल संबंधों को समझ सकते हैं.

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन, दो तरह के लीनियर मॉडल हैं.

कैलकुलेशन देखने के लिए, आइकॉन पर क्लिक करें.

लीनियर मॉडल इस फ़ॉर्मूला का पालन करता है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

where:

y', अनुमान का रॉ डेटा है. (कुछ तरह के लीनियर मॉडल में, इस कच्चे अनुमान में और बदलाव किए जाएंगे. उदाहरण के लिए, लॉजिस्टिक रिग्रेशन देखें.)
b, बायस है.
w एक वज़न है. इसलिए, w₁ पहली सुविधा का वज़न है, w₂ दूसरी सुविधा का वज़न है, और इसी तरह.
x एक सुविधा है. इसलिए, x₁ पहली सुविधा की वैल्यू है, x₂ दूसरी सुविधा की वैल्यू है वगैरह.

उदाहरण के लिए, मान लें कि तीन फ़ीचर के लिए लीनियर मॉडल, ये बायस और वेट सीखता है:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

इसलिए, तीन फ़ीचर (x₁, x₂, और x₃) दिए जाने पर, लीनियर मॉडल हर अनुमान जनरेट करने के लिए, नीचे दिए गए समीकरण का इस्तेमाल करता है:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

मान लें कि किसी खास उदाहरण में ये वैल्यू हैं:

x₁ = 4
x₂ = -10
x₃ = 5

इन वैल्यू को फ़ॉर्मूला में डालने पर, इस उदाहरण के लिए अनुमान मिलता है:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

लीनियर मॉडल में, सिर्फ़ ऐसे मॉडल शामिल नहीं होते हैं जो अनुमान लगाने के लिए सिर्फ़ लीनियर समीकरण का इस्तेमाल करते हैं. इनमें ऐसे मॉडल का एक बड़ा सेट भी शामिल होता है जो अनुमान लगाने वाले फ़ॉर्मूला के सिर्फ़ एक कॉम्पोनेंट के तौर पर लीनियर समीकरण का इस्तेमाल करते हैं. उदाहरण के लिए, लॉजिस्टिक रिग्रेशन, रॉ अनुमान (y') को पोस्ट-प्रोसेस करता है, ताकि सिर्फ़ 0 से 1 के बीच का अनुमानित फ़ाइनल वैल्यू मिल सके.

लीनियर रिग्रेशन

#fundamentals

मशीन लर्निंग मॉडल का एक टाइप, जिसमें ये दोनों बातें सही हों:

मॉडल एक लीनियर मॉडल है.
अनुमान, फ़्लोटिंग-पॉइंट वैल्यू होती है. (यह लीनियर रिग्रेशन का रिग्रेशन हिस्सा है.)

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन के बीच अंतर करें. साथ ही, कैटगरी के साथ रेग्रेसन की तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

लॉजिस्टिक रिग्रेशन

#fundamentals

रिग्रेशन मॉडल का एक टाइप, जो किसी संभावना का अनुमान लगाता है. लॉजिस्टिक रिग्रेशन मॉडल की ये विशेषताएं हैं:

लेबल कैटगरी के हिसाब से है. लॉजिस्टिक रिग्रेशन का मतलब आम तौर पर बाइनरी लॉजिस्टिक रिग्रेशन से होता है. यह एक ऐसा मॉडल है जो दो संभावित वैल्यू वाले लेबल के लिए संभावनाओं का हिसाब लगाता है. मल्टीनोमियल लॉजिस्टिक रिग्रेशन, एक ऐसा वैरिएंट है जो आम तौर पर इस्तेमाल नहीं किया जाता. यह दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, संभावनाओं का हिसाब लगाता है.
ट्रेनिंग के दौरान लॉस फ़ंक्शन, लॉग लॉस होता है. (दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, एक साथ कई लॉग लॉस यूनिट रखी जा सकती हैं.)
मॉडल में डीप न्यूरल नेटवर्क नहीं, बल्कि लीनियर आर्किटेक्चर है. हालांकि, इस परिभाषा का बाकी हिस्सा उन डीप मॉडल पर भी लागू होता है जो कैटगरी लेबल के लिए संभावनाओं का अनुमान लगाते हैं.

उदाहरण के लिए, लॉजिस्टिक रिग्रेशन मॉडल का इस्तेमाल करके, किसी इनपुट ईमेल के स्पैम होने या न होने की संभावना का हिसाब लगाया जा सकता है. मान लें कि अनुमान लगाने के दौरान, मॉडल ने 0.72 का अनुमान लगाया. इसलिए, मॉडल इन चीज़ों का अनुमान लगा रहा है:

ईमेल के स्पैम होने की 72% संभावना है.
ईमेल के स्पैम न होने की संभावना 28% है.

लॉजिस्टिक रिग्रेशन मॉडल, दो चरणों वाले इस आर्किटेक्चर का इस्तेमाल करता है:

मॉडल, इनपुट फ़ीचर का लीनियर फ़ंक्शन लागू करके, रॉ अनुमान (y') जनरेट करता है.
मॉडल, रॉ अनुमान का इस्तेमाल सिग्मॉइड फ़ंक्शन के इनपुट के तौर पर करता है. यह रॉ अनुमान को 0 से 1 के बीच की वैल्यू में बदल देता है.

किसी भी रिग्रेशन मॉडल की तरह, लॉजिस्टिक रिग्रेशन मॉडल भी किसी संख्या का अनुमान लगाता है. हालांकि, आम तौर पर यह संख्या, बाइनरी क्लासिफ़िकेशन के मॉडल का हिस्सा बन जाती है. यह मॉडल इस तरह काम करता है:

अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से ज़्यादा है, तो बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास का अनुमान लगाता है.
अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो बाइनरी क्लासिफ़िकेशन मॉडल, नेगेटिव क्लास का अनुमान लगाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लॉजिस्टिक रिग्रेशन देखें.

लॉग लॉस

#fundamentals

बाइनरी लॉजिस्टिक रिग्रेशन में इस्तेमाल किया जाने वाला लॉस फ़ंक्शन.

कैलकुलेशन देखने के लिए, आइकॉन पर क्लिक करें.

लॉग लॉस का हिसाब लगाने के लिए, यह फ़ॉर्मूला इस्तेमाल किया जाता है:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

where:

$(x,y)\in D$ एक ऐसा डेटासेट है जिसमें लेबल किए गए कई उदाहरण शामिल हैं. ये उदाहरण $(x,y)$ जोड़े होते हैं.
$y$ , लेबल किए गए उदाहरण में लेबल है. यह लॉजिस्टिक रिग्रेशन है, इसलिए $y$ की हर वैल्यू 0 या 1 होनी चाहिए.
$y'$ , $x$में मौजूद सुविधाओं के सेट के आधार पर, अनुमानित वैल्यू होती है. यह वैल्यू 0 और 1 के बीच होती है.

लॉग-ऑड्स

#fundamentals

किसी इवेंट की संभावनाओं का लॉगरिदम.

कैलकुलेशन देखने के लिए, आइकॉन पर क्लिक करें.

अगर इवेंट की संभावना बाइनरी है, तो ऑड्स का मतलब, सफलता (p) की संभावना और फ़ेल होने (1-p) की संभावना के अनुपात से है. उदाहरण के लिए, मान लें कि किसी इवेंट के होने की संभावना 90% और न होने की संभावना 10% है. इस मामले में, ऑड का हिसाब इस तरह से लगाया जाता है:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

लॉग-ऑड्स, ऑड्स का लॉगरिदम होता है. आम तौर पर, "लॉगारिद्म" का मतलब नेचुरल लॉगारिद्म होता है. हालांकि, लॉगारिद्म में 1 से ज़्यादा का कोई भी बेस हो सकता है. इसलिए, हमारे उदाहरण के लॉग-ऑड्स इस तरह हैं:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

लॉग-ऑड्स फ़ंक्शन, सिग्मॉइड फ़ंक्शन का उलटा होता है.

हार

#fundamentals

#मेट्रिक

सुपरवाइज़्ड मॉडल की ट्रेनिंग के दौरान, यह मेज़र किया जाता है कि मॉडल का अनुमान, उसके लेबल से कितना अलग है.

लॉस फ़ंक्शन, लॉस का हिसाब लगाता है.

लॉस कर्व

#fundamentals

ट्रेनिंग के इटरेशन की संख्या के फ़ंक्शन के तौर पर, लॉस का प्लॉट. नीचे दिया गया प्लॉट, लॉस कर्व को दिखाता है:

लॉस बनाम ट्रेनिंग के दोहराव का कार्टेशियन ग्राफ़, जिसमें शुरुआती दोहरावों के लिए लॉस में तेज़ गिरावट दिख रही है. इसके बाद, धीरे-धीरे गिरावट आ रही है और आखिरी दोहरावों के दौरान लॉस में कोई बदलाव नहीं हुआ है.

लॉस कर्व से यह पता चलता है कि आपका मॉडल कब कंसीव हो रहा है या ओवरफ़िट हो रहा है.

लॉस कर्व में, नीचे दिए गए सभी तरह के नुकसान को प्लॉट किया जा सकता है:

ट्रेनिंग में हुई कमी
पुष्टि न हो पाना
टेस्ट लॉस

जनरलाइज़ेशन कर्व भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग: लॉस कर्व का विश्लेषण करना देखें.

लॉस फ़ंक्शन

#fundamentals

#मेट्रिक

ट्रेनिंग या जांच के दौरान, एक ऐसा गणितीय फ़ंक्शन जो उदाहरणों के बैच पर नुकसान का हिसाब लगाता है. लॉस फ़ंक्शन, अच्छे अनुमान लगाने वाले मॉडल के लिए कम लॉस दिखाता है. वहीं, खराब अनुमान लगाने वाले मॉडल के लिए ज़्यादा लॉस दिखाता है.

आम तौर पर, ट्रेनिंग का लक्ष्य, लॉस फ़ंक्शन से मिलने वाले लॉस को कम करना होता है.

कई तरह के लॉस फ़ंक्शन मौजूद हैं. जिस तरह का मॉडल बनाया जा रहा है उसके लिए सही लॉस फ़ंक्शन चुनें. उदाहरण के लिए:

L₂ लॉस (या वर्ग में गड़बड़ी का माध्य) लीनियर रिग्रेशन के लिए लॉस फ़ंक्शन है.
लॉग लॉस, लॉजिस्टिक रिग्रेशन के लिए लॉस फ़ंक्शन है.

M

मशीन लर्निंग

#fundamentals

ऐसा प्रोग्राम या सिस्टम जो इनपुट डेटा से, मॉडल को ट्रेन करता है. ट्रेन किया गया मॉडल, उसी डिस्ट्रिब्यूशन से मिले नए (पहले कभी न देखे गए) डेटा से काम के अनुमान लगा सकता है जिसका इस्तेमाल मॉडल को ट्रेन करने के लिए किया गया था.

मशीन लर्निंग का मतलब, इन प्रोग्राम या सिस्टम से जुड़े अध्ययन के क्षेत्र से भी है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग के बारे में जानकारी वाला कोर्स देखें.

ज़्यादातर लोगों की कैटगरी

#fundamentals

क्लास के असंतुलित डेटासेट में ज़्यादा सामान्य लेबल. उदाहरण के लिए, अगर किसी डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो नेगेटिव लेबल ज़्यादा हैं.

माइनॉरिटी क्लास के साथ कंट्रास्ट करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट: असंतुलित डेटासेट देखें.

छोटा बैच

#fundamentals

बैच का एक छोटा, रैंडम तौर पर चुना गया सबसेट, जिसे एक इटरेशन में प्रोसेस किया जाता है. आम तौर पर, किसी मिनी-बैच का बैच साइज़ 10 से 1,000 उदाहरणों के बीच होता है.

उदाहरण के लिए, मान लें कि पूरे ट्रेनिंग सेट (पूरे बैच) में 1,000 उदाहरण हैं. मान लें कि आपने हर एक मिनी-बैच के लिए, बैच का साइज़ 20 पर सेट किया है. इसलिए, हर बार 1,000 उदाहरणों में से 20 उदाहरणों के आधार पर लॉस का पता लगाया जाता है. इसके बाद, वेट और बायस में उसी हिसाब से बदलाव किया जाता है.

पूरे बैच के सभी उदाहरणों के लॉस की तुलना में, किसी छोटे बैच के लॉस का हिसाब लगाना ज़्यादा असरदार होता है.

अल्पसंख्यक वर्ग

#fundamentals

क्लास के असंतुलित डेटासेट में कम आम लेबल. उदाहरण के लिए, अगर किसी डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो पॉज़िटिव लेबल, माइनॉरिटी क्लास के लेबल हैं.

बड़ी संख्या में मौजूद क्लास के साथ तुलना करें.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

एक लाख उदाहरणों वाला ट्रेनिंग सेट सुनने में शानदार लगता है. हालांकि, अगर अल्पसंख्यक क्लास का प्रतिनिधित्व खराब तरीके से किया गया है, तो हो सकता है कि बहुत बड़ा ट्रेनिंग सेट भी काफ़ी न हो. डेटासेट में मौजूद उदाहरणों की कुल संख्या पर कम और कम्यूनिटी क्लास में मौजूद उदाहरणों की संख्या पर ज़्यादा ध्यान दें.

अगर आपके डेटासेट में माइनॉरिटी क्लास के उदाहरणों की संख्या ज़रूरत के मुताबिक नहीं है, तो माइनॉरिटी क्लास को बेहतर बनाने के लिए, डाउनसैंपलिंग (दूसरे बुलेट में परिभाषा) का इस्तेमाल करें.

मॉडल

#fundamentals

आम तौर पर, कोई भी गणितीय कॉन्स्ट्रक्ट जो इनपुट डेटा को प्रोसेस करता है और आउटपुट दिखाता है. दूसरे शब्दों में, मॉडल एक सिस्टम के लिए, अनुमान लगाने के लिए ज़रूरी पैरामीटर और स्ट्रक्चर का सेट होता है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल इनपुट के तौर पर उदाहरण लेता है और आउटपुट के तौर पर अनुमान का अनुमान लगाता है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल कुछ अलग होते हैं. उदाहरण के लिए:

लीनियर रिग्रेशन मॉडल में वेट और बायस का एक सेट होता है.
न्यूरल नेटवर्क मॉडल में ये चीज़ें शामिल होती हैं:
- छिपी हुई लेयर का एक सेट, जिसमें हर लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं.
- हर न्यूरॉन से जुड़े वेट और बायस.
डिसीज़न ट्री मॉडल में ये शामिल होते हैं:
- ट्री का आकार; यानी, वह पैटर्न जिसमें शर्तें और पत्तियां जुड़ी होती हैं.
- शर्तें और छुट्टियां.

मॉडल को सेव किया जा सकता है, वापस लाया जा सकता है या उसकी कॉपी बनाई जा सकती है.

बिना निगरानी वाली मशीन लर्निंग भी मॉडल जनरेट करती है. आम तौर पर, यह एक ऐसा फ़ंक्शन होता है जो किसी इनपुट उदाहरण को सबसे सही क्लस्टर से मैप कर सकता है.

बीजगणितीय और प्रोग्रामिंग फ़ंक्शन की तुलना एमएल मॉडल से करने के लिए, आइकॉन पर क्लिक करें.

नीचे दिया गया बीजगणितीय फ़ंक्शन एक मॉडल है:

  f(x, y) = 3x -5xy + y² + 17

पिछला फ़ंक्शन, इनपुट वैल्यू (x और y) को आउटपुट पर मैप करता है.

इसी तरह, नीचे दिया गया प्रोग्रामिंग फ़ंक्शन भी एक मॉडल है:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

कॉलर, पहले वाले Python फ़ंक्शन को आर्ग्युमेंट पास करता है और Python फ़ंक्शन, return स्टेटमेंट की मदद से आउटपुट जनरेट करता है.

डीप न्यूरल नेटवर्क का गणितीय स्ट्रक्चर, ऐल्जेब्रिक या प्रोग्रामिंग फ़ंक्शन से काफ़ी अलग होता है. इसके बावजूद, डीप न्यूरल नेटवर्क इनपुट (उदाहरण) लेता है और आउटपुट (अनुमान) देता है.

कोई प्रोग्रामर, प्रोग्रामिंग फ़ंक्शन को मैन्युअल तरीके से कोड करता है. इसके उलट, ऑटोमेटेड ट्रेनिंग के दौरान, मशीन लर्निंग मॉडल धीरे-धीरे सबसे सही पैरामीटर सीखता है.

मल्टी-क्लास क्लासिफ़िकेशन

#fundamentals

सुपरवाइज़्ड लर्निंग में, क्लासिफ़िकेशन से जुड़ी समस्या, जिसमें डेटासेट में लेबल की क्लास दो से ज़्यादा होती हैं. उदाहरण के लिए, Iris डेटासेट में मौजूद लेबल, इन तीन में से किसी एक क्लास में होने चाहिए:

आइरिस सेटोसा
Iris virginica
आइरिस वर्सिकलर

आइरिस डेटासेट पर ट्रेन किया गया मॉडल, नए उदाहरणों के आधार पर आइरिस टाइप का अनुमान लगाता है. यह मॉडल, कई क्लास का क्लासिफ़िकेशन करता है.

इसके उलट, क्लासिफ़िकेशन की ऐसी समस्याएं जिनमें सिर्फ़ दो क्लास के बीच अंतर किया जाता है उन्हें बाइनरी क्लासिफ़िकेशन मॉडल कहा जाता है. उदाहरण के लिए, ईमेल का ऐसा मॉडल जो स्पैम या स्पैम नहीं का अनुमान लगाता है, वह बाइनरी क्लासिफ़िकेशन मॉडल होता है.

क्लस्टर करने से जुड़ी समस्याओं में, मल्टी-क्लास क्लासिफ़िकेशन का मतलब दो से ज़्यादा क्लस्टर से है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: अलग-अलग क्लास के लिए अलग-अलग कैटगरी देखें.

नहीं

नेगेटिव क्लास

#fundamentals

#मेट्रिक

बाइनरी क्लासिफ़िकेशन में, एक क्लास को पॉज़िटिव और दूसरी क्लास को नेगेटिव कहा जाता है. पॉज़िटिव क्लास वह चीज़ या इवेंट है जिसकी जांच मॉडल कर रहा है और नेगेटिव क्लास दूसरी संभावना है. उदाहरण के लिए:

किसी मेडिकल टेस्ट में नेगेटिव क्लास, "ट्यूमर नहीं" हो सकती है.
किसी ईमेल के क्लासिफ़िकेशन मॉडल में नेगेटिव क्लास, "स्पैम नहीं है" हो सकती है.

पॉज़िटिव क्लास के साथ कंट्रास्ट करें.

न्यूरल नेटवर्क

#fundamentals

ऐसा मॉडल जिसमें कम से कम एक छिपी हुई लेयर हो. डीप न्यूरल नेटवर्क, एक तरह का न्यूरल नेटवर्क है. इसमें एक से ज़्यादा हिडन लेयर होती हैं. उदाहरण के लिए, नीचे दिए गए डायग्राम में एक डीप न्यूरल नेटवर्क दिखाया गया है, जिसमें दो छिपी हुई लेयर हैं.

इनपुट लेयर, दो हिडन लेयर, और आउटपुट लेयर वाला न्यूरल नेटवर्क.

किसी न्यूरल नेटवर्क में मौजूद हर न्यूरॉन, अगली लेयर के सभी नोड से कनेक्ट होता है. उदाहरण के लिए, पिछले डायग्राम में देखें कि पहली छिपी हुई लेयर में मौजूद तीनों न्यूरॉन, दूसरी छिपी हुई लेयर में मौजूद दोनों न्यूरॉन से अलग-अलग कनेक्ट होते हैं.

कंप्यूटर पर लागू किए गए न्यूरल नेटवर्क को कभी-कभी ऐrtificial neural networks कहा जाता है. ऐसा इसलिए किया जाता है, ताकि इन्हें मस्तिष्क और अन्य तंत्रिका सिस्टम में मौजूद न्यूरल नेटवर्क से अलग किया जा सके.

कुछ न्यूरल नेटवर्क, अलग-अलग सुविधाओं और लेबल के बीच बहुत ही जटिल नॉनलाइनियर रिलेशनशिप की नकल कर सकते हैं.

कन्वोल्यूशनल न्यूरल नेटवर्क और रीकurrent न्यूरल नेटवर्क भी देखें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

न्यूरॉन

#fundamentals

मशीन लर्निंग में, न्यूरल नेटवर्क की छिपी हुई लेयर में मौजूद एक अलग यूनिट. हर न्यूरॉन, नीचे दी गई दो चरणों वाली कार्रवाई करता है:

इनपुट वैल्यू के साथ उनके वेट को गुणा करके, वेटेड योग का हिसाब लगाता है.
ऐक्टिवेशन फ़ंक्शन को इनपुट के तौर पर, वेटेड योग पास करता है.

पहली हिडन लेयर में मौजूद न्यूरॉन, इनपुट लेयर में मौजूद फ़ीचर वैल्यू से इनपुट स्वीकार करता है. पहली से परे किसी भी छिपी हुई लेयर में मौजूद न्यूरॉन, पिछली छिपी हुई लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है. उदाहरण के लिए, दूसरी छिपी हुई लेयर में मौजूद न्यूरॉन, पहली छिपी हुई लेयर में मौजूद न्यूरॉन से इनपुट स्वीकार करता है.

नीचे दिए गए इलस्ट्रेशन में दो न्यूरॉन और उनके इनपुट को हाइलाइट किया गया है.

इनपुट लेयर, दो हिडन लेयर, और आउटपुट लेयर वाला न्यूरल नेटवर्क. दो न्यूरॉन हाइलाइट किए गए हैं: पहला, पहली
छिपी हुई लेयर में और दूसरा, दूसरी छिपी हुई लेयर में. पहली छिपी हुई लेयर में हाइलाइट किए गए न्यूरॉन को इनपुट लेयर में मौजूद दोनों सुविधाओं से इनपुट मिलते हैं. दूसरी छिपी हुई लेयर में हाइलाइट किए गए न्यूरॉन को, पहली छिपी हुई लेयर के तीनों न्यूरॉन से इनपुट मिलते हैं.

न्यूरल नेटवर्क में मौजूद न्यूरॉन, दिमाग और नर्वस सिस्टम के अन्य हिस्सों में मौजूद न्यूरॉन के व्यवहार की नकल करता है.

नोड (न्यूरल नेटवर्क)

#fundamentals

छिपी हुई लेयर में मौजूद न्यूरॉन.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क देखें.

nonlinear

#fundamentals

दो या उससे ज़्यादा वैरिएबल के बीच का ऐसा संबंध जिसे सिर्फ़ जोड़ और गुणा के ज़रिए नहीं दिखाया जा सकता. लीनियर संबंध को लाइन के तौर पर दिखाया जा सकता है. हालांकि, नॉन-लीनियर संबंध को लाइन के तौर पर नहीं दिखाया जा सकता. उदाहरण के लिए, दो मॉडल लें, जिनमें से हर मॉडल में एक सुविधा को एक लेबल से जोड़ा गया हो. बाईं ओर मौजूद मॉडल लीनियर है और दाईं ओर मौजूद मॉडल नॉन-लीनियर है:

दो प्लॉट. एक प्लॉट एक लाइन है, इसलिए यह एक लीनियर रिलेशनशिप है.
दूसरा प्लॉट एक कर्व है, इसलिए यह एक नॉनलाइनर रिलेशनशिप है.

अलग-अलग तरह के नॉनलाइनर फ़ंक्शन आज़माने के लिए, मशीन लर्निंग क्रैश कोर्स में न्यूरल नेटवर्क: नोड और हिडन लेयर देखें.

नॉन-स्टेशनरी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में बदलती है. आम तौर पर, समय के साथ. उदाहरण के लिए, नॉन-स्टेशनरी डेटा के ये उदाहरण देखें:

किसी खास स्टोर में बेचे जाने वाले स्विमसूट की संख्या, सीज़न के हिसाब से अलग-अलग होती है.
किसी खास इलाके में किसी खास फ़ल की पैदावार, साल के ज़्यादातर समय के लिए शून्य होती है. हालांकि, कुछ समय के लिए यह ज़्यादा होती है.
जलवायु परिवर्तन की वजह से, साल के औसत तापमान में बदलाव हो रहा है.

स्टेशनरिटी के साथ कंट्रास्ट करें.

नॉर्मलाइज़ेशन

#fundamentals

आम तौर पर, किसी वैरिएबल की वैल्यू की असल रेंज को वैल्यू की स्टैंडर्ड रेंज में बदलने की प्रोसेस. जैसे:

-1 से +1
0 से 1
Z-स्कोर (लगभग -3 से +3)

उदाहरण के लिए, मान लें कि किसी खास सुविधा की वैल्यू की असल रेंज 800 से 2,400 है. फ़ीचर इंजीनियरिंग के हिस्से के तौर पर, असल वैल्यू को स्टैंडर्ड रेंज में नॉर्मलाइज़ किया जा सकता है. जैसे, -1 से +1.

फ़ीचर इंजीनियरिंग में सामान्य तौर पर, डेटा को सामान्य रूप में बदला जाता है. आम तौर पर, मॉडल तेज़ी से ट्रेन होते हैं और बेहतर अनुमान देते हैं. ऐसा तब होता है, जब फ़ीचर वेक्टर में मौजूद हर संख्या वाली फ़ीचर की रेंज एक जैसी हो.

ज़ेड-स्कोर नॉर्मलाइज़ेशन भी देखें.

संख्याओं वाला डेटा

#fundamentals

विशेषताएं, जो पूर्णांक या रीयल वैल्यू वाली संख्याओं के तौर पर दिखाई जाती हैं. उदाहरण के लिए, घर की कीमत का आकलन करने वाला मॉडल, घर के साइज़ (वर्ग फ़ीट या वर्ग मीटर में) को संख्या के तौर पर दिखाएगा. किसी फ़ीचर को संख्या वाले डेटा के तौर पर दिखाने से पता चलता है कि फ़ीचर की वैल्यू, लेबल से गणितीय तौर पर जुड़ी हैं. इसका मतलब है कि किसी घर के वर्ग मीटर की संख्या का, घर की कीमत से कोई गणितीय संबंध हो सकता है.

सभी इंटीजर डेटा को अंकों वाले डेटा के तौर पर नहीं दिखाया जाना चाहिए. उदाहरण के लिए, दुनिया के कुछ हिस्सों में पिन कोड पूर्णांक होते हैं. हालांकि, पूर्णांक वाले पिन कोड को मॉडल में संख्या के तौर पर नहीं दिखाया जाना चाहिए. ऐसा इसलिए है, क्योंकि 20000 का पिन कोड, 10,000 के पिन कोड के मुकाबले दोगुना (या आधा) असरदार नहीं होता. इसके अलावा, अलग-अलग पिन कोड से, रीयल एस्टेट की अलग-अलग वैल्यू का पता चलता है. हालांकि, हम यह नहीं मान सकते कि पिन कोड 20000 की रीयल एस्टेट वैल्यू, पिन कोड 10000 की रीयल एस्टेट वैल्यू से दोगुनी है. पिन कोड को कैटगरी वाले डेटा के तौर पर दिखाया जाना चाहिए.

संख्या वाली विशेषताओं को कभी-कभी कंटिन्यूअस फ़ीचर कहा जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में नंबर वाले डेटा के साथ काम करना देखें.

O

अॉफ़लाइन

#fundamentals

स्टैटिक का समानार्थी शब्द.

ऑफ़लाइन अनुमान

#fundamentals

मॉडल की वह प्रोसेस जिसमें अनुमान का एक बैच जनरेट किया जाता है और फिर उन अनुमानों को कैश मेमोरी में सेव (सेव) किया जाता है. इसके बाद, ऐप्लिकेशन मॉडल को फिर से चलाने के बजाय, कैश मेमोरी से अनुमानित अनुमान ऐक्सेस कर सकते हैं.

उदाहरण के लिए, एक ऐसा मॉडल जो हर चार घंटे में स्थानीय मौसम के पूर्वानुमान (अनुमान) जनरेट करता है. हर मॉडल के चलने के बाद, सिस्टम, मौसम के सभी स्थानीय पूर्वानुमान को कैश मेमोरी में सेव कर लेता है. मौसम के पूर्वानुमान बताने वाले ऐप्लिकेशन, कैश मेमोरी से पूर्वानुमान हासिल करते हैं.

ऑफ़लाइन अनुमान लगाने की प्रोसेस को स्टैटिक अनुमान भी कहा जाता है.

ऑनलाइन अनुमान के साथ तुलना करें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में प्रोडक्शन एमएल सिस्टम: स्टैटिक बनाम डाइनैमिक इंफ़रेंस देखें.

वन-हॉट एन्कोडिंग

#fundamentals

कैटगरी वाले डेटा को वेक्टर के तौर पर दिखाना, जिसमें:

एक एलिमेंट को 1 पर सेट किया गया है.
बाकी सभी एलिमेंट 0 पर सेट होते हैं.

आम तौर पर, वन-हॉट कोडिंग का इस्तेमाल उन स्ट्रिंग या आइडेंटिफ़ायर को दिखाने के लिए किया जाता है जिनमें संभावित वैल्यू का सीमित सेट होता है. उदाहरण के लिए, मान लें कि Scandinavia नाम की किसी कैटगरी वाली सुविधा की पांच संभावित वैल्यू हैं:

"डेनमार्क"
"स्वीडन"
"नॉर्वे"
"फ़िनलैंड"
"आइसलैंड"

वन-हॉट कोडिंग, इन पांच वैल्यू को इस तरह दिखा सकती है:

country	वेक्टर
"डेनमार्क"	1	0	0	0	0
"स्वीडन"	0	1	0	0	0
"नॉर्वे"	0	0	1	0	0
"फ़िनलैंड"	0	0	0	1	0
"आइसलैंड"	0	0	0	0	1

वन-हॉट कोडिंग की मदद से, मॉडल पांचों देशों के आधार पर अलग-अलग कनेक्शन सीख सकता है.

किसी फ़ीचर को न्यूमेरिक डेटा के तौर पर दिखाना, वन-हॉट एन्कोडिंग का एक विकल्प है. माफ़ करें, स्कैंडिनेवियन देशों को संख्या के हिसाब से दिखाना एक अच्छा विकल्प नहीं है. उदाहरण के लिए, संख्याओं को इस तरह दिखाया जा सकता है:

"Denmark" is 0
"स्वीडन" 1 है
"Norway" is 2
"फ़िनलैंड" 3 है
"Iceland" 4 है

अंकों में एन्कोड करने की सुविधा की मदद से, मॉडल रॉ नंबर को गणित के हिसाब से समझता है और उन नंबरों पर ट्रेनिंग की कोशिश करता है. हालांकि, आइसलैंड में नॉर्वे के मुकाबले दोगुना (या आधा) कुछ भी नहीं है. इसलिए, मॉडल कुछ अजीब नतीजे देगा.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी वाला डेटा: शब्दावली और वन-हॉट एन्कोडिंग देखें.

one-vs.-all

#fundamentals

N क्लास वाली कैटगरी तय करने की समस्या के लिए, N अलग-अलग बाइनरी क्लासिफ़ायर वाला समाधान. हर संभावित नतीजे के लिए एक बाइनरी क्लासिफ़ायर. उदाहरण के लिए, किसी ऐसे मॉडल के लिए जो उदाहरणों को जानवर, सब्जी या खनिज के तौर पर बांटता है, एक-बनाम-सभी समाधान से ये तीन अलग-अलग बाइनरी क्लासिफ़ायर मिलेंगे:

जानवर है या नहीं
सब्ज़ी बनाम नॉन-वेजिटेबल
मिनरल बनाम नॉन-मिनरल

online

#fundamentals

डाइनैमिक का समानार्थी शब्द.

ऑनलाइन अनुमान

#fundamentals

मांग के हिसाब से अनुमान जनरेट करना. उदाहरण के लिए, मान लें कि कोई ऐप्लिकेशन किसी मॉडल को इनपुट भेजता है और अनुमान का अनुरोध करता है. ऑनलाइन अनुमान लगाने वाला सिस्टम, मॉडल को चलाकर अनुरोध का जवाब देता है. साथ ही, ऐप्लिकेशन को अनुमान दिखाता है.

ऑफ़लाइन अनुमान के साथ तुलना करें.

आउटपुट लेयर

#fundamentals

न्यूरल नेटवर्क की "आखिरी" लेयर. आउटपुट लेयर में अनुमान होता है.

इस इलस्ट्रेशन में, एक छोटा डीप न्यूरल नेटवर्क दिखाया गया है. इसमें इनपुट लेयर, दो हिडन लेयर, और एक आउटपुट लेयर है:

ओवरफ़िटिंग

#fundamentals

ऐसा मॉडल बनाना जो ट्रेनिंग डेटा से काफ़ी हद तक मेल खाता हो. इससे मॉडल, नए डेटा के लिए सही अनुमान नहीं लगा पाता.

रेगुलराइज़ेशन से, ओवरफ़िटिंग कम हो सकती है. बड़े और अलग-अलग तरह के ट्रेनिंग सेट पर ट्रेनिंग देने से भी, ओवरफ़िटिंग की समस्या कम हो सकती है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

ओवरफ़िटिंग का मतलब है, सिर्फ़ अपने पसंदीदा शिक्षक के सुझावों का पालन करना. ऐसा हो सकता है कि आप उस शिक्षक की क्लास में अच्छा परफ़ॉर्म करें, लेकिन हो सकता है कि आप उस शिक्षक के आइडिया के हिसाब से "ओवरफ़िट" हों और दूसरी क्लास में अच्छा परफ़ॉर्म न कर पाएं. अलग-अलग तरह के शिक्षकों की सलाह अपनाने से, आपको नई स्थितियों में बेहतर तरीके से अडजस्ट करने में मदद मिलेगी.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग देखें.

P

पांडा

#fundamentals

numpy पर आधारित, कॉलम-ओरिएंटेड डेटा विश्लेषण एपीआई. TensorFlow के साथ-साथ कई मशीन लर्निंग फ़्रेमवर्क, इनपुट के तौर पर pandas डेटा स्ट्रक्चर का इस्तेमाल करते हैं. ज़्यादा जानकारी के लिए, pandas का दस्तावेज़ देखें.

पैरामीटर

#fundamentals

वेट और बायस, जिन्हें मॉडल ट्रेनिंग के दौरान सीखता है. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल में, पैरामीटर में नीचे दिए गए फ़ॉर्मूले में, बायस (b) और सभी वेट (w₁, w₂ वगैरह) शामिल होते हैं:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

इसके उलट, हाइपरपैरामीटर वे वैल्यू होती हैं जिन्हें आप या कोई हाइपरपैरामीटर ट्यूनिंग सेवा, मॉडल को देती है. उदाहरण के लिए, लर्निंग रेट एक हाइपरपैरामीटर है.

पॉज़िटिव क्लास

#fundamentals

#मेट्रिक

वह क्लास जिसकी जांच की जा रही है.

उदाहरण के लिए, कैंसर मॉडल में पॉज़िटिव क्लास "ट्यूमर" हो सकती है. ईमेल के कैटगरी मॉडल में, पॉज़िटिव क्लास "स्पैम" हो सकती है.

नेगेटिव क्लास के साथ कंट्रास्ट करें.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

पॉज़िटिव क्लास शब्द भ्रमित करने वाला हो सकता है, क्योंकि कई टेस्ट के "पॉज़िटिव" नतीजे अक्सर अनचाहे होते हैं. उदाहरण के लिए, कई मेडिकल टेस्ट में पॉज़िटिव क्लास, ट्यूमर या बीमारियों से जुड़ी होती है. आम तौर पर, आपको डॉक्टर से यह सुनना अच्छा लगता है, "बधाई हो! आपके टेस्ट के नतीजे नेगेटिव आए हैं." भले ही, पॉज़िटिव क्लास वह इवेंट है जिसे टेस्ट ढूंढ रहा है.

यह स्वीकार किया जाता है कि आपने एक साथ पॉज़िटिव और नेगेटिव, दोनों क्लास के लिए जांच की है.

पोस्ट-प्रोसेसिंग

#responsible

#fundamentals

मॉडल को चलाने के बाद, मॉडल के आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए किया जा सकता है.

उदाहरण के लिए, बाइनरी क्लासिफ़ायर पर पोस्ट-प्रोसेसिंग लागू की जा सकती है. इसके लिए, क्लासिफ़िकेशन थ्रेशोल्ड को इस तरह सेट करें कि किसी एट्रिब्यूट के लिए समान अवसर बनाए रखा जा सके. इसके लिए, यह देखें कि ट्रू पॉजिटिव रेट, उस एट्रिब्यूट की सभी वैल्यू के लिए एक जैसा हो.

अनुमान

#fundamentals

मॉडल का आउटपुट. उदाहरण के लिए:

बाइनरी क्लासिफ़िकेशन मॉडल का अनुमान, पॉज़िटिव क्लास या नेगेटिव क्लास में से कोई एक होता है.
मल्टी-क्लास क्लासिफ़िकेशन मॉडल का अनुमान, एक क्लास का होता है.
लीनियर रिग्रेशन मॉडल का अनुमान एक संख्या होती है.

प्रॉक्सी लेबल

#fundamentals

डेटासेट में सीधे तौर पर उपलब्ध नहीं होने वाले लेबल का अनुमान लगाने के लिए इस्तेमाल किया जाने वाला डेटा.

उदाहरण के लिए, मान लें कि आपको कर्मचारी के तनाव के लेवल का अनुमान लगाने के लिए, किसी मॉडल को ट्रेन करना है. आपके डेटासेट में, अनुमान लगाने वाली कई सुविधाएं हैं, लेकिन इसमें तनाव का लेवल नाम का लेबल नहीं है. इसके बावजूद, आपने तनाव के लेवल के लिए, "ऑफ़िस में होने वाली दुर्घटनाएं" को प्रॉक्सी लेबल के तौर पर चुना. आखिरकार, तनाव में रहने वाले कर्मचारियों की तुलना में, शांत रहने वाले कर्मचारियों को ज़्यादा ऐक्सिडेंट होते हैं. क्या ऐसा है? ऐसा हो सकता है कि नौकरी के दौरान होने वाली दुर्घटनाओं की संख्या में कई वजहों से बढ़ोतरी और गिरावट आती हो.

दूसरे उदाहरण के तौर पर, मान लें कि आपको अपने डेटासेट के लिए, क्या बारिश हो रही है? को बूलियन लेबल बनाना है, लेकिन आपके डेटासेट में बारिश का डेटा मौजूद नहीं है. अगर फ़ोटो उपलब्ध हैं, तो क्या बारिश हो रही है? के लिए, छतरी लिए हुए लोगों की फ़ोटो को प्रॉक्सी लेबल के तौर पर सेट किया जा सकता है क्या यह एक अच्छा प्रॉक्सी लेबल है? हो सकता है, लेकिन कुछ देशों के लोग बारिश से ज़्यादा, धूप से बचने के लिए छतरी का इस्तेमाल करते हों.

प्रॉक्सी लेबल अक्सर सही नहीं होते. जब भी संभव हो, प्रॉक्सी लेबल के बजाय असली लेबल चुनें. हालांकि, अगर कोई असल लेबल मौजूद नहीं है, तो प्रॉक्सी लेबल को बहुत सावधानी से चुनें. साथ ही, सबसे कम खराब प्रॉक्सी लेबल चुनें.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट: लेबल देखें.

R

आरएजी

#fundamentals

रिट्रीवल-ऑगमेंटेड जनरेशन का छोटा नाम.

रेटिंग देने वाला

#fundamentals

वह व्यक्ति जो उदाहरणों के लिए लेबल उपलब्ध कराता है. रेटिंग देने वाले व्यक्ति को "एनोटेट करने वाला" भी कहा जाता है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी वाला डेटा: सामान्य समस्याएं देखें.

रेक्टिफ़ाइड लीनियर यूनिट (आरईएलयू)

#fundamentals

चालू करने वाला फ़ंक्शन, जो इस तरह काम करता है:

अगर इनपुट नेगेटिव या शून्य है, तो आउटपुट 0 होगा.
अगर इनपुट पॉज़िटिव है, तो आउटपुट इनपुट के बराबर होगा.

उदाहरण के लिए:

अगर इनपुट -3 है, तो आउटपुट 0 होगा.
अगर इनपुट +3 है, तो आउटपुट 3.0 होगा.

यहां ReLU का प्लॉट दिया गया है:

ReLU एक बहुत लोकप्रिय ऐक्टिवेशन फ़ंक्शन है. आसान तरीके से काम करने के बावजूद, ReLU की मदद से न्यूरल नेटवर्क, एट्रिब्यूट और लेबल के बीच नॉन-लाइनर संबंधों को सीख सकता है.

रिग्रेशन मॉडल

#fundamentals

आम तौर पर, ऐसा मॉडल जो संख्या के हिसाब से अनुमान जनरेट करता है. इसके उलट, क्लासिफ़िकेशन मॉडल, क्लास का अनुमान जनरेट करता है. उदाहरण के लिए, ये सभी रेग्रेसन मॉडल हैं:

यह मॉडल, किसी घर की कीमत का अनुमान यूरो में लगाता है. जैसे, 4,23,000.
यह एक मॉडल है, जो किसी पेड़ की उम्र का अनुमान लगाता है. जैसे, 23.2 साल.
यह एक ऐसा मॉडल है जो अगले छह घंटों में किसी शहर में होने वाली बारिश की मात्रा का अनुमान इंच में बताता है. जैसे, 0.18.

आम तौर पर, रेग्रेसन मॉडल दो तरह के होते हैं:

लीनियर रिग्रेशन, जो ऐसी लाइन ढूंढता है जो सुविधाओं के लिए लेबल वैल्यू को सबसे बेहतर तरीके से फ़िट करती है.
लॉजिस्टिक रिग्रेशन, जो 0.0 से 1.0 के बीच की संभावना जनरेट करता है. आम तौर पर, सिस्टम इस संभावना को किसी क्लास के अनुमान से मैप करता है.

संख्या के हिसाब से अनुमान देने वाला हर मॉडल, रिग्रेशन मॉडल नहीं होता. कुछ मामलों में, अंकों वाला अनुमान सिर्फ़ एक क्लासिफ़िकेशन मॉडल होता है, जिसमें अंकों वाली क्लास के नाम होते हैं. उदाहरण के लिए, अंकों वाले पिन कोड का अनुमान लगाने वाला मॉडल, रेग्रेसन मॉडल नहीं, बल्कि क्लासिफ़िकेशन मॉडल होता है.

रेगुलराइज़ेशन

#fundamentals

ऐसा कोई भी तरीका जो ओवरफ़िटिंग को कम करता है. नियमों का पालन करने के लिए, ये तरीके सबसे ज़्यादा इस्तेमाल किए जाते हैं:

L₁ रेगुलराइज़ेशन
L₂ रेगुलराइज़ेशन
ड्रॉपआउट रेगुलराइज़ेशन
रिच्यूज़न की प्रोसेस को जल्दी खत्म करना (यह रेगुलराइज़ेशन का कोई आधिकारिक तरीका नहीं है, लेकिन इससे ओवरफ़िटिंग को असरदार तरीके से सीमित किया जा सकता है)

रेगुलराइज़ेशन को मॉडल की जटिलता पर लगने वाले जुर्माने के तौर पर भी परिभाषित किया जा सकता है.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

रेगुलराइज़ेशन का मतलब है कि किसी चीज़ को नियमों के मुताबिक बनाना. आम तौर पर, रेगुलराइज़ेशन बढ़ाने से, ट्रेनिंग लॉस बढ़ता है. यह भ्रम की स्थिति पैदा करता है, क्योंकि क्या ट्रेनिंग लॉस को कम करने का लक्ष्य नहीं है?

नहीं. इसका मकसद, ट्रेनिंग में होने वाली गड़बड़ी को कम करना नहीं है. इसका मकसद, असल दुनिया के उदाहरणों के आधार पर बेहतरीन अनुमान लगाना है. दिलचस्प बात यह है कि रेगुलराइज़ेशन बढ़ाने से ट्रेनिंग लॉस बढ़ता है, लेकिन आम तौर पर इससे मॉडल को असल दुनिया के उदाहरणों के आधार पर बेहतर अनुमान लगाने में मदद मिलती है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग: मॉडल की जटिलता देखें.

रेगुलराइज़ेशन रेट

#fundamentals

यह एक संख्या है, जो ट्रेनिंग के दौरान नियमित करने की तुलनात्मक अहमियत बताती है. रेगुलराइज़ेशन रेट बढ़ाने से, ओवरफ़िटिंग कम हो जाती है. हालांकि, इससे मॉडल की अनुमान लगाने की क्षमता कम हो सकती है. इसके उलट, रेगुलराइज़ेशन रेट को कम करने या हटाने से, ओवरफ़िटिंग बढ़ जाती है.

कैलकुलेशन देखने के लिए, आइकॉन पर क्लिक करें.

रेगुलराइज़ेशन रेट को आम तौर पर ग्रीक अक्षर लेम्ब्डा के तौर पर दिखाया जाता है. यहां दिए गए आसान लॉस समीकरण से, lambda के असर के बारे में पता चलता है:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

यहां नियमित करना, नियमित करने का कोई भी तरीका है. इसमें ये शामिल हैं:

L₁ रेगुलराइज़ेशन
L₂ रेगुलराइज़ेशन

ReLU

#fundamentals

रेक्टिफ़ाइड लीनियर यूनिट का छोटा नाम.

रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी)

#fundamentals

लार्ज लैंग्वेज मॉडल (एलएलएम) के आउटपुट की क्वालिटी को बेहतर बनाने की एक तकनीक. इसमें, मॉडल को ट्रेन करने के बाद, इकट्ठा किए गए ज्ञान के सोर्स का इस्तेमाल किया जाता है. आरएजी, ट्रेन किए गए एलएलएम को भरोसेमंद नॉलेज बेस या दस्तावेज़ों से मिली जानकारी का ऐक्सेस देकर, एलएलएम के जवाबों को ज़्यादा सटीक बनाता है.

रीट्रिवल-ऑगमेंटेड जनरेशन का इस्तेमाल करने की सामान्य वजहें ये हैं:

मॉडल के जनरेट किए गए जवाबों को ज़्यादा सटीक बनाना.
मॉडल को उस जानकारी का ऐक्सेस देना जिस पर उसे ट्रेन नहीं किया गया था.
मॉडल में मौजूद जानकारी में बदलाव करना.
सोर्स का हवाला देने के लिए मॉडल को चालू करना.

उदाहरण के लिए, मान लें कि कोई केमिस्ट्री ऐप्लिकेशन, उपयोगकर्ता की क्वेरी से जुड़ी खास जानकारी जनरेट करने के लिए, PaLM API का इस्तेमाल करता है. जब ऐप्लिकेशन के बैकएंड को कोई क्वेरी मिलती है, तो बैकएंड:

उपयोगकर्ता की क्वेरी से जुड़ा डेटा खोजता है ("प्राप्त करता है").
उपयोगकर्ता की क्वेरी में, काम का केमिस्ट्री डेटा जोड़ता है ("बढ़ाता है").
जोड़े गए डेटा के आधार पर समरी बनाने के लिए, एलएलएम को निर्देश देता है.

आरओसी (रिसीवर ऑपरेटिंग चैरेक्टरिस्टिक) कर्व

#fundamentals

#मेट्रिक

बाइनरी क्लासिफ़िकेशन में, अलग-अलग क्लासिफ़िकेशन थ्रेशोल्ड के लिए, ट्रू पॉज़िटिव रेट बनाम फ़ॉल्स पॉज़िटिव रेट का ग्राफ़.

आरओसी कर्व के आकार से पता चलता है कि बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने में कितना कारगर है. उदाहरण के लिए, मान लें कि कोई बाइनरी क्लासिफ़िकेशन मॉडल, सभी नेगेटिव क्लास को सभी पॉज़िटिव क्लास से पूरी तरह से अलग करता है:

दाईं ओर आठ पॉज़िटिव और बाईं ओर सात नेगेटिव उदाहरणों वाली संख्या रेखा.

पिछले मॉडल का आरओसी कर्व कुछ ऐसा दिखता है:

आरओसी कर्व. x-ऐक्सिस पर फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस पर
ट्रू पॉज़िटिव रेट होता है. कर्व का आकार, उलटा L जैसा है. कर्व (0.0,0.0) से शुरू होता है और सीधे (0.0,1.0) तक जाता है. इसके बाद, कर्व (0.0,1.0) से (1.0,1.0) पर पहुंच जाता है.

इसके उलट, नीचे दिए गए इलस्ट्रेशन में एक खराब मॉडल के लिए, लॉजिस्टिक रिग्रेशन की रॉ वैल्यू का ग्राफ़ दिखाया गया है. यह मॉडल, नेगेटिव क्लास को पॉज़िटिव क्लास से अलग नहीं कर सकता:

पॉज़िटिव उदाहरणों और नेगेटिव क्लास के साथ एक संख्या रेखा, जिसमें दोनों पूरी तरह से एक-दूसरे में शामिल हैं.

इस मॉडल के लिए आरओसी कर्व इस तरह दिखता है:

आरओसी कर्व, जो असल में (0.0,0.0) से (1.0,1.0) तक की सीधी रेखा होती है.

वहीं, असल दुनिया में, ज़्यादातर बाइनरी क्लासिफ़िकेशन मॉडल, सकारात्मक और नकारात्मक कैटगरी को कुछ हद तक अलग करते हैं. हालांकि, आम तौर पर ऐसा पूरी तरह से नहीं होता. इसलिए, एक सामान्य आरओसी कर्व इन दोनों चरम स्थितियों के बीच होता है:

आरओसी कर्व. x-ऐक्सिस पर फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस पर
ट्रू पॉज़िटिव रेट होता है. आरओसी कर्व, कंपास के पॉइंट को पश्चिम से उत्तर तक ले जाने वाले, झटके वाले आर्क के आस-पास होता है.

आरओसी कर्व पर (0.0,1.0) के सबसे करीब मौजूद पॉइंट से, सैद्धांतिक तौर पर, कैटगरी तय करने के लिए सबसे सही थ्रेशोल्ड का पता चलता है. हालांकि, असल दुनिया की कई अन्य समस्याएं, क्लासिफ़िकेशन के लिए सही थ्रेशोल्ड चुनने पर असर डालती हैं. उदाहरण के लिए, शायद गलत नतीजे मिलने से, गलत तरीके से सही नतीजे मिलने से ज़्यादा दर्द होता है.

AUC नाम की अंकों वाली मेट्रिक, आरओसी कर्व को एक फ़्लोटिंग-पॉइंट वैल्यू में बताती है.

रूट मीन स्क्वेयर्ड एरर (RMSE)

#fundamentals

#मेट्रिक

मीन स्क्वेयर्ड एरर का वर्गमूल.

S

सिगमॉइड फ़ंक्शन

#fundamentals

गणित का एक फ़ंक्शन, जो इनपुट वैल्यू को तय सीमा वाली रेंज में "कम करता है". आम तौर पर, यह रेंज 0 से 1 या -1 से +1 होती है. इसका मतलब है कि सिग्मॉइड फ़ंक्शन में कोई भी संख्या (दो, एक लाख, नेगेटिव अरब वगैरह) डाली जा सकती है और आउटपुट अब भी तय सीमा में रहेगा. सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट ऐसा दिखता है:

मशीन लर्निंग में सिगमॉइड फ़ंक्शन का इस्तेमाल कई कामों के लिए किया जाता है. जैसे:

लॉजिस्टिक रिग्रेशन या मल्टीनोमियल रिग्रेशन मॉडल के रॉ आउटपुट को संभावना में बदलना.
कुछ न्यूरल नेटवर्क में, ऐक्टिवेशन फ़ंक्शन के तौर पर काम करना.

कैलकुलेशन देखने के लिए, आइकॉन पर क्लिक करें.

इनपुट नंबर x के लिए सिगमॉइड फ़ंक्शन का फ़ॉर्मूला यह है:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

मशीन लर्निंग में, x आम तौर पर एक वज़न वाला योग होता है.

सॉफ़्टमैक्स

#fundamentals

यह एक फ़ंक्शन है, जो मल्टी-क्लास क्लासिफ़िकेशन मॉडल में हर संभावित क्लास की संभावनाएं तय करता है. सभी संभावनाओं का जोड़, 1.0 होता है. उदाहरण के लिए, नीचे दी गई टेबल से पता चलता है कि सॉफ़्टमैक्स, अलग-अलग संभावनाओं को कैसे बांटता है:

इमेज एक...	प्रॉबेबिलिटी
कुत्ता	.85
cat	.13
घोड़ा	.02

सॉफ़्टमैक्स को फ़ुल सॉफ़्टमैक्स भी कहा जाता है.

उम्मीदवारों के सैंपल के साथ तुलना करें.

कैलकुलेशन देखने के लिए, आइकॉन पर क्लिक करें.

सॉफ़्टमैक्स का समीकरण इस तरह है:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

where:

$\sigma_i$, आउटपुट वेक्टर है. आउटपुट वेक्टर का हर एलिमेंट, इस एलिमेंट की संभावना बताता है. आउटपुट वेक्टर में मौजूद सभी एलिमेंट का योग 1.0 होता है. आउटपुट वेक्टर में उतने ही एलिमेंट होते हैं जितने इनपुट वेक्टर, $z$ में होते हैं.
$z$, इनपुट वेक्टर है. इनपुट वेक्टर के हर एलिमेंट में, एक फ़्लोटिंग-पॉइंट वैल्यू होती है.
$K$, इनपुट वेक्टर (और आउटपुट वेक्टर) में मौजूद एलिमेंट की संख्या है.

उदाहरण के लिए, मान लें कि इनपुट वेक्टर यह है:

[1.2, 2.5, 1.8]

इसलिए, सॉफ़्टमैक्स, हर एलिमेंट के लिए हरे रंग के हिस्से का हिसाब इस तरह लगाता है:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

इसलिए, हर एलिमेंट की सॉफ़्टमैक्स संभावना यह है:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

इसलिए, आउटपुट वेक्टर इस तरह का होगा:

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ में तीन एलिमेंट का कुल योग 1.0 है. वाह!

स्पैर्स फ़ीचर

#language

#fundamentals

ऐसी सुविधा जिसकी वैल्यू ज़्यादातर शून्य या खाली होती हैं. उदाहरण के लिए, एक वैल्यू 1 और एक लाख वैल्यू 0 वाली सुविधा, कम डेटा वाली सुविधा है. इसके उलट, डेंस फ़ीचर की वैल्यू, आम तौर पर शून्य या खाली नहीं होती हैं.

मशीन लर्निंग में, बहुत सारी फ़ीचर स्पैर्स फ़ीचर होती हैं. कैटगरी वाली सुविधाएं आम तौर पर कम होती हैं. उदाहरण के लिए, किसी जंगल में मौजूद 300 पेड़ों की प्रजातियों में से, किसी एक उदाहरण से सिर्फ़ मेपल ट्री की पहचान की जा सकती है. इसके अलावा, किसी वीडियो लाइब्रेरी में मौजूद लाखों वीडियो में से, एक उदाहरण से सिर्फ़ "Casablanca" की पहचान की जा सकती है.

आम तौर पर, किसी मॉडल में कम फ़ीचर को वन-हॉट एन्कोडिंग की मदद से दिखाया जाता है. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए, वन-हॉट एन्कोडिंग के ऊपर एम्बेड करने की प्रोसेस को स्टोर करने के लिए बनी एक लेयर डाली जा सकती है.

स्पार्स वेक्टर

#language

#fundamentals

स्पैर्स फ़ीचर में, सिर्फ़ उन एलिमेंट की पोज़िशन सेव करना जिनकी वैल्यू शून्य से ज़्यादा है.

उदाहरण के लिए, मान लें कि species नाम की कैटगरी वाली किसी एट्रिब्यूट से, किसी खास जंगल में मौजूद 36 तरह के पेड़ों की पहचान की जाती है. इसके अलावा, मान लें कि हर उदाहरण में सिर्फ़ एक प्रजाति की पहचान की गई है.

हर उदाहरण में पेड़ की प्रजाति दिखाने के लिए, वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. एक-हॉट वेक्टर में एक 1 (उदाहरण में, पेड़ की किसी खास प्रजाति को दिखाने के लिए) और 35 0 (उदाहरण में, पेड़ की उन 35 प्रजातियों को दिखाने के लिए जो नहीं हैं) शामिल होंगे. इसलिए, maple का वन-हॉट वर्शन कुछ ऐसा दिख सकता है:

ऐसा वेक्टर जिसमें 0 से 23 तक की पोज़िशन में वैल्यू 0, 24वीं पोज़िशन में वैल्यू 1, और 25 से 35 तक की पोज़िशन में वैल्यू 0 है.

इसके अलावा, स्पैर्स रिप्रज़ेंटेशन से सिर्फ़ किसी खास प्रजाति की जगह की पहचान की जा सकती है. अगर maple 24वें स्थान पर है, तो maple का स्पैर्स रिप्रज़ेंटेशन इस तरह होगा:

ध्यान दें कि स्पैर्स रिप्रज़ेंटेशन, वन-हॉट रिप्रज़ेंटेशन के मुकाबले काफ़ी छोटा होता है.

ज़्यादा जटिल उदाहरण के लिए, आइकॉन पर क्लिक करें.

मान लें कि आपके मॉडल में मौजूद हर उदाहरण में, अंग्रेज़ी वाक्य में शब्दों को दिखाया जाना चाहिए, लेकिन उन शब्दों के क्रम को नहीं. अंग्रेज़ी में करीब 1,70,000 शब्द होते हैं. इसलिए, अंग्रेज़ी एक कैटगरी वाली भाषा है, जिसमें करीब 1,70,000 एलिमेंट होते हैं. अंग्रेज़ी के ज़्यादातर वाक्यों में, उन 1,70,000 शब्दों में से बहुत कम शब्दों का इस्तेमाल किया जाता है. इसलिए, किसी एक उदाहरण में मौजूद शब्दों का सेट, ज़्यादातर मामलों में बहुत कम डेटा होगा.

इस वाक्य पर ध्यान दें:

My dog is a great dog

इस वाक्य में मौजूद शब्दों को दिखाने के लिए, वन-हॉट वैक्टर के किसी वैरिएंट का इस्तेमाल किया जा सकता है. इस वैरिएंट में, वेक्टर की कई सेल में शून्य से ज़्यादा वैल्यू हो सकती है. इसके अलावा, इस वैरिएंट में किसी सेल में एक के अलावा कोई और इंटेजर भी हो सकता है. इस वाक्य में "मेरा", "है", "एक", और "शानदार" शब्द सिर्फ़ एक बार दिखते हैं, जबकि "कुत्ता" शब्द दो बार दिखता है. इस वाक्य में मौजूद शब्दों को दिखाने के लिए, वन-हॉट वेक्टर के इस वैरिएंट का इस्तेमाल करने पर, 1,70,000 एलिमेंट वाला यह वेक्टर मिलता है:

उसी वाक्य को कम शब्दों में लिखने पर, यह होगा:

अगर आपको कुछ समझ नहीं आ रहा है, तो आइकॉन पर क्लिक करें.

"स्पैर्स रिप्रज़ेंटेशन" शब्द से कई लोगों को भ्रम होता है, क्योंकि स्पैर्स रिप्रज़ेंटेशन स्पैर्स वेक्टर नहीं होता. इसके बजाय, स्पैर्स रेप्रज़ेंटेशन, असल में स्पैर्स वेक्टर का डेंस रेप्रज़ेंटेशन होता है. इंडेक्स का प्रतिनिधित्व, "स्पैर्स रिप्रज़ेंटेशन" की तुलना में थोड़ा साफ़ है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में कैटगरी में बांटे गए डेटा का इस्तेमाल करना देखें.

स्पैर्स वेक्टर

#fundamentals

ऐसा वेक्टर जिसकी वैल्यू ज़्यादातर शून्य होती हैं. स्पैर्स फ़ीचर और स्पैर्सिटी भी देखें.

स्क्वेयर्ड लॉस

#fundamentals

#मेट्रिक

L₂ लॉस के लिए समानार्थी शब्द.

स्टैटिक

#fundamentals

ऐसा काम जो लगातार नहीं किया जाता. स्टैटिक और ऑफ़लाइन, एक ही चीज़ के लिए इस्तेमाल होने वाले शब्द हैं. मशीन लर्निंग में स्टैटिक और ऑफ़लाइन का इस्तेमाल आम तौर पर इन कामों के लिए किया जाता है:

स्टैटिक मॉडल (या ऑफ़लाइन मॉडल) एक ऐसा मॉडल होता है जिसे एक बार ट्रेन किया जाता है और फिर कुछ समय के लिए इस्तेमाल किया जाता है.
स्टैटिक ट्रेनिंग (या ऑफ़लाइन ट्रेनिंग) का मतलब, स्टैटिक मॉडल को ट्रेनिंग देना है.
स्टैटिक इंफ़रेंस (या ऑफ़लाइन इंफ़रेंस) एक ऐसी प्रोसेस है जिसमें मॉडल एक बार में कई अनुमान जनरेट करता है.

डाइनैमिक के साथ कंट्रास्ट.

स्टैटिक इंफ़रेंस

#fundamentals

ऑफ़लाइन अनुमान का समानार्थी शब्द.

स्टेशनरी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में नहीं बदलती. आम तौर पर, समय में वैल्यू नहीं बदलती. उदाहरण के लिए, किसी ऐसी सुविधा की वैल्यू जो 2021 और 2023 में एक जैसी दिखती है, वह स्टेशनरी है.

असल दुनिया में, बहुत कम फ़ीचर में स्टेशनरी दिखती है. स्थिरता से जुड़ी सुविधाएं (जैसे, समुद्र का लेवल) भी समय के साथ बदलती हैं.

नॉन-स्टेशनरी के साथ तुलना करें.

स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी)

#fundamentals

ग्रेडिएंट डिसेंट एल्गोरिदम, जिसमें बैच का साइज़ एक होता है. दूसरे शब्दों में, एसजीडी, ट्रेनिंग सेट से एक उदाहरण को चुनकर, उस पर ट्रेनिंग देता है.

सुपरवाइज़्ड मशीन लर्निंग

#fundamentals

सुविधाओं और उनसे जुड़े लेबल से, मॉडल को ट्रेनिंग देना. सुपरवाइज़्ड मशीन लर्निंग, सवालों के एक सेट और उनके जवाबों का अध्ययन करके किसी विषय को सीखने जैसा है. सवालों और जवाबों के बीच मैपिंग करने के बाद, छात्र-छात्रा उसी विषय पर नए (पहले कभी न देखे गए) सवालों के जवाब दे सकते हैं.

अनसुपरवाइज़्ड मशीन लर्निंग की तुलना करें.

ज़्यादा जानकारी के लिए, एमएल के बारे में जानकारी देने वाले कोर्स में सुपरवाइज़्ड लर्निंग देखें.

सिंथेटिक फ़ीचर

#fundamentals

ऐसी सुविधा जो इनपुट फ़ीचर में मौजूद नहीं है, लेकिन एक या उससे ज़्यादा फ़ीचर से इकट्ठा की गई है. एआई से जनरेट की गई सुविधाएं बनाने के तरीकों में ये शामिल हैं:

किसी लगातार चलने वाली सुविधा को रेंज के बाइन में बकेट करना.
सुविधा का क्रॉस बनाना.
किसी सुविधा की वैल्यू को दूसरी सुविधा की वैल्यू से गुणा करना (या उससे भाग देना) या अपनी वैल्यू से गुणा करना(या उससे भाग देना). उदाहरण के लिए, अगर a और b इनपुट फ़ीचर हैं, तो यहां दिए गए उदाहरण सिंथेटिक फ़ीचर के हैं:
- ab
- a²
किसी सुविधा की वैल्यू पर ट्रांससेंडेंटल फ़ंक्शन लागू करना. उदाहरण के लिए, अगर c इनपुट फ़ीचर है, तो सिंथेटिक फ़ीचर के उदाहरण यहां दिए गए हैं:
- sin(c)
- ln(c)

सामान्य बनाने या स्केलिंग के ज़रिए बनाई गई सुविधाओं को सिंथेटिक सुविधाएं नहीं माना जाता.

T

टेस्ट लॉस

#fundamentals

#मेट्रिक

मेट्रिक, जो टेस्ट सेट के मुकाबले मॉडल के लॉस को दिखाती है. मॉडल बनाते समय, आम तौर पर टेस्ट में शामिल डेटा को कम से कम खोने की कोशिश की जाती है. इसकी वजह यह है कि कम टेस्ट लॉस, कम ट्रेनिंग लॉस या कम पुष्टि करने से जुड़ा लॉस की तुलना में, क्वालिटी का बेहतर सिग्नल होता है.

टेस्ट लॉस और ट्रेनिंग लॉस या पुष्टि करने के दौरान होने वाले लॉस के बीच का बड़ा अंतर, कभी-कभी यह बताता है कि आपको रेगुलराइज़ेशन रेट बढ़ाना होगा.

ट्रेनिंग

#fundamentals

मॉडल में शामिल, सही पैरामीटर (वज़न और पूर्वाग्रह) तय करने की प्रोसेस. ट्रेनिंग के दौरान, सिस्टम उदाहरणों को पढ़ता है और धीरे-धीरे पैरामीटर में बदलाव करता है. ट्रेनिंग में, हर उदाहरण का इस्तेमाल कुछ से लेकर अरबों बार किया जाता है.

ट्रेनिंग में हुई कमी

#fundamentals

#मेट्रिक

यह एक मेट्रिक है, जो किसी खास ट्रेनिंग के दौरान मॉडल के लॉस को दिखाती है. उदाहरण के लिए, मान लें कि लॉस फ़ंक्शन मीन स्क्वेयर्ड गड़बड़ी है. शायद 10वें आइटरेशन के लिए ट्रेनिंग लॉस (मीन स्क्वेयर्ड एरर) 2.2 है और 100वें आइटरेशन के लिए ट्रेनिंग लॉस 1.9 है.

लॉस कर्व, ट्रेनिंग लॉस को दोहराव की संख्या के मुकाबले प्लॉट करता है. लॉस कर्व से, ट्रेनिंग के बारे में ये अहम जानकारी मिलती है:

नीचे की ओर ढलान का मतलब है कि मॉडल की परफ़ॉर्मेंस बेहतर हो रही है.
ऊपर की ओर बढ़ने का मतलब है कि मॉडल की परफ़ॉर्मेंस खराब हो रही है.
सपाट ढलान का मतलब है कि मॉडल कंसर्वेशन तक पहुंच गया है.

उदाहरण के लिए, यहां दिया गया लॉस कर्व कुछ हद तक आदर्श है. इसमें यह दिखाया गया है:

शुरुआती दोहरावों के दौरान, डाउनवर्ड स्लोप का ज़्यादा होना. इसका मतलब है कि मॉडल में तेज़ी से सुधार हो रहा है.
ट्रेनिंग के आखिर तक धीरे-धीरे सपाट (लेकिन अब भी नीचे की ओर) स्लोप, जिसका मतलब है कि शुरुआती दोहरावों के मुकाबले, मॉडल में अब भी धीमी रफ़्तार से सुधार हो रहा है.
ट्रेनिंग के आखिर में, प्लैटफ़ॉर्म के ढलान में कमी आना. इससे पता चलता है कि मॉडल के एलिमेंट एक-दूसरे के करीब आ रहे हैं.

ट्रेनिंग लॉस बनाम दोहराव का प्लॉट. यह लॉस कर्व, सबसे नीचे से शुरू होता है. ढलान धीरे-धीरे तब तक सपाट होता है, जब तक कि
यह शून्य न हो जाए.

ट्रेनिंग लॉस अहम है, लेकिन जनरलाइज़ेशन भी देखें.

ट्रेनिंग और ब्राउज़र में वेब पेज खोलने के दौरान परफ़ॉर्मेंस में अंतर

#fundamentals

ट्रेनिंग के दौरान मॉडल की परफ़ॉर्मेंस और इस्तेमाल के दौरान मॉडल की परफ़ॉर्मेंस के बीच का अंतर.

ट्रेनिंग सेट

#fundamentals

मॉडल को ट्रेन करने के लिए इस्तेमाल किया जाने वाला डेटासेट का सबसेट.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

ट्रेनिंग सेट
पुष्टि करने के लिए इस्तेमाल होने वाला सेट
टेस्ट सेट

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से मौजूद सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण, ट्रेनिंग सेट और पुष्टि करने वाले सेट, दोनों में शामिल नहीं होना चाहिए.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में डेटासेट: ओरिजनल डेटासेट को बांटना देखें.

खतरे को सही आंकना (TN)

#fundamentals

#मेट्रिक

एक उदाहरण, जिसमें मॉडल ने नेगेटिव क्लास का सही अनुमान लगाया है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम नहीं है और वह ईमेल मैसेज वाकई स्पैम नहीं है.

ट्रू पॉज़िटिव (TP)

#fundamentals

#मेट्रिक

एक उदाहरण, जिसमें मॉडल ने पॉज़िटिव क्लास का सही अनुमान लगाया है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई ईमेल मैसेज स्पैम है और वह ईमेल मैसेज वाकई स्पैम है.

ट्रू पॉज़िटिव रेट (टीपीआर)

#fundamentals

#मेट्रिक

रिवॉल्कर का समानार्थी शब्द. यानी:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

आरओसी कर्व में, असल पॉज़िटिव रेट, y-ऐक्सिस होता है.

U

अंडरफ़िटिंग

#fundamentals

अनुमान लगाने की खराब क्षमता वाला मॉडल बनाना, क्योंकि मॉडल ने ट्रेनिंग डेटा की जटिलता को पूरी तरह से कैप्चर नहीं किया है. कई समस्याओं की वजह से, मॉडल के परफ़ॉर्म न करने की समस्या हो सकती है. इनमें ये शामिल हैं:

सुविधाओं के गलत सेट पर ट्रेनिंग.
बहुत कम एपिसोड या बहुत कम लर्निंग रेट पर ट्रेनिंग.
रेगुलराइज़ेशन रेट बहुत ज़्यादा होने पर ट्रेनिंग.
डीप न्यूरल नेटवर्क में बहुत कम हाइडन लेयर देना.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में ओवरफ़िटिंग देखें.

बिना लेबल वाला उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें सुविधाएं शामिल हैं, लेकिन कोई लेबल नहीं है. उदाहरण के लिए, नीचे दी गई टेबल में घर की वैल्यू तय करने वाले मॉडल के तीन ऐसे उदाहरण दिए गए हैं जिन पर लेबल नहीं लगा है. इनमें से हर उदाहरण में तीन फ़ीचर हैं, लेकिन घर की वैल्यू नहीं है:

कमरों की संख्या	बाथरूम की संख्या	घर की उम्र
3	2	15
2	1	72
4	2	34

सेमी-सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग में, ट्रेनिंग के दौरान बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

बिना लेबल वाले उदाहरण की तुलना लेबल वाले उदाहरण से करें.

अनसुपरवाइज़्ड मशीन लर्निंग

#clustering

#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए, मॉडल को ट्रेन करना. आम तौर पर, यह बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का सबसे सामान्य इस्तेमाल, डेटा को मिलते-जुलते उदाहरणों के ग्रुप में क्लस्टर करने के लिए किया जाता है. उदाहरण के लिए, बिना निगरानी वाले मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गाने को क्लस्टर कर सकता है. इस तरह से बनाए गए क्लस्टर, मशीन लर्निंग के अन्य एल्गोरिदम के लिए इनपुट बन सकते हैं. उदाहरण के लिए, संगीत के सुझाव देने वाली सेवा के लिए. जब काम के लेबल कम हों या न हों, तब क्लस्टर करने की सुविधा से मदद मिल सकती है. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी जैसे डोमेन में, क्लस्टर की मदद से, लोगों को डेटा को बेहतर तरीके से समझने में मदद मिल सकती है.

सुपरवाइज़्ड मशीन लर्निंग के साथ तुलना करें.

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

अनसुपरवाइज़्ड मशीन लर्निंग का एक और उदाहरण, प्राइमरी कॉम्पोनेंट का विश्लेषण (पीसीए) है. उदाहरण के लिए, लाखों शॉपिंग कार्ट के कॉन्टेंट वाले डेटासेट पर पीसीए लागू करने से पता चल सकता है कि जिन शॉपिंग कार्ट में नींबू होते हैं उनमें अक्सर ऐंटासिड भी होते हैं.

ज़्यादा जानकारी के लिए, एमएल के बारे में जानकारी देने वाले कोर्स में मशीन लर्निंग क्या है? देखें.

V

वैलिडेशन

#fundamentals

मॉडल की क्वालिटी का शुरुआती आकलन. पुष्टि करने की प्रोसेस में, पुष्टि करने के लिए उपलब्ध डेटा सेट के आधार पर, मॉडल के अनुमान की क्वालिटी की जांच की जाती है.

पुष्टि करने वाला सेट, ट्रेनिंग सेट से अलग होता है. इसलिए, पुष्टि करने से ओवरफ़िटिंग से बचा जा सकता है.

पुष्टि करने वाले सेट के आधार पर मॉडल का आकलन करने को टेस्टिंग का पहला राउंड और टेस्ट सेट के आधार पर मॉडल का आकलन करने को टेस्टिंग का दूसरा राउंड माना जा सकता है.

वैलिडेशन लॉस

#fundamentals

#मेट्रिक

यह एक मेट्रिक है, जो ट्रेनिंग के किसी खास इटरेशन के दौरान, पुष्टि करने वाले सेट पर मॉडल के लॉस को दिखाती है.

जनरलाइज़ेशन कर्व भी देखें.

वैलिडेशन सेट

#fundamentals

डेटासेट का सबसेट, जो ट्रेन किए गए मॉडल के आधार पर शुरुआती आकलन करता है. आम तौर पर, टेस्ट सेट के आधार पर मॉडल का आकलन करने से पहले, ट्रेन किए गए मॉडल का आकलन कई बार पुष्टि करने वाले सेट के आधार पर किया जाता है.

W

वज़न का डेटा

#fundamentals

वह वैल्यू जिसे मॉडल किसी दूसरी वैल्यू से गुणा करता है. ट्रेनिंग, मॉडल के आदर्श वेट तय करने की प्रोसेस है. अनुमान, अनुमान लगाने के लिए, उन वेट का इस्तेमाल करने की प्रोसेस है जिन्हें मॉडल ने सीखा है.

लीनियर मॉडल में वेट का उदाहरण देखने के लिए, आइकॉन पर क्लिक करें.

दो सुविधाओं वाले लीनियर मॉडल की कल्पना करें. मान लें कि ट्रेनिंग से ये वेट (और बायस) तय होते हैं:

बायस, b की वैल्यू 2.2 है
किसी एक सुविधा से जुड़ा वेट, w₁ 1.5 है.
दूसरी सुविधा से जुड़ा वेट, w₂ 0.4 है.

अब इस सुविधा की इन वैल्यू वाले उदाहरण पर ध्यान दें:

एक फ़ीचर, x₁ की वैल्यू 6 है.
दूसरी सुविधा, x₂ की वैल्यू 10 है.

यह लीनियर मॉडल, 'y' का अनुमान लगाने के लिए, इस फ़ॉर्मूला का इस्तेमाल करता है:

$$y' = b + w_1x_1 + w_2x_2$$

इसलिए, अनुमान यह है:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

अगर किसी एट्रिब्यूट का वेट 0 है, तो उससे जुड़ी सुविधा का मॉडल पर कोई असर नहीं पड़ता. उदाहरण के लिए, अगर w₁ 0 है, तो x₁ की वैल्यू का कोई मतलब नहीं है.

ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में लीनियर रिग्रेशन देखें.

वेटेड योग

#fundamentals

काम की सभी इनपुट वैल्यू का योग, जिनमें उनके वज़न को शामिल किया गया है. उदाहरण के लिए, मान लें कि काम के इनपुट में ये शामिल हैं:

इनपुट वैल्यू	इनपुट वज़न
2	-1.3
-1	0.6
3	0.4

इसलिए, अहमियत के हिसाब से कुल वैल्यू यह होगी:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

अहमियत के हिसाब से जोड़ा गया वैल्यू, ऐक्टिवेशन फ़ंक्शन का इनपुट आर्ग्युमेंट होता है.

Z

Z-स्कोर नॉर्मलाइज़ेशन

#fundamentals

स्केलिंग की एक तकनीक, जो किसी रॉ फ़ीचर वैल्यू को फ़्लोटिंग-पॉइंट वैल्यू से बदल देती है. यह वैल्यू, उस फ़ीचर के माध्य से स्टैंडर्ड डेविएशन की संख्या दिखाती है. उदाहरण के लिए, मान लें कि किसी सुविधा का औसत 800 है और उसका स्टैंडर्ड वैरिएशन 100 है. नीचे दी गई टेबल में दिखाया गया है कि Z-स्कोर नॉर्मलाइज़ेशन, रॉ वैल्यू को Z-स्कोर पर कैसे मैप करेगा:

असल वैल्यू	Z-स्कोर
800	0
950	+1.5
575	-2.25

इसके बाद, मशीन लर्निंग मॉडल, रॉ वैल्यू के बजाय उस सुविधा के लिए Z-स्कोर पर ट्रेनिंग करता है.

A

सटीक

सटीक होने और क्लास के असंतुलित डेटासेट के बारे में जानकारी पाने के लिए, आइकॉन पर क्लिक करें.

ऐक्टिवेशन फ़ंक्शन

उदाहरण देखने के लिए आइकॉन पर क्लिक करें.

आर्टिफ़िशियल इंटेलिजेंस

AUC (आरओसी कर्व के नीचे का हिस्सा)

AUC और आरओसी कर्व के बीच के संबंध के बारे में जानने के लिए, आइकॉन पर क्लिक करें.

AUC की ज़्यादा औपचारिक परिभाषा के लिए, आइकॉन पर क्लिक करें.

B

बैकप्रोपगेशन

बैच

बैच का आकार

पक्षपात (नैतिकता/निष्पक्षता)

बायस (गणित) या बायस शब्द

बाइनरी क्लासिफ़िकेशन

बकेट

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

C

कैटगरी वाला डेटा

क्लास

क्लासिफ़िकेशन मॉडल

श्रेणी में बाँटने की सीमा

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

डेटा की कैटगरी तय करने वाला

क्लास-असंतुलित डेटासेट

क्लिपिंग

कन्फ़्यूज़न मैट्रिक्स

लगातार चलने वाली सुविधा

कन्वर्ज़न

D

DataFrame

डेटा सेट या डेटासेट

डीप मॉडल

घनी सुविधा

गहराई

डिस्क्रीट सुविधा

डाइनैमिक

डाइनैमिक मॉडल

E

जल्दी रुकना

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

एम्बेड करने की प्रोसेस को स्टोर करने के लिए बनी लेयर

epoch

उदाहरण

F

फ़ॉल्स नेगेटिव (FN)

फ़ॉल्स पॉज़िटिव (FP)

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

सुविधा

सुविधाओं के बीच क्रॉस

फ़ीचर इंजीनियरिंग

TensorFlow के बारे में ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

सुविधाओं का सेट

फ़ीचर वेक्टर

फ़ीडबैक लूप

G

सामान्यीकरण

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

सामान्यीकरण कर्व

ग्रेडिएंट डिसेंट

ग्राउंड ट्रूथ

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

H

छिपी हुई लेयर

हाइपर पैरामीटर

I

इंडिपेंडेंटली ऐंड आइडेंटिकल डिस्ट्रिब्यूटेड (i.i.d)

अनुमान

इनपुट लेयर

नतीजे को समझने की क्षमता

इटरेशन

L

L0 रेगुलराइज़ेशन

ज़्यादा जानकारी के लिए, आइकॉन पर क्लिक करें.

L1 लॉस

फ़ॉर्मल मैथ देखने के लिए, आइकॉन पर क्लिक करें.

L1 रेगुलराइज़ेशन

L2 लॉस

फ़ॉर्मल मैथ देखने के लिए, आइकॉन पर क्लिक करें.

L₀ रेगुलराइज़ेशन

L₁ लॉस

L₁ रेगुलराइज़ेशन

L₂ लॉस

L₂ रेगुलराइज़ेशन