मशीन लर्निंग शब्दावली: एमएल की बुनियादी बातें

इस पेज में एमएल की बुनियादी बातों की शब्दावली वाले शब्द हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

जवाब

सटीक

#fundamentals

कैटगरी तय करने के सही अनुमान की संख्या को, अनुमानों की कुल संख्या से भाग दिया जाता है. यानी:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

उदाहरण के लिए, अगर किसी मॉडल ने 40 सही सुझाव दिए हैं और 10 गलत अनुमान लगाए हैं, तो वह मॉडल इनमें से एक होगी:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

बाइनरी क्लासिफ़िकेशन में, सही अनुमानों और गलत अनुमानों की अलग-अलग कैटगरी के लिए, खास नाम दिए जाते हैं. इसलिए, बाइनरी क्लासिफ़िकेशन के सटीक होने का फ़ॉर्मूला इस तरह है:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

कहां:

सटीक और रीकॉल से तुलना और कंट्रास्ट की सटीक जानकारी पाएं.

ऐक्टिवेशन फ़ंक्शन

#fundamentals

यह एक ऐसा फ़ंक्शन है जो न्यूरल नेटवर्क को सुविधाओं और लेबल के बीच nonlinear (जटिल) संबंधों को सीखने में मदद करता है.

ऐक्टिवेशन के ये लोकप्रिय फ़ंक्शन हैं:

ऐक्टिवेशन फ़ंक्शन के प्लॉट कभी भी एक सीधी रेखा नहीं होती हैं. उदाहरण के लिए, ReLU ऐक्टिवेशन फ़ंक्शन के प्लॉट में दो सीधी लाइनें होती हैं:

दो लाइनों वाला कार्टेशियन प्लॉट. पहली लाइन का स्थिर
          y मान 0 है, जो x-ऐक्सिस पर -infinity,0 से 0,-0 तक चलता है.
          दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है, इसलिए
          यह 0,0 से +असीमित,+अनंत तक चलती है.

सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट इस तरह दिखता है:

दो-डाइमेंशन वाला घुमावदार प्लॉट, जिसमें x वैल्यू हैं और जो -अनफ़िनिटी से +पॉज़िटिव तक हैं, जबकि y वैल्यू, 0 से लेकर करीब-करीब 1 तक की रेंज में काम करती हैं. जब x की वैल्यू 0 होती है, तो y की वैल्यू 0.5 हो जाती है. कर्व का स्लोप हमेशा पॉज़िटिव होता है. इसमें सबसे ज़्यादा स्लोप 0, 0.5 होता है. साथ ही,x के पूरे मान के बढ़ने पर ढलान
 धीरे-धीरे कम होती जाती है.

आर्टिफ़िशियल इंटेलिजेंस

#fundamentals

ऐसा नॉन-इंसान प्रोग्राम या model जो मुश्किल टास्क को पूरा कर सकता है. उदाहरण के लिए, टेक्स्ट या रेडियोलॉजिक इमेज से बीमारियों की पहचान करने वाले प्रोग्राम या मॉडल का अनुवाद करने वाला प्रोग्राम या मॉडल, दोनों आर्टिफ़िशियल इंटेलिजेंस दिखाते हैं.

औपचारिक तौर पर, मशीन लर्निंग, आर्टिफ़िशियल इंटेलिजेंस का एक सब-फ़ील्ड है. हालांकि, हाल के कुछ सालों में कुछ संगठनों ने आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग शब्दों का इस्तेमाल शुरू किया है.

AUC (ROC कर्व के तहत क्षेत्र)

#fundamentals

0.0 से 1.0 के बीच की संख्या, जिससे पता चलता है कि बाइनरी क्लास वाला मॉडल, पॉज़िटिव क्लास को नेगेटिव क्लास से अलग कर सकता है या नहीं. AUC 1.0 के जितना करीब होगा, मॉडल की कक्षाओं को एक-दूसरे से अलग करने की क्षमता उतनी ही बेहतर होगी.

उदाहरण के लिए, नीचे दिए गए उदाहरण में क्लासिफ़ायर मॉडल दिखाया गया है जो पॉज़िटिव क्लास (हरे अंडाकार) को नेगेटिव क्लास (बैंगनी रेक्टैंगल) से अलग करता है. इस बिलकुल सटीक मॉडल में 1.0 का AUC है:

संख्या वाली लाइन, जिसकी एक तरफ़ आठ पॉज़िटिव उदाहरण और दूसरी तरफ़ नौ नेगेटिव उदाहरण होंगे.

इसके ठीक उलट, नीचे दिया गया उदाहरण क्लासिफ़ायर मॉडल के लिए नतीजे दिखाता है जिससे रैंडम नतीजे जनरेट होते हैं. इस मॉडल का AUC 0.5 है:

संख्या वाली लाइन, जिसमें छह पॉज़िटिव उदाहरण और छह नेगेटिव उदाहरण होंगे.
          उदाहरणों का क्रम पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, नेगेटिव होता है.

हां, पिछले मॉडल का AUC 0.5 है, न कि 0.0.

ज़्यादातर मॉडल, दोनों चरम सीमाओं के बीच में होते हैं. उदाहरण के लिए, नीचे दिया गया मॉडल, पॉज़िटिव को कुछ हद तक नेगेटिव से अलग करता है. इसलिए, इसमें 0.5 से 1.0 के बीच का AUC है:

संख्या वाली लाइन, जिसमें छह पॉज़िटिव उदाहरण और छह नेगेटिव उदाहरण होंगे.
          उदाहरणों का क्रम नेगेटिव, नेगेटिव, नेगेटिव, नेगेटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, नेगेटिव, पॉज़िटिव, पॉज़िटिव, पॉज़िटिव होता है.

AUC, कैटगरी तय करने के थ्रेशोल्ड के लिए सेट की गई किसी भी वैल्यू को अनदेखा करता है. इसके बजाय, AUC सभी संभावित क्लासिफ़िकेशन थ्रेशोल्ड को ध्यान में रखता है.

B

बैकप्रोपैगेशन

#fundamentals

ऐसा एल्गोरिदम जो न्यूरल नेटवर्क में ग्रेडिएंट डिसेंट को लागू करता है.

न्यूरल नेटवर्क को ट्रेनिंग देने के लिए, यहां दिए गए टू-पास साइकल के कई दोहराव शामिल होते हैं:

  1. फ़ॉरवर्ड पास की प्रोसेस के दौरान, अनुमान लगाने के लिए सिस्टम उदाहरण के बैच को प्रोसेस करता है. सिस्टम, हर अनुमान की तुलना हर लेबल की वैल्यू से करता है. इस उदाहरण के लिए, अनुमान और लेबल की वैल्यू के बीच का अंतर लॉस है. सिस्टम सभी उदाहरणों के नुकसानों को एग्रीगेट करता है, ताकि मौजूदा बैच के कुल नुकसान का हिसाब लगाया जा सके.
  2. बैकवर्ड पास (बैकप्रोपेगेशन) के दौरान, सिस्टम छिपी हुई लेयर में सभी न्यूरॉन के वज़न में बदलाव करके, डेटा में होने वाले नुकसान को कम करता है.

न्यूरल नेटवर्क में अक्सर कई छिपी हुई लेयर में कई न्यूरॉन मौजूद होते हैं. उनमें से हर एक न्यूरॉन, इस नुकसान में अलग-अलग तरह से योगदान देता है. बैकप्रोपेगेशन से यह तय होता है कि किसी खास न्यूरॉन पर लागू होने वाले वज़न को बढ़ाना है या कम करना है.

लर्निंग रेट एक मल्टीप्लायर है, जो उस डिग्री को कंट्रोल करता है जिस तक हर बैकवर्ड पास के हर वज़न को बढ़ाया या घटाया जाता है. किसी बड़ी लर्निंग रेट से हर वज़न, एक छोटी लर्निंग रेट से ज़्यादा बढ़ेगा या घट जाएगा.

कैलक्युलस के शब्दों में, बैकप्रोपेगेशन, कैलक्युलस के चेन नियम को लागू करता है. इसका मतलब है कि बैकप्रोपेगेशन, हर पैरामीटर के हिसाब से गड़बड़ी के पार्शियल डेरिवेटिव की गणना करता है. ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में यह ट्यूटोरियल देखें.

सालों पहले, मशीन लर्निंग के क्षेत्र में काम करने वाले लोगों को बैकप्रोपेगेशन लागू करने के लिए कोड लिखना पड़ता था. TensorFlow जैसे आधुनिक ML एपीआई, अब आपके लिए बैकप्रोपेगेशन लागू करते हैं. वाह!

बैच

#fundamentals

एक ट्रेनिंग दोहराव में इस्तेमाल किए जाने वाले उदाहरणों का सेट. बैच का साइज़, बैच में उदाहरणों की संख्या तय करता है.

कोई बैच, epoch से कैसे जुड़ा होता है, इस बारे में जानने के लिए epoch देखें.

बैच का आकार

#fundamentals

किसी बैच में मौजूद उदाहरणों की संख्या. उदाहरण के लिए, अगर बैच का साइज़ 100 है, तो मॉडल हर दोहराव के 100 उदाहरणों को प्रोसेस करता है.

बैच साइज़ की लोकप्रिय रणनीतियां ये हैं:

  • स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी), जिसमें बैच का साइज़ 1 है.
  • पूरा बैच, जिसमें पूरे ट्रेनिंग सेट में मौजूद उदाहरणों की संख्या बैच का साइज़ है. उदाहरण के लिए, अगर ट्रेनिंग सेट में लाखों उदाहरण हैं, तो बैच के साइज़ में लाखों उदाहरण होंगे. आम तौर पर, पूरा बैच अच्छी रणनीति का इस्तेमाल नहीं करता.
  • मिनी-बैच, जिसमें आम तौर पर बैच का साइज़ 10 से 1,000 के बीच होता है. आम तौर पर, मिनी-बैच सबसे असरदार रणनीति होती है.

पक्षपात (नैतिक/निर्भरता)

#fairness
#fundamentals

1. कुछ चीज़ों, लोगों या दूसरों के बजाय समूहों के बारे में रूढ़िवादी सोच, पक्षपात या पक्षपात. ये पूर्वाग्रह डेटा के संग्रह और व्याख्या के साथ-साथ सिस्टम के डिज़ाइन और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके पर असर डाल सकते हैं. इस तरह के पूर्वाग्रह के रूप में ये शामिल हैं:

2. सैंपलिंग या रिपोर्टिंग प्रोसेस के ज़रिए हुई व्यवस्थित गड़बड़ी. इस तरह के पूर्वाग्रह के रूप में ये शामिल हैं:

मशीन लर्निंग मॉडल में, पूर्वाग्रह वाले शब्द या अनुमान लगाने से जुड़ा पूर्वाग्रह वाले शब्दों को समझने में गलती न करें.

बायस (गणित) या बायस शब्द

#fundamentals

किसी ऑरिजिन से इंटरसेप्ट या ऑफ़सेट. भेदभाव, मशीन लर्निंग मॉडल में एक पैरामीटर है, जिसे इनमें से किसी एक से दिखाया जाता है:

  • b
  • हफ़्ता0

उदाहरण के लिए, इस फ़ॉर्मूला में b बायस है:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

एक सरल द्वि-डाइमेंशन वाली लाइन में, बायस का मतलब सिर्फ़ "y-इंटरसेप्ट" होता है. उदाहरण के लिए, नीचे दिए गए उदाहरण में लाइन का बायस 2 है.

0.5 के स्लोप और 2 के बायस (y-इंटरसेप्ट) वाली लाइन का प्लॉट.

मापदंड से बाहर की मौजूदगी इसलिए होती है, क्योंकि सभी मॉडल ऑरिजिन (0,0) से शुरू नहीं होते. उदाहरण के लिए, मान लें कि एक मनोरंजन पार्क में प्रवेश करने के लिए दो यूरो खर्च होते हैं. वहीं, ग्राहक के ठहरने के हर घंटे के हिसाब से 0.5 यूरो अलग से लिया जाता है. इसलिए, कुल कीमत को मैप करने वाले मॉडल में बायस 2 होता है, क्योंकि सबसे कम कीमत दो यूरो की होती है.

पूर्वाग्रह को नैतिकता और निष्पक्षता या अनुमान के तौर पर भेदभाव से नहीं समझा जा सकता.

बाइनरी क्लासिफ़िकेशन

#fundamentals

कैटगरी तय करने वाला एक ऐसा टास्क जिसमें दो म्युचुअली एक्सक्लूसिव क्लास में से किसी एक का अनुमान लगाया जाता है:

उदाहरण के लिए, नीचे दिए गए दोनों मशीन लर्निंग मॉडल में से हर एक बाइनरी क्लासिफ़िकेशन करता है:

  • एक मॉडल जो तय करता है कि ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) हैं या स्पैम नहीं (नेगेटिव क्लास).
  • ऐसा मॉडल जो इलाज के लक्षणों का आकलन करके, पता लगाता है कि किसी व्यक्ति को कोई खास बीमारी (पॉज़िटिव क्लास) है या नहीं.

मल्टी-क्लास क्लासिफ़िकेशन में अंतर करने के लिए नहीं.

लॉजिस्टिक रिग्रेशन और क्लासिफ़िकेशन थ्रेशोल्ड भी देखें.

बकेटिंग

#fundamentals

किसी एक सुविधा को कई बाइनरी सुविधाओं में बदलना. आम तौर पर, यह वैल्यू रेंज के आधार पर बकेट या बिन नाम का होता है. कटी हुई सुविधा, आम तौर पर लगातार काम करने वाली सुविधा होती है.

उदाहरण के लिए, तापमान को एक लगातार फ़्लोटिंग-पॉइंट सुविधा के तौर पर दिखाने के बजाय, तापमान की रेंज को अलग-अलग बकेट में काटें, जैसे कि:

  • <= 10 डिग्री सेल्सियस का मतलब "ठंड" बकेट होगा.
  • 11 से 24 डिग्री सेल्सियस का मतलब "सामान्य" बकेट होगा.
  • >= 25 डिग्री सेल्सियस "वॉर्म" बकेट होगी.

मॉडल, एक ही बकेट में हर वैल्यू को एक जैसा इस्तेमाल करेगा. उदाहरण के लिए, 13 और 22 दोनों वैल्यू सममीय बकेट में हैं. इसलिए, मॉडल दोनों वैल्यू को एक जैसा ही मानता है.

C

कैटगरी से जुड़ा डेटा

#fundamentals

ऐसी सुविधाएं जिनमें संभावित वैल्यू का एक खास सेट होता है. उदाहरण के लिए, traffic-light-state नाम की किसी कैटगरी वाली सुविधा पर विचार करें जिसके तीन संभावित वैल्यू में से सिर्फ़ एक का इस्तेमाल किया जा सकता हो:

  • red
  • yellow
  • green

traffic-light-state को एक कैटगरी की सुविधा के तौर पर दिखाकर, कोई मॉडल ड्राइवर के व्यवहार पर red, green, और yellow के अलग-अलग असर के बारे में जान सकता है.

कभी-कभी कैटगरी वाली सुविधाओं को अलग सुविधाएं कहा जाता है.

संख्या वाले डेटा का कंट्रास्ट.

क्लास

#fundamentals

ऐसी कैटगरी जिससे लेबल जुड़ा हो सकता है. उदाहरण के लिए:

क्लासिफ़िकेशन मॉडल, क्लास का अनुमान लगाता है. वहीं, रिग्रेशन मॉडल क्लास के बजाय संख्या का अनुमान लगाता है.

क्लासिफ़िकेशन मॉडल

#fundamentals

कोई model, जिसका अनुमान एक model हो. उदाहरण के लिए, यहां डेटा की कैटगरी तय करने वाले सभी मॉडल दिए गए हैं:

  • ऐसा मॉडल जो किसी इनपुट वाक्य की भाषा (फ़्रेंच? स्पैनिश? इटैलियन?).
  • ऐसा मॉडल जो पेड़ों की प्रजातियों का अनुमान लगाता है (मेपल? Oak? बाओबैब?).
  • ऐसा मॉडल जो किसी बीमारी के लिए पॉज़िटिव या नेगेटिव क्लास का अनुमान लगाता है.

वहीं, रिग्रेशन मॉडल, क्लास के बजाय संख्याओं का अनुमान लगाते हैं.

डेटा की कैटगरी तय करने वाले दो सामान्य मॉडल ये हैं:

श्रेणी में बाँटने की सीमा

#fundamentals

बाइनरी क्लासिफ़िकेशन में, 0 से 1 के बीच की एक संख्या होती है जो किसी लॉजिस्टिक रिग्रेशन मॉडल के रॉ आउटपुट को पॉज़िटिव क्लास या नेगेटिव क्लास के अनुमान में बदलती है. ध्यान दें कि क्लासिफ़िकेशन थ्रेशोल्ड वह वैल्यू होती है जिसे कोई व्यक्ति चुनता है, न कि मॉडल ट्रेनिंग से चुनी गई वैल्यू.

लॉजिस्टिक रिग्रेशन मॉडल, 0 से 1 के बीच का रॉ वैल्यू दिखाता है. इसके बाद:

  • अगर यह रॉ वैल्यू, क्लासिफ़िकेशन थ्रेशोल्ड से ज़्यादा है, तो पॉज़िटिव क्लास का अनुमान लगाया जाता है.
  • अगर यह रॉ वैल्यू, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो नेगेटिव क्लास का अनुमान लगाया जाता है.

उदाहरण के लिए, मान लीजिए कि डेटा की कैटगरी तय करने की सीमा 0.8 है. अगर रॉ वैल्यू 0.9 है, तो मॉडल पॉज़िटिव क्लास का अनुमान लगाता है. अगर रॉ वैल्यू 0.7 है, तो मॉडल नेगेटिव क्लास का अनुमान लगाता है.

डेटा की कैटगरी तय करने के थ्रेशोल्ड को चुनने पर, फ़ॉल्स पॉज़िटिव और गलत नेगेटिव कीवर्ड की संख्या पर काफ़ी असर पड़ता है.

वर्ग-असंतुलित डेटासेट

#fundamentals

डेटा की कैटगरी तय करने की समस्या के लिए ऐसा डेटासेट जिसमें हर क्लास के लेबल की कुल संख्या काफ़ी अलग होती है. उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन डेटासेट पर विचार करें जिसके दो लेबल को इस तरह बांटा गया है:

  • 10,00,000 नेगेटिव लेबल
  • 10 पॉज़िटिव लेबल

नेगेटिव और पॉज़िटिव लेबल का अनुपात 1,00,000 से 1 है. इसलिए, यह क्लास-असंतुलित डेटासेट है.

इसके उलट, नीचे दिया गया डेटासेट क्लास-असंतुलित नहीं है, क्योंकि पॉज़िटिव लेबल के नेगेटिव लेबल का अनुपात करीब एक के करीब है:

  • 517 नेगेटिव लेबल
  • 483 पॉज़िटिव लेबल

मल्टी-क्लास डेटासेट भी क्लास-असंतुलित हो सकते हैं. उदाहरण के लिए, नीचे दिए गए मल्टी-क्लास क्लासिफ़िकेशन डेटासेट, क्लास असंतुलित हैं, क्योंकि एक लेबल में दूसरे लेबल के मुकाबले ज़्यादा उदाहरण हैं:

  • "हरे" श्रेणी के साथ 1,000,000 लेबल
  • क्लास "बैंगनी" के साथ 200 लेबल
  • "नारंगी" क्लास के साथ 350 लेबल

एंट्रॉपी, मेजरिटी क्लास, और अल्पसंख्यक क्लास भी देखें.

क्लिपिंग

#fundamentals

इनमें से किसी एक या दोनों का इस्तेमाल करके, बाहरी फ़ैक्टर को मैनेज करने की तकनीक:

  • feature की उन वैल्यू को कम करना जो उस तय सीमा के लिए तय की गई सीमा से ज़्यादा हों.
  • उस कम से कम थ्रेशोल्ड तक सुविधा की वैल्यू को बढ़ाना, जो कम से कम थ्रेशोल्ड से कम है.

उदाहरण के लिए, मान लें कि किसी खास सुविधा की <0.5% वैल्यू, 40 से 60 की रेंज के बाहर है. इस स्थिति में, ये काम किए जा सकते हैं:

  • 60 से ज़्यादा वाले सभी वैल्यू (ज़्यादा से ज़्यादा थ्रेशोल्ड) को ही ठीक 60 पर क्लिप करें.
  • 40 (कम से कम थ्रेशोल्ड) से कम के सभी वैल्यू को ठीक 40 पर क्लिप करें.

आउटलायर्स की वजह से मॉडल को नुकसान पहुंच सकता है. कभी-कभी इनकी वजह से ट्रेनिंग के दौरान वेट ओवरफ़्लो हो जाता है. कुछ आउटलायर्स की वजह से, मेट्रिक की परफ़ॉर्मेंस बहुत खराब हो सकती है, जैसे कि सटीक काम करना. नुकसान को कम करने के लिए, क्लिपिंग एक आम तकनीक है.

ग्रेडिएंट क्लिपिंग की मदद से, ट्रेनिंग के दौरान तय की गई रेंज में ग्रेडिएंट वैल्यू सेट की जा सकती है.

कन्फ़ेशन मैट्रिक्स

#fundamentals

NxN टेबल में उन सही और गलत अनुमानों की खास जानकारी दी गई है जो क्लासिफ़िकेशन मॉडल ने किए हैं. उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल के लिए, इन भ्रम की मैट्रिक्स को देखें:

ट्यूमर (अनुमानित) नॉन-ट्यूमर (अनुमानित)
ट्यूमर (ज़मीन सच) 18 (टीपी) 1 (एफ़एन)
नॉन-ट्यूमर (ज़मीन सच) 6 (FP) 452 (TN)

गड़बड़ी की पिछली मैट्रिक्स से यह पता चलता है:

  • जिन 19 अनुमानों में ज़मीन सच का नाम Tumor था, उनमें से 18 को सही कैटगरी में रखा गया और 1 को गलत कैटगरी में रखा गया.
  • इस मॉडल ने 458 अनुमानों में से नॉन-ट्यूमर को सही तरीके से कैटगरी में रखा था. साथ ही, इन्हें गलत कैटगरी में 6 कैटगरी में रखा था.

मल्टी-क्लास क्लासिफ़िकेशन से जुड़ी समस्या के लिए भ्रम की स्थिति बनाने वाली मेट्रिक से, आपको गलतियों के पैटर्न पहचानने में मदद मिल सकती है. उदाहरण के लिए, तीन क्लास वाले मल्टी-क्लास क्लासिफ़िकेशन मॉडल के लिए, नीचे दिए गए भ्रम की स्थिति दिखाने वाले मैट्रिक्स को देखें. यह मॉडल, आइरिस के तीन अलग-अलग टाइप (वर्ज़िनिका, वर्सिकलर, और सेटोसा) को कैटगरी में बांटता है. जब बुनियादी तथ्य वर्ज़िनिका था, तो भ्रम की स्थिति पैदा करने वाली मैट्रिक्स से पता चलता है कि इस मॉडल में सेटोसा के मुकाबले, Versicolor का अनुमान लगाने की गलती ज़्यादा हो सकती है:

  Setosa (अनुमानित) वर्सिकलर (अनुमानित) वर्ज़िनिका (अनुमानित)
सेटोसा (ज़मीन सच) 88 12 0
वर्सिकलर (ग्राउंड ट्रूथ) 6 141 7
वर्ज़िनिका (ज़मीन सच) 2 27 109

एक और उदाहरण यह है कि भ्रम की स्थिति वाली मेट्रिक से पता चलता है कि हाथ से लिखे गए अंकों की पहचान करने वाला मॉडल, गलती से 4 के बजाय 9 का अनुमान लगा लेता है या गलती से 7 के बजाय 1 का अनुमान लगा लेता है.

भ्रम की स्थिति वाले मैट्रिक्स में कई तरह की परफ़ॉर्मेंस मेट्रिक का हिसाब लगाने के लिए ज़रूरी जानकारी होती है. इसमें सटीक तरीके और रीकॉल वाली परफ़ॉर्मेंस मेट्रिक शामिल होती हैं.

लगातार मिलने वाली सुविधा

#fundamentals

फ़्लोटिंग-पॉइंट सुविधा में तापमान या वज़न जैसी अनगिनत वैल्यू दी जा सकती हैं.

अलग सुविधा का कंट्रास्ट.

कन्वर्ज़न

#fundamentals

वह स्थिति जहां लॉस की वैल्यू में बहुत कम बदलाव होते हैं या हर इटरेशन के साथ बिलकुल भी बदलाव नहीं होता है. उदाहरण के लिए, यहां दिया गया लॉस कर्व, करीब 700 बार कन्वर्सेशन का सुझाव देता है:

कार्टीज़न प्लॉट. X-ऐक्सिस में कमी आ रही है. Y-ऐक्सिस, ट्रेनिंग के दोहराव की संख्या है. शुरुआत के कुछ बार-बार करने पर नुकसान बहुत ज़्यादा होता है, लेकिन
          तेज़ी से कम हो जाता है. करीब 100 बार वीडियो की परफ़ॉर्मेंस देखे जाने के बाद भी, यह संख्या अब भी
          कम होती जा रही है. हालांकि, यह संख्या धीरे-धीरे बढ़ रही है. करीब 700 बार दोहराने के बाद भी,
          नुकसान में कोई बदलाव नहीं होता.

जब अतिरिक्त ट्रेनिंग से मॉडल में सुधार नहीं होता, तब मॉडल कन्वर्ज़न में बदल जाता है.

डीप लर्निंग में, नुकसान की वैल्यू कभी-कभी स्थिर रहती है या कई बार जांच के दौरान अंत में घटते क्रम में हो जाती है. लंबे समय तक लगातार नुकसान की वैल्यू बनाए रखने से, कुछ समय के लिए आपको गलत जानकारी मिल सकती है.

'तुरंत बंद करना' भी देखें.

D

DataFrame

#fundamentals

मेमोरी में डेटासेट दिखाने के लिए, एक लोकप्रिय pandas डेटा टाइप.

DataFrame, किसी टेबल या स्प्रेडशीट के जैसा होता है. DataFrame के हर कॉलम का एक नाम (हेडर) होता है और हर लाइन की पहचान एक यूनीक नंबर से की जाती है.

DataFrame के हर कॉलम को 2D ऐरे की तरह व्यवस्थित किया जाता है. हालांकि, सिर्फ़ हर कॉलम को अपना डेटा टाइप असाइन किया जा सकता है.

pandas.DataFrame का आधिकारिक रेफ़रंस पेज भी देखें.

डेटा सेट या डेटासेट

#fundamentals

रॉ डेटा का कलेक्शन, आम तौर पर (लेकिन खास तौर पर नहीं). इसे यहां दिए गए किसी एक फ़ॉर्मैट में व्यवस्थित किया जाता है:

  • एक स्प्रेडशीट
  • CSV फ़ॉर्मैट में कोई फ़ाइल (कॉमा लगाकर अलग की गई वैल्यू)

डीप मॉडल

#fundamentals

न्यूरल नेटवर्क, जिसमें एक से ज़्यादा छिपे हुए लेयर होते हैं.

डीप मॉडल को डीप न्यूरल नेटवर्क भी कहा जाता है.

वाइड मॉडल का कंट्रास्ट.

घनी सुविधा

#fundamentals

ऐसी सुविधा जिसमें ज़्यादातर या सभी वैल्यू ज़ीरो नहीं हैं. आम तौर पर, यह फ़्लोटिंग-पॉइंट वैल्यू का Tensor होता है. उदाहरण के लिए, इस 10-एलिमेंट Tensor में काफ़ी डेंसिटी है, क्योंकि इसकी 9 वैल्यू ज़ीरो नहीं हैं:

8 3 7 5 2 4 0 4 9 6

स्पार्स सुविधा का कंट्रास्ट.

गहराई

#fundamentals

न्यूरल नेटवर्क में इन चीज़ों का योग:

उदाहरण के लिए, पांच छिपी हुई लेयर और एक आउटपुट लेयर वाले न्यूरल नेटवर्क में गहराई 6 होती है.

ध्यान दें कि इनपुट लेयर डेप्थ पर असर नहीं डालती.

डिस्क्रीट सुविधा

#fundamentals

ऐसी सुविधा जिसमें संभावित वैल्यू के सीमित सेट हों. उदाहरण के लिए, ऐसी सुविधा जिसकी वैल्यू सिर्फ़ जानवरों, सब्ज़ियों या खनिज की हो सकती हैं, वह एक खास (या कैटगरी) सुविधा है.

लगातार चलने वाली सुविधा से कंट्रास्ट अलग होना चाहिए.

डाइनैमिक

#fundamentals

कुछ काम बार-बार या लगातार किया जाना. डाइनैमिक और ऑनलाइन शब्द, मशीन लर्निंग में एक जैसे मतलब वाले शब्द हैं. मशीन लर्निंग में डाइनैमिक और ऑनलाइन इस्तेमाल के कुछ सामान्य तरीके ये हैं:

  • डाइनैमिक मॉडल (या ऑनलाइन मॉडल) एक ऐसा मॉडल है जिसे बार-बार या लगातार ट्रेनिंग दी जाती है.
  • डाइनैमिक ट्रेनिंग (या ऑनलाइन ट्रेनिंग) का मतलब है, बार-बार या लगातार ट्रेनिंग देना.
  • डाइनैमिक अनुमान (या ऑनलाइन अनुमान), मांग के आधार पर अनुमान जनरेट करने की प्रोसेस है.

डाइनैमिक मॉडल

#fundamentals

ऐसा model जिसे बार-बार (हो सकता है कि लगातार भी) फिर से ट्रेनिंग दी जाए. डाइनैमिक मॉडल, "हमेशा सीखते रहने वाला व्यक्ति" होता है. यह डेटा, बदलते हुए डेटा के हिसाब से लगातार काम करता रहता है. डाइनैमिक मॉडल को ऑनलाइन मॉडल भी कहा जाता है.

स्टैटिक मॉडल में कंट्रास्ट नहीं होना चाहिए.

E

तय समय से पहले

#fundamentals

रेगुलराइज़ेशन का एक तरीका जिसमें ट्रेनिंग खत्म होने से पहले ट्रेनिंग खत्म करना शामिल है. शुरुआत में करते समय, जान-बूझकर मॉडल की ट्रेनिंग तब बंद की जाती है, जब पुष्टि करने वाले डेटासेट की वैल्यू बढ़नी शुरू हो जाती है. इसका मतलब है कि जब सामान्य तौर पर लागू होने की परफ़ॉर्मेंस खराब हो जाती है.

परत एम्बेड करना

#language
#fundamentals

यह एक खास छिपी हुई लेयर है, जो लो डाइमेंशन एम्बेडिंग वेक्टर को धीरे-धीरे समझने के लिए, हाई-डाइमेंशन वाले कैटगरिकल फ़ीचर का इस्तेमाल करती है. एम्बेड करने वाली लेयर, न्यूरल नेटवर्क को सिर्फ़ हाई-डाइमेंशन कैटगरीकल सुविधा की ट्रेनिंग देने के बजाय, बेहतर तरीके से ट्रेनिंग देने में सक्षम बनाती है.

उदाहरण के लिए, फ़िलहाल Earth पर पेड़ों की करीब 73,000 प्रजातियां हैं. मान लीजिए आपके मॉडल की सुविधा है, तो आपके मॉडल के इनपुट लेयर में 73,000 एलिमेंट लंबा वन-हॉट वेक्टर है. उदाहरण के लिए, शायद baobab को कुछ इस तरह से दिखाया जाए:

73,000 एलिमेंट की कैटगरी. पहले 6,232 एलिमेंट में वैल्यू
     0 होती है. अगले एलिमेंट की वैल्यू 1 होती है. आखिरी 66,767 एलिमेंट में
     वैल्यू शून्य होती है.

73,000 एलिमेंट वाली ऐरे बहुत लंबी होती है. अगर मॉडल में कोई एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो ट्रेनिंग में बहुत समय लगने वाला है. इसकी वजह यह है कि इसमें 72,999 शून्य को गुणा कर दिया जाता है. 12 डाइमेंशन को शामिल करने के लिए, एम्बेड की गई लेयर चुनी जा सकती है. नतीजतन, एम्बेड करने वाली लेयर धीरे-धीरे पेड़ की हर प्रजाति के लिए एक नया एम्बेडिंग वेक्टर सीखेगी.

कुछ मामलों में, एम्बेड करने वाली लेयर का हैशिंग एक अच्छा विकल्प है.

epoch

#fundamentals

पूरे ट्रेनिंग सेट की पूरी ट्रेनिंग पास, जैसे कि हर उदाहरण को एक बार प्रोसेस किया गया हो.

epoch N/बैच साइज़, दोहरावों की जानकारी दिखाता है. यहां N, उदाहरणों की कुल संख्या है.

उदाहरण के लिए, मान लें कि:

  • इस डेटासेट में 1,000 उदाहरण होते हैं.
  • बैच साइज़ 50 उदाहरण वाला है.

इसलिए, एक epoch में 20 से ज़्यादा दोहराव की ज़रूरत होती है:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

उदाहरण

#fundamentals

features की एक पंक्ति की वैल्यू और शायद एक लेबल. सुपरवाइज़्ड लर्निंग के उदाहरण की दो सामान्य कैटगरी हैं:

  • लेबल किए गए उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. लेबल किए गए उदाहरणों का इस्तेमाल ट्रेनिंग के दौरान किया जाता है.
  • बिना लेबल वाले उदाहरण में एक या ज़्यादा सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. बिना लेबल वाले उदाहरण, अनुमान के दौरान इस्तेमाल किए जाते हैं.

उदाहरण के लिए, मान लीजिए कि किसी मॉडल को ट्रेनिंग दी जा रही है, ताकि यह पता किया जा सके कि छात्र/छात्रा के टेस्ट के स्कोर पर, मौसम की स्थितियों का क्या असर पड़ता है. यहां लेबल किए गए तीन उदाहरण दिए गए हैं:

सुविधाएं लेबल
तापमान नमी दबाव टेस्ट के स्कोर
15 47 998 पसंद आया
19 34 1020 बहुत बढ़िया
18 92 1012 खराब

यहां बिना लेबल वाले तीन उदाहरण दिए गए हैं:

तापमान नमी दबाव  
12 62 1014  
21 47 1017  
19 41 1021  

आम तौर पर, डेटासेट की लाइन, उदाहरण के लिए रॉ सोर्स होती है. इसका मतलब है कि उदाहरण में आम तौर पर डेटासेट में मौजूद कॉलम का सबसेट होता है. इसके अलावा, उदाहरण में दी गई सुविधाओं में सिंथेटिक सुविधाएं भी शामिल हो सकती हैं, जैसे कि फ़ीचर क्रॉस.

F

फ़ॉल्स नेगेटिव (एफ़एन)

#fundamentals

एक उदाहरण, जिसमें मॉडल गलती से नेगेटिव क्लास का अनुमान लगा लेता है. उदाहरण के लिए, मॉडल अनुमान लगाता है कि कोई खास ईमेल मैसेज स्पैम नहीं है (नेगेटिव क्लास) है, लेकिन वह ईमेल मैसेज असल में स्पैम है.

फ़ॉल्स पॉज़िटिव (FP)

#fundamentals

एक उदाहरण, जिसमें मॉडल गलती से पॉज़िटिव क्लास का अनुमान लगा लेता है. उदाहरण के लिए, मॉडल यह अनुमान लगाता है कि कोई खास ईमेल मैसेज स्पैम (पॉज़िटिव क्लास) है, लेकिन वह ईमेल मैसेज असल में स्पैम नहीं है.

फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर)

#fundamentals

ऐसे असल नेगेटिव उदाहरणों का अनुपात जिनके लिए मॉडल ने गलती से पॉज़िटिव क्लास का अनुमान लगाया था. नीचे दिया गया फ़ॉर्मूला गलत पॉज़िटिव रेट का हिसाब लगाता है:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

फ़ॉल्स पॉज़िटिव रेट, आरओसी कर्व में x-ऐक्सिस होता है.

सुविधा

#fundamentals

मशीन लर्निंग मॉडल के लिए इनपुट वैरिएबल. किसी उदाहरण में, एक या उससे ज़्यादा सुविधाएं शामिल हैं. उदाहरण के लिए, मान लीजिए कि किसी मॉडल को ट्रेनिंग दी जा रही है, ताकि यह पता लगाया जा सके कि छात्र/छात्रा के टेस्ट स्कोर पर, मौसम की स्थितियों का क्या असर होता है. नीचे दी गई टेबल में तीन उदाहरण दिए गए हैं. हर उदाहरण में तीन सुविधाएं और एक लेबल है:

सुविधाएं लेबल
तापमान नमी दबाव टेस्ट के स्कोर
15 47 998 92
19 34 1020 84
18 92 1012 87

label से कंट्रास्ट अलग है.

फ़ीचर क्रॉस

#fundamentals

यह एक सिंथेटिक सुविधा है. इसे "क्रॉसिंग" कैटगरीकल या बकेट किए गए सुविधाओं की मदद से बनाया जाता है.

उदाहरण के लिए, एक "मूड पूर्वानुमान" मॉडल पर विचार करें जो नीचे दी गई चार बकेट में से किसी एक में तापमान दिखाता है:

  • freezing
  • chilly
  • temperate
  • warm

साथ ही, यहां दिए गए तीन बकेट में से किसी एक में हवा की रफ़्तार का पता चलता है:

  • still
  • light
  • windy

फ़ीचर क्रॉस के बिना, लीनियर मॉडल, पहले से मौजूद सात अलग-अलग बकेट पर अलग-अलग ट्रेनिंग लेता है. उदाहरण के लिए, मॉडल, freezing पर ट्रेनिंग के बिना ट्रेनिंग लेता है, फिर चाहे वह ट्रेनिंग न हो, उदाहरण के लिए, windy.

इसके अलावा, आपके पास तापमान और हवा की रफ़्तार का क्रॉस-ऑफ़ करने का विकल्प है. इस सिंथेटिक सुविधा के 12 संभावित मान होंगे:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

क्रॉस की सुविधा देने के लिए धन्यवाद, यह मॉडल freezing-windy दिन और freezing-still दिन के बीच मूड के अंतर को समझ सकता है.

अगर दो सुविधाओं से कोई सिंथेटिक फ़ीचर बनाया जाता है जिसमें हर एक की कई अलग-अलग बकेट हैं, तो नतीजे वाले फ़ीचर क्रॉस में बड़ी संख्या में संभावित कॉम्बिनेशन होंगे. उदाहरण के लिए, अगर एक सुविधा में 1,000 बकेट हैं और दूसरी सुविधा में 2,000 बकेट हैं, तो नतीजे वाली सुविधा क्रॉस में 2,000,000 बकेट हैं.

औपचारिक तौर पर, क्रॉस एक कार्टेशियन प्रॉडक्ट होता है.

फ़ीचर क्रॉस का इस्तेमाल ज़्यादातर लीनियर मॉडल के साथ किया जाता है. न्यूरल नेटवर्क के साथ इन्हें शायद ही इस्तेमाल किया जाता है.

फ़ीचर इंजीनियरिंग

#fundamentals
#TensorFlow

ऐसी प्रोसेस जिसमें ये चरण शामिल हैं:

  1. यह तय करना कि किसी मॉडल की ट्रेनिंग के लिए कौनसी सुविधाएं काम की हो सकती हैं.
  2. डेटासेट के रॉ डेटा को उन सुविधाओं के असरदार वर्शन में बदलना.

उदाहरण के लिए, आप तय कर सकते हैं कि temperature एक उपयोगी सुविधा हो सकती है. इसके बाद, बकेटिंग की मदद से यह ऑप्टिमाइज़ किया जा सकता है कि मॉडल अलग-अलग temperature रेंज से क्या सीख सकता है.

फ़ीचर इंजीनियरिंग को कभी-कभी सुविधा का डेटा निकालना कहा जाता है.

सुविधाओं का सेट

#fundamentals

उन सुविधाओं का ग्रुप जिन पर आपकी मशीन लर्निंग मॉडल तैयार होती है. उदाहरण के लिए, पिन कोड, प्रॉपर्टी का साइज़, और प्रॉपर्टी की स्थिति, ऐसे मॉडल के लिए एक सामान्य सुविधा के सेट जैसा हो सकता है जो मकान की कीमतों का अनुमान लगाती है.

फ़ीचर वेक्टर

#fundamentals

feature की वैल्यू की कैटगरी, जिसमें एक उदाहरण शामिल है. फ़ीचर वेक्टर को ट्रेनिंग के दौरान और अनुमान के दौरान इनपुट किया जाता है. उदाहरण के लिए, दो अलग-अलग सुविधाओं वाले मॉडल के लिए फ़ीचर वेक्टर ये हो सकता है:

[0.92, 0.56]

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.
          इनपुट लेयर में दो नोड होते हैं, जिसमें से एक में वैल्यू
          0.92 और दूसरे में 0.56 वैल्यू है.

हर उदाहरण, फ़ीचर वेक्टर के लिए अलग-अलग वैल्यू देता है. इसलिए, अगले उदाहरण के लिए फ़ीचर वेक्टर कुछ इस तरह हो सकता है:

[0.73, 0.49]

फ़ीचर इंजीनियरिंग से तय होता है कि फ़ीचर वेक्टर में सुविधाओं को कैसे दिखाया जाए. उदाहरण के लिए, पांच संभावित वैल्यू वाली बाइनरी कैटगरी वाली सुविधा को वन-हॉट एन्कोडिंग से दिखाया जा सकता है. इस मामले में, किसी खास उदाहरण के लिए फ़ीचर वेक्टर के हिस्से में चार शून्य और तीसरे स्थान पर एक 1.0 होगा, जो इस तरह है:

[0.0, 0.0, 1.0, 0.0, 0.0]

एक अन्य उदाहरण के रूप में, मान लें कि आपके मॉडल में तीन सुविधाएं हैं:

  • एक बाइनरी कैटगरीकल फ़ीचर, जिसमें पांच संभावित वैल्यू हो सकती हैं. इसे एक-हॉट एन्कोडिंग से दिखाया जाता है; उदाहरण के लिए: [0.0, 1.0, 0.0, 0.0, 0.0]
  • बाइनरी कैटगरी की एक अन्य सुविधा, जिसमें तीन वैल्यू हो सकती हैं. इन्हें एक-हॉट एन्कोडिंग के साथ दिखाया जाता है; उदाहरण के लिए: [0.0, 0.0, 1.0]
  • फ़्लोटिंग-पॉइंट सुविधा का इस्तेमाल किया जा सकता है. उदाहरण के लिए: 8.3.

इस मामले में, हर उदाहरण के लिए फ़ीचर वेक्टर को नौ वैल्यू से दिखाया जाएगा. पिछली सूची में उदाहरण के तौर पर दी गई वैल्यू दिए जाने पर, फ़ीचर वेक्टर होगा:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

फ़ीडबैक लूप

#fundamentals

मशीन लर्निंग में, एक ऐसी स्थिति जिसमें किसी मॉडल के अनुमान, उसी मॉडल या दूसरे मॉडल के ट्रेनिंग डेटा पर असर डालते हैं. उदाहरण के लिए, फ़िल्मों का सुझाव देने वाला मॉडल, लोगों को दिखने वाली फ़िल्मों पर असर डालेगा. इससे बाद के फ़िल्मों के सुझाव वाले मॉडल पर भी असर पड़ेगा.

G

सामान्यीकरण

#fundamentals

मॉडल की मदद से, नए डेटा के बारे में सही अनुमान लगाया जा सकता है और पहले न देखा गया डेटा. सामान्य हो सकने वाला मॉडल, ओवरफ़िट वाले मॉडल से उलट होता है.

सामान्यीकरण कर्व

#fundamentals

ट्रेनिंग में होने वाली कमी और पुष्टि की प्रक्रिया में होने वाली कमी, दोनों का एक प्लॉट, दोहरावों की संख्या के तौर पर.

सामान्य कर्व की मदद से, संभावित ओवरफ़िट का पता लगाया जा सकता है. उदाहरण के लिए, नीचे दिए गए सामान्य स्टेटमेंट में बताया गया है कि बहुत ज़्यादा टेक्स्ट फ़िट करने का सुझाव इसलिए दिया गया है, क्योंकि ट्रेनिंग में होने वाली कमी की तुलना में, पुष्टि करने का समय धीरे-धीरे ज़्यादा बढ़ जाता है.

एक कार्टीज़न ग्राफ़, जिसमें y-ऐक्सिस को &#39;लॉस&#39; लेबल किया गया है और x-ऐक्सिस को &#39;इटरेशन&#39; के तौर पर लेबल किया गया है. दो प्लॉट दिखाई देते हैं. एक प्लॉट में, ट्रेनिंग में हुए नुकसान को दिखाया गया है और दूसरे में, पुष्टि करने में हुई गड़बड़ियों को दिखाया गया है.
          दोनों प्लॉट की शुरुआत एक ही तरह से होती है, लेकिन आखिर में
          ट्रेनिंग में मिली कमी, पुष्टि करने की संख्या के मुकाबले बहुत कम हो जाती है.

ग्रेडिएंट डिसेंट

#fundamentals

लॉस को कम करने के लिए गणित की एक तकनीक. ग्रेडिएंट डिसेंट, वेट और बायस को बार-बार बदलता रहता है और नुकसान को कम करने के लिए धीरे-धीरे सबसे बेहतर कॉम्बिनेशन ढूंढता है.

ग्रेडिएंट वंशानुक्रम, मशीन लर्निंग से ज़्यादा पुराना है.

ज़मीनी सच्चाई

#fundamentals

हकीकत.

जो असल में हुआ था.

उदाहरण के लिए, एक बाइनरी क्लासिफ़िकेशन मॉडल देखें. इससे यह अनुमान लगाया जाता है कि यूनिवर्सिटी के पहले साल में पढ़ा गया कोई छात्र छह साल में ग्रैजुएट होगा या नहीं. इस मॉडल की बुनियादी सच्चाई यह है कि उस छात्र/छात्रा ने छह साल में ग्रेजुएशन किया है या नहीं.

H

छिपी हुई लेयर

#fundamentals

इनपुट लेयर और आउटपुट लेयर (अनुमान) के बीच के न्यूरल नेटवर्क में मौजूद लेयर. हर छिपी हुई लेयर में एक या एक से ज़्यादा न्यूरॉन होते हैं. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में दो छिपे हुए लेयर हैं, पहली में तीन न्यूरॉन और दूसरे में दो न्यूरॉन हैं:

चार लेयर. पहली लेयर एक इनपुट लेयर है, जिसमें दो
          सुविधाएं होती हैं. दूसरी लेयर एक छिपी हुई लेयर होती है, जिसमें तीन
          न्यूरॉन होते हैं. तीसरी लेयर एक छिपी हुई लेयर है, जिसमें दो
          न्यूरॉन होते हैं. चौथी लेयर आउटपुट लेयर है. हर सुविधा में
 तीन किनारे होते हैं. हर किनारा, दूसरी लेयर में एक अलग न्यूरॉन की ओर ले जाता है. दूसरी लेयर के हर न्यूरॉन में
 दो किनारे होते हैं. इनमें से हर न्यूरॉन, तीसरी लेयर के अलग-अलग न्यूरॉन की ओर ले जाता है. तीसरी लेयर के हर न्यूरॉन में
          एक किनारा होता है, जो आउटपुट लेयर की ओर इशारा करता है.

डीप न्यूरल नेटवर्क में एक से ज़्यादा छिपे हुए लेयर होते हैं. उदाहरण के लिए, पिछला इलस्ट्रेशन एक डीप न्यूरल नेटवर्क है, क्योंकि मॉडल में दो छिपी हुई लेयर हैं.

हाइपर पैरामीटर

#fundamentals

वे वैरिएबल जिन्हें आप या हाइपर पैरामीटर ट्यूनिंग सेवा किसी मॉडल की लगातार ट्रेनिंग के दौरान अडजस्ट किया जाता है. उदाहरण के लिए, लर्निंग रेट एक हाइपर पैरामीटर है. एक ट्रेनिंग सेशन से पहले, लर्निंग रेट को 0.01 पर सेट किया जा सकता है. अगर आपको पता चलता है कि 0.01 बहुत ज़्यादा है, तो अगले ट्रेनिंग सेशन के लिए सीखने की दर को 0.003 पर सेट किया जा सकता है.

वहीं दूसरी ओर, पैरामीटर ऐसे अलग-अलग वेट और बायस होते हैं जिन्हें मॉडल, ट्रेनिंग के दौरान समझता है.

I

स्वतंत्र रूप से और समान रूप से वितरित (i.i.d)

#fundamentals

ऐसे डिस्ट्रिब्यूशन से लिया गया डेटा जो बदलता नहीं है और जहां तैयार की गई हर वैल्यू, पहले तैयार की गई वैल्यू पर निर्भर नहीं होती. उदाहरण मशीन लर्निंग की एक आदर्श चीज़ है—एक उपयोगी गणितीय संरचना है, लेकिन यह वास्तविक दुनिया में शायद ही कभी मौजूद है. उदाहरण के लिए, किसी वेब पेज पर आने वाले लोगों का वितरण एक संक्षिप्त विंडो के दौरान हो सकता है; इसका मतलब है कि उस छोटी विंडो के दौरान वितरण नहीं बदलता है और एक व्यक्ति का विज़िट, आम तौर पर दूसरे व्यक्ति की विज़िट पर निर्भर नहीं करता है. हालांकि, अगर समय की इस अवधि को बढ़ाया जाता है, तो वेब पेज पर आने वाले लोगों की संख्या में सीज़न के मुताबिक अंतर दिख सकता है.

नॉनस्टेशन भी देखें.

अनुमान

#fundamentals

मशीन लर्निंग में, यह अनुमान लगाने की प्रोसेस है. इसमें लेबल न किए गए उदाहरणों पर एक प्रशिक्षित मॉडल लागू किया जाता है.

आंकड़ों में अनुमान का कुछ अलग मतलब होता है. ज़्यादा जानकारी के लिए, आंकड़ों के बारे में अनुमान लगाने के लिए विकिपीडिया लेख देखें.

इनपुट लेयर

#fundamentals

न्यूरल नेटवर्क की लेयर, जिसमें फ़ीचर वेक्टर होता है. इसका मतलब है कि इनपुट लेयर, ट्रेनिंग या अनुमान के उदाहरण देती है. उदाहरण के लिए, नीचे दिए गए न्यूरल नेटवर्क में इनपुट लेयर में दो सुविधाएं होती हैं:

चार लेयर: एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर.

व्याख्या

#fundamentals

एमएल मॉडल के तर्क को लोगों को समझ आने वाले शब्दों में समझाने या प्रज़ेंट करने की सुविधा.

उदाहरण के लिए, ज़्यादातर लीनियर रिग्रेशन मॉडल को समझना आसान होता है. (आपको हर सुविधा के लिए तय किए गए वज़न को देखना होगा.) डिसिज़न फ़ॉरेस्ट भी काफ़ी हद तक आसान होते हैं. हालांकि, कुछ मॉडल को बेहतर तरीके से विज़ुअलाइज़ करने की ज़रूरत होती है, ताकि उन्हें सही तरीके से समझा जा सके.

एमएल मॉडल को समझने के लिए, लर्निंग इंटरप्रेटेबिलिटी टूल (एलआईटी) का इस्तेमाल किया जा सकता है.

दोहराना

#fundamentals

ट्रेनिंग के दौरान, मॉडल के पैरामीटर का सिंगल अपडेट, जैसे कि मॉडल का वेट और बायस. बैच साइज़ से तय होता है कि मॉडल, एक इटरेशन में कितने उदाहरण प्रोसेस करता है. उदाहरण के लिए, अगर बैच का साइज़ 20 है, तो पैरामीटर में बदलाव करने से पहले मॉडल, 20 उदाहरणों को प्रोसेस करता है.

किसी न्यूरल नेटवर्क को ट्रेनिंग देते समय, एक इटरेशन में ये दो पास शामिल होते हैं:

  1. एक ही बैच में नुकसान का आकलन करने के लिए फ़ॉरवर्ड पास.
  2. नुकसान और सीखने की दर के हिसाब से मॉडल के पैरामीटर में बदलाव करने के लिए, बैकवर्ड पास (बैकप्रोपेगेशन).

L

L0 रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जिसमें किसी मॉडल में नॉन-ज़ीरो वेट की कुल संख्या पर जुर्माना लगता है. उदाहरण के लिए, 11 गैर शून्य वज़न वाले मॉडल पर 10 गैर शून्य वज़न वाले मिलते-जुलते मॉडल की तुलना में ज़्यादा दंड दिए जाएंगे.

L0 के रेगुलराइज़ेशन को कभी-कभी L0-नॉर्म रेगुलराइज़ेशन भी कहा जाता है.

1 लेवल की गिरावट

#fundamentals

लॉस फ़ंक्शन ऐसा होता है जो लेबल की असल वैल्यू और मॉडल के अनुमान लगाई गई वैल्यू के बीच के अंतर का हिसाब लगाता है. उदाहरण के लिए, यहां पांच में से बैच के L1 लॉस का हिसाब दिया गया है उदाहरण:

उदाहरण की असल वैल्यू मॉडल की अनुमानित वैल्यू डेल्टा का निरपेक्ष मान
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 नुकसान

L1 नुकसान पर, L2 से होने वाले नुकसान की तुलना में, बाहरी परफ़ॉर्मेंस का असर कम होता है.

मीन ऐब्सॉल्यूट एरर, हर उदाहरण के हिसाब से औसतन L1 नुकसान है.

L1 रेगुलराइज़ेशन

#fundamentals

एक तरह का रेगुलराइज़ेशन, जिसमें वेट की कुल वैल्यू के जोड़ के अनुपात में वेट को शामिल किया जाता है. L1 रेगुलराइज़ेशन की मदद से, उन सुविधाओं की अहमियत 0 पर बढ़ाई जा सकती है जो काम की नहीं हैं या सिर्फ़ काम की नहीं हैं. 0 वज़न वाली सुविधा को मॉडल से हटा दिया जाता है.

L2 रेगुलराइज़ेशन के साथ कंट्रास्ट.

2 लेवल की गिरावट

#fundamentals

लॉस फ़ंक्शन ऐसा होता है जो लेबल की असल वैल्यू और मॉडल के अनुमान लगाई गई वैल्यू के बीच के अंतर के स्क्वेयर का हिसाब लगाता है. उदाहरण के लिए, यहां पांच में से बैच के लिए, L2 के नुकसान का हिसाब दिया गया है उदाहरण:

उदाहरण की असल वैल्यू मॉडल की अनुमानित वैल्यू डेल्टा का वर्ग
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 की कमी

स्क्वेयर की वजह से, L2 की कमी से बाहरी लोगों का असर बढ़ जाता है. इसका मतलब है कि L1 नुकसान के मुकाबले, L2 के नुकसान का असर गलत अनुमान के लिए ज़्यादा होता है. उदाहरण के लिए, पिछले बैच के लिए L1 की हानि 16 के बजाय 8 होगी. ध्यान दें कि एक ही बाहरी 16 में से 9 को शामिल करता है.

रिग्रेशन मॉडल में, आम तौर पर लॉस फ़ंक्शन के तौर पर L2 नुकसान का इस्तेमाल किया जाता है.

मीन स्क्वेयर्ड एरर, हर उदाहरण के हिसाब से L2 को होने वाला औसत नुकसान है. वर्ग में होने वाली हानि का दूसरा नाम L2 हार है.

L2 रेगुलराइज़ेशन

#fundamentals

रेगुलराइज़ेशन का एक टाइप, जो वेट के स्क्वेयर के कुल योग के अनुपात में वेट को दंडित करता है. L2 को नियमित करने से, बाहरी महत्व को 0 के करीब लाने में मदद मिलती है (जिनकी वैल्यू ज़्यादा पॉज़िटिव या कम नेगेटिव वैल्यू होती है) लेकिन बहुत ज़्यादा नहीं के आस-पास होती है. जिन सुविधाओं की वैल्यू 0 के बहुत करीब होती है वे मॉडल में बनी रहती हैं, लेकिन मॉडल के अनुमान पर बहुत ज़्यादा असर नहीं डालती हैं.

L2 रेगुलराइज़ेशन की मदद से, लीनियर मॉडल में सामान्य तरीके से काम किया जा सकता है.

L1 रेगुलराइज़ेशन के साथ कंट्रास्ट.

लेबल

#fundamentals

सुपरवाइज़्ड मशीन लर्निंग में, किसी उदाहरण का "जवाब" या "नतीजे" वाला हिस्सा शामिल है.

लेबल किए गए हर उदाहरण में एक या उससे ज़्यादा सुविधाएं और एक लेबल होता है. जैसे, स्पैम की पहचान करने वाले डेटासेट में, लेबल "स्पैम" या "स्पैम नहीं" होगा. बारिश के डेटासेट में, यह लेबल किसी खास अवधि के दौरान हुई बारिश की मात्रा हो सकता है.

लेबल किया गया उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें एक या उससे ज़्यादा सुविधाएं और एक लेबल शामिल है. उदाहरण के लिए, इस टेबल में एक घर के मूल्यांकन मॉडल से लेबल किए गए तीन उदाहरण दिए गए हैं. हर उदाहरण में तीन सुविधाएं और एक लेबल है:

कमरों की संख्या बाथरूम की संख्या घर में उम्र मकान की कीमत (लेबल)
3 2 15 3,45,000 डॉलर
2 1 72 1,79,000 डॉलर
4 2 34 3,92,000 डॉलर

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल, लेबल किए गए उदाहरणों के आधार पर ट्रेनिंग लेते हैं और बिना लेबल वाले उदाहरणों के आधार पर अनुमान लगाते हैं.

कंट्रास्ट लेबल किए गए उदाहरण के साथ बिना लेबल वाले उदाहरण.

लैम्डा

#fundamentals

रेगुलराइज़ेशन रेट का समानार्थी शब्द.

Lambda पर एक ओवरलोड शब्द है. यहां हम रेगुलराइज़ेशन में शब्द की परिभाषा पर फ़ोकस कर रहे हैं.

लेयर

#fundamentals

न्यूरल नेटवर्क में न्यूरॉन का सेट. लेयर के तीन सामान्य टाइप, इस तरह हैं:

उदाहरण के लिए, नीचे दिया गया इलस्ट्रेशन एक न्यूरल नेटवर्क दिखाता है, जिसमें एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर है:

एक न्यूरल नेटवर्क, जिसमें एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर है. इनपुट लेयर में दो सुविधाएं होती हैं. पहली
          छिपी हुई लेयर में तीन न्यूरॉन और दूसरी छिपी हुई लेयर
          दो न्यूरॉन से होती है. आउटपुट लेयर में एक नोड होता है.

TensorFlow में, लेयर भी Python फ़ंक्शन हैं. ये इनपुट के तौर पर Tensor और कॉन्फ़िगरेशन के विकल्प लेते हैं और आउटपुट के तौर पर दूसरे सेंसर बनाते हैं.

सीखने की दर

#fundamentals

ऐसा फ़्लोटिंग-पॉइंट नंबर जो ग्रेडिएंट डिसेंट एल्गोरिदम को बताता है. इससे यह पता चलता है कि हर इटरेशन पर, वेट और बायस को कैसे बदला जाए. उदाहरण के लिए, 0.3 की लर्निंग रेट से 0.1 की लर्निंग रेट की तुलना में, वेट और बायस को तीन गुना ज़्यादा असरदार तरीके से अडजस्ट किया जा सकता है.

लर्निंग रेट एक अहम हाइपर पैरामीटर होता है. अगर आपने सीखने की दर को बहुत कम पर सेट किया है, तो ट्रेनिंग में बहुत ज़्यादा समय लगेगा. अगर लर्निंग रेट को बहुत ज़्यादा पर सेट किया जाता है, तो ग्रेडिएंट डिसेंट को कन्वर्ज़न तक पहुंचने में अक्सर परेशानी होती है.

रेखीय

#fundamentals

दो या दो से ज़्यादा वैरिएबल के बीच का संबंध, जिसे सिर्फ़ जोड़ और गुणा करके दिखाया जा सकता है.

लीनियर रिलेशनशिप की कहानी एक लाइन होती है.

nonlinear से अंतर करें.

लीनियर मॉडल

#fundamentals

ऐसा model जो model करने के लिए, हर model के लिए एक model असाइन करता है. (लीनियर मॉडल में बायस भी शामिल होता है.) वहीं दूसरी ओर, डीप मॉडल में अनुमानों के लिए सुविधाओं का संबंध आम तौर पर nonlinear होता है.

लीनियर मॉडल को ट्रेन करना आम तौर पर आसान होता है. साथ ही, डीप मॉडल के मुकाबले इनसे ज़्यादा आसानी से समझा जा सकता है. हालांकि, डीप मॉडल सुविधाओं के बीच जटिल संबंधों को समझ सकते हैं.

लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन, दो तरह के लीनियर मॉडल हैं.

लीनियर रिग्रेशन

#fundamentals

एक तरह का मशीन लर्निंग मॉडल, जिसमें नीचे दी गई दोनों बातें सही हैं:

  • मॉडल, लीनियर मॉडल है.
  • यह अनुमान, फ़्लोटिंग-पॉइंट वाली वैल्यू है. (यह लीनियर रिग्रेशन का रिग्रेशन हिस्सा है.)

लॉजिस्टिक रिग्रेशन के साथ कंट्रास्ट लीनियर रिग्रेशन. साथ ही, क्लासिफ़िकेशन के साथ कंट्रास्ट रिग्रेशन.

लॉजिस्टिक रिग्रेशन

#fundamentals

एक तरह का रिग्रेशन मॉडल, जो किसी प्रॉबबिलिटी का अनुमान लगाता है. लॉजिस्टिक रिग्रेशन मॉडल में ये विशेषताएं होती हैं:

  • इसका लेबल कैटगरी के हिसाब से है. लॉजिस्टिक रिग्रेशन शब्द का इस्तेमाल आम तौर पर बाइनरी लॉजिस्टिक रिग्रेशन के लिए किया जाता है. यह एक ऐसे मॉडल के लिए इस्तेमाल किया जाता है जो दो संभावित वैल्यू वाले लेबल के लिए, संभावना का हिसाब लगाता है. एक कम सामान्य वैरिएंट, मल्टीनोमियल लॉजिस्टिक रिग्रेशन, दो से ज़्यादा संभावित वैल्यू वाले लेबल की संभावना का हिसाब लगाता है.
  • ट्रेनिंग के दौरान ऐप्लिकेशन खोने का फ़ंक्शन, लॉग लॉस है. (दो से ज़्यादा संभावित वैल्यू वाले लेबल के लिए, लॉग लॉस की कई यूनिट एक साथ रखी जा सकती हैं.)
  • इस मॉडल में लीनियर आर्किटेक्चर है, न कि डीप न्यूरल नेटवर्क. हालांकि, इस परिभाषा का बाकी हिस्सा डीप मॉडल पर भी लागू होता है, जो कैटगरी वाले लेबल के लिए प्रॉबबिलिटी का अनुमान लगाता है.

उदाहरण के लिए, एक ऐसे लॉजिस्टिक रिग्रेशन मॉडल पर विचार करें जो किसी इनपुट ईमेल के स्पैम होने या न होने की संभावना का आकलन करता है. अनुमान के दौरान, मान लें कि मॉडल 0.72 का अनुमान लगाता है. इसलिए, मॉडल यह अनुमान लगा रहा है:

  • ईमेल के स्पैम होने की संभावना 72% है.
  • ईमेल के स्पैम न होने की 28% संभावना.

एक लॉजिस्टिक रिग्रेशन मॉडल, नीचे दिए गए दो चरणों वाले आर्किटेक्चर का इस्तेमाल करता है:

  1. यह मॉडल, इनपुट सुविधाओं के लीनियर फ़ंक्शन को लागू करके, रॉ अनुमान (y') जनरेट करता है.
  2. यह मॉडल, उस रॉ अनुमान का इस्तेमाल, इनपुट के तौर पर सिग्मॉइड फ़ंक्शन के लिए करता है. यह रॉ अनुमान को, खास तौर पर 0 से 1 के बीच की वैल्यू में बदल देता है.

किसी भी रिग्रेशन मॉडल की तरह, लॉजिस्टिक रिग्रेशन मॉडल किसी संख्या का अनुमान लगाता है. हालांकि, यह संख्या आम तौर पर इस तरह से बाइनरी क्लासिफ़िकेशन मॉडल का हिस्सा बन जाती है:

  • अगर अनुमानित संख्या क्लासिफ़िकेशन थ्रेशोल्ड से ज़्यादा है, तो बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव क्लास का अनुमान लगाता है.
  • अगर अनुमानित संख्या, क्लासिफ़िकेशन थ्रेशोल्ड से कम है, तो बाइनरी क्लासिफ़िकेशन मॉडल, नेगेटिव क्लास का अनुमान लगाता है.

लॉग लॉस

#fundamentals

बाइनरी लॉजिस्टिक रिग्रेशन में इस्तेमाल किया जाने वाला लॉस फ़ंक्शन.

लॉग-ऑड्स

#fundamentals

किसी इवेंट की संख्याओं का लॉगरिद्म.

हार

#fundamentals

निगरानी में रखे गए मॉडल की ट्रेनिंग के दौरान, इससे पता चलता है कि किसी मॉडल का अनुमान, उसके लेबल से कितना दूर है.

लॉस फ़ंक्शन से नुकसान का हिसाब लगाया जाता है.

लॉस कर्व

#fundamentals

ट्रेनिंग दोहरावों की संख्या के तौर पर लॉस का एक प्लॉट. नीचे दिए गए प्लॉट में, आम तौर पर होने वाले नुकसान का वक्र दिखाया गया है:

ट्रेनिंग के दोहराव और नुकसान का कार्टेज़ियन ग्राफ़, जिसमें
          शुरुआती अपडेट में होने वाले नुकसान में तेज़ी से गिरावट दिखाई गई है. इसके बाद, धीरे-धीरे गिरावट
          और आखिरी प्रोसेस के दौरान सपाट स्लोप दिखाया गया है.

लॉस कर्व से आपको यह तय करने में मदद मिल सकती है कि आपका मॉडल कब कन्वर्ज़न या ओवरफ़िट हो रहा है.

लॉस कर्व इस तरह के नुकसान को प्लॉट कर सकते हैं:

सामान्य कर्व भी देखें.

लॉस फ़ंक्शन

#fundamentals

ट्रेनिंग या टेस्टिंग के दौरान, यह एक गणितीय फ़ंक्शन है, जो उदाहरणों के बैच में हुई गड़बड़ियों का हिसाब लगाता है. गलत अनुमान लगाने वाले मॉडल की तुलना में, उन मॉडल के लिए नुकसान कम होता है जो अच्छे अनुमान लगाते हैं.

आम तौर पर, ट्रेनिंग का मकसद नुकसान पहुंचाने वाले फ़ंक्शन से होने वाले नुकसान को कम करना होता है.

नुकसान पहुंचाने वाले कई फ़ंक्शन मौजूद हैं. जिस तरह का मॉडल बनाया जा रहा है उसके लिए सही लॉस फ़ंक्शन चुनें. उदाहरण के लिए:

सोम

मशीन लर्निंग

#fundamentals

एक प्रोग्राम या सिस्टम, जो इनपुट डेटा से मॉडल ट्रेनिंग देता है. ट्रेन किया गया मॉडल, उसी डिस्ट्रिब्यूशन से लिए गए नए (पहले कभी नहीं देखे गए) डेटा से उपयोगी अनुमान लगा सकता है जिसका इस्तेमाल, मॉडल को ट्रेनिंग देने के लिए किया गया था.

मशीन लर्निंग का मतलब इन प्रोग्राम या सिस्टम में किए गए स्टडी के क्षेत्र से भी है.

बहुमत क्लास

#fundamentals

क्लास असंतुलित डेटासेट में ज़्यादा सामान्य लेबल. उदाहरण के लिए, 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल वाले डेटासेट के लिए, नेगेटिव लेबल को ज़्यादातर क्लास माना जाता है.

अल्पसंख्यक वर्ग का कंट्रास्ट.

मिनी-बैच

#fundamentals

बैच का एक छोटा सबसेट, जिसे बिना किसी क्रम के चुना जाता है और जिसे एक ही दोहराव में प्रोसेस किया जाता है. आम तौर पर, छोटे बैच के बैच का साइज़ 10 से 1,000 उदाहरणों के बीच होता है.

उदाहरण के लिए, मान लें कि पूरे ट्रेनिंग सेट (पूरे बैच) में 1,000 उदाहरण हैं. इसके बाद, मान लें कि हर मिनी-बैच के बैच का साइज़ 20 पर सेट किया जाता है. इसलिए, हर दोहराव से 1,000 में से 20 उदाहरणों में से किसी भी

पूरे बैच के सभी उदाहरणों की हानि की तुलना में, मिनी-बैच पर नुकसान का हिसाब लगाना ज़्यादा असरदार होता है.

अल्पसंख्यक वर्ग

#fundamentals

क्लास असंतुलित डेटासेट में कम सामान्य लेबल. उदाहरण के लिए, अगर एक डेटासेट में 99% नेगेटिव लेबल और 1% पॉज़िटिव लेबल हैं, तो पॉज़िटिव लेबल को माइनौरिटी क्लास माना जाता है.

majority class वाला कंट्रास्ट.

model

#fundamentals

आम तौर पर, गणित के कोई भी कंस्ट्रक्शन, जो इनपुट डेटा को प्रोसेस करता है और आउटपुट दिखाता है. मॉडल, पैरामीटर का सेट और ऐसी संरचना होती है जिसकी ज़रूरत सिस्टम को अनुमान लगाने के लिए होती है. सुपरवाइज़्ड मशीन लर्निंग में, कोई मॉडल, इनपुट के तौर पर एक उदाहरण लेता है और आउटपुट के तौर पर अनुमान लेता है. सुपरवाइज़्ड मशीन लर्निंग में, मॉडल कुछ हद तक अलग होते हैं. उदाहरण के लिए:

  • लीनियर रिग्रेशन मॉडल में, वेट और बायस का एक सेट होता है.
  • न्यूरल नेटवर्क मॉडल में ये चीज़ें शामिल होती हैं:
    • छिपी हुई लेयर का सेट, हर लेयर में एक या उससे ज़्यादा न्यूरॉन होते हैं.
    • हर न्यूरॉन से जुड़े वज़न और पूर्वाग्रह.
  • फ़ैशन ट्री मॉडल में ये चीज़ें शामिल होती हैं:
    • पेड़ का आकार यानी वह पैटर्न जिसमें पत्तियां और स्थितियां आपस में जुड़ी होती हैं.
    • स्थिति और पत्तियां.

आपके पास मॉडल को सेव करने, वापस लाने या उसकी कॉपी बनाने का विकल्प है.

अनसुपरवाइज़्ड मशीन लर्निंग भी मॉडल जनरेट करती है. आम तौर पर, यह एक ऐसा फ़ंक्शन होता है जो इनपुट के उदाहरण को सबसे सही क्लस्टर में मैप कर सकता है.

मल्टी-क्लास क्लासिफ़िकेशन

#fundamentals

सुपरवाइज़्ड लर्निंग में, कैटगरी तय करने की समस्या आती है. इसमें डेटासेट की दो से ज़्यादा क्लास मौजूद होती हैं. उदाहरण के लिए, Iris डेटासेट में मौजूद लेबल, इन तीन क्लास में से एक होने चाहिए:

  • आइरिस सेटोसा
  • आइरिस वर्जिनिका
  • आइरिस वर्सिकलर

आइरिस डेटासेट पर प्रशिक्षित किया गया एक मॉडल, जो नए उदाहरणों पर आइरिस टाइप का अनुमान लगाता है वह मल्टी-क्लास क्लासिफ़िकेशन कर रहा है.

वहीं, दो क्लास के बीच अंतर करने के लिए, बाइनरी क्लासिफ़िकेशन मॉडल का इस्तेमाल किया जाता है. उदाहरण के लिए, स्पैम या स्पैम नहीं का अनुमान लगाने वाला ईमेल मॉडल, बाइनरी क्लासिफ़िकेशन मॉडल है.

क्लस्टरिंग की समस्याओं में, मल्टी-क्लास क्लासिफ़िकेशन दो से ज़्यादा क्लस्टर के बारे में बताते हैं.

N

नेगेटिव क्लास

#fundamentals

बाइनरी क्लासिफ़िकेशन में, एक क्लास को पॉज़िटिव और दूसरे को नेगेटिव कहा जाता है. पॉज़िटिव क्लास वह चीज़ या इवेंट होती है जिसके लिए मॉडल टेस्ट कर रहा है और नेगेटिव क्लास दूसरी संभावना है. उदाहरण के लिए:

  • मेडिकल टेस्ट में नेगेटिव क्लास "ट्यूमर नहीं" हो सकती है.
  • ईमेल क्लासिफ़ायर में नेगेटिव क्लास "स्पैम नहीं है" हो सकती है.

पॉज़िटिव क्लास से कंट्रास्ट अलग होना चाहिए.

न्यूरल नेटवर्क

#fundamentals

कोई model, जिसमें कम से कम एक model हो. डीप न्यूरल नेटवर्क एक तरह का न्यूरल नेटवर्क है, जिसमें एक से ज़्यादा छिपी हुई लेयर होती हैं. उदाहरण के लिए, नीचे दिया गया डायग्राम, दो छिपे हुए लेयर वाले डीप न्यूरल नेटवर्क को दिखाता है.

एक न्यूरल नेटवर्क, जिसमें इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर है.

न्यूरल नेटवर्क में हर न्यूरॉन, अगली लेयर के सभी नोड से कनेक्ट होता है. उदाहरण के लिए, पिछले डायग्राम में देखें कि पहली छिपी हुई लेयर में मौजूद तीन न्यूरॉन में से हर एक न्यूरॉन, दूसरी छिपी हुई लेयर में मौजूद दो न्यूरॉन से अलग-अलग होता है.

कंप्यूटर पर लागू किए गए न्यूरल नेटवर्क को कभी-कभी आर्टिफ़िशियल न्यूरल नेटवर्क भी कहा जाता है. ऐसा इसलिए किया जाता है, ताकि इन्हें दिमाग और दूसरे नर्वस सिस्टम में पाए जाने वाले न्यूरल नेटवर्क से अलग किया जा सके.

कुछ न्यूरल नेटवर्क, अलग-अलग सुविधाओं और लेबल के बीच बहुत ज़्यादा जटिल नॉनलीनियर रिलेशनशिप की नकल कर सकते हैं.

कंवोलूशनल न्यूरल नेटवर्क और बार-बार आने वाले न्यूरल नेटवर्क को भी देखें.

न्यूरॉन

#fundamentals

मशीन लर्निंग में, किसी न्यूरल नेटवर्क की छिपी हुई लेयर में मौजूद एक अलग यूनिट. हर न्यूरॉन, ये दो चरण पूरे करता है:

  1. इनपुट वैल्यू के वेटेड योग को उनके संबंधित वेट से गुणा करने पर मिलने वाली वैल्यू का हिसाब लगाता है.
  2. वेटेड योग को इनपुट के तौर पर, ऐक्टिवेशन फ़ंक्शन में पास करता है.

छिपी हुई पहली लेयर में एक न्यूरॉन, इनपुट लेयर में मौजूद फ़ीचर वैल्यू के इनपुट स्वीकार करता है. पहली कक्षा के अलावा, किसी छिपी हुई परत में मौजूद एक न्यूरॉन, इसकी पिछली छिपी हुई परत में न्यूरॉन के इनपुट को स्वीकार करता है. उदाहरण के लिए, छिपी हुई दूसरी लेयर में मौजूद एक न्यूरॉन, पहली छिपी हुई लेयर में मौजूद न्यूरॉन के इनपुट स्वीकार करता है.

नीचे दिया गया उदाहरण दो न्यूरॉन और उनके इनपुट को हाइलाइट करता है.

एक न्यूरल नेटवर्क, जिसमें इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर है. दो न्यूरॉन हाइलाइट किए गए हैं: एक पहली छिपी हुई लेयर में और दूसरा छिपी हुई लेयर में. छिपी हुई पहली लेयर में
 हाइलाइट किए गए न्यूरॉन को, इनपुट लेयर की दोनों सुविधाओं से इनपुट मिलते हैं. दूसरी छिपी हुई लेयर में हाइलाइट किए गए न्यूरॉन को
 पहली छिपी हुई लेयर के तीन न्यूरॉन में से हर एक से इनपुट मिलते हैं.

तंत्रिका नेटवर्क में एक न्यूरॉन, दिमाग में न्यूरॉन और नर्वस सिस्टम के दूसरे हिस्सों के व्यवहार की नकल करता है.

नोड (न्यूरल नेटवर्क)

#fundamentals

छिपी हुई लेयर में मौजूद न्यूरॉन.

नॉन-लीनियर

#fundamentals

दो या दो से ज़्यादा वैरिएबल के बीच का संबंध, जिसे सिर्फ़ जोड़ने और गुणा करके दिखाया नहीं जा सकता. लीनियर संबंध को एक लाइन के तौर पर दिखाया जा सकता है. nonlinear रिलेशनशिप को लाइन के तौर पर नहीं दिखाया जा सकता. उदाहरण के लिए, दो मॉडल पर विचार करें जिनमें से हर एक मॉडल एक सुविधा से किसी एक लेबल से जुड़ा हो. बाईं ओर का मॉडल लीनियर होता है और दाईं ओर का मॉडल नॉन-लीनियर होता है:

दो प्लॉट. एक प्लॉट एक लाइन है, इसलिए यह एक लीनियर रिलेशनशिप है.
          दूसरा प्लॉट एक कर्व है, इसलिए यह गैर-लीनियर संबंध है.

गैर-स्टेशनरता

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में बदलती है. आम तौर पर, यह समय बदल जाती है. उदाहरण के लिए, नॉनस्टेशनरिटी के इन उदाहरणों पर ध्यान दें:

  • किसी एक स्टोर पर बिकने वाले स्विमसूट की संख्या सीज़न के हिसाब से अलग-अलग होती है.
  • किसी खास इलाके में उगाए गए किसी फल की संख्या, साल के ज़्यादातर समय में शून्य है, लेकिन कुछ समय के लिए ज़्यादा है.
  • जलवायु परिवर्तन की वजह से, साल भर के औसत तापमान में बदलाव हो रहा है.

स्टेशनरिटी वाला कंट्रास्ट.

नॉर्मलाइज़ेशन

#fundamentals

मोटे तौर पर, किसी वैरिएबल की असल रेंज को वैल्यू की स्टैंडर्ड रेंज में बदलने की प्रोसेस, जैसे कि:

  • -1 से +1
  • 0 से 1
  • सामान्य डिस्ट्रिब्यूशन

उदाहरण के लिए, मान लें कि किसी सुविधा के लिए वैल्यू की असल रेंज 800 से 2,400 है. फ़ीचर इंजीनियरिंग के तहत, वास्तविक मानों को सामान्य रेंज तक सामान्य बनाया जा सकता है, जैसे कि -1 से +1.

फ़ीचर इंजीनियरिंग में, नॉर्मलाइज़ेशन एक आम काम है. जब फ़ीचर वेक्टर में संख्या वाली हर सुविधा का रेंज करीब-करीब एक जैसा होता है, तो मॉडल आम तौर पर तेज़ी से ट्रेनिंग करता है और बेहतर सुझाव देता है.

संख्या वाला डेटा

#fundamentals

सुविधाएं पूर्णांक या असल वैल्यू वाली संख्याओं के तौर पर दिखती हैं. उदाहरण के लिए, घरों के मूल्यांकन का मॉडल, संख्या के तौर पर किसी घर के साइज़ (वर्ग फ़ीट या वर्ग मीटर में) को संख्या के तौर पर दिखाएगा. किसी सुविधा को संख्या वाले डेटा के तौर पर दिखाने से पता चलता है कि सुविधा की वैल्यू, लेबल के साथ गणितीय संबंध है. इसका मतलब है कि किसी घर में मौजूद वर्ग मीटर की संख्या, घर की वैल्यू से कुछ गणितीय संबंध भी हो सकती है.

सभी पूर्णांक डेटा को संख्या वाले डेटा के रूप में नहीं दिखाया जाना चाहिए. उदाहरण के लिए, दुनिया के कुछ हिस्सों में मौजूद पिन कोड, पूर्णांक होते हैं. हालांकि, मॉडल में पूर्णांक वाले पिन कोड को संख्या वाले डेटा के तौर पर नहीं दिखाया जाना चाहिए. इसकी वजह यह है कि 20000 का पिन कोड, 10,000 पिन कोड के मुकाबले दोगुना (या आधा) नहीं होता है. इसके अलावा, हालांकि, अलग-अलग पिन कोड अलग-अलग रीयल एस्टेट की वैल्यू से जुड़े होते हैं, लेकिन हम यह अनुमान नहीं लगा सकते कि पिन कोड 20,000 पर रीयल एस्टेट की वैल्यू, पिन कोड 10,000 पर रीयल एस्टेट की वैल्यू के मुकाबले दोगुनी वैल्यू हैं. इसके बजाय, पिन कोड कैटगरिकल डेटा के तौर पर दिखाया जाना चाहिए.

कई सुविधाओं को कभी-कभी लगातार मिलने वाली सुविधाएं कहा जाता है.

O

अॉफ़लाइन

#fundamentals

static के लिए समानार्थी शब्द.

ऑफ़लाइन अनुमान

#fundamentals

यह मॉडल, अनुमान का बैच जनरेट करने और फिर उन अनुमानों को कैश मेमोरी में सेव करने (सेव करने) की प्रक्रिया है. इसके बाद ऐप्लिकेशन, मॉडल को फिर से चलाने के बजाय, कैश मेमोरी से अपने हिसाब से अनुमान को ऐक्सेस कर सकते हैं.

उदाहरण के लिए, कोई ऐसा मॉडल चुनें जो हर चार घंटे में एक बार स्थानीय मौसम का पूर्वानुमान (अनुमान) जनरेट करता हो. हर मॉडल के चलने के बाद, सिस्टम स्थानीय मौसम के सभी पूर्वानुमानों को कैश मेमोरी में सेव करता है. मौसम ऐप्लिकेशन, कैश मेमोरी से अनुमान हासिल करते हैं.

ऑफ़लाइन अनुमान को स्टैटिक अनुमान भी कहा जाता है.

ऑनलाइन अनुमान से अलग है.

वन-हॉट एन्कोडिंग

#fundamentals

कैटगरी वाले डेटा को वेक्टर के तौर पर दिखाना जिसमें:

  • एक एलिमेंट 1 पर सेट है.
  • बाकी सभी एलिमेंट 0 पर सेट हैं.

वन-हॉट एन्कोडिंग का इस्तेमाल आम तौर पर उन स्ट्रिंग या आइडेंटिफ़ायर को दिखाने के लिए किया जाता है जिनमें संभावित वैल्यू का सीमित सेट होता है. उदाहरण के लिए, मान लें कि Scandinavia नाम की किसी खास कैटगरी वाली सुविधा की पांच वैल्यू हो सकती हैं:

  • "डेनमार्क"
  • "स्वीडन"
  • "नॉर्वे"
  • "फ़िनलैंड"
  • "आइसलैंड"

वन-हॉट एन्कोडिंग हर पांच वैल्यू को इस तरह दिखा सकती है:

country वेक्टर
"डेनमार्क" 1 0 0 0 0
"स्वीडन" 0 1 0 0 0
"नॉर्वे" 0 0 1 0 0
"फ़िनलैंड" 0 0 0 1 0
"आइसलैंड" 0 0 0 0 1

वन-हॉट एन्कोडिंग की वजह से कोई मॉडल, पांच देशों में से हर एक के आधार पर अलग-अलग कनेक्शन सीख सकता है.

किसी सुविधा को संख्या वाले डेटा के तौर पर दिखाना, वन-हॉट एन्कोडिंग का विकल्प है. माफ़ करें, संख्या के हिसाब से स्कैंडिनेवियन देशों को दिखाना एक अच्छा विकल्प नहीं है. उदाहरण के लिए, नीचे दी गई संख्या के हिसाब से समझें:

  • "डेनमार्क" 0 है
  • "स्वीडन" 1 है
  • "नॉर्वे" 2 है
  • "फ़िनलैंड" 3 है
  • "आइसलैंड" 4 है

न्यूमेरिक एन्कोडिंग के साथ, कोई मॉडल रॉ संख्याओं को गणित के हिसाब से समझेगा और उन संख्याओं के आधार पर ट्रेनिंग की कोशिश करेगा. हालांकि, आइसलैंड वाकई नॉर्वे की तुलना में दोगुना (या आधा) नहीं है, इसलिए यह मॉडल कुछ अजीब नतीजों पर पहुंचेगा.

एक-बनाम-सभी

#fundamentals

N क्लास में कैटगरी तय करने से जुड़ी समस्या को देखते हुए, ऐसा सॉल्यूशन जिसमें N अलग-अलग बाइनरी क्लासिफ़ायर शामिल हों—हर संभावित नतीजे के लिए एक बाइनरी क्लासिफ़ायर. जैसे, अगर किसी मॉडल को जानवर, सब्ज़ी या खनिज के उदाहरणों की कैटगरी में तय किया गया है, तो 'वन-बनाम-ऑल' समाधान में ये तीन अलग-अलग बाइनरी कैटगरी तय की जा सकती हैं:

  • जानवर बनाम जानवर नहीं
  • सब्जी बनाम न कि सब्जी
  • मिनरल बनाम गैर-मिनरल

online

#fundamentals

Dynamic के लिए समानार्थी शब्द.

ऑनलाइन अनुमान

#fundamentals

मांग के हिसाब से अनुमान जनरेट करना. उदाहरण के लिए, मान लें कि कोई ऐप्लिकेशन किसी मॉडल के लिए इनपुट पास करता है और किसी अनुमान के लिए अनुरोध जारी करता है. ऑनलाइन अनुमान का इस्तेमाल करने वाला सिस्टम, अनुरोध का जवाब देने के लिए, मॉडल को चलाता है और ऐप्लिकेशन को अनुमान दिखाता है.

ऑफ़लाइन अनुमान से कंट्रास्ट अलग है.

आउटपुट लेयर

#fundamentals

न्यूरल नेटवर्क की "फ़ाइनल" लेयर. आउटपुट लेयर में सुझाव शामिल होता है.

नीचे दिया गया उदाहरण एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर के साथ एक छोटे डीप न्यूरल नेटवर्क को दिखाता है:

एक न्यूरल नेटवर्क, जिसमें एक इनपुट लेयर, दो छिपी हुई लेयर, और एक आउटपुट लेयर है. इनपुट लेयर में दो सुविधाएं होती हैं. पहली
          छिपी हुई लेयर में तीन न्यूरॉन और दूसरी छिपी हुई लेयर
          दो न्यूरॉन से होती है. आउटपुट लेयर में एक नोड होता है.

ओवरफ़िटिंग

#fundamentals

model से मैच करने वाला model बनाना, ताकि वह नए डेटा के लिए सही अनुमान न लगा पाए.

रेगुलराइज़ेशन से ओवरफ़िटिंग को कम किया जा सकता है. एक बड़े और अलग-अलग तरह के ट्रेनिंग सेट पर ट्रेनिंग से ओवरफ़िटिंग को भी कम किया जा सकता है.

P

पांडा

#fundamentals

कॉलम-ओरिएंटेड डेटा विश्लेषण एपीआई, जो numpy पर बना है. TensorFlow जैसे कई मशीन लर्निंग फ़्रेमवर्क, इनपुट के तौर पर पांडा के डेटा स्ट्रक्चर का इस्तेमाल करते हैं. ज़्यादा जानकारी के लिए पांडा के दस्तावेज़ देखें.

पैरामीटर

#fundamentals

वेट और बायस, जिन्हें कोई मॉडल ट्रेनिंग के दौरान सीखता है. उदाहरण के लिए, लीनियर रिग्रेशन मॉडल में, पैरामीटर के इस फ़ॉर्मूले में बायस (b) और सभी वेट (w1, w2 वगैरह) शामिल होते हैं:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

वहीं, हाइपर पैरामीटर वे वैल्यू होती हैं जो मॉडल को आप या हाइपर पैरामीटर बदलने वाली सेवा के ज़रिए सप्लाई करती हैं. उदाहरण के लिए, लर्निंग रेट एक हाइपर पैरामीटर है.

पॉज़िटिव क्लास

#fundamentals

वह कक्षा जिसके लिए आपको टेस्ट करना है.

उदाहरण के लिए, कैंसर मॉडल में पॉज़िटिव क्लास "ट्यूमर" हो सकती है. ईमेल क्लासिफ़ायर में पॉज़िटिव क्लास "स्पैम" हो सकती है.

नेगेटिव क्लास से कंट्रास्ट अलग है.

पोस्ट-प्रोसेसिंग

#fairness
#fundamentals

मॉडल चलाए जाने के बाद, किसी मॉडल के आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, निष्पक्षता की पाबंदियों को लागू करने के लिए किया जा सकता है. इसके लिए, मॉडल में बदलाव भी नहीं किए जाते.

उदाहरण के लिए, किसी क्लासिफ़िकेशन थ्रेशोल्ड को सेट करके, पोस्ट-प्रोसेसिंग को बाइनरी क्लासिफ़ायर पर लागू किया जा सकता है. इससे कुछ एट्रिब्यूट के लिए, ऑपर्च्यूनिटी की समानता को बनाए रखा जा सकता है. ऐसा करने के लिए, यह जांच की जाती है कि सही पॉज़िटिव रेट उस एट्रिब्यूट की सभी वैल्यू के लिए एक जैसी है या नहीं.

अनुमान

#fundamentals

मॉडल का आउटपुट. उदाहरण के लिए:

  • बाइनरी क्लासिफ़िकेशन मॉडल का अनुमान या तो पॉज़िटिव क्लास होता है या नेगेटिव क्लास.
  • कई कैटगरी के क्लासिफ़िकेशन मॉडल का अनुमान, एक क्लास होता है.
  • लीनियर रिग्रेशन मॉडल का अनुमान एक संख्या होती है.

प्रॉक्सी लेबल

#fundamentals

किसी डेटासेट में सीधे तौर पर उपलब्ध न होने वाले लेबल का अनुमान लगाने के लिए इस्तेमाल किया जाने वाला डेटा.

उदाहरण के लिए, मान लीजिए कि आपको कर्मचारी के तनाव के लेवल का अनुमान लगाने के लिए किसी मॉडल को ट्रेनिंग देनी होगी. आपके डेटासेट में कई अनुमान लगाने वाली सुविधाएं हैं, लेकिन उसमें स्ट्रेस लेवल नाम का लेबल नहीं है. हालांकि, यह चिंता की बात नहीं है, क्योंकि आपने तनाव के स्तर के लिए "ऑफ़िस में होने वाली दुर्घटनाएं" को प्रॉक्सी लेबल के तौर पर चुना है. आखिरकार, शांत कर्मचारियों की तुलना में, बहुत ज़्यादा तनाव वाले कर्मचारियों में दुर्घटनाएं ज़्यादा होती हैं. या वे करते हैं? शायद ऑफ़िस में होने वाली दुर्घटनाएं कई वजहों से बढ़ती और गिरती हों.

दूसरे उदाहरण के तौर पर, मान लीजिए कि आपको अपने डेटासेट के लिए क्या बारिश हो रही है? को बूलियन लेबल के तौर पर सेट करना है, लेकिन आपके डेटासेट में बारिश का डेटा नहीं है. अगर फ़ोटोग्राफ़ी उपलब्ध हैं, तो शायद आप छाते लेकर दिखाए गए लोगों की तस्वीरों को प्रॉक्सी लेबल के तौर पर दिखा दें कि क्या बारिश हो रही है? क्या यह एक अच्छा प्रॉक्सी लेबल है? ऐसा हो सकता है, लेकिन कुछ संस्कृतियों में बारिश के बजाय धूप से बचने के लिए छतरी रखने की संभावना ज़्यादा होती है.

प्रॉक्सी लेबल अक्सर सटीक नहीं होते हैं. जब भी हो सके, प्रॉक्सी लेबल के बजाय असल लेबल चुनें. हालांकि, जब कोई असल लेबल मौजूद न हो, तो प्रॉक्सी लेबल को सावधानी से चुनें. साथ ही, प्रॉक्सी लेबल का सबसे कम खतरनाक कैंडिडेट चुनें.

R

रेटिंग देने वाला

#fundamentals

वह व्यक्ति जो उदाहरण के लिए लेबल देता है. रेटिंग देने वाले का दूसरा नाम "एनोटेटर" भी है.

रेक्टिफ़ाइड लीनियर यूनिट (आरएलयू)

#fundamentals

ऐक्टिवेशन फ़ंक्शन, जिसमें यह व्यवहार दिखाया जाता है:

  • अगर इनपुट ऋणात्मक या शून्य है, तो आउटपुट 0 होगा.
  • अगर इनपुट पॉज़िटिव है, तो आउटपुट, इनपुट के बराबर है.

उदाहरण के लिए:

  • अगर इनपुट -3 है, तो आउटपुट 0 होगा.
  • अगर इनपुट +3 है, तो आउटपुट 3.0 होगा.

यहां ReLU का एक हिस्सा दिया गया है:

दो लाइनों वाला कार्टेशियन प्लॉट. पहली लाइन का स्थिर
          y मान 0 है, जो x-ऐक्सिस पर -infinity,0 से 0,-0 तक चलता है.
          दूसरी लाइन 0,0 से शुरू होती है. इस लाइन का स्लोप +1 है, इसलिए
          यह 0,0 से +असीमित,+अनंत तक चलती है.

ReLU, एक बहुत ही लोकप्रिय ऐक्टिवेशन फ़ंक्शन है. अपने सामान्य व्यवहार के बावजूद, ReLU अब भी न्यूरल नेटवर्क को सुविधाओं और लेबल के बीच ऑनलाइन न के संबंधों को सीखने में मदद करता है.

रिग्रेशन मॉडल

#fundamentals

आम तौर पर, यह ऐसा मॉडल होता है जो संख्या वाला अनुमान जनरेट करता है. (इसके उलट, क्लासिफ़िकेशन मॉडल, क्लास का अनुमान जनरेट करता है.) उदाहरण के लिए, नीचे दिए गए सभी रिग्रेशन मॉडल हैं:

  • ऐसा मॉडल जो किसी घर की वैल्यू का अनुमान लगाता है, जैसे कि 4,23,000 यूरो.
  • ऐसा मॉडल जो किसी खास पेड़ के जीवनकाल का अनुमान लगाता है, जैसे कि 23.2 साल.
  • ऐसा मॉडल जो अगले छह घंटों में किसी शहर में होने वाली बारिश का अनुमान लगाता है, जैसे कि 0.18 इंच.

रिग्रेशन के दो सामान्य मॉडल हैं:

  • लीनियर रिग्रेशन, जो लेबल की वैल्यू के हिसाब से सबसे सही लाइन का पता लगाता है.
  • लॉजिस्टिक रिग्रेशन, 0.0 से 1.0 के बीच की यह संभावना जनरेट करता है कि इसके बाद, सिस्टम आम तौर पर क्लास के किसी अनुमान पर मैप करता है.

नंबर वाला अनुमान दिखाने वाला हर मॉडल, रिग्रेशन मॉडल नहीं होता. कुछ मामलों में, अंकों वाला अनुमान सिर्फ़ क्लासिफ़िकेशन मॉडल होता है. उदाहरण के लिए, संख्या वाला पिन कोड का अनुमान लगाने वाला मॉडल, एक क्लासिफ़िकेशन मॉडल होता है, न कि रिग्रेशन मॉडल.

रेगुलराइज़ेशन

#fundamentals

ऐसा कोई भी तरीका जो ओवरफ़िट को कम करता है. रेगुलराइज़ेशन के लोकप्रिय तरीके ये हैं:

रेगुलराइज़ेशन को मॉडल की जटिलता पर दंड के रूप में भी परिभाषित किया जा सकता है.

रेगुलराइज़ेशन की दर

#fundamentals

यह संख्या बताती है कि ट्रेनिंग के दौरान, रेगुलराइज़ेशन की कितनी अहमियत होती है. रेगुलराइज़ेशन की दर को बढ़ाने से, ओवरफ़िटिंग कम हो जाती है. हालांकि, इससे मॉडल की अनुमानित परफ़ॉर्मेंस कम हो सकती है. इसके ठीक उलट, नियमित करने की दर को कम करने या हटाने से ओवरफ़िटिंग में बढ़ोतरी होती है.

ReLU

#fundamentals

रेक्टिफ़ाइड लीनियर यूनिट का छोटा नाम.

वापस पाने वाली पीढ़ी

#fundamentals

यह एक ऐसा सॉफ़्टवेयर आर्किटेक्चर है जिसका इस्तेमाल आम तौर पर, बड़े लैंग्वेज मॉडल (एलएलएम) ऐप्लिकेशन में किया जाता है. पेज वापस पाने के लिए जोड़ी गई जनरेशन का इस्तेमाल इन वजहों से हो सकता है:

  • मॉडल के जनरेट किए गए जवाबों को ज़्यादा सटीक बनाना
  • मॉडल को ऐसी जानकारी का ऐक्सेस देना जिस पर इसे ट्रेनिंग नहीं दी गई थी
  • मॉडल किस जानकारी का इस्तेमाल करता है, इसमें बदलाव करना
  • सोर्स का उद्धरण देने के लिए मॉडल को चालू करना

उदाहरण के लिए, मान लें कि कोई केमिस्ट्री ऐप्लिकेशन, उपयोगकर्ता की क्वेरी से जुड़ी खास जानकारी जनरेट करने के लिए PaLM एपीआई का इस्तेमाल करता है. जब ऐप्लिकेशन के बैकएंड को कोई क्वेरी मिलती है, तो बैकएंड पहले उपयोगकर्ता की क्वेरी से मेल खाने वाले ("रिकवरी") डेटा की खोज करता है, उपयोगकर्ता की क्वेरी में काम का केमिस्ट्री डेटा जोड़ता है ("ऑगमेंट"), और एलएलएम को जोड़े गए डेटा के आधार पर जवाब बनाने का निर्देश देता है.

आरओसी (रिसीवर ऑपरेटिंग की विशेषता) कर्व

#fundamentals

बाइनरी क्लासिफ़िकेशन में, अलग-अलग क्लासिफ़िकेशन थ्रेशोल्ड के लिए, ट्रू पॉज़िटिव रेट बनाम गलत पॉज़िटिव रेट का ग्राफ़.

आरओसी कर्व का आकार, बाइनरी क्लासिफ़िकेशन मॉडल की पॉज़िटिव क्लास को नेगेटिव क्लास से अलग करने की क्षमता दिखाता है. उदाहरण के लिए, मान लीजिए कि एक बाइनरी क्लासिफ़िकेशन मॉडल, सभी नेगेटिव क्लास को सभी पॉज़िटिव क्लास से पूरी तरह अलग करता है.

संख्या वाली लाइन, जिसमें दाईं ओर आठ पॉज़िटिव उदाहरण और बाईं ओर सात नेगेटिव उदाहरण.

पिछले मॉडल का ROC वक्र ऐसा दिखता है:

एक ROC कर्व. x-ऐक्सिस को फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस का मतलब सही पॉज़िटिव रेट है. कर्व का आकार उलटा होता है. कर्व (0.0,0.0) से शुरू होता है और सीधे (0.0,1.0) तक जाता है. इसके बाद, कर्व (0.0,1.0) से (1.0,1.0) तक जाता है.

इसके उलट, नीचे दिया गया इलस्ट्रेशन एक खराब मॉडल के लिए रॉ लॉजिस्टिक रिग्रेशन वैल्यू को ग्राफ़ में दिखाता है. यह मॉडल नेगेटिव क्लास को पॉज़िटिव क्लास से अलग नहीं कर सकता:

पॉज़िटिव उदाहरण और नेगेटिव क्लास वाली संख्या
          पूरी तरह से आपस में मेल खाती हैं.

इस मॉडल के लिए ROC वक्र ऐसा दिखता है:

ROC कर्व, जो असल में (0.0,0.0) से (1.0,1.0) तक की एक सीधी लाइन है.

वहीं, असल दुनिया की बात करें, तो ज़्यादातर बाइनरी क्लासिफ़िकेशन मॉडल, पॉज़िटिव और नेगेटिव क्लास को कुछ हद तक अलग-अलग करते हैं. हालांकि, आम तौर पर ये मॉडल बिलकुल सही तरीके से नहीं होते. इसलिए, आम तौर पर ROC वक्र इन दो सीमाओं के बीच में आता है:

एक ROC कर्व. x-ऐक्सिस को फ़ॉल्स पॉज़िटिव रेट और y-ऐक्सिस का मतलब सही पॉज़िटिव रेट है. आरओसी कर्व, एक अस्थिर आर्क का अनुमान लगाता है
          जो कंपास पॉइंट को पश्चिम से उत्तर की ओर घुमाता है.

सैद्धांतिक रूप से (0.0,1.0) के सबसे करीब मौजूद ROC कर्व पर मौजूद बिंदु, आदर्श वर्गीकरण सीमा की पहचान करता है. हालांकि, असल दुनिया की कई समस्याएं, कैटगरी तय करने के लिए सही थ्रेशोल्ड को चुनने पर असर डालती हैं. उदाहरण के लिए, शायद फ़ॉल्स नेगेटिव की वजह से फ़ॉल्स पॉज़िटिव के मुकाबले कहीं ज़्यादा तकलीफ़ हो.

संख्या वाली मेट्रिक को AUC कहते हैं. यह ROC कर्व की खास जानकारी को एक फ़्लोटिंग-पॉइंट वैल्यू में बदल देता है.

रूट मीन स्क्वेयर्ड एरर (RMSE)

#fundamentals

मीन स्क्वेयर्ड एरर का स्क्वेयर रूट.

S

सिगमॉइड फ़ंक्शन

#fundamentals

यह गणित का एक फ़ंक्शन है जो किसी इनपुट वैल्यू को सीमित रेंज में "स्क्विश" करता है. आम तौर पर, यह वैल्यू 0 से 1 या -1 से +1 तक होती है. इसका मतलब है कि सिगमॉइड में कोई भी संख्या (दो, दस लाख, नेगेटिव अरब, चाहे भी) पास की जा सकती है. इससे मिलने वाले नतीजे अब भी सीमित रेंज में रहेंगे. सिग्मॉइड ऐक्टिवेशन फ़ंक्शन का प्लॉट इस तरह दिखता है:

दो-डाइमेंशन वाला घुमावदार प्लॉट, जिसमें x वैल्यू हैं और जो -अनफ़िनिटी से +पॉज़िटिव तक हैं, जबकि y वैल्यू, 0 से लेकर करीब-करीब 1 तक की रेंज में काम करती हैं. जब x की वैल्यू 0 होती है, तो y की वैल्यू 0.5 हो जाती है. कर्व का स्लोप हमेशा पॉज़िटिव होता है. इसमें सबसे ज़्यादा स्लोप 0, 0.5 होता है. साथ ही,x के पूरे मान के बढ़ने पर ढलान
 धीरे-धीरे कम होती जाती है.

सिगमॉइड फ़ंक्शन को मशीन लर्निंग में कई तरह से इस्तेमाल किया जाता है. इनमें ये शामिल हैं:

सॉफ़्टमैक्स

#fundamentals

ऐसा फ़ंक्शन जो मल्टी-क्लास क्लासिफ़िकेशन मॉडल में, हर संभावित क्लास के लिए संभावना तय करता है. संभावित ग्राहकों की संख्या सिर्फ़ 1.0 हो जाती है. उदाहरण के लिए, नीचे दी गई टेबल से पता चलता है कि सॉफ़्टमैक्स अलग-अलग संभावनाओं को कैसे डिस्ट्रिब्यूट करता है:

इमेज एक है... प्रॉबेबिलिटी
कुत्ता .85
cat .13
घोड़ा .02

सॉफ़्टमैक्स को फ़ुल सॉफ़्टमैक्स भी कहा जाता है.

उम्मीदवार सैंपलिंग का कंट्रास्ट.

कम जानकारी दिखाने वाली सुविधा

#language
#fundamentals

कोई सुविधा जिसकी वैल्यू मुख्य रूप से शून्य या खाली है. उदाहरण के लिए, एक ऐसी सुविधा जिसमें एक वैल्यू और लाखों शून्य वैल्यू होती हैं, वह बहुत छोटी होती है. वहीं दूसरी ओर, डेंसिटी सुविधा में ऐसी वैल्यू होती हैं जो शून्य या खाली नहीं होती हैं.

मशीन लर्निंग में, हैकर की जाने वाली सुविधाओं की संख्या बहुत कम होती है. कैटगरीकल फ़ीचर में आम तौर पर बहुत कम सुविधाएं होती हैं. जैसे, किसी जंगल में पेड़ों की 300 संभावित प्रजातियों में से, एक उदाहरण में सिर्फ़ मेपल ट्री की पहचान की जा सकती है. या फिर, वीडियो लाइब्रेरी में मौजूद लाखों वीडियो में से, किसी एक उदाहरण से सिर्फ़ "कैसाब्लांका" को पहचाना जा सकता है.

मॉडल में, आम तौर पर एक-हॉट एन्कोडिंग का इस्तेमाल करके, थोड़ी-बहुत सुविधाओं को दिखाया जाता है. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए वन-हॉट एन्कोडिंग के ऊपर एम्बेड करने वाली लेयर जोड़ी जा सकती है.

बहुत कम प्रतिनिधित्व

#language
#fundamentals

किसी स्पार्स सुविधा में शून्य के अलावा दूसरी चीज़ों के सिर्फ़ पद को सेव करना.

उदाहरण के लिए, मान लें कि species नाम की एक कैटगरी के तहत आने वाली सुविधा, किसी खास जंगल में पेड़ों की 36 प्रजातियों की पहचान करती है. इसके बाद, मान लें कि हर उदाहरण में सिर्फ़ एक प्रजाति की पहचान की गई है.

हर उदाहरण में, पेड़ की प्रजातियों को दिखाने के लिए वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. वन-हॉट वेक्टर में एक 1 (इस उदाहरण में पेड़ों की खास प्रजातियों को दिखाने के लिए) और 35 0 (पेड़ों की 35 प्रजातियों को दिखाने के लिए) होगा. इस उदाहरण में यह नहीं है. इसलिए, maple की खास जानकारी कुछ इस तरह दिख सकती है:

ऐसा वेक्टर जिसमें 0 से लेकर 23 तक की पोज़िशन में, वैल्यू 0 होती है,
          रैंक 24 में वैल्यू 1 होती है, और 25 से 35 तक की पोज़िशन 0 होती है.

इसके अलावा, सटीक जानकारी से सिर्फ़ उन प्रजातियों की जगह की पहचान की जा सकेगी. अगर maple, रैंक 24 पर है, तो maple की औसत परफ़ॉर्मेंस यह होगी:

24

ध्यान दें कि निजी जानकारी को सटीक तरीके से पेश करने की तुलना में, वीडियो का छोटा हिस्सा ज़्यादा सटीक होता है.

स्पैर्स वेक्टर

#fundamentals

ऐसा वेक्टर जिसकी वैल्यू ज़्यादातर शून्य होती हैं. स्पार्स सुविधा और पैरलिटी भी देखें.

वर्ग में हार का मान

#fundamentals

L2 लॉस का समानार्थी शब्द.

स्टैटिक

#fundamentals

लगातार करने की बजाय एक बार किया गया. स्टैटिक और ऑफ़लाइन शब्द एक जैसे हैं. मशीन लर्निंग में स्टैटिक और ऑफ़लाइन के सामान्य इस्तेमाल ये हैं:

  • स्टैटिक मॉडल (या ऑफ़लाइन मॉडल) एक ऐसा मॉडल है जिसे एक बार ट्रेनिंग दी जाती है और फिर कुछ समय के लिए इस्तेमाल किया जाता है.
  • स्टैटिक ट्रेनिंग (या ऑफ़लाइन ट्रेनिंग) एक स्टैटिक मॉडल की ट्रेनिंग की प्रोसेस है.
  • स्टैटिक अनुमान (या ऑफ़लाइन अनुमान) एक ऐसी प्रोसेस है जिसमें कोई मॉडल एक बार में अनुमानों का बैच जनरेट करता है.

डाइनैमिक कंट्रास्ट से अलग है.

स्टैटिक अनुमान

#fundamentals

ऑफ़लाइन अनुमान का समानार्थी शब्द.

स्टेशनरिटी

#fundamentals

ऐसी सुविधा जिसकी वैल्यू एक या उससे ज़्यादा डाइमेंशन में नहीं बदलती. आम तौर पर, यह समय बदलता है. उदाहरण के लिए, किसी सुविधा की वैल्यू 2021 और 2023 में एक जैसी ही रहेगी.

वास्तविक दुनिया में, कुछ ही सुविधाएं ऐसी दिखती हैं कि वे एक जगह पर ही उपलब्ध हो पाती हैं. यहां तक कि स्थिरता वाले फ़ीचर (जैसे, समुद्र का स्तर) भी समय के साथ बदलते रहते हैं.

नॉनस्टेशन के साथ कंट्रास्ट.

स्टोकेस्टिक ग्रेडिएंट डिसेंट (एसजीडी)

#fundamentals

ग्रेडिएंट डिसेंट एल्गोरिदम, जिसमें बैच का साइज़ एक होता है. दूसरे शब्दों में कहें, तो एसजीडी ने ट्रेनिंग सेट से, बिना किसी क्रम के चुने गए एक उदाहरण को ट्रेनिंग दी है.

सुपरवाइज़्ड मशीन लर्निंग

#fundamentals

किसी model को model और उनसे जुड़े model के आधार पर ट्रेनिंग देना. सुपरवाइज़्ड मशीन लर्निंग, किसी विषय को सीखने के मिलते-जुलते टूल है. इसके लिए, कई तरह के सवालों और उनसे जुड़े जवाबों को पढ़ाया जाता है. सवालों और जवाबों के बीच मैप बनाने में महारत हासिल करने के बाद, कोई छात्र एक ही विषय पर नए (पहले कभी नहीं देखे गए) सवालों के जवाब दे सकता है.

बिना निगरानी वाली मशीन लर्निंग से तुलना करें.

सिंथेटिक फ़ीचर

#fundamentals

कोई सुविधा, इनपुट सुविधाओं में मौजूद नहीं है, लेकिन उसे एक या उससे ज़्यादा सुविधाओं में से जोड़ा गया है. सिंथेटिक सुविधाएं बनाने के लिए इन तरीकों में शामिल हैं:

  • रेंज बिन में, लगातार चलने वाली सुविधा बकेटिंग.
  • फ़ीचर क्रॉस बनाना.
  • एक सुविधा की वैल्यू को, अन्य वैल्यू से या उसी वैल्यू से गुणा करना (या भाग देना). उदाहरण के लिए, अगर a और b इनपुट सुविधाएं हैं, तो ये सिंथेटिक सुविधाओं के उदाहरण हैं:
    • ab
    • a2
  • किसी फ़ीचर वैल्यू पर ट्रांसेंडेंटल फ़ंक्शन लागू करना. उदाहरण के लिए, अगर c एक इनपुट सुविधा है, तो सिंथेटिक सुविधाओं के उदाहरण यहां दिए गए हैं:
    • sin(c)
    • ln(c)

सामान्य या स्केलिंग से बनाई गई सुविधाओं को सिंथेटिक सुविधाएं नहीं माना जाता है.

T

टेस्ट को होने से होने वाला नुकसान

#fundamentals

टेस्ट सेट पर, किसी मॉडल की लॉस को दिखाने वाली मेट्रिक. आम तौर पर, model बनाते समय, जांच में होने वाले नुकसान को कम करने की कोशिश की जाती है. ऐसा इसलिए होता है, क्योंकि टेस्ट लॉस कम होने का मतलब है कि क्वालिटी सिग्नल कम होने का मतलब है कि ट्रेनिंग में कमी या पुष्टि में कमी कम हो.

टेस्ट खोने और ट्रेनिंग खोने के बीच एक बड़ा अंतर कभी-कभी यह सुझाव देता है कि आपको रेगुलराइज़ेशन रेट बढ़ाना चाहिए.

ट्रेनिंग

#fundamentals

मॉडल वाले सही पैरामीटर (वेट और बायस) तय करने की प्रोसेस. ट्रेनिंग के दौरान, सिस्टम उदाहरणों को पढ़ता है और पैरामीटर में धीरे-धीरे बदलाव करता है. ट्रेनिंग में हर उदाहरण का इस्तेमाल, कुछ समय से लेकर करोड़ों बार किया जाता है.

ट्रेनिंग में कमी

#fundamentals

किसी खास ट्रेनिंग के दौरान होने वाली लॉस की जानकारी देने वाली मेट्रिक. उदाहरण के लिए, मान लें कि नुकसान का फ़ंक्शन मीन स्क्वेयर्ड एरर है. शायद 10वीं इटरेशन के लिए ट्रेनिंग में हुए नुकसान (मीन वर्ग गड़बड़ी) 2.2 है और 100वें इटरेशन के लिए ट्रेनिंग में होने वाली कमी 1.9 है.

लॉस कर्व में ट्रेनिंग के नुकसान की तुलना, दोहराए जाने की संख्या के मुकाबले दिखती है. लॉस कर्व से ट्रेनिंग के बारे में ये संकेत मिलते हैं:

  • नीचे की ओर स्लोप का मतलब है कि मॉडल बेहतर हो रहा है.
  • ऊपर की ओर ढलान का मतलब है कि मॉडल खराब हो रहा है.
  • फ़्लैट स्लोप का मतलब है कि मॉडल, कन्वर्ज़न तक पहुंच गया है.

उदाहरण के लिए, नीचे दिया गया कुछ हद तक आदर्श बनाया गया लॉस कर्व दिखाता है:

  • शुरुआती दोहराव के दौरान एकदम नीचे की ओर ढलान, जिसका मतलब है तेज़ी से मॉडल सुधार.
  • ट्रेनिंग खत्म होने तक, धीरे-धीरे सपाट (लेकिन फिर भी नीचे की ओर) स्लोप. इसका मतलब है कि शुरुआती दोहराव के दौरान, मॉडल में सुधार की प्रक्रिया कुछ हद तक धीमी गति से जारी है.
  • ट्रेनिंग खत्म होने की दिशा में सपाट ढलान, जो कन्वर्जन का सुझाव देती है.

ट्रेनिंग में होने वाले नुकसान बनाम बार-बार दोहराए जाने वाले कॉन्टेंट की कहानी. नुकसान का यह कर्व
     शुरुआत में नीचे की ओर झुक जाता है. जब तक ढलान शून्य नहीं हो जाती, तब तक ढलान का वर्शन धीरे-धीरे सपाट होता है.

हालांकि, ट्रेनिंग का नुकसान होना ज़रूरी है, लेकिन सामान्य तौर पर करना भी देखें.

ट्रेनिंग और ब्राउज़र में वेब पेज खोलने के दौरान परफ़ॉर्मेंस में अंतर

#fundamentals

ट्रेनिंग के दौरान किसी मॉडल की परफ़ॉर्मेंस और विज्ञापन दिखाने के दौरान उसी मॉडल की परफ़ॉर्मेंस के बीच का अंतर.

ट्रेनिंग सेट

#fundamentals

किसी मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किए जाने वाले डेटासेट का सबसेट.

आम तौर पर, डेटासेट में मौजूद उदाहरणों को नीचे दिए गए तीन अलग-अलग सबसेट में बांटा जाता है:

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से मौजूद सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण ट्रेनिंग सेट और पुष्टि करने के सेट, दोनों से जुड़ा नहीं होना चाहिए.

सही नेगेटिव (TN)

#fundamentals

एक उदाहरण, जिसमें मॉडल नेगेटिव क्लास का सही तरीके से अनुमान लगाता है. उदाहरण के लिए, मॉडल यह मानकर चलता है कि कोई खास ईमेल मैसेज स्पैम नहीं है और वह ईमेल वाकई स्पैम नहीं है.

ट्रू पॉज़िटिव (TP)

#fundamentals

एक उदाहरण, जिसमें मॉडल सही तरीके से पॉज़िटिव क्लास का अनुमान लगाता है. उदाहरण के लिए, मॉडल यह मान लेता है कि कोई खास ईमेल मैसेज स्पैम है और वह ईमेल वाकई स्पैम है.

ट्रू पॉज़िटिव रेट (TPR)

#fundamentals

recall का समानार्थी शब्द. यानी:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

आरओसी कर्व में y-ऐक्सिस है, सही पॉज़िटिव रेट.

U

अंडरफ़िटिंग

#fundamentals

ऐसा model बनाना जिससे अनुमान लगाने की सुविधा खराब हो, क्योंकि यह मॉडल ट्रेनिंग के डेटा को पूरी तरह से कैप्चर नहीं करता. कई समस्याओं की वजह से, फ़िटिंग सही तरीके से नहीं हो पाती. इनमें ये शामिल हैं:

बिना लेबल वाला उदाहरण

#fundamentals

ऐसा उदाहरण जिसमें features शामिल है, लेकिन कोई label नहीं है. उदाहरण के लिए, नीचे दी गई टेबल में बिना लेबल वाले तीन उदाहरण दिखाए गए हैं. ये उदाहरण घर के मूल्यांकन मॉडल से लिए गए हैं. हर उदाहरण में तीन सुविधाएं हैं, लेकिन हाउस वैल्यू नहीं है:

कमरों की संख्या बाथरूम की संख्या घर में उम्र
3 2 15
2 1 72
4 2 34

सुपरवाइज़्ड मशीन लर्निंग में, मॉडल, लेबल किए गए उदाहरणों के आधार पर ट्रेनिंग लेते हैं और बिना लेबल वाले उदाहरणों के आधार पर अनुमान लगाते हैं.

सेमी-सुपरवाइज़्ड और बिना निगरानी वाले लर्निंग में, ट्रेनिंग के दौरान बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है.

लेबल किए गए उदाहरण के साथ बिना लेबल वाले कंट्रास्ट का उदाहरण.

बिना निगरानी वाली मशीन लर्निंग

#clustering
#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए किसी model को ट्रेनिंग देना. आम तौर पर, यह बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का सबसे आम इस्तेमाल, एक जैसे उदाहरणों के ग्रुप में क्लस्टर करना है. उदाहरण के लिए, बिना निगरानी वाला मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के हिसाब से गानों का ग्रुप बना सकता है. ये क्लस्टर दूसरे मशीन लर्निंग एल्गोरिदम के लिए इनपुट बन सकते हैं (उदाहरण के लिए, संगीत का सुझाव देने वाली किसी सेवा के लिए). उपयोगी लेबल कम या मौजूद नहीं होने पर, क्लस्टरिंग की सुविधा से मदद मिल सकती है. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी रोकने जैसे मामलों में क्लस्टर, डेटा को बेहतर तरीके से समझने में इंसानों की मदद कर सकते हैं.

सुपरवाइज़्ड मशीन लर्निंग से कंट्रास्ट अलग है.

V

पुष्टि करना

#fundamentals

किसी मॉडल की क्वालिटी का शुरुआती आकलन. पुष्टि से, पुष्टि करने के सेट के मुताबिक मॉडल के अनुमानों की क्वालिटी की जांच की जाती है.

पुष्टि करने का सेट ट्रेनिंग सेट से अलग होता है. इसलिए, पुष्टि करने से ओवरफ़िट से बचने में मदद मिलती है.

आपके पास, टेस्टिंग के पहले राउंड के तौर पर, पुष्टि करने के लिए सेट किए गए मॉडल से इस मॉडल का आकलन करने का विकल्प होता है. साथ ही, टेस्टिंग के दूसरे राउंड के तौर पर, टेस्ट सेट से मॉडल का आकलन किया जा सकता है.

पुष्टि नहीं हुई है

#fundamentals

मेट्रिक, जो किसी खास दोहराव की ट्रेनिंग के दौरान पुष्टि करने के सेट पर, मॉडल की लॉस को दिखाती है.

सामान्य कर्व भी देखें.

पुष्टि करने का विकल्प सेट किया गया

#fundamentals

डेटासेट का ऐसा सबसेट जो ट्रेनिंग वाले मॉडल की तुलना में शुरुआती जांच करता है. आम तौर पर, टेस्ट सेट के हिसाब से मॉडल का आकलन करने से पहले, आपको कई बार पुष्टि करने के सेट के हिसाब से, ट्रेन किए गए मॉडल का आकलन करना होता है.

परंपरागत तौर पर, डेटासेट में मौजूद उदाहरणों को इन तीन अलग-अलग सबसेट में बांटा जाता है:

आम तौर पर, डेटासेट में मौजूद हर उदाहरण, पहले से मौजूद सबसेट में से सिर्फ़ एक से जुड़ा होना चाहिए. उदाहरण के लिए, कोई एक उदाहरण ट्रेनिंग सेट और पुष्टि करने के सेट, दोनों से जुड़ा नहीं होना चाहिए.

W

वज़न का डेटा

#fundamentals

वह वैल्यू जिसका किसी मॉडल में दूसरी वैल्यू से गुणा किया जाता है. ट्रेनिंग, किसी मॉडल के लिए सबसे सही वज़न तय करने की प्रोसेस है; अनुमान यानी कि अनुमान लगाने के लिए, सीखे गए वेट का इस्तेमाल करके अनुमान लगाया जाता है.

भारित योग

#fundamentals

सभी प्रासंगिक इनपुट मानों का योग उनके संबंधित भार से गुणा किया जाता है. उदाहरण के लिए, मान लें कि काम के इनपुट में ये चीज़ें शामिल हैं:

इनपुट की वैल्यू इनपुट की मोटाई
2 -1.3
-1 0.6
3 0.4

इसलिए, भारित योग यह होता है:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

वेटेड योग, किसी ऐक्टिवेशन फ़ंक्शन के लिए इनपुट आर्ग्युमेंट होता है.

Z

ज़ेड-स्कोर के लिए नॉर्मलाइज़ेशन

#fundamentals

स्केलिंग की ऐसी तकनीक जो feature की रॉ वैल्यू को फ़्लोटिंग-पॉइंट वैल्यू से बदल देती है. यह वैल्यू, सुविधा के मीन से होने वाले स्टैंडर्ड डेविएशन की संख्या दिखाती है. उदाहरण के लिए, एक ऐसी सुविधा पर विचार करें जिसका मीन 800 है और जिसका स्टैंडर्ड डेविएशन 100 है. नीचे दी गई टेबल से पता चलता है कि Z-स्कोर को नॉर्मलाइज़ेशन (नॉर्मलाइज़ेशन) किस तरह रॉ वैल्यू को इसके Z-स्कोर से मैप करेगा:

असल वैल्यू ज़ेड-स्कोर
800 0
950 1.5 से ज़्यादा
575 -2.25

इसके बाद, मशीन लर्निंग मॉडल रॉ वैल्यू के बजाय, उस सुविधा के लिए Z-स्कोर पर ट्रेनिंग लेता है.