मशीन लर्निंग ग्लॉसरी: भाषा का मूल्यांकन

इस पेज पर, भाषा के आकलन से जुड़ी ग्लॉसरी के शब्द मौजूद हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

जवाब

ध्यान देना

#language

न्यूरल नेटवर्क में इस्तेमाल किया जाने वाला सिस्टम, जो किसी खास शब्द या किसी शब्द के हिस्से की अहमियत बताता है. अटेंशन उस जानकारी को कंप्रेस करता है जिसकी ज़रूरत किसी मॉडल को अगले टोकन/शब्द का अनुमान लगाने के लिए होती है. ध्यान देने के एक आम तरीके में, इनपुट के एक सेट के ऊपर वेटेड जोड़ का इस्तेमाल किया जा सकता है जहां हर इनपुट के वेट का हिसाब, न्यूरल नेटवर्क के किसी दूसरे हिस्से से लगाया जाता है.

सेल्फ़-अटेंशन और कई सिर पर ध्यान देने की सुविधा के बारे में भी जानें. ये ट्रांसफ़ॉर्मर बनाने में अहम भूमिका निभाते हैं.

ऑटोएनकोडर

#language
#image

एक ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी निकालना सीखता है. ऑटोएनकोडर, एन्कोडर और डीकोडर का कॉम्बिनेशन होता है. ऑटोएनकोडर नीचे दी गई दो चरणों वाली प्रोसेस पर निर्भर करते हैं:

  1. एन्कोडर, इनपुट को (आम तौर पर) नुकसान वाले लोअर डाइमेंशन (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
  2. डिकोडर, कम डाइमेंशन वाले फ़ॉर्मैट को ओरिजनल हाई डाइमेंशन इनपुट फ़ॉर्मैट से मैप करके, ओरिजनल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.

ऑटोकोडर को एंड-टू-एंड ट्रेनिंग दी जाती है. डिकोडर की मदद से, एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से ओरिजनल इनपुट को जितना हो सके, उतना करीब से बनाया जाता है. इंटरमीडिएट फ़ॉर्मैट, ओरिजनल फ़ॉर्मैट से छोटा (लोअर-डाइमेंशन) होता है, इसलिए ऑटोएनकोडर को यह समझने के लिए मजबूर किया जाता है कि इनपुट में दी गई कौनसी जानकारी ज़रूरी है. आउटपुट, इनपुट से पूरी तरह मेल नहीं खाता.

उदाहरण के लिए:

  • अगर इनपुट डेटा ग्राफ़िक है, तो सटीक कॉपी न दिखने वाली कॉपी ओरिजनल ग्राफ़िक की तरह होगी, लेकिन उसमें कुछ हद तक बदलाव किया गया होगा. ऐसा भी हो सकता है कि टेक्स्ट की पूरी तरह कॉपी न होने पर, ओरिजनल ग्राफ़िक से शोर को हटा दिया जाए या कुछ पिक्सल में कमी हो जाए.
  • अगर इनपुट डेटा टेक्स्ट है, तो ऑटोएनकोडर नया टेक्स्ट जनरेट करेगा. यह मूल टेक्स्ट की नकल (लेकिन, उससे अलग) होगा.

अलग-अलग ऑटोएनकोडर भी देखें.

ऑटो-रिग्रेसिव मॉडल

#language
#image
#generativeAI

ऐसा model जो अपने पिछले अनुमानों के आधार पर, किसी अनुमान का अनुमान लगाता है. उदाहरण के लिए, ऑटो-रिग्रेसिव लैंग्वेज मॉडल, पहले बताए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. ट्रांसफ़ॉर्मर पर आधारित बड़े लैंग्वेज मॉडल, ऑटो-रिग्रेसिव होते हैं.

वहीं दूसरी ओर, GAN पर आधारित इमेज मॉडल आम तौर पर ऑटो-रिग्रेसिव नहीं होते, क्योंकि वे एक ही फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और बार-बार ऐसा नहीं करते. हालांकि, कुछ इमेज जनरेट करने वाले मॉडल, ऑटो-रिग्रेसिव होते हैं, क्योंकि वे चरणों में इमेज जनरेट करते हैं.

B

शब्दों का बैग

#language

किसी वाक्यांश या पैसेज में शब्दों को दिखाना, फिर चाहे उनका क्रम कुछ भी हो. उदाहरण के लिए, शब्दों का बैग नीचे दिए गए तीन वाक्यांशों को एक जैसा दिखाता है:

  • कुत्ता कूदता है
  • कुत्ते को कूदता है
  • कुत्ता उछलता है

हर शब्द को स्पार्स वेक्टर में इंडेक्स करने के लिए मैप किया जाता है, जहां वेक्टर शब्दावली में मौजूद हर शब्द के लिए इंडेक्स होता है. उदाहरण के लिए, कुत्ते कूदता है वाक्यांश को एक फ़ीचर वेक्टर में मैप किया जाता है, जिसमें शून्य नहीं होते हैं. इसके लिए, the, dog, और jumps शब्द के तीन इंडेक्स पर वैल्यू डाली जाती है. शून्य के अलावा दूसरी वैल्यू, इनमें से कोई भी हो सकती है:

  • A 1 किसी शब्द की मौजूदगी को दिखाता है.
  • बैग में कोई शब्द दिखने की संख्या. उदाहरण के लिए, अगर वाक्य में मरून डॉग, मरून फ़र वाला कुत्ता है, तो मरून और डॉग, दोनों को 2 और दूसरे शब्द को 1 के तौर पर दिखाया जाएगा.
  • कुछ अन्य वैल्यू, जैसे कि बैग में कोई शब्द कितनी बार दिखेगा, इसका लॉगारिद्म.

BERT (बायडायरेक्शनल एन्कोडर ट्रांसफ़ॉर्मर से रिप्रज़ेंटेशन)

#language

टेक्स्ट प्रज़ेंटेशन के लिए मॉडल आर्किटेक्चर. एक प्रशिक्षित BERT मॉडल, टेक्स्ट क्लासिफ़िकेशन या अन्य एमएल टास्क के लिए एक बड़े मॉडल के हिस्से के तौर पर काम कर सकता है.

BERT की ये विशेषताएं होती हैं:

BERT के वैरिएंट में ये शामिल हैं:

  • ALBERT, A Light BERT का छोटा रूप है.
  • LaBSE.

BERT के बारे में खास जानकारी के लिए, ओपन सोर्सिंग BERT: नैचुरल लैंग्वेज प्रोसेसिंग के लिए आर्ट-ऑफ़-द-आर्ट-ट्रेनिंग देखें.

दोतरफ़ा

#language

यह ऐसे सिस्टम के लिए इस्तेमाल किया जाता है जो टेक्स्ट के टारगेट सेक्शन से पहले और फ़ॉलो किए जाने वाले, दोनों टेक्स्ट का आकलन करता है. वहीं, एकतरफ़ा सिस्टम सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पहले लागू होता है.

उदाहरण के लिए, किसी मास्क्ड लैंग्वेज मॉडल पर विचार करें, जो यहां दिए गए सवाल में अंडरलाइन दिखाने के लिए, शब्द या शब्दों की संभावनाएं तय करे:

आपके साथ _____ क्या है?

एकतरफ़ा भाषा मॉडल को "क्या", "है", और "द" शब्दों के ज़रिए दिए गए संदर्भ के आधार पर अपनी संभावनाओं को आधार बनाना होगा. इसके उलट, दोतरफ़ा भाषा मॉडल को "के साथ" और "आप" जैसे कॉन्टेक्स्ट से भी मदद मिल सकती है, जिससे मॉडल को बेहतर अनुमान जनरेट करने में मदद मिल सकती है.

दोतरफ़ा भाषा मॉडल

#language

भाषा का मॉडल, जो इस बात की संभावना तय करता है कि दी गई जगह पर, दिया गया टोकन मौजूद है या नहीं. यह पिछले और अगले टेक्स्ट के आधार पर, टेक्स्ट के किसी हिस्से में होता है.

Bigram

#seq
#language

N-gram जिसमें N=2 हो.

BLEU (दो भाषाओं में होने वाली जांच में मदद के लिए)

#language

0.0 और 1.0 के बीच का स्कोर, जो दो मानवीय भाषाओं (उदाहरण के लिए, अंग्रेज़ी और रूसी के बीच) के अनुवाद की क्वालिटी को दिखाता है. 1.0 का BLEU स्कोर बढ़िया अनुवाद दिखाता है; 0.0 का BLEU स्कोर बहुत खराब अनुवाद दिखाता है.

C

कॉज़ल लैंग्वेज मॉडल

#language

एकतरफ़ा भाषा मॉडल के लिए समानार्थी शब्द.

भाषा मॉडलिंग में अलग-अलग डायरेक्शनल अप्रोच के कंट्रास्ट के लिए, दोतरफ़ा भाषा मॉडल देखें.

सोच-विचार

#language
#generativeAI

प्रॉम्प्ट इंजीनियरिंग की एक ऐसी तकनीक जो बड़े लैंग्वेज मॉडल (एलएलएम) को इसकी वजह बताने के लिए, सिलसिलेवार तरीके से बताती है. उदाहरण के लिए, इस निर्देश पर ध्यान दें और दूसरे वाक्य पर खास ध्यान दें:

एक कार में 0 से 60 मील प्रति घंटे की रफ़्तार 7 सेकंड में चलने पर, एक ड्राइवर को कितने ग्राम फ़ोर्स का अनुभव होगा? जवाब में सभी ज़रूरी गणनाएं दिखाएं.

एलएलएम के जवाब शायद:

  • फ़िज़िक्स के फ़ॉर्मूले को क्रम से दिखाएं और 0, 60, और 7 की वैल्यू को सही जगहों पर डालें.
  • बताएं कि इन फ़ॉर्मूला को क्यों चुना गया और अलग-अलग वैरिएबल का क्या मतलब है.

अपने आइडिया पर ध्यान देने से, एलएलएम को सभी कैलकुलेशन करने के लिए मजबूर किया जाता है. इससे एलएलएम को ज़्यादा सटीक जवाब मिल सकता है. इसके अलावा, सोच-विचार करने की सुविधा से उपयोगकर्ता को एलएलएम के चरणों की जांच करने में मदद मिलती है, ताकि यह तय किया जा सके कि उसका जवाब सही है या नहीं.

निर्वाचन क्षेत्र पार्सिंग

#language

किसी वाक्य को व्याकरण के छोटे-छोटे हिस्सों में बांटना ("नागरिक"). मशीन लर्निंग सिस्टम का बाद का हिस्सा, जैसे कि नैचुरल लैंग्वेज अंडरस्टैंडिंग मॉडल, मूल वाक्य के मुकाबले मूल वाक्य को ज़्यादा आसानी से पार्स कर सकता है. उदाहरण के लिए, नीचे दिया गया वाक्य देखें:

मेरे दोस्त ने दो बिल्लियों को गोद लिया.

एक विधानसभा पार्सर, इस वाक्य को इन दो कॉम्पोनेंट में बांट सकता है:

  • मेरे दोस्त को संज्ञा कहा जाता है.
  • adopted दो cats, एक क्रिया वाला वाक्यांश है.

इन कॉम्पोनेंट को छोटे-छोटे हिस्सों में बांटा जा सकता है. उदाहरण के लिए, क्रिया वाक्यांश

दो बिल्लियों को गोद लिया

उन्हें नीचे दिए गए अलग-अलग ग्रुप में बांटा जा सकता है:

  • added एक क्रिया है.
  • दो बिल्लियों को दूसरे संज्ञा के लिए इस्तेमाल किया जाता है.

क्रैश ब्लॉसम

#language

ऐसा वाक्य या वाक्यांश जिसका मतलब साफ़ तौर पर न बताया गया हो. क्रैश ब्लॉसम की वजह से, प्राकृतिक भाषा की समझ में एक बड़ी समस्या आती है. उदाहरण के लिए, Red Tape Holds अप स्काईस्क्रेपर की हेडलाइन, क्रैश ब्लॉसम है. इसकी वजह यह है कि एनएलयू मॉडल, हेडलाइन को शाब्दिक या आकर्षक फ़ॉर्मैट में समझ सकता है.

D

डिकोडर

#language

आम तौर पर, ऐसा कोई भी एमएल सिस्टम जो प्रोसेस किए गए, घने या अंदरूनी तौर पर दिखाए गए तरीके को ज़्यादा रॉ, स्पेर या बाहरी तरीके में बदल देता है.

डिकोडर अक्सर किसी बड़े मॉडल का कॉम्पोनेंट होते हैं. इस मॉडल में, इन्हें अक्सर एन्कोडर के साथ जोड़ा जाता है.

क्रम से दूसरे क्रम के टास्क में, डिकोडर सिस्टम की अंदरूनी स्थिति से शुरू होता है, ताकि अगले क्रम का अनुमान लगाया जा सके.

ट्रांसफ़ॉर्मर आर्किटेक्चर में, डिकोडर की परिभाषा जानने के लिए, ट्रांसफ़ॉर्मर देखें.

ग़ैर-ज़रूरी आवाज़ें कम करना

#language

सेल्फ़-सुपरवाइज़्ड लर्निंग का एक सामान्य तरीका:

  1. शोर को डेटासेट में आर्टिफ़िशियल तरीके से जोड़ा गया है.
  2. model शोर को हटाने की कोशिश करता है.

ग़ैर-ज़रूरी आवाज़ें कम करने की सुविधा, लेबल न किए गए उदाहरणों से सीखने की सुविधा देती है. ओरिजनल डेटासेट, टारगेट या लेबल और इनपुट के तौर पर शोर-शराबे वाले डेटा के तौर पर काम करता है.

कुछ मास्क्ड लैंग्वेज मॉडल, ग़ैर-ज़रूरी आवाज़ें कम करने की सुविधा का इस्तेमाल इस तरह करते हैं:

  1. कुछ टोकन को मास्क करके, बिना लेबल वाले वाक्य में शोर को आर्टिफ़िशियल तरीके से जोड़ा गया है.
  2. मॉडल, ओरिजनल टोकन का अनुमान लगाने की कोशिश करता है.

सीधे तौर पर सूचना देना

#language
#generativeAI

ज़ीरो-शॉट प्रॉम्प्टिंग का समानार्थी शब्द.

E

दूरी में बदलाव करें

#language

दो टेक्स्ट स्ट्रिंग एक-दूसरे से कितनी मिलती-जुलती हैं, इसका माप है. मशीन लर्निंग में, दूरी में बदलाव करना इसलिए मददगार होता है, क्योंकि यह आसान है और इसका हिसाब लगाना आसान है. साथ ही, एक जैसी मानी जाने वाली दो स्ट्रिंग या किसी दी गई स्ट्रिंग से मिलती-जुलती स्ट्रिंग ढूंढने का असरदार तरीका है.

संपादन दूरी की कई परिभाषाएं हैं, जिनमें से प्रत्येक में अलग-अलग स्ट्रिंग संचालनों का उपयोग किया जाता है. उदाहरण के लिए, Levenshtein की दूरी कम से कम मिटाने, इंसर्ट करने, और विकल्प के तौर पर की जाने वाली कार्रवाइयों को ध्यान में रखा जाता है.

उदाहरण के लिए, "हार्ट" और "डार्ट" शब्दों के बीच लेवेनशेटिन की दूरी 3 है, क्योंकि नीचे दिए गए तीन बदलावों में एक शब्द को दूसरे में बदलने के लिए सबसे कम बदलाव हैं:

  1. दिल → deart ("d" के साथ “h” सब्स्टिट्यूट)
  2. deart → dart (delete "e")
  3. डार्ट → डार्ट (insert "s")

परत एम्बेड करना

#language
#fundamentals

यह एक खास छिपी हुई लेयर है, जो लो डाइमेंशन एम्बेडिंग वेक्टर को धीरे-धीरे समझने के लिए, हाई-डाइमेंशन वाले कैटगरिकल फ़ीचर का इस्तेमाल करती है. एम्बेड करने वाली लेयर, न्यूरल नेटवर्क को सिर्फ़ हाई-डाइमेंशन कैटगरीकल सुविधा की ट्रेनिंग देने के बजाय, बेहतर तरीके से ट्रेनिंग देने में सक्षम बनाती है.

उदाहरण के लिए, फ़िलहाल Earth पर पेड़ों की करीब 73,000 प्रजातियां हैं. मान लीजिए आपके मॉडल की सुविधा है, तो आपके मॉडल के इनपुट लेयर में 73,000 एलिमेंट लंबा वन-हॉट वेक्टर है. उदाहरण के लिए, शायद baobab को कुछ इस तरह से दिखाया जाए:

73,000 एलिमेंट की कैटगरी. पहले 6,232 एलिमेंट में वैल्यू
     0 होती है. अगले एलिमेंट की वैल्यू 1 होती है. आखिरी 66,767 एलिमेंट में
     वैल्यू शून्य होती है.

73,000 एलिमेंट वाली ऐरे बहुत लंबी होती है. अगर मॉडल में कोई एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो ट्रेनिंग में बहुत समय लगने वाला है. इसकी वजह यह है कि इसमें 72,999 शून्य को गुणा कर दिया जाता है. 12 डाइमेंशन को शामिल करने के लिए, एम्बेड की गई लेयर चुनी जा सकती है. नतीजतन, एम्बेड करने वाली लेयर धीरे-धीरे पेड़ की हर प्रजाति के लिए एक नया एम्बेडिंग वेक्टर सीखेगी.

कुछ मामलों में, एम्बेड करने वाली लेयर का हैशिंग एक अच्छा विकल्प है.

एम्बेड किया गया स्पेस

#language

हाई-डाइमेंशन वेक्टर स्पेस की सुविधाओं वाले डी-डाइमेंशन वेक्टर स्पेस को मैप किया जाता है. आम तौर पर, एम्बेड करने की जगह में ऐसा स्ट्रक्चर होता है जिससे गणित के हिसाब से नतीजे मिलते हैं. उदाहरण के लिए, एम्बेड करने की आदर्श जगह में, एम्बेड किए गए स्पेस में जोड़ने और घटाने या बढ़ाने से, शब्द से जुड़ी तुलनाओं के टास्क हल किए जा सकते हैं.

एम्बेड किए गए दो एम्बेड के डॉट प्रॉडक्ट से पता चलता है कि वे कितनी मिलती-जुलती हैं.

एम्बेडिंग वेक्टर

#language

मोटे तौर पर, यह किसी भी छिपाई गई लेयर से लिए गए फ़्लोटिंग-पॉइंट नंबर का ऐरे है, जो उस छिपे हुए लेयर के इनपुट के बारे में बताता है. अक्सर, एम्बेडिंग वेक्टर, फ़्लोटिंग-पॉइंट नंबर की श्रेणी होती है जिसे एम्बेड करने वाली लेयर में प्रशिक्षित किया जाता है. उदाहरण के लिए, मान लीजिए कि एम्बेड करने वाली किसी लेयर को धरती पर मौजूद पेड़ों की 73,000 प्रजातियों में से हर एक के लिए, एम्बेडिंग वेक्टर पता होना चाहिए. शायद यहां दिया गया ऐरे, बैओबैब ट्री के लिए एम्बेडिंग वेक्टर है:

12 एलिमेंट की ऐरे, जिसमें हर एलिमेंट में 0.0 और 1.0 के बीच का फ़्लोटिंग-पॉइंट नंबर है.

एम्बेडिंग वेक्टर रैंडम संख्याओं का समूह नहीं है. एम्बेड करने वाली लेयर, ट्रेनिंग के ज़रिए इन वैल्यू को तय करती है. यह उसी तरह है जिस तरह ट्रेनिंग के दौरान न्यूरल नेटवर्क अन्य वेट सीखते हैं. श्रेणी का हर एलिमेंट एक रेटिंग है, जिसमें पेड़ की प्रजाति की विशेषताओं के बारे में बताया जाता है. कौनसा एलिमेंट, पेड़ की किस प्रजाति की विशेषता बताता है? यह इंसान के लिए यह तय कर पाना बहुत मुश्किल है.

एम्बेड करने वाले वेक्टर का गणित के हिसाब से कमाल का हिस्सा यह है कि मिलते-जुलते आइटम में फ़्लोटिंग-पॉइंट नंबर के मिलते-जुलते सेट होते हैं. उदाहरण के लिए, पेड़ की मिलती-जुलती प्रजातियों में, पेड़-पौधों की मिलती-जुलती प्रजातियों की तुलना में फ़्लोटिंग-पॉइंट की संख्या का सेट ज़्यादा होता है. रेडवुड और सिक्वॉइय, पेड़ से जुड़ी प्रजाति से जुड़े हैं. इसलिए, रेडवुड और नारियल के ताड़ के पेड़ों की तुलना में, इनके पास फ़्लोटिंग-पॉइंट वाली संख्या ज़्यादा होती है. मॉडल को फिर से ट्रेनिंग देने पर, हर बार एम्बेड किए जाने वाले वेक्टर में मौजूद नंबर बदल जाएंगे. भले ही, एक जैसे इनपुट वाले मॉडल को फिर से ट्रेनिंग दी जाए.

एन्कोडर

#language

आम तौर पर, ऐसा कोई भी एमएल सिस्टम जो एक रॉ, स्पैर्स या बाहरी प्रज़ेंटेशन से ज़्यादा प्रोसेस किए गए, गहरे या ज़्यादा इंटरनल रिप्रज़ेंटेशन में बदल जाता है.

एन्कोडर अक्सर किसी बड़े मॉडल के कॉम्पोनेंट होते हैं. आम तौर पर, इन्हें डीकोडर के साथ जोड़ा जाता है. कुछ ट्रांसफ़ॉर्मर एन्कोडर के साथ एन्कोडर जोड़ते हैं. हालांकि, अन्य ट्रांसफ़ॉर्मर सिर्फ़ एन्कोडर या सिर्फ़ डिकोडर का इस्तेमाल करते हैं.

कुछ सिस्टम, डेटा की कैटगरी तय करने या रिग्रेशन नेटवर्क के इनपुट के तौर पर, एन्कोडर के आउटपुट का इस्तेमाल करते हैं.

क्रम से दूसरे क्रम के टास्क में, एन्कोडर एक इनपुट का क्रम लेता है और अंदर की स्थिति (वेक्टर) दिखाता है. इसके बाद, डीकोडर उस अंदरूनी स्थिति का इस्तेमाल करके, अगले क्रम का अनुमान लगाता है.

ट्रांसफ़ॉर्मर आर्किटेक्चर में एन्कोडर की परिभाषा जानने के लिए, ट्रांसफ़ॉर्मर देखें.

F

कुछ-एक शॉट

#language
#generativeAI

कोई ऐसा प्रॉम्प्ट जिसमें एक से ज़्यादा ("कुछ") उदाहरण हों. इससे पता चलता है कि बड़े लैंग्वेज मॉडल को कैसे जवाब देना चाहिए. उदाहरण के लिए, नीचे दिए गए लंबे प्रॉम्प्ट में दो उदाहरण शामिल हैं. इसमें क्वेरी का जवाब देने का तरीका बताने वाला एक बड़ा लैंग्वेज मॉडल दिखाया गया है.

एक प्रॉम्प्ट के हिस्से ज़रूरी जानकारी
किसी खास देश की आधिकारिक मुद्रा क्या है? आपको एलएलएम से किस सवाल का जवाब चाहिए.
फ़्रांस: EUR एक उदाहरण.
यूनाइटेड किंगडम: GBP एक अन्य उदाहरण.
भारत: असल क्वेरी.

आम तौर पर, ज़ीरो-शॉट प्रॉम्प्ट और एक शॉट में सूचना देने की सुविधा के मुकाबले, कुछ ही शॉट में सीखने के ज़्यादा नतीजे मिलते हैं. हालांकि, कुछ ही शॉट के लिए प्रॉम्प्ट भेजने के लिए लंबे प्रॉम्प्ट की ज़रूरत होती है.

कुछ शॉट में निर्देश देना, कुछ-कुछ सीखने का एक तरीका है. यह प्रॉम्प्ट पर आधारित शिक्षा पर लागू होता है.

वायलिन

#language

Python की पहली कॉन्फ़िगरेशन लाइब्रेरी, जो इनवेसिव कोड या इंफ़्रास्ट्रक्चर के बिना फ़ंक्शन और क्लास की वैल्यू सेट करती है. Pax और दूसरे एमएल कोडबेस के मामले में, ये फ़ंक्शन और क्लास मॉडल और ट्रेनिंग हाइपर पैरामीटर के बारे में बताते हैं.

Fiddle मान लेता है कि मशीन लर्निंग कोड बेस को आम तौर पर इन कैटगरी में बांटा जाता है:

  • लाइब्रेरी कोड, जो लेयर और ऑप्टिमाइज़र को परिभाषित करता है.
  • डेटासेट "ग्लू" कोड, जो लाइब्रेरी को कॉल करता है और सभी चीज़ों को एक साथ कनेक्ट करता है.

Fiddle ग्लू कोड के कॉल स्ट्रक्चर को, बिना जांचे और बदले जा सकने वाले फ़ॉर्मैट में कैप्चर करता है.

फ़ाइन ट्यूनिंग

#language
#image
#generativeAI

दूसरा, टास्क के हिसाब से दिया जाने वाला ट्रेनिंग पास. इसे पहले से ट्रेनिंग दिए गए मॉडल पर परफ़ॉर्म किया जाता है, ताकि किसी खास इस्तेमाल के उदाहरण के लिए इसके पैरामीटर को बेहतर बनाया जा सके. उदाहरण के लिए, कुछ बड़े लैंग्वेज मॉडल के लिए ट्रेनिंग का पूरा सीक्वेंस इस तरह है:

  1. ट्रेनिंग शुरू करने से पहले: एक बड़े सामान्य डेटासेट पर बड़े भाषा मॉडल को ट्रेनिंग दें, जैसे कि अंग्रेज़ी भाषा के सभी Wikipedia पेज.
  2. फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, स्वास्थ्य से जुड़ी क्वेरी का जवाब देना. आम तौर पर, किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.

एक अन्य उदाहरण में, बड़े इमेज मॉडल के लिए ट्रेनिंग का पूरा क्रम इस तरह है:

  1. प्री-ट्रेनिंग: एक बड़े सामान्य इमेज डेटासेट पर एक बड़े इमेज मॉडल को ट्रेनिंग दें, जैसे कि 'विकिमीडिया कॉमन्स' में मौजूद सभी इमेज.
  2. फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, ओरका की इमेज जनरेट करना.

फ़ाइन-ट्यूनिंग के लिए नीचे दी गई रणनीतियों का कोई भी कॉम्बिनेशन लागू हो सकता है:

  • पहले से ट्रेनिंग दिए गए मॉडल के सभी मौजूदा पैरामीटर में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन-ट्यूनिंग भी कहा जाता है.
  • पहले से ट्रेनिंग वाले मॉडल के सिर्फ़ कुछ मौजूदा पैरामीटर में बदलाव करता है (आम तौर पर, आउटपुट लेयर के सबसे करीब लेयर). अन्य मौजूदा पैरामीटर में कोई बदलाव नहीं करता है (आम तौर पर, लेयर इनपुट लेयर के आस-पास होती हैं). पैरामीटर की बेहतर ट्यूनिंग देखें.
  • ज़्यादा लेयर जोड़ना, आम तौर पर आउटपुट लेयर के सबसे करीब मौजूद लेयर के ऊपर.

फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक तरीका है. इसलिए, फ़ाइन-ट्यूनिंग के लिए नुकसान पहुंचाने वाले किसी अलग फ़ंक्शन या मॉडल टाइप का इस्तेमाल किया जा सकता है, जो पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देने वाले फ़ंक्शन से अलग होता है. उदाहरण के लिए, आपके पास पहले से ट्रेनिंग वाले बड़े इमेज मॉडल को इस तरह से बेहतर बनाने का विकल्प है कि रिग्रेशन मॉडल बनाया जा सके. इससे इनपुट इमेज में पक्षियों की संख्या दिखाई जाएगी.

इन शब्दों से तुलना करें और इनकी तुलना करें:

फ़्लैक्स

#language

JAX की बेहतरीन डीप लर्निंग के लिए, अच्छी परफ़ॉर्मेंस वाली ओपन-सोर्स लाइब्रेरी. Flux, ट्रेनिंग न्यूरल नेटवर्क के लिए फ़ंक्शन उपलब्ध कराता है. साथ ही, उनकी परफ़ॉर्मेंस का आकलन करने के तरीके भी बताता है.

फ़्लक्सफ़ॉर्मर

#language

Flax पर बनी ओपन-सोर्स Transformer लाइब्रेरी को मुख्य रूप से नैचुरल लैंग्वेज प्रोसेसिंग और मल्टीमोडल रिसर्च के लिए डिज़ाइन किया गया है.

G

जनरेटिव एआई

#language
#image
#generativeAI

औपचारिक परिभाषा वाला कोई उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञों का मानना है कि जनरेटिव एआई (AI) मॉडल, इस तरह का कॉन्टेंट बना ("जनरेट") कर सकते हैं.

  • जटिल
  • अनुकूल
  • मूल

उदाहरण के लिए, जनरेटिव एआई (AI) मॉडल से मुश्किल निबंध या इमेज बनाई जा सकती हैं.

कुछ पुरानी टेक्नोलॉजी भी ओरिजनल और एक जैसा कॉन्टेंट जनरेट कर सकती हैं. इन टेक्नोलॉजी में, LSTM और RNN शामिल हैं. कुछ विशेषज्ञ इन पुरानी टेक्नोलॉजी को जनरेटिव एआई मानते हैं. हालांकि, कुछ का मानना है कि असल में जनरेटिव एआई को पहले की टेक्नोलॉजी के मुकाबले ज़्यादा मुश्किल आउटपुट की ज़रूरत होती है.

अनुमानित एमएल का कंट्रास्ट.

GPT (पहले से ट्रेन किया गया ट्रांसफ़ॉर्मर)

#language

OpenAI ने बनाए Transformer पर आधारित बड़े लैंग्वेज मॉडल का एक परिवार.

GPT के वैरिएंट कई मोडलिटी पर लागू किए जा सकते हैं. इनमें ये शामिल हैं:

  • इमेज जनरेट करना (उदाहरण के लिए, ImageGPT)
  • टेक्स्ट-टू-इमेज जनरेशन (उदाहरण के लिए, DALL-E).

H

मनगढ़ंत घटनाएं देखना (मतिभ्रम)

#language

जनरेटिव एआई मॉडल से ऐसा कॉन्टेंट तैयार करना जो सही-सही, लेकिन तथ्यों के हिसाब से गलत हो. साथ ही, मॉडल असल दुनिया के बारे में दावा करता हो. उदाहरण के लिए, एक जनरेटिव एआई (AI) मॉडल, जो दावा करता है कि बराक ओबामा की 1865 में मौत हो गई थी. यह मॉडल दिलचस्प लगने वाला है.

I

संदर्भ के हिसाब से सीखना

#language
#generativeAI

कुछ शॉट की सूचना का समानार्थी शब्द.

L

LaMDA (डायलॉग ऐप्लिकेशन के लिए भाषा मॉडल)

#language

Google ने ट्रांसफ़ॉर्मर-आधारित बड़े लैंग्वेज मॉडल को बनाया है. इसे बड़े डायलॉग डेटासेट की ट्रेनिंग दी गई है, जो बातचीत के दौरान सही जवाब जनरेट कर सकता है.

LaMDA: हमारी अहम बातचीत टेक्नोलॉजी से खास जानकारी मिलती है.

भाषा का मॉडल

#language

ऐसा model जो टोकन के लंबे क्रम में होने वाले model या टोकन के क्रम की संभावना का अनुमान लगाता है.

लार्ज लैंग्वेज मॉडल

#language

यह एक अनौपचारिक शब्द है, जिसकी परिभाषा की कोई सख्ती नहीं है. आम तौर पर, इसका मतलब ऐसे भाषा मॉडल से होता है जिसमें बहुत ज़्यादा पैरामीटर होते हैं. कुछ बड़े लैंग्वेज मॉडल में 100 अरब से ज़्यादा पैरामीटर होते हैं.

सोम

मास्क्ड लैंग्वेज मॉडल

#language

भाषा का मॉडल, जो किसी क्रम में खाली जगहों को भरने के लिए, कैंडिडेट टोकन की संभावना का अनुमान लगाता है. उदाहरण के लिए, मास्क्ड लैंग्वेज मॉडल, उम्मीदवार के शब्द(शब्दों) के लिए प्रॉबबिलिटी कैलकुलेट कर सकता है. इससे नीचे दिए गए वाक्य की अंडरलाइन को बदला जा सकता है:

टोपी में ____ वापस आ गया.

साहित्य में आम तौर पर अंडरलाइन के बजाय "MASK" स्ट्रिंग का इस्तेमाल किया गया है. उदाहरण के लिए:

टोपी में "मास्क" फिर से लगा.

मास्क किए गए ज़्यादातर आधुनिक मॉडल, दोतरफ़ा होते हैं.

मेटा-लर्निंग

#language

यह मशीन लर्निंग का एक ऐसा सबसेट है जो लर्निंग एल्गोरिदम को खोजता है या उसे बेहतर बनाता है. मेटा-लर्निंग सिस्टम का मकसद किसी मॉडल को इस तरह की ट्रेनिंग देना भी हो सकता है कि वह थोड़े से डेटा या पिछले टास्क में मिले अनुभव की मदद से, कोई नया काम तेज़ी से सीख सके. मेटा-लर्निंग एल्गोरिदम आम तौर पर ये हासिल करने की कोशिश करते हैं:

  • हाथ से इस्तेमाल की जाने वाली सुविधाओं (जैसे, शुरू करने वाला टूल या ऑप्टिमाइज़र) को बेहतर बनाना/सीखना.
  • डेटा और कंप्यूट यूनिट का बेहतर इस्तेमाल करना.
  • सामान्यीकरण को बेहतर बनाएं.

मेटा-लर्निंग, कुछ शॉट से सीखने से जुड़ा है.

मोडलिटी

#language

डेटा की कैटगरी. उदाहरण के लिए, संख्या, टेक्स्ट, इमेज, वीडियो, और ऑडियो पांच अलग-अलग तरीके हैं.

मॉडल पैरललिज़्म

#language

ट्रेनिंग या अनुमान को स्केल करने का ऐसा तरीका जो अलग-अलग model पर एक model के अलग-अलग हिस्से रखता है. मॉडल पैरललिज़्म ऐसे मॉडल की सुविधा देता है जो एक डिवाइस पर फ़िट होने के लिए बहुत बड़े होते हैं.

मॉडल पैरललिज़्म को लागू करने के लिए, सिस्टम आम तौर पर ये काम करता है:

  1. मॉडल को छोटे-छोटे हिस्सों में बांट (बांट) करता है.
  2. छोटे हिस्सों की ट्रेनिंग, कई प्रोसेसर के बीच बांटी जाती है. हर प्रोसेसर, मॉडल के अपने हिस्से को ट्रेनिंग देता है.
  3. कोई एक मॉडल बनाने के लिए नतीजों को जोड़ता है.

मॉडल पैरललिज़्म ट्रेनिंग को धीमा कर देता है.

डेटा पैरललिज़्म भी देखें.

एक से ज़्यादा सिर पर ध्यान देना

#language

सेल्फ़-अटेंशन का एक एक्सटेंशन, जो इनपुट सीक्वेंस में हर पोज़िशन के लिए, सेल्फ़-अटेंशन मैकेनिज़्म को कई बार लागू करता है.

ट्रांसफ़ॉर्मर ने खुद पर ध्यान देने की सुविधा शुरू की.

मल्टीमोडल मॉडल

#language

ऐसा मॉडल जिसके इनपुट और/या आउटपुट में एक से ज़्यादा मोडलिटी शामिल हो. उदाहरण के लिए, एक ऐसा मॉडल चुनें जो सुविधाओं के तौर पर इमेज और टेक्स्ट कैप्शन (दो मोडलिटी) लेता हो. साथ ही, वह एक स्कोर देता है जो बताता है कि इमेज के लिए टेक्स्ट कैप्शन कितना सही है. इसलिए, इस मॉडल के इनपुट मल्टीमोडल हैं और आउटपुट यूनिमोडल है.

N

नैचुरल लैंग्वेज अंडरस्टैंडिंग

#language

उपयोगकर्ता ने क्या लिखा या क्या कहा, इसके आधार पर उपयोगकर्ता का इरादा तय करना. उदाहरण के लिए, सर्च इंजन आम बोलचाल की भाषा का इस्तेमाल करके, यह पता लगाता है कि लोगों ने क्या खोजा है या टाइप किया है या नहीं.

एन-ग्राम

#seq
#language

N शब्दों का क्रम में लगा क्रम. उदाहरण के लिए, ट्रूली पागल दो ग्राम का है. ऑर्डर सही होता है, इसलिए पागल वाकई राज़ से पागल होने की तुलना में 2-ग्राम का अलग-अलग होता है.

N इस तरह के N-ग्राम के नाम उदाहरण
2 Bigram या 2-gram जाना, जाना, दोपहर का खाना, रात का खाना
3 ट्रायग्राम या 3-ग्राम बहुत ज़्यादा खा लिया, तीन दृष्टिहीन चूहे, बेल टोल
4 4-ग्राम पार्क में टहलना, हवा में धूल भरी हवाएं, लड़का दाल खा रहा है

कई प्राकृतिक भाषा की समझ मॉडल, N-grams पर निर्भर करके यह अनुमान लगाते हैं कि उपयोगकर्ता कौनसा शब्द टाइप करेगा या कहेगा. उदाहरण के लिए, मान लें कि कोई उपयोगकर्ता थ्री ब्लाइंड्स टाइप करता है. ट्रायग्राम पर आधारित एनएलयू मॉडल से यह अनुमान लगाया जा सकता है कि उपयोगकर्ता अगली बार माइस टाइप करेगा.

बैग ऑफ़ वर्ड के साथ कंट्रास्ट N-ग्राम, जो शब्दों के बिना क्रम वाले सेट हैं.

एनएलयू

#language

प्राकृतिक भाषा समझने के लिए छोटा नाम.

O

वन-शॉट प्रॉम्प्टिंग

#language
#generativeAI

ऐसा प्रॉम्प्ट जिसमें एक उदाहरण दिया गया हो. इससे पता चलता है कि बड़े भाषा के मॉडल को कैसे जवाब देना चाहिए. उदाहरण के लिए, इस प्रॉम्प्ट में एक बड़े लैंग्वेज मॉडल का उदाहरण दिया गया है कि इसे किसी क्वेरी का जवाब कैसे देना चाहिए.

एक प्रॉम्प्ट के हिस्से ज़रूरी जानकारी
किसी खास देश की आधिकारिक मुद्रा क्या है? आपको एलएलएम से किस सवाल का जवाब चाहिए.
फ़्रांस: EUR एक उदाहरण.
भारत: असल क्वेरी.

एक बार में जवाब देने की सुविधा की तुलना इन शब्दों से करें:

P

पैरामीटर की बेहतर ट्यूनिंग

#language
#generativeAI

यह एक ऐसा सेट है जिसमें पूरी तरह फ़ाइन ट्यूनिंग करने के मुकाबले, पहले से ट्रेनिंग दिए गए लैंग्वेज मॉडल (पीएलएम), को फ़ाइन-ट्यून करने की तकनीकें हैं. पैरामीटर की मदद से, आम तौर पर कम पैरामीटर को बेहतर बनाया जाता है. हालांकि, आम तौर पर बड़ा लैंग्वेज मॉडल बनता है जो पूरी तरह से ट्यूनिंग से बने बड़े लैंग्वेज मॉडल की तरह ही अच्छा परफ़ॉर्म करता है.

इनसे तुलना करें और पैरामीटर की कम खपत करने पर बेहतर ट्यूनिंग करें:

पैरामीटर की कम खपत करने वाली ट्यूनिंग को पैरामीटर की बेहतर फ़ाइन-ट्यूनिंग भी कहा जाता है.

पाइपलाइनिंग

#language

मॉडल पैरललिज़्म का एक फ़ॉर्मैट, जिसमें किसी मॉडल की प्रोसेसिंग को लगातार कई चरणों में बांटा जाता है. साथ ही, हर चरण को एक अलग डिवाइस पर चलाया जाता है. किसी स्टेज में एक बैच को प्रोसेस किए जाने के दौरान, पिछला चरण अगले बैच पर काम कर सकता है.

स्टेज ट्रेनिंग भी देखें.

पीएलएम

#language
#generativeAI

पहले से ट्रेन किए गए भाषा मॉडल का छोटा नाम.

पोज़िशनल एन्कोडिंग

#language

यह टोकन को एम्बेड करने के लिए, क्रम में किसी टोकन की रैंक के बारे में जानकारी जोड़ने की तकनीक है. ट्रांसफ़ॉर्मर मॉडल क्रम के अलग-अलग हिस्सों के बीच के संबंध को बेहतर तरीके से समझने के लिए, पोज़िशनल एन्कोडिंग का इस्तेमाल करते हैं.

पोज़िशनल एन्कोडिंग को आम तौर पर लागू करने के लिए, साइनोसॉइडल फ़ंक्शन का इस्तेमाल किया जाता है. (खास तौर पर, साइनोसॉइडल फ़ंक्शन की फ़्रीक्वेंसी और एम्प्लिट्यूड, क्रम में टोकन की स्थिति से तय होता है.) इस तकनीक से ट्रांसफ़ॉर्मर मॉडल को, क्रम के अलग-अलग हिस्सों में उनकी पोज़िशन के आधार पर शामिल होना सीखने में मदद मिलती है.

पहले से ट्रेनिंग वाला मॉडल

#language
#image
#generativeAI

ऐसे मॉडल या मॉडल कॉम्पोनेंट जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. जैसे, एम्बेड करने वाला वेक्टर. कभी-कभी, आपको पहले से ट्रेनिंग दिए गए एम्बेडिंग वेक्टर को न्यूरल नेटवर्क में फ़ीड करना होगा. अन्य बार, आपका मॉडल पहले से प्रशिक्षित एम्बेड करने पर निर्भर होने के बजाय, एम्बेड किए जाने वाले वेक्टर को खुद ही प्रशिक्षित करेगा.

पहले से प्रशिक्षित भाषा मॉडल शब्द का मतलब, बड़े भाषा के मॉडल से है, जिसे प्री-ट्रेनिंग से गुज़रना पड़ा.

प्री-ट्रेनिंग

#language
#image
#generativeAI

बड़े डेटासेट पर किसी मॉडल की शुरुआती ट्रेनिंग. कुछ पहले से ट्रेनिंग दिए गए मॉडल, अनाड़ी जायंट होते हैं और आम तौर पर उन्हें अतिरिक्त ट्रेनिंग की मदद से और बेहतर बनाया जा सकता है. उदाहरण के लिए, मशीन लर्निंग विशेषज्ञ एक बड़े टेक्स्ट डेटासेट, जैसे कि विकिपीडिया में अंग्रेज़ी के सभी पेजों पर बड़े भाषा मॉडल को पहले से ट्रेनिंग दे सकते हैं. प्री-ट्रेनिंग के बाद, इनमें से किसी भी तकनीक का इस्तेमाल करके, मॉडल को और बेहतर बनाया जा सकता है:

प्रॉम्प्ट

#language
#generativeAI

किसी बड़े लैंग्वेज मॉडल में इनपुट के तौर पर डाला गया कोई भी टेक्स्ट, ताकि मॉडल को इस तरह तय किया जा सके कि वह एक खास तरह से काम करे. निर्देश, किसी वाक्यांश जितने छोटे या अपने हिसाब से लंबे हो सकते हैं (उदाहरण के लिए, किसी नॉवेल का पूरा टेक्स्ट). प्रॉम्प्ट कई कैटगरी में आते हैं. इनमें वे कैटगरी भी शामिल हैं जिन्हें इस टेबल में दिखाया गया है:

प्रॉम्प्ट की कैटगरी उदाहरण ज़रूरी जानकारी
सवाल एक कबूतर कितनी तेज़ी से उड़ सकता है?
निर्देश आर्बिट्रेज के बारे में एक मज़ेदार कविता लिखो. एक प्रॉम्प्ट जो बड़े भाषा मॉडल से कुछ करने के लिए कहता है.
उदाहरण Markdown कोड का एचटीएमएल में अनुवाद करें. उदाहरण के लिए:
Markdown: * list item
HTML: <ul> <li>list item</li> </ul>
इस उदाहरण के प्रॉम्प्ट का पहला वाक्य एक निर्देश है. प्रॉम्प्ट का बचा हुआ उदाहरण ही उदाहरण है.
भूमिका बताएं कि फ़िज़िक्स की पीएचडी के लिए, मशीन लर्निंग की ट्रेनिंग में ग्रेडिएंट डिसेंट का इस्तेमाल क्यों किया जाता है. वाक्य का पहला हिस्सा एक निर्देश है. वाक्यांश "फ़िज़िक्स में पीएचडी के लिए" भूमिका का हिस्सा है.
मॉडल को पूरा करने के लिए कुछ हिस्सा डालें यूनाइटेड किंगडम के प्रधानमंत्री यहां रहते हैं कुछ इनपुट प्रॉम्प्ट या तो अचानक ही खत्म हो सकता है (जैसा कि इस उदाहरण में हुआ है) या अंडरस्कोर के साथ खत्म हो सकता है.

जनरेटिव एआई मॉडल की मदद से किसी प्रॉम्प्ट का जवाब दिया जा सकता है. जैसे, टेक्स्ट, कोड, इमेज, एम्बेड करना, वीडियो...करीब कुछ भी.

प्रॉम्प्ट पर आधारित लर्निंग

#language
#generativeAI

कुछ मॉडल की सुविधा, जो उन्हें मनचाहे तरीके से टेक्स्ट इनपुट (निर्देश) के जवाब में, अपने व्यवहार को बदलने में मदद करती है. प्रॉम्प्ट पर आधारित लर्निंग मॉडल में, बड़ा लैंग्वेज मॉडल टेक्स्ट जनरेट करके प्रॉम्प्ट का जवाब देता है. उदाहरण के लिए, मान लें कि कोई उपयोगकर्ता यह प्रॉम्प्ट डालता है:

न्यूटन के गति के तीसरे नियम के बारे में विस्तार से बताएं.

प्रॉम्प्ट-आधारित लर्निंग में मदद करने वाले किसी मॉडल को, पिछले प्रॉम्प्ट का जवाब देने के लिए खास तौर पर ट्रेनिंग नहीं दी गई है. इसके बजाय, मॉडल को भौतिक विज्ञान के बारे में कई तथ्यों के बारे में पता है. (उम्मीद है कि) मददगार जवाब देने के लिए यह जानकारी काफ़ी है. अतिरिक्त मानवीय फ़ीडबैक ("यह जवाब बहुत जटिल था." या "प्रतिक्रिया क्या है?") कुछ प्रॉम्प्ट-आधारित लर्निंग सिस्टम को धीरे-धीरे अपने जवाबों को बेहतर बनाने में मदद करता है.

प्रॉम्प्ट डिज़ाइन

#language
#generativeAI

प्रॉम्प्ट इंजीनियरिंग का समानार्थी शब्द.

प्रॉम्प्ट इंजीनियरिंग

#language
#generativeAI

बड़े लैंग्वेज मॉडल से, मनचाहे जवाब पाने के लिए, प्रॉम्प्ट बनाने की कला. इंसान प्रॉम्प्ट की मदद करते हैं. अच्छी तरह से बनाए गए प्रॉम्प्ट लिखना, यह पक्का करने का एक ज़रूरी हिस्सा है कि किसी बड़े भाषा मॉडल से ऐसे जवाब मिलें जो काम के हों. प्रॉम्प्ट इंजीनियरिंग कई बातों पर निर्भर करती है, जैसे:

  • इस डेटासेट का इस्तेमाल, बड़े लैंग्वेज मॉडल को प्री-ट्रेन करने और इसे फ़ाइन-ट्यून करने के लिए किया जाता है.
  • तापमान और डिकोड करने वाले अन्य पैरामीटर, जिनका इस्तेमाल मॉडल, रिस्पॉन्स जनरेट करने के लिए करता है.

मददगार प्रॉम्प्ट लिखने के बारे में ज़्यादा जानने के लिए, प्रॉम्प्ट डिज़ाइन के बारे में जानकारी देखें.

प्रॉम्प्ट डिज़ाइन, प्रॉम्प्ट इंजीनियरिंग के लिए एक समानार्थी शब्द है.

प्रॉम्प्ट ट्यूनिंग

#language
#generativeAI

पैरामीटर को बेहतर तरीके से कॉन्फ़िगर करने का तरीका, जो उस "प्रीफ़िक्स" के बारे में सीखता है जिसे सिस्टम, असल प्रॉम्प्ट से पहले जोड़ता है.

प्रॉम्प्ट ट्यूनिंग का एक वैरिएशन हर लेयर में प्रीफ़िक्स को जोड़ना है. इसे प्रीफ़िक्स ट्यूनिंग भी कहा जाता है. इसके उलट, ज़्यादातर प्रॉम्प्ट ट्यूनिंग सिर्फ़ इनपुट लेयर में प्रीफ़िक्स जोड़ती है.

R

नई भूमिका

#language
#generativeAI

अनुरोध का एक वैकल्पिक हिस्सा, जो जनरेटिव एआई मॉडल से मिले रिस्पॉन्स के लिए, टारगेट ऑडियंस की पहचान करता है. किसी भूमिका के संकेत के बिना, एक बड़े लैंग्वेज मॉडल से जवाब मिल जाता है, जो सवाल पूछने वाले व्यक्ति के लिए काम का हो सकता है या नहीं भी हो सकता है. रोल प्रॉम्प्ट का इस्तेमाल करके, एक बड़े लैंग्वेज मॉडल का इस्तेमाल करके किसी खास टारगेट ऑडियंस के लिए, ज़्यादा सही और ज़्यादा मददगार तरीके से जवाब दिया जा सकता है. उदाहरण के लिए, नीचे दिए गए संकेतों का भूमिका प्रॉम्प्ट वाला हिस्सा बोल्डफ़ेस में दिया गया है:

  • अर्थशास्त्र में पीएचडी के लिए इस लेख की जानकारी दें.
  • बताएं कि दस साल की उम्र के बच्चे के लिए ज्वार-भाटा कैसे काम करता है.
  • 2008 की वित्तीय संकट के बारे में बताएं. इसी तरह से बोलें जैसे किसी छोटे बच्चे या गोल्डन रिट्रीवर से बात करते हों.

S

खुद पर ध्यान देना. इसे सेल्फ़-अटेंशन लेयर भी कहा जाता है

#language

न्यूरल नेटवर्क लेयर, जो एम्बेड करने के क्रम (जैसे कि टोकन एम्बेड करना) को एम्बेड करने के दूसरे क्रम में बदल देती है. आउटपुट क्रम में हर एम्बेड करने के लिए, ध्यान देने के तरीके की मदद से, इनपुट सीक्वेंस के एलिमेंट से मिली जानकारी को इंटिग्रेट किया जाता है.

खुद पर ध्यान देने का खुद वाला हिस्सा, किसी दूसरी गतिविधि के बजाय खुद की गतिविधि वाले अनुक्रम से जुड़ा है. ट्रांसफ़ॉर्मर के लिए, खुद पर ध्यान देना अहम है. यह डिक्शनरी लुकअप की शब्दावली का इस्तेमाल करता है, जैसे कि “क्वेरी”, “कुंजी”, और “वैल्यू”.

खुद पर ध्यान देने वाली लेयर, इनपुट के क्रम से शुरू होती है. इनपुट में हर शब्द के लिए एक-एक इनपुट दिखाया जाता है. किसी शब्द के लिए इनपुट का इस्तेमाल करके, उसे आसानी से एम्बेड किया जा सकता है. इनपुट के क्रम में हर शब्द के लिए, नेटवर्क यह बताता है कि शब्द कितने काम के हैं. प्रासंगिकता के स्कोर से यह तय होता है कि किसी शब्द को कितने बेहतर तरीके से पेश किया गया है.

उदाहरण के लिए, नीचे दिया गया वाक्य देखें:

वह जानवर सड़क पार नहीं कर सका, क्योंकि वह बहुत थकाने था.

इस इलस्ट्रेशन में दिखाया गया है कि ट्रांसफ़ॉर्मर: ए नॉवेल न्यूरल नेटवर्क आर्किटेक्चर फ़ॉर लैंग्वेज अंडरस्टैंडिंग प्रोनाउन it के लिए, खुद पर ध्यान देने वाली लेयर का ध्यान खींचने वाला पैटर्न दिखाता है. इसमें, हर लाइन में मौजूद डार्कनेस से पता चलता है कि हर शब्द का प्रतिनिधित्व कितना अहम है:

नीचे दिया गया वाक्य दो बार दिखता है: &#39;जानवरों ने सड़क को पार नहीं किया, क्योंकि वह बहुत थका हुआ था.&#39;  लाइनें एक वाक्य में &#39;it&#39; शब्द को
 दूसरे वाक्य में पांच टोकन (&#39;The&#39;, &#39;animal&#39;, &#39;street&#39;, &#39;it&#39;, और पीरियड) से जोड़ती हैं.  &#39;इट&#39; और
          &#39;जानवर&#39; के बीच की लाइन सबसे मज़बूत है.

सेल्फ़-अटेंशन लेयर उन शब्दों को हाइलाइट करती है जो "इससे" मिलते-जुलते हैं. इस मामले में, ध्यान देने वाली लेयर ने उन शब्दों को हाइलाइट करना सीख लिया है जो जानवरों को सबसे ज़्यादा वज़न असाइन करते हुए यानी हो सकते हैं.

n टोकन के क्रम के लिए, खुद को ध्यान से देखने की सुविधा n को अलग-अलग समय पर एम्बेड करने के क्रम को बदल देती है. यह क्रम में हर पोज़िशन पर एक बार आ जाता है.

ध्यान देना और कई सिर पर ध्यान देने की सुविधा को भी देखें.

भावनाओं का विश्लेषण

#language

किसी सेवा, प्रॉडक्ट, संगठन या विषय के बारे में किसी ग्रुप का सकारात्मक या नकारात्मक नज़रिया तय करने के लिए, आंकड़ों या मशीन लर्निंग एल्गोरिदम का इस्तेमाल करना. उदाहरण के लिए, सामान्य भाषा की समझ का इस्तेमाल करके, एक एल्गोरिदम यूनिवर्सिटी के कोर्स के टेक्स्ट से मिले सुझावों का आकलन कर सकता है. इससे यह तय किया जा सकता है कि छात्र-छात्राओं ने आम तौर पर, किस डिग्री को कोर्स पसंद या नापसंद किया है.

क्रम से लेकर क्रम के टास्क तक

#language

यह टास्क टोकन के इनपुट क्रम को टोकन के आउटपुट क्रम में बदलता है. उदाहरण के लिए, क्रम से लेकर क्रम तक, दो तरह के लोकप्रिय टास्क हैं:

  • अनुवाद करने वाले:
    • इनपुट के क्रम का नमूना: "मुझे तुमसे प्यार है."
    • सैंपल आउटपुट क्रम: "Je t'aime."
  • सवाल का जवाब देना:
    • इनपुट के क्रम का नमूना: "क्या मुझे मुंबई में अपनी कार चाहिए?"
    • नमूना आउटपुट अनुक्रम: "नहीं. कृपया अपनी कार को घर पर रखें."

कम जानकारी दिखाने वाली सुविधा

#language
#fundamentals

कोई सुविधा जिसकी वैल्यू मुख्य रूप से शून्य या खाली है. उदाहरण के लिए, एक ऐसी सुविधा जिसमें एक वैल्यू और लाखों शून्य वैल्यू होती हैं, वह बहुत छोटी होती है. वहीं दूसरी ओर, डेंसिटी सुविधा में ऐसी वैल्यू होती हैं जो शून्य या खाली नहीं होती हैं.

मशीन लर्निंग में, हैकर की जाने वाली सुविधाओं की संख्या बहुत कम होती है. कैटगरीकल फ़ीचर में आम तौर पर बहुत कम सुविधाएं होती हैं. जैसे, किसी जंगल में पेड़ों की 300 संभावित प्रजातियों में से, एक उदाहरण में सिर्फ़ मेपल ट्री की पहचान की जा सकती है. या फिर, वीडियो लाइब्रेरी में मौजूद लाखों वीडियो में से, किसी एक उदाहरण से सिर्फ़ "कैसाब्लांका" को पहचाना जा सकता है.

मॉडल में, आम तौर पर एक-हॉट एन्कोडिंग का इस्तेमाल करके, थोड़ी-बहुत सुविधाओं को दिखाया जाता है. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए वन-हॉट एन्कोडिंग के ऊपर एम्बेड करने वाली लेयर जोड़ी जा सकती है.

बहुत कम प्रतिनिधित्व

#language
#fundamentals

किसी स्पार्स सुविधा में शून्य के अलावा दूसरी चीज़ों के सिर्फ़ पद को सेव करना.

उदाहरण के लिए, मान लें कि species नाम की एक कैटगरी के तहत आने वाली सुविधा, किसी खास जंगल में पेड़ों की 36 प्रजातियों की पहचान करती है. इसके बाद, मान लें कि हर उदाहरण में सिर्फ़ एक प्रजाति की पहचान की गई है.

हर उदाहरण में, पेड़ की प्रजातियों को दिखाने के लिए वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है. वन-हॉट वेक्टर में एक 1 (इस उदाहरण में पेड़ों की खास प्रजातियों को दिखाने के लिए) और 35 0 (पेड़ों की 35 प्रजातियों को दिखाने के लिए) होगा. इस उदाहरण में यह नहीं है. इसलिए, maple की खास जानकारी कुछ इस तरह दिख सकती है:

ऐसा वेक्टर जिसमें 0 से लेकर 23 तक की पोज़िशन में, वैल्यू 0 होती है,
          रैंक 24 में वैल्यू 1 होती है, और 25 से 35 तक की पोज़िशन 0 होती है.

इसके अलावा, सटीक जानकारी से सिर्फ़ उन प्रजातियों की जगह की पहचान की जा सकेगी. अगर maple, रैंक 24 पर है, तो maple की औसत परफ़ॉर्मेंस यह होगी:

24

ध्यान दें कि निजी जानकारी को सटीक तरीके से पेश करने की तुलना में, वीडियो का छोटा हिस्सा ज़्यादा सटीक होता है.

स्टेज ट्रेनिंग

#language

किसी मॉडल को अलग-अलग चरणों के क्रम से ट्रेनिंग देने की रणनीति. इसका मकसद ट्रेनिंग प्रोसेस को तेज़ करना या मॉडल की बेहतर क्वालिटी हासिल करना हो सकता है.

प्रोग्रेसिव स्टैकिंग के तरीके का उदाहरण नीचे दिखाया गया है:

  • पहले चरण में 3 छिपी हुई लेयर हैं, दूसरे चरण में 6 छिपी हुई लेयर हैं, और तीसरे चरण में 12 छिपे हुए लेयर हैं.
  • दूसरे चरण की शुरुआत, पहले चरण की तीन छिपी हुई लेयर से सीखे गए वेट के साथ होती है. तीसरे चरण की शुरुआत, दूसरे चरण की छह छिपे हुए लेयर से सीखे गए वेट के साथ होती है.

तीन स्टेज, जिन पर &#39;पहला चरण&#39;, &#39;दूसरा चरण&#39;, और &#39;तीसरा चरण&#39; लेबल है.
          हर चरण में अलग-अलग संख्या में लेयर होती हैं: पहले चरण में
          तीन लेयर, दूसरे चरण में छह लेयर, और तीसरे चरण में 12 लेयर हैं.
          पहले चरण की तीन लेयर, दूसरे चरण की पहली तीन लेयर बन जाती हैं.
          इसी तरह, दूसरे चरण की छह लेयर, तीसरे चरण की पहली छह लेयर बन जाती हैं.

पाइपलाइनिंग भी देखें.

T

T5

#language

टेक्स्ट-टू-टेक्स्ट ट्रांसफ़र लर्निंग मॉडल को 2020 में Google एआई (AI) ने शुरू किया था. T5 एक एन्कोडर-डीकोडर मॉडल है, जो ट्रांसफ़ॉर्मर आर्किटेक्चर पर आधारित है. इसे एक बहुत बड़े डेटासेट पर ट्रेनिंग दी गई है. नैचुरल लैंग्वेज प्रोसेसिंग से जुड़े कई तरह के कामों में इसका इस्तेमाल किया जाता है. जैसे, टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और बातचीत के अंदाज़ में सवालों के जवाब देना.

T5 को इसका नाम "टेक्स्ट-टू-टेक्स्ट ट्रांसफ़र ट्रांसफ़ॉर्मर" के पांच T से मिला.

T5X

#language

यह एक ओपन-सोर्स और मशीन लर्निंग फ़्रेमवर्क है, जिसे बड़े स्तर पर नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) बनाने और ट्रेन करने के लिए डिज़ाइन किया गया है. T5 को T5X कोडबेस पर लागू किया जाता है (जिसे JAX और Flax पर बनाया गया है).

तापमान

#language
#image
#generativeAI

हाइपर पैरामीटर, जो किसी मॉडल के आउटपुट की रैंडमनेस की डिग्री को कंट्रोल करता है. ज़्यादा तापमान से ज़्यादा आउटपुट मिलता है, जबकि कम तापमान से आउटपुट बिलकुल कम मिलता है.

सबसे सही तापमान चुनना, ऐप्लिकेशन और मॉडल से मिलने वाले आउटपुट से जुड़ी ज़रूरी प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय, हो सकता है कि आप तापमान को बढ़ाएं. इसके ठीक उलट, हो सकता है कि आप मॉडल बनाते समय तापमान कम करें, जो इमेज या टेक्स्ट की कैटगरी तय करता हो, ताकि मॉडल को ज़्यादा सटीक बनाया जा सके.

तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.

टेक्स्ट स्पैन

#language

किसी टेक्स्ट स्ट्रिंग के खास सब-सेक्शन से जुड़ा, अरे इंडेक्स स्पैन. उदाहरण के लिए, Python स्ट्रिंग s="Be good now" में good शब्द, टेक्स्ट स्पैन के लिए 3 से 6 तक को शामिल करता है.

टोकन

#language

भाषा के मॉडल में, वह ऐटॉमिक यूनिट है जिस पर मॉडल ट्रेनिंग कर रहा है और अनुमान लगा रहा है. आम तौर पर, टोकन इनमें से एक होता है:

  • शब्द—उदाहरण के लिए, "कुत्ते जैसे बिल्ली" वाक्यांश में तीन शब्द वाले टोकन होते हैं: "कुत्ते", "लाइक", और "बिल्लियां".
  • एक वर्ण—उदाहरण के लिए, "साइकल फ़िश" वाक्यांश में नौ वर्ण वाले टोकन होते हैं. (ध्यान दें कि खाली जगह को टोकन के तौर पर गिना जाता है.)
  • सबवर्ड—इसमें कोई एक शब्द, एक से ज़्यादा टोकन या एक से ज़्यादा टोकन हो सकता है. सबवर्ड में कोई मूल शब्द, प्रीफ़िक्स या सफ़िक्स होता है. उदाहरण के लिए, जिस भाषा मॉडल में सबवर्ड का इस्तेमाल टोकन के तौर पर होता है उसमें "कुत्ते" शब्द को दो टोकन (रूट शब्द "कुत्ते" और बहुवचन प्रत्यय "s") के तौर पर देखा जा सकता है. हालांकि, उसी भाषा के मॉडल में एक शब्द "लंबा", दो सब-वर्ड (रूट शब्द "tall" और सफ़िक्स "er") के तौर पर दिख सकता है.

भाषा मॉडल से बाहर के डोमेन में, टोकन दूसरी तरह की एटॉमिक यूनिट दिखा सकते हैं. उदाहरण के लिए, कंप्यूटर विज़न में कोई टोकन किसी इमेज का सबसेट हो सकता है.

ट्रांसफ़र्मर

#language

Google का एक न्यूरल नेटवर्क आर्किटेक्चर बनाया गया है. यह सेल्फ़-अटेंशन सिस्टम पर निर्भर करता है. इसकी मदद से, इनपुट एम्बेड करने के क्रम को आउटपुट एम्बेड करने के क्रम में बदला जाता है. यह प्रोसेस कंवोल्यूशन या बार-बार होने वाले न्यूरल नेटवर्क पर निर्भर नहीं होती. ट्रांसफ़ॉर्मर को सेल्फ़-अटेंशन लेयर के स्टैक के रूप में देखा जा सकता है.

ट्रांसफ़ॉर्मर में इनमें से कुछ भी शामिल हो सकता है:

एन्कोडर, एम्बेड करने के क्रम को उसी अवधि के नए क्रम में बदल देता है. एन्कोडर में एक जैसी N लेयर होती हैं, जिनमें हर लेयर में दो सब-लेयर होते हैं. ये दो सब-लेयर, इनपुट एम्बेड करने के क्रम की हर पोज़िशन पर लागू की जाती हैं. इससे क्रम के हर एलिमेंट को नए एम्बेडिंग में बदल दिया जाता है. पहला एन्कोडर सब-लेयर, इनपुट क्रम की जानकारी पूरी तरह इकट्ठा करता है. दूसरी एन्कोडर सब-लेयर, इकट्ठा की गई जानकारी को आउटपुट एम्बेडिंग में बदल देती है.

डिकोडर, इनपुट एम्बेड करने के क्रम को आउटपुट एम्बेडिंग के क्रम में बदल देता है. यह अलग-अलग लंबाई के हो सकता है. डिकोडर में N एक जैसी लेयर होती हैं, जिसमें तीन सब-लेयर होते हैं. इनमें से दो लेयर, एन्कोडर की सब-लेयर की तरह होती हैं. तीसरी डिकोडर सब-लेयर, एन्कोडर का आउटपुट लेती है और इससे जानकारी इकट्ठा करने के लिए, खुद पर ध्यान देने का तरीका लागू करती है.

यह ब्लॉग पोस्ट Transformer: A Novel न्यूरल नेटवर्क आर्किटेक्चर फ़ॉर लैंग्वेज समझौता ट्रांसफ़ॉर्मर के बारे में अच्छी तरह से बताता है.

ट्रायग्राम

#seq
#language

N-gram जिसमें N=3 हो.

U

एकतरफ़ा

#language

ऐसा सिस्टम जो सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पहले मौजूद होता है. वहीं दूसरी ओर, दोतरफ़ा निर्देश देने वाला सिस्टम, टेक्स्ट के टारगेट सेक्शन में पहले से लागू और फ़ॉलो करने वाले, दोनों तरह के टेक्स्ट का आकलन करता है. ज़्यादा जानकारी के लिए, दोतरफ़ा वीडियो देखें.

एकतरफ़ा भाषा मॉडल

#language

भाषा मॉडल, जो टारगेट टोकन के बाद के बजाय टोकन पर आधारित होता है. दोतरफ़ा भाषा वाले मॉडल से कंट्रास्ट अलग है.

V

वैरिएशनल ऑटोएनकोडर (वीएई)

#language

एक तरह का ऑटोएनकोडर, जो इनपुट और आउटपुट के बीच अंतर का इस्तेमाल, इनपुट के बदले गए वर्शन जनरेट करने के लिए करता है. वैरिएशन ऑटोएनकोडर, जनरेटिव एआई के लिए काम के हैं.

वीएई, वैरिएशन अनुमान पर आधारित होते हैं: यह किसी प्रॉबबिलिटी मॉडल के पैरामीटर का अनुमान लगाने की तकनीक है.

W

शब्द एम्बेड करना

#language

एम्बेड करने वाले वेक्टर में मौजूद शब्द के सेट में हर शब्द को दिखाना. इसका मतलब है कि हर शब्द को 0.0 से 1.0 के बीच के फ़्लोटिंग-पॉइंट वैल्यू वाले वेक्टर के तौर पर दिखाया जाता है. मिलते-जुलते मतलब वाले शब्दों की तुलना में अलग-अलग मतलब वाले शब्द ज़्यादा मिलते-जुलते होते हैं. उदाहरण के लिए, गाजर, अजवाइन, और खीरे, सभी को एक जैसा दिखाया जाएगा. ये हवाई जहाज़, धूप का चश्मा, और टूथपेस्ट से बिलकुल अलग होगा.

Z

ज़ीरो-शॉट प्रॉम्प्ट

#language
#generativeAI

ऐसा प्रॉम्प्ट जिससे यह नहीं पता चलता हो कि बड़े लैंग्वेज मॉडल से आपको किस तरह का जवाब चाहिए. उदाहरण के लिए:

एक प्रॉम्प्ट के हिस्से ज़रूरी जानकारी
किसी खास देश की आधिकारिक मुद्रा क्या है? आपको एलएलएम से किस सवाल का जवाब चाहिए.
भारत: असल क्वेरी.

बड़े भाषा मॉडल के लिए, इनमें से कोई भी तरीका अपनाया जा सकता है:

  • रुपया
  • INR
  • भारतीय रुपया
  • रुपया
  • भारतीय रुपया

सभी जवाब सही हैं. हालाँकि, हो सकता है कि आपको कोई ख़ास फ़ॉर्मैट पसंद आए.

ज़ीरो-शॉट प्रॉम्प्ट की तुलना नीचे दिए गए शब्दों से करें: