इस पेज पर, भाषा के आकलन से जुड़ी ग्लॉसरी के शब्द मौजूद हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
जवाब
ध्यान देना
न्यूरल नेटवर्क में इस्तेमाल किया जाने वाला सिस्टम, जो किसी खास शब्द या किसी शब्द के हिस्से की अहमियत बताता है. अटेंशन उस जानकारी को कंप्रेस करता है जिसकी ज़रूरत किसी मॉडल को अगले टोकन/शब्द का अनुमान लगाने के लिए होती है. ध्यान देने के एक आम तरीके में, इनपुट के एक सेट के ऊपर वेटेड जोड़ का इस्तेमाल किया जा सकता है जहां हर इनपुट के वेट का हिसाब, न्यूरल नेटवर्क के किसी दूसरे हिस्से से लगाया जाता है.
सेल्फ़-अटेंशन और कई सिर पर ध्यान देने की सुविधा के बारे में भी जानें. ये ट्रांसफ़ॉर्मर बनाने में अहम भूमिका निभाते हैं.
ऑटोएनकोडर
एक ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी निकालना सीखता है. ऑटोएनकोडर, एन्कोडर और डीकोडर का कॉम्बिनेशन होता है. ऑटोएनकोडर नीचे दी गई दो चरणों वाली प्रोसेस पर निर्भर करते हैं:
- एन्कोडर, इनपुट को (आम तौर पर) नुकसान वाले लोअर डाइमेंशन (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
- डिकोडर, कम डाइमेंशन वाले फ़ॉर्मैट को ओरिजनल हाई डाइमेंशन इनपुट फ़ॉर्मैट से मैप करके, ओरिजनल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.
ऑटोकोडर को एंड-टू-एंड ट्रेनिंग दी जाती है. डिकोडर की मदद से, एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से ओरिजनल इनपुट को जितना हो सके, उतना करीब से बनाया जाता है. इंटरमीडिएट फ़ॉर्मैट, ओरिजनल फ़ॉर्मैट से छोटा (लोअर-डाइमेंशन) होता है, इसलिए ऑटोएनकोडर को यह समझने के लिए मजबूर किया जाता है कि इनपुट में दी गई कौनसी जानकारी ज़रूरी है. आउटपुट, इनपुट से पूरी तरह मेल नहीं खाता.
उदाहरण के लिए:
- अगर इनपुट डेटा ग्राफ़िक है, तो सटीक कॉपी न दिखने वाली कॉपी ओरिजनल ग्राफ़िक की तरह होगी, लेकिन उसमें कुछ हद तक बदलाव किया गया होगा. ऐसा भी हो सकता है कि टेक्स्ट की पूरी तरह कॉपी न होने पर, ओरिजनल ग्राफ़िक से शोर को हटा दिया जाए या कुछ पिक्सल में कमी हो जाए.
- अगर इनपुट डेटा टेक्स्ट है, तो ऑटोएनकोडर नया टेक्स्ट जनरेट करेगा. यह मूल टेक्स्ट की नकल (लेकिन, उससे अलग) होगा.
अलग-अलग ऑटोएनकोडर भी देखें.
ऑटो-रिग्रेसिव मॉडल
ऐसा model जो अपने पिछले अनुमानों के आधार पर, किसी अनुमान का अनुमान लगाता है. उदाहरण के लिए, ऑटो-रिग्रेसिव लैंग्वेज मॉडल, पहले बताए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. ट्रांसफ़ॉर्मर पर आधारित बड़े लैंग्वेज मॉडल, ऑटो-रिग्रेसिव होते हैं.
वहीं दूसरी ओर, GAN पर आधारित इमेज मॉडल आम तौर पर ऑटो-रिग्रेसिव नहीं होते, क्योंकि वे एक ही फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और बार-बार ऐसा नहीं करते. हालांकि, कुछ इमेज जनरेट करने वाले मॉडल, ऑटो-रिग्रेसिव होते हैं, क्योंकि वे चरणों में इमेज जनरेट करते हैं.
B
शब्दों का बैग
किसी वाक्यांश या पैसेज में शब्दों को दिखाना, फिर चाहे उनका क्रम कुछ भी हो. उदाहरण के लिए, शब्दों का बैग नीचे दिए गए तीन वाक्यांशों को एक जैसा दिखाता है:
- कुत्ता कूदता है
- कुत्ते को कूदता है
- कुत्ता उछलता है
हर शब्द को स्पार्स वेक्टर में इंडेक्स करने के लिए मैप किया जाता है, जहां वेक्टर शब्दावली में मौजूद हर शब्द के लिए इंडेक्स होता है. उदाहरण के लिए, कुत्ते कूदता है वाक्यांश को एक फ़ीचर वेक्टर में मैप किया जाता है, जिसमें शून्य नहीं होते हैं. इसके लिए, the, dog, और jumps शब्द के तीन इंडेक्स पर वैल्यू डाली जाती है. शून्य के अलावा दूसरी वैल्यू, इनमें से कोई भी हो सकती है:
- A 1 किसी शब्द की मौजूदगी को दिखाता है.
- बैग में कोई शब्द दिखने की संख्या. उदाहरण के लिए, अगर वाक्य में मरून डॉग, मरून फ़र वाला कुत्ता है, तो मरून और डॉग, दोनों को 2 और दूसरे शब्द को 1 के तौर पर दिखाया जाएगा.
- कुछ अन्य वैल्यू, जैसे कि बैग में कोई शब्द कितनी बार दिखेगा, इसका लॉगारिद्म.
BERT (बायडायरेक्शनल एन्कोडर ट्रांसफ़ॉर्मर से रिप्रज़ेंटेशन)
टेक्स्ट प्रज़ेंटेशन के लिए मॉडल आर्किटेक्चर. एक प्रशिक्षित BERT मॉडल, टेक्स्ट क्लासिफ़िकेशन या अन्य एमएल टास्क के लिए एक बड़े मॉडल के हिस्से के तौर पर काम कर सकता है.
BERT की ये विशेषताएं होती हैं:
- ट्रांसफ़ॉर्मर आर्किटेक्चर का इस्तेमाल करता है. इसलिए, यह खुद का ध्यान रखने पर निर्भर करता है.
- यह ट्रांसफ़ॉर्मर के एन्कोडर वाले हिस्से का इस्तेमाल करता है. एन्कोडर का काम टेक्स्ट को बेहतर तरीके से पेश करना होता है, न कि कैटगरी तय करने जैसा कोई खास काम करना.
- दोतरफ़ा हो.
- बिना निगरानी वाली ट्रेनिंग के लिए, मास्किंग का इस्तेमाल करता है.
BERT के वैरिएंट में ये शामिल हैं:
BERT के बारे में खास जानकारी के लिए, ओपन सोर्सिंग BERT: नैचुरल लैंग्वेज प्रोसेसिंग के लिए आर्ट-ऑफ़-द-आर्ट-ट्रेनिंग देखें.
दोतरफ़ा
यह ऐसे सिस्टम के लिए इस्तेमाल किया जाता है जो टेक्स्ट के टारगेट सेक्शन से पहले और फ़ॉलो किए जाने वाले, दोनों टेक्स्ट का आकलन करता है. वहीं, एकतरफ़ा सिस्टम सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पहले लागू होता है.
उदाहरण के लिए, किसी मास्क्ड लैंग्वेज मॉडल पर विचार करें, जो यहां दिए गए सवाल में अंडरलाइन दिखाने के लिए, शब्द या शब्दों की संभावनाएं तय करे:
आपके साथ _____ क्या है?
एकतरफ़ा भाषा मॉडल को "क्या", "है", और "द" शब्दों के ज़रिए दिए गए संदर्भ के आधार पर अपनी संभावनाओं को आधार बनाना होगा. इसके उलट, दोतरफ़ा भाषा मॉडल को "के साथ" और "आप" जैसे कॉन्टेक्स्ट से भी मदद मिल सकती है, जिससे मॉडल को बेहतर अनुमान जनरेट करने में मदद मिल सकती है.
दोतरफ़ा भाषा मॉडल
भाषा का मॉडल, जो इस बात की संभावना तय करता है कि दी गई जगह पर, दिया गया टोकन मौजूद है या नहीं. यह पिछले और अगले टेक्स्ट के आधार पर, टेक्स्ट के किसी हिस्से में होता है.
Bigram
N-gram जिसमें N=2 हो.
BLEU (दो भाषाओं में होने वाली जांच में मदद के लिए)
0.0 और 1.0 के बीच का स्कोर, जो दो मानवीय भाषाओं (उदाहरण के लिए, अंग्रेज़ी और रूसी के बीच) के अनुवाद की क्वालिटी को दिखाता है. 1.0 का BLEU स्कोर बढ़िया अनुवाद दिखाता है; 0.0 का BLEU स्कोर बहुत खराब अनुवाद दिखाता है.
C
कॉज़ल लैंग्वेज मॉडल
एकतरफ़ा भाषा मॉडल के लिए समानार्थी शब्द.
भाषा मॉडलिंग में अलग-अलग डायरेक्शनल अप्रोच के कंट्रास्ट के लिए, दोतरफ़ा भाषा मॉडल देखें.
सोच-विचार
प्रॉम्प्ट इंजीनियरिंग की एक ऐसी तकनीक जो बड़े लैंग्वेज मॉडल (एलएलएम) को इसकी वजह बताने के लिए, सिलसिलेवार तरीके से बताती है. उदाहरण के लिए, इस निर्देश पर ध्यान दें और दूसरे वाक्य पर खास ध्यान दें:
एक कार में 0 से 60 मील प्रति घंटे की रफ़्तार 7 सेकंड में चलने पर, एक ड्राइवर को कितने ग्राम फ़ोर्स का अनुभव होगा? जवाब में सभी ज़रूरी गणनाएं दिखाएं.
एलएलएम के जवाब शायद:
- फ़िज़िक्स के फ़ॉर्मूले को क्रम से दिखाएं और 0, 60, और 7 की वैल्यू को सही जगहों पर डालें.
- बताएं कि इन फ़ॉर्मूला को क्यों चुना गया और अलग-अलग वैरिएबल का क्या मतलब है.
अपने आइडिया पर ध्यान देने से, एलएलएम को सभी कैलकुलेशन करने के लिए मजबूर किया जाता है. इससे एलएलएम को ज़्यादा सटीक जवाब मिल सकता है. इसके अलावा, सोच-विचार करने की सुविधा से उपयोगकर्ता को एलएलएम के चरणों की जांच करने में मदद मिलती है, ताकि यह तय किया जा सके कि उसका जवाब सही है या नहीं.
निर्वाचन क्षेत्र पार्सिंग
किसी वाक्य को व्याकरण के छोटे-छोटे हिस्सों में बांटना ("नागरिक"). मशीन लर्निंग सिस्टम का बाद का हिस्सा, जैसे कि नैचुरल लैंग्वेज अंडरस्टैंडिंग मॉडल, मूल वाक्य के मुकाबले मूल वाक्य को ज़्यादा आसानी से पार्स कर सकता है. उदाहरण के लिए, नीचे दिया गया वाक्य देखें:
मेरे दोस्त ने दो बिल्लियों को गोद लिया.
एक विधानसभा पार्सर, इस वाक्य को इन दो कॉम्पोनेंट में बांट सकता है:
- मेरे दोस्त को संज्ञा कहा जाता है.
- adopted दो cats, एक क्रिया वाला वाक्यांश है.
इन कॉम्पोनेंट को छोटे-छोटे हिस्सों में बांटा जा सकता है. उदाहरण के लिए, क्रिया वाक्यांश
दो बिल्लियों को गोद लिया
उन्हें नीचे दिए गए अलग-अलग ग्रुप में बांटा जा सकता है:
- added एक क्रिया है.
- दो बिल्लियों को दूसरे संज्ञा के लिए इस्तेमाल किया जाता है.
क्रैश ब्लॉसम
ऐसा वाक्य या वाक्यांश जिसका मतलब साफ़ तौर पर न बताया गया हो. क्रैश ब्लॉसम की वजह से, प्राकृतिक भाषा की समझ में एक बड़ी समस्या आती है. उदाहरण के लिए, Red Tape Holds अप स्काईस्क्रेपर की हेडलाइन, क्रैश ब्लॉसम है. इसकी वजह यह है कि एनएलयू मॉडल, हेडलाइन को शाब्दिक या आकर्षक फ़ॉर्मैट में समझ सकता है.
D
डिकोडर
आम तौर पर, ऐसा कोई भी एमएल सिस्टम जो प्रोसेस किए गए, घने या अंदरूनी तौर पर दिखाए गए तरीके को ज़्यादा रॉ, स्पेर या बाहरी तरीके में बदल देता है.
डिकोडर अक्सर किसी बड़े मॉडल का कॉम्पोनेंट होते हैं. इस मॉडल में, इन्हें अक्सर एन्कोडर के साथ जोड़ा जाता है.
क्रम से दूसरे क्रम के टास्क में, डिकोडर सिस्टम की अंदरूनी स्थिति से शुरू होता है, ताकि अगले क्रम का अनुमान लगाया जा सके.
ट्रांसफ़ॉर्मर आर्किटेक्चर में, डिकोडर की परिभाषा जानने के लिए, ट्रांसफ़ॉर्मर देखें.
ग़ैर-ज़रूरी आवाज़ें कम करना
सेल्फ़-सुपरवाइज़्ड लर्निंग का एक सामान्य तरीका:
ग़ैर-ज़रूरी आवाज़ें कम करने की सुविधा, लेबल न किए गए उदाहरणों से सीखने की सुविधा देती है. ओरिजनल डेटासेट, टारगेट या लेबल और इनपुट के तौर पर शोर-शराबे वाले डेटा के तौर पर काम करता है.
कुछ मास्क्ड लैंग्वेज मॉडल, ग़ैर-ज़रूरी आवाज़ें कम करने की सुविधा का इस्तेमाल इस तरह करते हैं:
- कुछ टोकन को मास्क करके, बिना लेबल वाले वाक्य में शोर को आर्टिफ़िशियल तरीके से जोड़ा गया है.
- मॉडल, ओरिजनल टोकन का अनुमान लगाने की कोशिश करता है.
सीधे तौर पर सूचना देना
ज़ीरो-शॉट प्रॉम्प्टिंग का समानार्थी शब्द.
E
दूरी में बदलाव करें
दो टेक्स्ट स्ट्रिंग एक-दूसरे से कितनी मिलती-जुलती हैं, इसका माप है. मशीन लर्निंग में, दूरी में बदलाव करना इसलिए मददगार होता है, क्योंकि यह आसान है और इसका हिसाब लगाना आसान है. साथ ही, एक जैसी मानी जाने वाली दो स्ट्रिंग या किसी दी गई स्ट्रिंग से मिलती-जुलती स्ट्रिंग ढूंढने का असरदार तरीका है.
संपादन दूरी की कई परिभाषाएं हैं, जिनमें से प्रत्येक में अलग-अलग स्ट्रिंग संचालनों का उपयोग किया जाता है. उदाहरण के लिए, Levenshtein की दूरी कम से कम मिटाने, इंसर्ट करने, और विकल्प के तौर पर की जाने वाली कार्रवाइयों को ध्यान में रखा जाता है.
उदाहरण के लिए, "हार्ट" और "डार्ट" शब्दों के बीच लेवेनशेटिन की दूरी 3 है, क्योंकि नीचे दिए गए तीन बदलावों में एक शब्द को दूसरे में बदलने के लिए सबसे कम बदलाव हैं:
- दिल → deart ("d" के साथ “h” सब्स्टिट्यूट)
- deart → dart (delete "e")
- डार्ट → डार्ट (insert "s")
परत एम्बेड करना
यह एक खास छिपी हुई लेयर है, जो लो डाइमेंशन एम्बेडिंग वेक्टर को धीरे-धीरे समझने के लिए, हाई-डाइमेंशन वाले कैटगरिकल फ़ीचर का इस्तेमाल करती है. एम्बेड करने वाली लेयर, न्यूरल नेटवर्क को सिर्फ़ हाई-डाइमेंशन कैटगरीकल सुविधा की ट्रेनिंग देने के बजाय, बेहतर तरीके से ट्रेनिंग देने में सक्षम बनाती है.
उदाहरण के लिए, फ़िलहाल Earth पर पेड़ों की करीब 73,000 प्रजातियां हैं. मान लीजिए
आपके मॉडल की सुविधा है, तो आपके मॉडल के इनपुट लेयर में 73,000 एलिमेंट लंबा वन-हॉट वेक्टर है.
उदाहरण के लिए, शायद baobab
को कुछ इस तरह से दिखाया जाए:
73,000 एलिमेंट वाली ऐरे बहुत लंबी होती है. अगर मॉडल में कोई एम्बेडिंग लेयर नहीं जोड़ी जाती है, तो ट्रेनिंग में बहुत समय लगने वाला है. इसकी वजह यह है कि इसमें 72,999 शून्य को गुणा कर दिया जाता है. 12 डाइमेंशन को शामिल करने के लिए, एम्बेड की गई लेयर चुनी जा सकती है. नतीजतन, एम्बेड करने वाली लेयर धीरे-धीरे पेड़ की हर प्रजाति के लिए एक नया एम्बेडिंग वेक्टर सीखेगी.
कुछ मामलों में, एम्बेड करने वाली लेयर का हैशिंग एक अच्छा विकल्प है.
एम्बेड किया गया स्पेस
हाई-डाइमेंशन वेक्टर स्पेस की सुविधाओं वाले डी-डाइमेंशन वेक्टर स्पेस को मैप किया जाता है. आम तौर पर, एम्बेड करने की जगह में ऐसा स्ट्रक्चर होता है जिससे गणित के हिसाब से नतीजे मिलते हैं. उदाहरण के लिए, एम्बेड करने की आदर्श जगह में, एम्बेड किए गए स्पेस में जोड़ने और घटाने या बढ़ाने से, शब्द से जुड़ी तुलनाओं के टास्क हल किए जा सकते हैं.
एम्बेड किए गए दो एम्बेड के डॉट प्रॉडक्ट से पता चलता है कि वे कितनी मिलती-जुलती हैं.
एम्बेडिंग वेक्टर
मोटे तौर पर, यह किसी भी छिपाई गई लेयर से लिए गए फ़्लोटिंग-पॉइंट नंबर का ऐरे है, जो उस छिपे हुए लेयर के इनपुट के बारे में बताता है. अक्सर, एम्बेडिंग वेक्टर, फ़्लोटिंग-पॉइंट नंबर की श्रेणी होती है जिसे एम्बेड करने वाली लेयर में प्रशिक्षित किया जाता है. उदाहरण के लिए, मान लीजिए कि एम्बेड करने वाली किसी लेयर को धरती पर मौजूद पेड़ों की 73,000 प्रजातियों में से हर एक के लिए, एम्बेडिंग वेक्टर पता होना चाहिए. शायद यहां दिया गया ऐरे, बैओबैब ट्री के लिए एम्बेडिंग वेक्टर है:
एम्बेडिंग वेक्टर रैंडम संख्याओं का समूह नहीं है. एम्बेड करने वाली लेयर, ट्रेनिंग के ज़रिए इन वैल्यू को तय करती है. यह उसी तरह है जिस तरह ट्रेनिंग के दौरान न्यूरल नेटवर्क अन्य वेट सीखते हैं. श्रेणी का हर एलिमेंट एक रेटिंग है, जिसमें पेड़ की प्रजाति की विशेषताओं के बारे में बताया जाता है. कौनसा एलिमेंट, पेड़ की किस प्रजाति की विशेषता बताता है? यह इंसान के लिए यह तय कर पाना बहुत मुश्किल है.
एम्बेड करने वाले वेक्टर का गणित के हिसाब से कमाल का हिस्सा यह है कि मिलते-जुलते आइटम में फ़्लोटिंग-पॉइंट नंबर के मिलते-जुलते सेट होते हैं. उदाहरण के लिए, पेड़ की मिलती-जुलती प्रजातियों में, पेड़-पौधों की मिलती-जुलती प्रजातियों की तुलना में फ़्लोटिंग-पॉइंट की संख्या का सेट ज़्यादा होता है. रेडवुड और सिक्वॉइय, पेड़ से जुड़ी प्रजाति से जुड़े हैं. इसलिए, रेडवुड और नारियल के ताड़ के पेड़ों की तुलना में, इनके पास फ़्लोटिंग-पॉइंट वाली संख्या ज़्यादा होती है. मॉडल को फिर से ट्रेनिंग देने पर, हर बार एम्बेड किए जाने वाले वेक्टर में मौजूद नंबर बदल जाएंगे. भले ही, एक जैसे इनपुट वाले मॉडल को फिर से ट्रेनिंग दी जाए.
एन्कोडर
आम तौर पर, ऐसा कोई भी एमएल सिस्टम जो एक रॉ, स्पैर्स या बाहरी प्रज़ेंटेशन से ज़्यादा प्रोसेस किए गए, गहरे या ज़्यादा इंटरनल रिप्रज़ेंटेशन में बदल जाता है.
एन्कोडर अक्सर किसी बड़े मॉडल के कॉम्पोनेंट होते हैं. आम तौर पर, इन्हें डीकोडर के साथ जोड़ा जाता है. कुछ ट्रांसफ़ॉर्मर एन्कोडर के साथ एन्कोडर जोड़ते हैं. हालांकि, अन्य ट्रांसफ़ॉर्मर सिर्फ़ एन्कोडर या सिर्फ़ डिकोडर का इस्तेमाल करते हैं.
कुछ सिस्टम, डेटा की कैटगरी तय करने या रिग्रेशन नेटवर्क के इनपुट के तौर पर, एन्कोडर के आउटपुट का इस्तेमाल करते हैं.
क्रम से दूसरे क्रम के टास्क में, एन्कोडर एक इनपुट का क्रम लेता है और अंदर की स्थिति (वेक्टर) दिखाता है. इसके बाद, डीकोडर उस अंदरूनी स्थिति का इस्तेमाल करके, अगले क्रम का अनुमान लगाता है.
ट्रांसफ़ॉर्मर आर्किटेक्चर में एन्कोडर की परिभाषा जानने के लिए, ट्रांसफ़ॉर्मर देखें.
F
कुछ-एक शॉट
कोई ऐसा प्रॉम्प्ट जिसमें एक से ज़्यादा ("कुछ") उदाहरण हों. इससे पता चलता है कि बड़े लैंग्वेज मॉडल को कैसे जवाब देना चाहिए. उदाहरण के लिए, नीचे दिए गए लंबे प्रॉम्प्ट में दो उदाहरण शामिल हैं. इसमें क्वेरी का जवाब देने का तरीका बताने वाला एक बड़ा लैंग्वेज मॉडल दिखाया गया है.
एक प्रॉम्प्ट के हिस्से | ज़रूरी जानकारी |
---|---|
किसी खास देश की आधिकारिक मुद्रा क्या है? | आपको एलएलएम से किस सवाल का जवाब चाहिए. |
फ़्रांस: EUR | एक उदाहरण. |
यूनाइटेड किंगडम: GBP | एक अन्य उदाहरण. |
भारत: | असल क्वेरी. |
आम तौर पर, ज़ीरो-शॉट प्रॉम्प्ट और एक शॉट में सूचना देने की सुविधा के मुकाबले, कुछ ही शॉट में सीखने के ज़्यादा नतीजे मिलते हैं. हालांकि, कुछ ही शॉट के लिए प्रॉम्प्ट भेजने के लिए लंबे प्रॉम्प्ट की ज़रूरत होती है.
कुछ शॉट में निर्देश देना, कुछ-कुछ सीखने का एक तरीका है. यह प्रॉम्प्ट पर आधारित शिक्षा पर लागू होता है.
वायलिन
Python की पहली कॉन्फ़िगरेशन लाइब्रेरी, जो इनवेसिव कोड या इंफ़्रास्ट्रक्चर के बिना फ़ंक्शन और क्लास की वैल्यू सेट करती है. Pax और दूसरे एमएल कोडबेस के मामले में, ये फ़ंक्शन और क्लास मॉडल और ट्रेनिंग हाइपर पैरामीटर के बारे में बताते हैं.
Fiddle मान लेता है कि मशीन लर्निंग कोड बेस को आम तौर पर इन कैटगरी में बांटा जाता है:
- लाइब्रेरी कोड, जो लेयर और ऑप्टिमाइज़र को परिभाषित करता है.
- डेटासेट "ग्लू" कोड, जो लाइब्रेरी को कॉल करता है और सभी चीज़ों को एक साथ कनेक्ट करता है.
Fiddle ग्लू कोड के कॉल स्ट्रक्चर को, बिना जांचे और बदले जा सकने वाले फ़ॉर्मैट में कैप्चर करता है.
फ़ाइन ट्यूनिंग
दूसरा, टास्क के हिसाब से दिया जाने वाला ट्रेनिंग पास. इसे पहले से ट्रेनिंग दिए गए मॉडल पर परफ़ॉर्म किया जाता है, ताकि किसी खास इस्तेमाल के उदाहरण के लिए इसके पैरामीटर को बेहतर बनाया जा सके. उदाहरण के लिए, कुछ बड़े लैंग्वेज मॉडल के लिए ट्रेनिंग का पूरा सीक्वेंस इस तरह है:
- ट्रेनिंग शुरू करने से पहले: एक बड़े सामान्य डेटासेट पर बड़े भाषा मॉडल को ट्रेनिंग दें, जैसे कि अंग्रेज़ी भाषा के सभी Wikipedia पेज.
- फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, स्वास्थ्य से जुड़ी क्वेरी का जवाब देना. आम तौर पर, किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.
एक अन्य उदाहरण में, बड़े इमेज मॉडल के लिए ट्रेनिंग का पूरा क्रम इस तरह है:
- प्री-ट्रेनिंग: एक बड़े सामान्य इमेज डेटासेट पर एक बड़े इमेज मॉडल को ट्रेनिंग दें, जैसे कि 'विकिमीडिया कॉमन्स' में मौजूद सभी इमेज.
- फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, ओरका की इमेज जनरेट करना.
फ़ाइन-ट्यूनिंग के लिए नीचे दी गई रणनीतियों का कोई भी कॉम्बिनेशन लागू हो सकता है:
- पहले से ट्रेनिंग दिए गए मॉडल के सभी मौजूदा पैरामीटर में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन-ट्यूनिंग भी कहा जाता है.
- पहले से ट्रेनिंग वाले मॉडल के सिर्फ़ कुछ मौजूदा पैरामीटर में बदलाव करता है (आम तौर पर, आउटपुट लेयर के सबसे करीब लेयर). अन्य मौजूदा पैरामीटर में कोई बदलाव नहीं करता है (आम तौर पर, लेयर इनपुट लेयर के आस-पास होती हैं). पैरामीटर की बेहतर ट्यूनिंग देखें.
- ज़्यादा लेयर जोड़ना, आम तौर पर आउटपुट लेयर के सबसे करीब मौजूद लेयर के ऊपर.
फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक तरीका है. इसलिए, फ़ाइन-ट्यूनिंग के लिए नुकसान पहुंचाने वाले किसी अलग फ़ंक्शन या मॉडल टाइप का इस्तेमाल किया जा सकता है, जो पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देने वाले फ़ंक्शन से अलग होता है. उदाहरण के लिए, आपके पास पहले से ट्रेनिंग वाले बड़े इमेज मॉडल को इस तरह से बेहतर बनाने का विकल्प है कि रिग्रेशन मॉडल बनाया जा सके. इससे इनपुट इमेज में पक्षियों की संख्या दिखाई जाएगी.
इन शब्दों से तुलना करें और इनकी तुलना करें:
फ़्लैक्स
JAX की बेहतरीन डीप लर्निंग के लिए, अच्छी परफ़ॉर्मेंस वाली ओपन-सोर्स लाइब्रेरी. Flux, ट्रेनिंग न्यूरल नेटवर्क के लिए फ़ंक्शन उपलब्ध कराता है. साथ ही, उनकी परफ़ॉर्मेंस का आकलन करने के तरीके भी बताता है.
फ़्लक्सफ़ॉर्मर
Flax पर बनी ओपन-सोर्स Transformer लाइब्रेरी को मुख्य रूप से नैचुरल लैंग्वेज प्रोसेसिंग और मल्टीमोडल रिसर्च के लिए डिज़ाइन किया गया है.
G
जनरेटिव एआई
औपचारिक परिभाषा वाला कोई उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञों का मानना है कि जनरेटिव एआई (AI) मॉडल, इस तरह का कॉन्टेंट बना ("जनरेट") कर सकते हैं.
- जटिल
- अनुकूल
- मूल
उदाहरण के लिए, जनरेटिव एआई (AI) मॉडल से मुश्किल निबंध या इमेज बनाई जा सकती हैं.
कुछ पुरानी टेक्नोलॉजी भी ओरिजनल और एक जैसा कॉन्टेंट जनरेट कर सकती हैं. इन टेक्नोलॉजी में, LSTM और RNN शामिल हैं. कुछ विशेषज्ञ इन पुरानी टेक्नोलॉजी को जनरेटिव एआई मानते हैं. हालांकि, कुछ का मानना है कि असल में जनरेटिव एआई को पहले की टेक्नोलॉजी के मुकाबले ज़्यादा मुश्किल आउटपुट की ज़रूरत होती है.
अनुमानित एमएल का कंट्रास्ट.
GPT (पहले से ट्रेन किया गया ट्रांसफ़ॉर्मर)
OpenAI ने बनाए Transformer पर आधारित बड़े लैंग्वेज मॉडल का एक परिवार.
GPT के वैरिएंट कई मोडलिटी पर लागू किए जा सकते हैं. इनमें ये शामिल हैं:
- इमेज जनरेट करना (उदाहरण के लिए, ImageGPT)
- टेक्स्ट-टू-इमेज जनरेशन (उदाहरण के लिए, DALL-E).
H
मनगढ़ंत घटनाएं देखना (मतिभ्रम)
जनरेटिव एआई मॉडल से ऐसा कॉन्टेंट तैयार करना जो सही-सही, लेकिन तथ्यों के हिसाब से गलत हो. साथ ही, मॉडल असल दुनिया के बारे में दावा करता हो. उदाहरण के लिए, एक जनरेटिव एआई (AI) मॉडल, जो दावा करता है कि बराक ओबामा की 1865 में मौत हो गई थी. यह मॉडल दिलचस्प लगने वाला है.
I
संदर्भ के हिसाब से सीखना
कुछ शॉट की सूचना का समानार्थी शब्द.
L
LaMDA (डायलॉग ऐप्लिकेशन के लिए भाषा मॉडल)
Google ने ट्रांसफ़ॉर्मर-आधारित बड़े लैंग्वेज मॉडल को बनाया है. इसे बड़े डायलॉग डेटासेट की ट्रेनिंग दी गई है, जो बातचीत के दौरान सही जवाब जनरेट कर सकता है.
LaMDA: हमारी अहम बातचीत टेक्नोलॉजी से खास जानकारी मिलती है.
भाषा का मॉडल
ऐसा model जो टोकन के लंबे क्रम में होने वाले model या टोकन के क्रम की संभावना का अनुमान लगाता है.
लार्ज लैंग्वेज मॉडल
यह एक अनौपचारिक शब्द है, जिसकी परिभाषा की कोई सख्ती नहीं है. आम तौर पर, इसका मतलब ऐसे भाषा मॉडल से होता है जिसमें बहुत ज़्यादा पैरामीटर होते हैं. कुछ बड़े लैंग्वेज मॉडल में 100 अरब से ज़्यादा पैरामीटर होते हैं.
सोम
मास्क्ड लैंग्वेज मॉडल
भाषा का मॉडल, जो किसी क्रम में खाली जगहों को भरने के लिए, कैंडिडेट टोकन की संभावना का अनुमान लगाता है. उदाहरण के लिए, मास्क्ड लैंग्वेज मॉडल, उम्मीदवार के शब्द(शब्दों) के लिए प्रॉबबिलिटी कैलकुलेट कर सकता है. इससे नीचे दिए गए वाक्य की अंडरलाइन को बदला जा सकता है:
टोपी में ____ वापस आ गया.
साहित्य में आम तौर पर अंडरलाइन के बजाय "MASK" स्ट्रिंग का इस्तेमाल किया गया है. उदाहरण के लिए:
टोपी में "मास्क" फिर से लगा.
मास्क किए गए ज़्यादातर आधुनिक मॉडल, दोतरफ़ा होते हैं.
मेटा-लर्निंग
यह मशीन लर्निंग का एक ऐसा सबसेट है जो लर्निंग एल्गोरिदम को खोजता है या उसे बेहतर बनाता है. मेटा-लर्निंग सिस्टम का मकसद किसी मॉडल को इस तरह की ट्रेनिंग देना भी हो सकता है कि वह थोड़े से डेटा या पिछले टास्क में मिले अनुभव की मदद से, कोई नया काम तेज़ी से सीख सके. मेटा-लर्निंग एल्गोरिदम आम तौर पर ये हासिल करने की कोशिश करते हैं:
- हाथ से इस्तेमाल की जाने वाली सुविधाओं (जैसे, शुरू करने वाला टूल या ऑप्टिमाइज़र) को बेहतर बनाना/सीखना.
- डेटा और कंप्यूट यूनिट का बेहतर इस्तेमाल करना.
- सामान्यीकरण को बेहतर बनाएं.
मेटा-लर्निंग, कुछ शॉट से सीखने से जुड़ा है.
मोडलिटी
डेटा की कैटगरी. उदाहरण के लिए, संख्या, टेक्स्ट, इमेज, वीडियो, और ऑडियो पांच अलग-अलग तरीके हैं.
मॉडल पैरललिज़्म
ट्रेनिंग या अनुमान को स्केल करने का ऐसा तरीका जो अलग-अलग model पर एक model के अलग-अलग हिस्से रखता है. मॉडल पैरललिज़्म ऐसे मॉडल की सुविधा देता है जो एक डिवाइस पर फ़िट होने के लिए बहुत बड़े होते हैं.
मॉडल पैरललिज़्म को लागू करने के लिए, सिस्टम आम तौर पर ये काम करता है:
- मॉडल को छोटे-छोटे हिस्सों में बांट (बांट) करता है.
- छोटे हिस्सों की ट्रेनिंग, कई प्रोसेसर के बीच बांटी जाती है. हर प्रोसेसर, मॉडल के अपने हिस्से को ट्रेनिंग देता है.
- कोई एक मॉडल बनाने के लिए नतीजों को जोड़ता है.
मॉडल पैरललिज़्म ट्रेनिंग को धीमा कर देता है.
डेटा पैरललिज़्म भी देखें.
एक से ज़्यादा सिर पर ध्यान देना
सेल्फ़-अटेंशन का एक एक्सटेंशन, जो इनपुट सीक्वेंस में हर पोज़िशन के लिए, सेल्फ़-अटेंशन मैकेनिज़्म को कई बार लागू करता है.
ट्रांसफ़ॉर्मर ने खुद पर ध्यान देने की सुविधा शुरू की.
मल्टीमोडल मॉडल
ऐसा मॉडल जिसके इनपुट और/या आउटपुट में एक से ज़्यादा मोडलिटी शामिल हो. उदाहरण के लिए, एक ऐसा मॉडल चुनें जो सुविधाओं के तौर पर इमेज और टेक्स्ट कैप्शन (दो मोडलिटी) लेता हो. साथ ही, वह एक स्कोर देता है जो बताता है कि इमेज के लिए टेक्स्ट कैप्शन कितना सही है. इसलिए, इस मॉडल के इनपुट मल्टीमोडल हैं और आउटपुट यूनिमोडल है.
N
नैचुरल लैंग्वेज अंडरस्टैंडिंग
उपयोगकर्ता ने क्या लिखा या क्या कहा, इसके आधार पर उपयोगकर्ता का इरादा तय करना. उदाहरण के लिए, सर्च इंजन आम बोलचाल की भाषा का इस्तेमाल करके, यह पता लगाता है कि लोगों ने क्या खोजा है या टाइप किया है या नहीं.
एन-ग्राम
N शब्दों का क्रम में लगा क्रम. उदाहरण के लिए, ट्रूली पागल दो ग्राम का है. ऑर्डर सही होता है, इसलिए पागल वाकई राज़ से पागल होने की तुलना में 2-ग्राम का अलग-अलग होता है.
N | इस तरह के N-ग्राम के नाम | उदाहरण |
---|---|---|
2 | Bigram या 2-gram | जाना, जाना, दोपहर का खाना, रात का खाना |
3 | ट्रायग्राम या 3-ग्राम | बहुत ज़्यादा खा लिया, तीन दृष्टिहीन चूहे, बेल टोल |
4 | 4-ग्राम | पार्क में टहलना, हवा में धूल भरी हवाएं, लड़का दाल खा रहा है |
कई प्राकृतिक भाषा की समझ मॉडल, N-grams पर निर्भर करके यह अनुमान लगाते हैं कि उपयोगकर्ता कौनसा शब्द टाइप करेगा या कहेगा. उदाहरण के लिए, मान लें कि कोई उपयोगकर्ता थ्री ब्लाइंड्स टाइप करता है. ट्रायग्राम पर आधारित एनएलयू मॉडल से यह अनुमान लगाया जा सकता है कि उपयोगकर्ता अगली बार माइस टाइप करेगा.
बैग ऑफ़ वर्ड के साथ कंट्रास्ट N-ग्राम, जो शब्दों के बिना क्रम वाले सेट हैं.
एनएलयू
प्राकृतिक भाषा समझने के लिए छोटा नाम.
O
वन-शॉट प्रॉम्प्टिंग
ऐसा प्रॉम्प्ट जिसमें एक उदाहरण दिया गया हो. इससे पता चलता है कि बड़े भाषा के मॉडल को कैसे जवाब देना चाहिए. उदाहरण के लिए, इस प्रॉम्प्ट में एक बड़े लैंग्वेज मॉडल का उदाहरण दिया गया है कि इसे किसी क्वेरी का जवाब कैसे देना चाहिए.
एक प्रॉम्प्ट के हिस्से | ज़रूरी जानकारी |
---|---|
किसी खास देश की आधिकारिक मुद्रा क्या है? | आपको एलएलएम से किस सवाल का जवाब चाहिए. |
फ़्रांस: EUR | एक उदाहरण. |
भारत: | असल क्वेरी. |
एक बार में जवाब देने की सुविधा की तुलना इन शब्दों से करें:
P
पैरामीटर की बेहतर ट्यूनिंग
यह एक ऐसा सेट है जिसमें पूरी तरह फ़ाइन ट्यूनिंग करने के मुकाबले, पहले से ट्रेनिंग दिए गए लैंग्वेज मॉडल (पीएलएम), को फ़ाइन-ट्यून करने की तकनीकें हैं. पैरामीटर की मदद से, आम तौर पर कम पैरामीटर को बेहतर बनाया जाता है. हालांकि, आम तौर पर बड़ा लैंग्वेज मॉडल बनता है जो पूरी तरह से ट्यूनिंग से बने बड़े लैंग्वेज मॉडल की तरह ही अच्छा परफ़ॉर्म करता है.
इनसे तुलना करें और पैरामीटर की कम खपत करने पर बेहतर ट्यूनिंग करें:
पैरामीटर की कम खपत करने वाली ट्यूनिंग को पैरामीटर की बेहतर फ़ाइन-ट्यूनिंग भी कहा जाता है.
पाइपलाइनिंग
मॉडल पैरललिज़्म का एक फ़ॉर्मैट, जिसमें किसी मॉडल की प्रोसेसिंग को लगातार कई चरणों में बांटा जाता है. साथ ही, हर चरण को एक अलग डिवाइस पर चलाया जाता है. किसी स्टेज में एक बैच को प्रोसेस किए जाने के दौरान, पिछला चरण अगले बैच पर काम कर सकता है.
स्टेज ट्रेनिंग भी देखें.
पीएलएम
पहले से ट्रेन किए गए भाषा मॉडल का छोटा नाम.
पोज़िशनल एन्कोडिंग
यह टोकन को एम्बेड करने के लिए, क्रम में किसी टोकन की रैंक के बारे में जानकारी जोड़ने की तकनीक है. ट्रांसफ़ॉर्मर मॉडल क्रम के अलग-अलग हिस्सों के बीच के संबंध को बेहतर तरीके से समझने के लिए, पोज़िशनल एन्कोडिंग का इस्तेमाल करते हैं.
पोज़िशनल एन्कोडिंग को आम तौर पर लागू करने के लिए, साइनोसॉइडल फ़ंक्शन का इस्तेमाल किया जाता है. (खास तौर पर, साइनोसॉइडल फ़ंक्शन की फ़्रीक्वेंसी और एम्प्लिट्यूड, क्रम में टोकन की स्थिति से तय होता है.) इस तकनीक से ट्रांसफ़ॉर्मर मॉडल को, क्रम के अलग-अलग हिस्सों में उनकी पोज़िशन के आधार पर शामिल होना सीखने में मदद मिलती है.
पहले से ट्रेनिंग वाला मॉडल
ऐसे मॉडल या मॉडल कॉम्पोनेंट जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. जैसे, एम्बेड करने वाला वेक्टर. कभी-कभी, आपको पहले से ट्रेनिंग दिए गए एम्बेडिंग वेक्टर को न्यूरल नेटवर्क में फ़ीड करना होगा. अन्य बार, आपका मॉडल पहले से प्रशिक्षित एम्बेड करने पर निर्भर होने के बजाय, एम्बेड किए जाने वाले वेक्टर को खुद ही प्रशिक्षित करेगा.
पहले से प्रशिक्षित भाषा मॉडल शब्द का मतलब, बड़े भाषा के मॉडल से है, जिसे प्री-ट्रेनिंग से गुज़रना पड़ा.
प्री-ट्रेनिंग
बड़े डेटासेट पर किसी मॉडल की शुरुआती ट्रेनिंग. कुछ पहले से ट्रेनिंग दिए गए मॉडल, अनाड़ी जायंट होते हैं और आम तौर पर उन्हें अतिरिक्त ट्रेनिंग की मदद से और बेहतर बनाया जा सकता है. उदाहरण के लिए, मशीन लर्निंग विशेषज्ञ एक बड़े टेक्स्ट डेटासेट, जैसे कि विकिपीडिया में अंग्रेज़ी के सभी पेजों पर बड़े भाषा मॉडल को पहले से ट्रेनिंग दे सकते हैं. प्री-ट्रेनिंग के बाद, इनमें से किसी भी तकनीक का इस्तेमाल करके, मॉडल को और बेहतर बनाया जा सकता है:
प्रॉम्प्ट
किसी बड़े लैंग्वेज मॉडल में इनपुट के तौर पर डाला गया कोई भी टेक्स्ट, ताकि मॉडल को इस तरह तय किया जा सके कि वह एक खास तरह से काम करे. निर्देश, किसी वाक्यांश जितने छोटे या अपने हिसाब से लंबे हो सकते हैं (उदाहरण के लिए, किसी नॉवेल का पूरा टेक्स्ट). प्रॉम्प्ट कई कैटगरी में आते हैं. इनमें वे कैटगरी भी शामिल हैं जिन्हें इस टेबल में दिखाया गया है:
प्रॉम्प्ट की कैटगरी | उदाहरण | ज़रूरी जानकारी |
---|---|---|
सवाल | एक कबूतर कितनी तेज़ी से उड़ सकता है? | |
निर्देश | आर्बिट्रेज के बारे में एक मज़ेदार कविता लिखो. | एक प्रॉम्प्ट जो बड़े भाषा मॉडल से कुछ करने के लिए कहता है. |
उदाहरण | Markdown कोड का एचटीएमएल में अनुवाद करें. उदाहरण के लिए:
Markdown: * list item HTML: <ul> <li>list item</li> </ul> |
इस उदाहरण के प्रॉम्प्ट का पहला वाक्य एक निर्देश है. प्रॉम्प्ट का बचा हुआ उदाहरण ही उदाहरण है. |
भूमिका | बताएं कि फ़िज़िक्स की पीएचडी के लिए, मशीन लर्निंग की ट्रेनिंग में ग्रेडिएंट डिसेंट का इस्तेमाल क्यों किया जाता है. | वाक्य का पहला हिस्सा एक निर्देश है. वाक्यांश "फ़िज़िक्स में पीएचडी के लिए" भूमिका का हिस्सा है. |
मॉडल को पूरा करने के लिए कुछ हिस्सा डालें | यूनाइटेड किंगडम के प्रधानमंत्री यहां रहते हैं | कुछ इनपुट प्रॉम्प्ट या तो अचानक ही खत्म हो सकता है (जैसा कि इस उदाहरण में हुआ है) या अंडरस्कोर के साथ खत्म हो सकता है. |
जनरेटिव एआई मॉडल की मदद से किसी प्रॉम्प्ट का जवाब दिया जा सकता है. जैसे, टेक्स्ट, कोड, इमेज, एम्बेड करना, वीडियो...करीब कुछ भी.
प्रॉम्प्ट पर आधारित लर्निंग
कुछ मॉडल की सुविधा, जो उन्हें मनचाहे तरीके से टेक्स्ट इनपुट (निर्देश) के जवाब में, अपने व्यवहार को बदलने में मदद करती है. प्रॉम्प्ट पर आधारित लर्निंग मॉडल में, बड़ा लैंग्वेज मॉडल टेक्स्ट जनरेट करके प्रॉम्प्ट का जवाब देता है. उदाहरण के लिए, मान लें कि कोई उपयोगकर्ता यह प्रॉम्प्ट डालता है:
न्यूटन के गति के तीसरे नियम के बारे में विस्तार से बताएं.
प्रॉम्प्ट-आधारित लर्निंग में मदद करने वाले किसी मॉडल को, पिछले प्रॉम्प्ट का जवाब देने के लिए खास तौर पर ट्रेनिंग नहीं दी गई है. इसके बजाय, मॉडल को भौतिक विज्ञान के बारे में कई तथ्यों के बारे में पता है. (उम्मीद है कि) मददगार जवाब देने के लिए यह जानकारी काफ़ी है. अतिरिक्त मानवीय फ़ीडबैक ("यह जवाब बहुत जटिल था." या "प्रतिक्रिया क्या है?") कुछ प्रॉम्प्ट-आधारित लर्निंग सिस्टम को धीरे-धीरे अपने जवाबों को बेहतर बनाने में मदद करता है.
प्रॉम्प्ट डिज़ाइन
प्रॉम्प्ट इंजीनियरिंग का समानार्थी शब्द.
प्रॉम्प्ट इंजीनियरिंग
बड़े लैंग्वेज मॉडल से, मनचाहे जवाब पाने के लिए, प्रॉम्प्ट बनाने की कला. इंसान प्रॉम्प्ट की मदद करते हैं. अच्छी तरह से बनाए गए प्रॉम्प्ट लिखना, यह पक्का करने का एक ज़रूरी हिस्सा है कि किसी बड़े भाषा मॉडल से ऐसे जवाब मिलें जो काम के हों. प्रॉम्प्ट इंजीनियरिंग कई बातों पर निर्भर करती है, जैसे:
- इस डेटासेट का इस्तेमाल, बड़े लैंग्वेज मॉडल को प्री-ट्रेन करने और इसे फ़ाइन-ट्यून करने के लिए किया जाता है.
- तापमान और डिकोड करने वाले अन्य पैरामीटर, जिनका इस्तेमाल मॉडल, रिस्पॉन्स जनरेट करने के लिए करता है.
मददगार प्रॉम्प्ट लिखने के बारे में ज़्यादा जानने के लिए, प्रॉम्प्ट डिज़ाइन के बारे में जानकारी देखें.
प्रॉम्प्ट डिज़ाइन, प्रॉम्प्ट इंजीनियरिंग के लिए एक समानार्थी शब्द है.
प्रॉम्प्ट ट्यूनिंग
पैरामीटर को बेहतर तरीके से कॉन्फ़िगर करने का तरीका, जो उस "प्रीफ़िक्स" के बारे में सीखता है जिसे सिस्टम, असल प्रॉम्प्ट से पहले जोड़ता है.
प्रॉम्प्ट ट्यूनिंग का एक वैरिएशन हर लेयर में प्रीफ़िक्स को जोड़ना है. इसे प्रीफ़िक्स ट्यूनिंग भी कहा जाता है. इसके उलट, ज़्यादातर प्रॉम्प्ट ट्यूनिंग सिर्फ़ इनपुट लेयर में प्रीफ़िक्स जोड़ती है.
R
नई भूमिका
अनुरोध का एक वैकल्पिक हिस्सा, जो जनरेटिव एआई मॉडल से मिले रिस्पॉन्स के लिए, टारगेट ऑडियंस की पहचान करता है. किसी भूमिका के संकेत के बिना, एक बड़े लैंग्वेज मॉडल से जवाब मिल जाता है, जो सवाल पूछने वाले व्यक्ति के लिए काम का हो सकता है या नहीं भी हो सकता है. रोल प्रॉम्प्ट का इस्तेमाल करके, एक बड़े लैंग्वेज मॉडल का इस्तेमाल करके किसी खास टारगेट ऑडियंस के लिए, ज़्यादा सही और ज़्यादा मददगार तरीके से जवाब दिया जा सकता है. उदाहरण के लिए, नीचे दिए गए संकेतों का भूमिका प्रॉम्प्ट वाला हिस्सा बोल्डफ़ेस में दिया गया है:
- अर्थशास्त्र में पीएचडी के लिए इस लेख की जानकारी दें.
- बताएं कि दस साल की उम्र के बच्चे के लिए ज्वार-भाटा कैसे काम करता है.
- 2008 की वित्तीय संकट के बारे में बताएं. इसी तरह से बोलें जैसे किसी छोटे बच्चे या गोल्डन रिट्रीवर से बात करते हों.
S
खुद पर ध्यान देना. इसे सेल्फ़-अटेंशन लेयर भी कहा जाता है
न्यूरल नेटवर्क लेयर, जो एम्बेड करने के क्रम (जैसे कि टोकन एम्बेड करना) को एम्बेड करने के दूसरे क्रम में बदल देती है. आउटपुट क्रम में हर एम्बेड करने के लिए, ध्यान देने के तरीके की मदद से, इनपुट सीक्वेंस के एलिमेंट से मिली जानकारी को इंटिग्रेट किया जाता है.
खुद पर ध्यान देने का खुद वाला हिस्सा, किसी दूसरी गतिविधि के बजाय खुद की गतिविधि वाले अनुक्रम से जुड़ा है. ट्रांसफ़ॉर्मर के लिए, खुद पर ध्यान देना अहम है. यह डिक्शनरी लुकअप की शब्दावली का इस्तेमाल करता है, जैसे कि “क्वेरी”, “कुंजी”, और “वैल्यू”.
खुद पर ध्यान देने वाली लेयर, इनपुट के क्रम से शुरू होती है. इनपुट में हर शब्द के लिए एक-एक इनपुट दिखाया जाता है. किसी शब्द के लिए इनपुट का इस्तेमाल करके, उसे आसानी से एम्बेड किया जा सकता है. इनपुट के क्रम में हर शब्द के लिए, नेटवर्क यह बताता है कि शब्द कितने काम के हैं. प्रासंगिकता के स्कोर से यह तय होता है कि किसी शब्द को कितने बेहतर तरीके से पेश किया गया है.
उदाहरण के लिए, नीचे दिया गया वाक्य देखें:
वह जानवर सड़क पार नहीं कर सका, क्योंकि वह बहुत थकाने था.
इस इलस्ट्रेशन में दिखाया गया है कि ट्रांसफ़ॉर्मर: ए नॉवेल न्यूरल नेटवर्क आर्किटेक्चर फ़ॉर लैंग्वेज अंडरस्टैंडिंग प्रोनाउन it के लिए, खुद पर ध्यान देने वाली लेयर का ध्यान खींचने वाला पैटर्न दिखाता है. इसमें, हर लाइन में मौजूद डार्कनेस से पता चलता है कि हर शब्द का प्रतिनिधित्व कितना अहम है:
सेल्फ़-अटेंशन लेयर उन शब्दों को हाइलाइट करती है जो "इससे" मिलते-जुलते हैं. इस मामले में, ध्यान देने वाली लेयर ने उन शब्दों को हाइलाइट करना सीख लिया है जो जानवरों को सबसे ज़्यादा वज़न असाइन करते हुए यानी हो सकते हैं.
n टोकन के क्रम के लिए, खुद को ध्यान से देखने की सुविधा n को अलग-अलग समय पर एम्बेड करने के क्रम को बदल देती है. यह क्रम में हर पोज़िशन पर एक बार आ जाता है.
ध्यान देना और कई सिर पर ध्यान देने की सुविधा को भी देखें.
भावनाओं का विश्लेषण
किसी सेवा, प्रॉडक्ट, संगठन या विषय के बारे में किसी ग्रुप का सकारात्मक या नकारात्मक नज़रिया तय करने के लिए, आंकड़ों या मशीन लर्निंग एल्गोरिदम का इस्तेमाल करना. उदाहरण के लिए, सामान्य भाषा की समझ का इस्तेमाल करके, एक एल्गोरिदम यूनिवर्सिटी के कोर्स के टेक्स्ट से मिले सुझावों का आकलन कर सकता है. इससे यह तय किया जा सकता है कि छात्र-छात्राओं ने आम तौर पर, किस डिग्री को कोर्स पसंद या नापसंद किया है.
क्रम से लेकर क्रम के टास्क तक
यह टास्क टोकन के इनपुट क्रम को टोकन के आउटपुट क्रम में बदलता है. उदाहरण के लिए, क्रम से लेकर क्रम तक, दो तरह के लोकप्रिय टास्क हैं:
- अनुवाद करने वाले:
- इनपुट के क्रम का नमूना: "मुझे तुमसे प्यार है."
- सैंपल आउटपुट क्रम: "Je t'aime."
- सवाल का जवाब देना:
- इनपुट के क्रम का नमूना: "क्या मुझे मुंबई में अपनी कार चाहिए?"
- नमूना आउटपुट अनुक्रम: "नहीं. कृपया अपनी कार को घर पर रखें."
कम जानकारी दिखाने वाली सुविधा
कोई सुविधा जिसकी वैल्यू मुख्य रूप से शून्य या खाली है. उदाहरण के लिए, एक ऐसी सुविधा जिसमें एक वैल्यू और लाखों शून्य वैल्यू होती हैं, वह बहुत छोटी होती है. वहीं दूसरी ओर, डेंसिटी सुविधा में ऐसी वैल्यू होती हैं जो शून्य या खाली नहीं होती हैं.
मशीन लर्निंग में, हैकर की जाने वाली सुविधाओं की संख्या बहुत कम होती है. कैटगरीकल फ़ीचर में आम तौर पर बहुत कम सुविधाएं होती हैं. जैसे, किसी जंगल में पेड़ों की 300 संभावित प्रजातियों में से, एक उदाहरण में सिर्फ़ मेपल ट्री की पहचान की जा सकती है. या फिर, वीडियो लाइब्रेरी में मौजूद लाखों वीडियो में से, किसी एक उदाहरण से सिर्फ़ "कैसाब्लांका" को पहचाना जा सकता है.
मॉडल में, आम तौर पर एक-हॉट एन्कोडिंग का इस्तेमाल करके, थोड़ी-बहुत सुविधाओं को दिखाया जाता है. अगर वन-हॉट एन्कोडिंग बड़ी है, तो बेहतर परफ़ॉर्मेंस के लिए वन-हॉट एन्कोडिंग के ऊपर एम्बेड करने वाली लेयर जोड़ी जा सकती है.
बहुत कम प्रतिनिधित्व
किसी स्पार्स सुविधा में शून्य के अलावा दूसरी चीज़ों के सिर्फ़ पद को सेव करना.
उदाहरण के लिए, मान लें कि species
नाम की एक कैटगरी के तहत आने वाली सुविधा, किसी खास जंगल में पेड़ों की 36 प्रजातियों की पहचान करती है. इसके बाद, मान लें कि हर
उदाहरण में सिर्फ़ एक प्रजाति की पहचान की गई है.
हर उदाहरण में, पेड़ की प्रजातियों को दिखाने के लिए वन-हॉट वेक्टर का इस्तेमाल किया जा सकता है.
वन-हॉट वेक्टर में एक 1
(इस उदाहरण में पेड़ों की
खास प्रजातियों को दिखाने के लिए) और 35 0
(पेड़ों की 35 प्रजातियों को दिखाने के लिए) होगा. इस उदाहरण में यह नहीं है. इसलिए, maple
की खास जानकारी
कुछ इस तरह दिख सकती है:
इसके अलावा, सटीक जानकारी से सिर्फ़ उन प्रजातियों की
जगह की पहचान की जा सकेगी. अगर maple
, रैंक 24 पर है, तो maple
की औसत परफ़ॉर्मेंस यह होगी:
24
ध्यान दें कि निजी जानकारी को सटीक तरीके से पेश करने की तुलना में, वीडियो का छोटा हिस्सा ज़्यादा सटीक होता है.
स्टेज ट्रेनिंग
किसी मॉडल को अलग-अलग चरणों के क्रम से ट्रेनिंग देने की रणनीति. इसका मकसद ट्रेनिंग प्रोसेस को तेज़ करना या मॉडल की बेहतर क्वालिटी हासिल करना हो सकता है.
प्रोग्रेसिव स्टैकिंग के तरीके का उदाहरण नीचे दिखाया गया है:
- पहले चरण में 3 छिपी हुई लेयर हैं, दूसरे चरण में 6 छिपी हुई लेयर हैं, और तीसरे चरण में 12 छिपे हुए लेयर हैं.
- दूसरे चरण की शुरुआत, पहले चरण की तीन छिपी हुई लेयर से सीखे गए वेट के साथ होती है. तीसरे चरण की शुरुआत, दूसरे चरण की छह छिपे हुए लेयर से सीखे गए वेट के साथ होती है.
पाइपलाइनिंग भी देखें.
T
T5
टेक्स्ट-टू-टेक्स्ट ट्रांसफ़र लर्निंग मॉडल को 2020 में Google एआई (AI) ने शुरू किया था. T5 एक एन्कोडर-डीकोडर मॉडल है, जो ट्रांसफ़ॉर्मर आर्किटेक्चर पर आधारित है. इसे एक बहुत बड़े डेटासेट पर ट्रेनिंग दी गई है. नैचुरल लैंग्वेज प्रोसेसिंग से जुड़े कई तरह के कामों में इसका इस्तेमाल किया जाता है. जैसे, टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और बातचीत के अंदाज़ में सवालों के जवाब देना.
T5 को इसका नाम "टेक्स्ट-टू-टेक्स्ट ट्रांसफ़र ट्रांसफ़ॉर्मर" के पांच T से मिला.
T5X
यह एक ओपन-सोर्स और मशीन लर्निंग फ़्रेमवर्क है, जिसे बड़े स्तर पर नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) बनाने और ट्रेन करने के लिए डिज़ाइन किया गया है. T5 को T5X कोडबेस पर लागू किया जाता है (जिसे JAX और Flax पर बनाया गया है).
तापमान
हाइपर पैरामीटर, जो किसी मॉडल के आउटपुट की रैंडमनेस की डिग्री को कंट्रोल करता है. ज़्यादा तापमान से ज़्यादा आउटपुट मिलता है, जबकि कम तापमान से आउटपुट बिलकुल कम मिलता है.
सबसे सही तापमान चुनना, ऐप्लिकेशन और मॉडल से मिलने वाले आउटपुट से जुड़ी ज़रूरी प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय, हो सकता है कि आप तापमान को बढ़ाएं. इसके ठीक उलट, हो सकता है कि आप मॉडल बनाते समय तापमान कम करें, जो इमेज या टेक्स्ट की कैटगरी तय करता हो, ताकि मॉडल को ज़्यादा सटीक बनाया जा सके.
तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.
टेक्स्ट स्पैन
किसी टेक्स्ट स्ट्रिंग के खास सब-सेक्शन से जुड़ा, अरे इंडेक्स स्पैन.
उदाहरण के लिए, Python स्ट्रिंग s="Be good now"
में good
शब्द, टेक्स्ट स्पैन के लिए 3 से 6 तक को शामिल करता है.
टोकन
भाषा के मॉडल में, वह ऐटॉमिक यूनिट है जिस पर मॉडल ट्रेनिंग कर रहा है और अनुमान लगा रहा है. आम तौर पर, टोकन इनमें से एक होता है:
- शब्द—उदाहरण के लिए, "कुत्ते जैसे बिल्ली" वाक्यांश में तीन शब्द वाले टोकन होते हैं: "कुत्ते", "लाइक", और "बिल्लियां".
- एक वर्ण—उदाहरण के लिए, "साइकल फ़िश" वाक्यांश में नौ वर्ण वाले टोकन होते हैं. (ध्यान दें कि खाली जगह को टोकन के तौर पर गिना जाता है.)
- सबवर्ड—इसमें कोई एक शब्द, एक से ज़्यादा टोकन या एक से ज़्यादा टोकन हो सकता है. सबवर्ड में कोई मूल शब्द, प्रीफ़िक्स या सफ़िक्स होता है. उदाहरण के लिए, जिस भाषा मॉडल में सबवर्ड का इस्तेमाल टोकन के तौर पर होता है उसमें "कुत्ते" शब्द को दो टोकन (रूट शब्द "कुत्ते" और बहुवचन प्रत्यय "s") के तौर पर देखा जा सकता है. हालांकि, उसी भाषा के मॉडल में एक शब्द "लंबा", दो सब-वर्ड (रूट शब्द "tall" और सफ़िक्स "er") के तौर पर दिख सकता है.
भाषा मॉडल से बाहर के डोमेन में, टोकन दूसरी तरह की एटॉमिक यूनिट दिखा सकते हैं. उदाहरण के लिए, कंप्यूटर विज़न में कोई टोकन किसी इमेज का सबसेट हो सकता है.
ट्रांसफ़र्मर
Google का एक न्यूरल नेटवर्क आर्किटेक्चर बनाया गया है. यह सेल्फ़-अटेंशन सिस्टम पर निर्भर करता है. इसकी मदद से, इनपुट एम्बेड करने के क्रम को आउटपुट एम्बेड करने के क्रम में बदला जाता है. यह प्रोसेस कंवोल्यूशन या बार-बार होने वाले न्यूरल नेटवर्क पर निर्भर नहीं होती. ट्रांसफ़ॉर्मर को सेल्फ़-अटेंशन लेयर के स्टैक के रूप में देखा जा सकता है.
ट्रांसफ़ॉर्मर में इनमें से कुछ भी शामिल हो सकता है:
एन्कोडर, एम्बेड करने के क्रम को उसी अवधि के नए क्रम में बदल देता है. एन्कोडर में एक जैसी N लेयर होती हैं, जिनमें हर लेयर में दो सब-लेयर होते हैं. ये दो सब-लेयर, इनपुट एम्बेड करने के क्रम की हर पोज़िशन पर लागू की जाती हैं. इससे क्रम के हर एलिमेंट को नए एम्बेडिंग में बदल दिया जाता है. पहला एन्कोडर सब-लेयर, इनपुट क्रम की जानकारी पूरी तरह इकट्ठा करता है. दूसरी एन्कोडर सब-लेयर, इकट्ठा की गई जानकारी को आउटपुट एम्बेडिंग में बदल देती है.
डिकोडर, इनपुट एम्बेड करने के क्रम को आउटपुट एम्बेडिंग के क्रम में बदल देता है. यह अलग-अलग लंबाई के हो सकता है. डिकोडर में N एक जैसी लेयर होती हैं, जिसमें तीन सब-लेयर होते हैं. इनमें से दो लेयर, एन्कोडर की सब-लेयर की तरह होती हैं. तीसरी डिकोडर सब-लेयर, एन्कोडर का आउटपुट लेती है और इससे जानकारी इकट्ठा करने के लिए, खुद पर ध्यान देने का तरीका लागू करती है.
यह ब्लॉग पोस्ट Transformer: A Novel न्यूरल नेटवर्क आर्किटेक्चर फ़ॉर लैंग्वेज समझौता ट्रांसफ़ॉर्मर के बारे में अच्छी तरह से बताता है.
ट्रायग्राम
N-gram जिसमें N=3 हो.
U
एकतरफ़ा
ऐसा सिस्टम जो सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पहले मौजूद होता है. वहीं दूसरी ओर, दोतरफ़ा निर्देश देने वाला सिस्टम, टेक्स्ट के टारगेट सेक्शन में पहले से लागू और फ़ॉलो करने वाले, दोनों तरह के टेक्स्ट का आकलन करता है. ज़्यादा जानकारी के लिए, दोतरफ़ा वीडियो देखें.
एकतरफ़ा भाषा मॉडल
भाषा मॉडल, जो टारगेट टोकन के बाद के बजाय टोकन पर आधारित होता है. दोतरफ़ा भाषा वाले मॉडल से कंट्रास्ट अलग है.
V
वैरिएशनल ऑटोएनकोडर (वीएई)
एक तरह का ऑटोएनकोडर, जो इनपुट और आउटपुट के बीच अंतर का इस्तेमाल, इनपुट के बदले गए वर्शन जनरेट करने के लिए करता है. वैरिएशन ऑटोएनकोडर, जनरेटिव एआई के लिए काम के हैं.
वीएई, वैरिएशन अनुमान पर आधारित होते हैं: यह किसी प्रॉबबिलिटी मॉडल के पैरामीटर का अनुमान लगाने की तकनीक है.
W
शब्द एम्बेड करना
एम्बेड करने वाले वेक्टर में मौजूद शब्द के सेट में हर शब्द को दिखाना. इसका मतलब है कि हर शब्द को 0.0 से 1.0 के बीच के फ़्लोटिंग-पॉइंट वैल्यू वाले वेक्टर के तौर पर दिखाया जाता है. मिलते-जुलते मतलब वाले शब्दों की तुलना में अलग-अलग मतलब वाले शब्द ज़्यादा मिलते-जुलते होते हैं. उदाहरण के लिए, गाजर, अजवाइन, और खीरे, सभी को एक जैसा दिखाया जाएगा. ये हवाई जहाज़, धूप का चश्मा, और टूथपेस्ट से बिलकुल अलग होगा.
Z
ज़ीरो-शॉट प्रॉम्प्ट
ऐसा प्रॉम्प्ट जिससे यह नहीं पता चलता हो कि बड़े लैंग्वेज मॉडल से आपको किस तरह का जवाब चाहिए. उदाहरण के लिए:
एक प्रॉम्प्ट के हिस्से | ज़रूरी जानकारी |
---|---|
किसी खास देश की आधिकारिक मुद्रा क्या है? | आपको एलएलएम से किस सवाल का जवाब चाहिए. |
भारत: | असल क्वेरी. |
बड़े भाषा मॉडल के लिए, इनमें से कोई भी तरीका अपनाया जा सकता है:
- रुपया
- INR
- ₹
- भारतीय रुपया
- रुपया
- भारतीय रुपया
सभी जवाब सही हैं. हालाँकि, हो सकता है कि आपको कोई ख़ास फ़ॉर्मैट पसंद आए.
ज़ीरो-शॉट प्रॉम्प्ट की तुलना नीचे दिए गए शब्दों से करें: