इस पेज में भाषा का मूल्यांकन करने वाले शब्दों का इस्तेमाल किया गया है. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
A
ध्यान देना
न्यूरल नेटवर्क में इस्तेमाल किया जाने वाला ऐसा तरीका जो किसी खास शब्द या शब्द के हिस्से की अहमियत बताता है. ध्यान दें कि अगले टोकन/शब्द का अनुमान लगाने के लिए मॉडल को कितनी जानकारी की ज़रूरत होती है. एक खास ध्यान लगाने के तरीके में इनपुट के एक सेट पर भारित योग हो सकता है. इसमें, हर इनपुट के लिए वज़न, न्यूरल नेटवर्क के किसी दूसरे हिस्से से कैलकुलेट किया जाता है.
साथ ही, अपना ध्यान खींचने और एक से ज़्यादा लोगों को अपने ध्यान में रखने का भी ध्यान रखें, जो ट्रांसफ़ॉर्मर बनाने में मददगार होते हैं.
ऑटोएन्कोडर
ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी हासिल करना सीखता है. ऑटोएन्कोडर, एन्कोडर और डिकोडर का कॉम्बिनेशन होते हैं. ऑटोकोडर नीचे दी गई दो चरणों वाली प्रक्रिया पर निर्भर करते हैं:
- एन्कोडर, इनपुट को {0}आम तौर पर) कम लो-डाइमेंशन वाले (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
- डीकोडर, कम ऊंचाई वाले फ़ॉर्मैट को मूल ऊंचे डाइमेंशन वाले इनपुट फ़ॉर्मैट में मैप करके, मूल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.
ऑटो-एन्कोडर को एन्कोडर को पूरी तरह सुरक्षित (E2EE) करने की ट्रेनिंग दी जाती है. इसके लिए, कोड में मौजूद कोड को ध्यान में रखते हुए एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से मूल इनपुट को फिर से बनाने की कोशिश की जाती है. इंटरमीडिएट फ़ॉर्मैट मूल फ़ॉर्मैट से छोटा (कम डाइमेंशन वाला) होता है. इसलिए, ऑटोएन्कोडर को यह जानने के लिए मजबूर किया जाता है कि इनपुट में कौनसी जानकारी ज़रूरी है और आउटपुट पूरी तरह से इनपुट जैसा नहीं होगा.
उदाहरण के लिए:
- अगर इनपुट डेटा एक ग्राफ़िक है, तो गैर-सटीक कॉपी मूल ग्राफ़िक की तरह होगी, लेकिन कुछ हद तक बदलाव किया गया. उदाहरण के लिए, हो सकता है कि सामान्य कॉपी, ओरिजनल ग्राफ़िक से शोर को हटा दे या कुछ छूटे हुए पिक्सल में भर जाए.
- अगर इनपुट डेटा टेक्स्ट है, तो एक ऑटोकोडर नया टेक्स्ट जनरेट करेगा, जो मूल टेक्स्ट जैसा होगा, लेकिन उससे मिलता-जुलता नहीं होगा.
अलग-अलग तरह के ऑटोकोडर भी देखें.
अपने-आप जनरेट होने वाला मॉडल
मॉडल, जो अपने पिछले सुझावों के आधार पर अनुमान लगाता है. उदाहरण के लिए, अपने-आप जनरेट होने वाले भाषा मॉडल, पहले से तय किए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. पूरी तरह बदलें पर आधारित सभी बड़े भाषा मॉडल अपने-आप जनरेट होते हैं.
इसके उलट, GAN पर आधारित इमेज मॉडल आम तौर पर अपने-आप जनरेट होने वाले मॉडल नहीं होते, क्योंकि वे सिंगल फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और क्रम से नहीं. हालांकि, इमेज जनरेट करने वाले कुछ मॉडल अपने-आप फिर से जनरेट होते हैं, क्योंकि कुछ चरणों में एक इमेज जनरेट होती है.
B
शब्दों का बैग
फ़्रेज़ और पैसेज में दिए गए शब्दों को बिना किसी क्रम के दिखाना. उदाहरण के लिए, शब्दों का बैग निम्न तीन वाक्यांशों को एक समान रूप से दर्शाता है:
- कूदता हुआ कुत्ता
- कूदता है
- कूदता हुआ कुत्ता
हर शब्द को पार्स वेक्टर से इंडेक्स किया जाता है, जहां वेक्टर में शब्दावली के हर शब्द के लिए एक इंडेक्स होता है. उदाहरण के लिए, कुत्ते के जंप वाक्यांश को फ़ीचर वेक्टर में मैप किया गया है. इसमें, शून्य के अलावा तीन इंडेक्स में, द, डॉग, और जंप जैसे शब्दों का इस्तेमाल किया गया है. गैर-शून्य मान इनमें से कोई भी हो सकता है:
- 1: किसी शब्द की मौजूदगी दिखाने के लिए.
- बैग में किसी शब्द के दिखने की संख्या. उदाहरण के लिए, अगर वाक्यांश "मारून का कुत्ता मरून फ़र वाला कुत्ता है, तो मरून और डॉग, दोनों को 2 के रूप में दिखाया जाएगा, जबकि दूसरे शब्दों को एक के रूप में दिखाया जाएगा.
- कुछ अन्य वैल्यू, जैसे कि बैग में किसी शब्द के दिखने की संख्या का लॉगारिद्म.
BERT (बाईडायरेक्शनल एन्कोडर ट्रांसफ़ॉर्मर फ़्रॉम ट्रांसफ़ॉर्मर)
टेक्स्ट प्रज़ेंटेशन के लिए मॉडल आर्किटेक्चर. एक प्रशिक्षित BERT मॉडल, टेक्स्ट की कैटगरी तय करने या दूसरे एमएल टास्क के लिए, एक बड़े मॉडल के हिस्से के तौर पर काम कर सकता है.
BERT में ये विशेषताएं हैं:
- ट्रांसफ़ॉर्मर आर्किटेक्चर का इस्तेमाल करता है. इसलिए, यह खुद को ध्यान में रखने पर निर्भर होता है.
- ट्रांसफ़ॉर्मर के एन्कोडर का इस्तेमाल करता है. एन्कोडर की मदद से, टेक्स्ट की कैटगरी तय करने के बजाय अच्छे टेक्स्ट बनाए जा सकते हैं.
- क्या दो दिशाओं वाला है.
- बिना निगरानी वाली ट्रेनिंग के लिए, मास्किंग का इस्तेमाल करता है.
BERT के वैरिएंट में ये शामिल हैं:
BERT की खास जानकारी के लिए, ओपन सोर्सिंग BERT: नैचुरल लैंग्वेज के लिए सबसे सही प्री-ट्रेनिंग की प्रोसेस देखें.
Bigram
N-ग्राम, जिसमें N=2 होता है.
दोतरफ़ा
ऐसे सिस्टम के बारे में बताने वाला शब्द जिससे टेक्स्ट का पता चलता है. यह टेक्स्ट, टेक्स्ट के टारगेट सेक्शन में मौजूद और फ़ॉलो करता है. इसके उलट, एकतरफ़ा सिस्टम सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पीछे जाता है.
उदाहरण के लिए, मास्क किए गए भाषा वाले मॉडल के बारे में सोचें. इससे, नीचे दिए गए सवाल के लिए अंडरलाइन किए गए शब्द या शब्दों के लिए, संभावना तय की जाएगी:
आपके साथ _____ क्या है?
एक ही भाषा के मॉडल को अपनी संभावना को सिर्फ़ "क्या", "है", और "और" शब्दों के आधार पर तय करना होगा. इसके उलट, दोतरफ़ा भाषा वाला मॉडल भी "आपके साथ" और "आप" से संदर्भ ले सकता है. इससे मॉडल को बेहतर अनुमान लगाने में मदद मिल सकती है.
द्विदिशात्मक भाषा मॉडल
भाषा का मॉडल यह तय करता है कि दिए गए टोकन के आधार पर, पिछले टेक्स्ट और फ़ॉलो किए जा रहे टेक्स्ट के आधार पर टेक्स्ट का कोई हिस्सा मौजूद है.
BLEU (दो भाषाओं में मूल्यांकन)
स्कोर 0.0 से 1.0 के बीच का होना चाहिए. इससे, दो मानव भाषाओं (उदाहरण के लिए, अंग्रेज़ी और रशियन के बीच) के बीच अनुवाद की क्वालिटी का पता चलता है. 1.0 का BLEU स्कोर सही अनुवाद दिखाता है; 0.0 का BLEU स्कोर बताता है कि अनुवाद बहुत खराब है.
C
कॉज़ल लैंग्वेज मॉडल
एक भाषा से जुड़े मॉडल का समानार्थी शब्द.
भाषा के मॉडल के हिसाब से, निर्देश देने के अलग-अलग तरीकों के मुकाबले दोतरफ़ा भाषा वाला मॉडल देखें.
विचार करने की चेन
प्रॉम्प्टिंग की सुविधा की तकनीक, जो बड़े भाषा वाले मॉडल (एलएलएम) को बनाने की वजह, सिलसिलेवार तरीके से समझाती है. उदाहरण के लिए, दूसरा वाक्य इस्तेमाल करते समय, नीचे दिए गए संकेत पर खास ध्यान दें:
किसी कार में, 0 से 60 मील प्रति घंटा के हिसाब से, कितने ग्राम बलों का अनुभव होगा? जवाब में, सभी ज़रूरी कैलकुलेशन दिखाएं.
एलएलएम से जवाब मिलने की यह संभावना है:
- किसी भौतिकी फ़ॉर्मूला का क्रम दिखाएं, जिसमें वैल्यू को 0, 60, और 7 के लिए सही जगह पर प्लग किया गया हो.
- बताएं कि उन फ़ॉर्मूला को क्यों चुना गया और अलग-अलग वैरिएबल का क्या मतलब है.
चेन-ऑफ़-सोइंटिंग प्रॉम्प्ट से एलएम को सभी गणनाएं करने के लिए कहा जाता है. इससे उपयोगकर्ता को सही जवाब मिल सकता है. इसके अलावा, चेन ऑफ़ थिंकिंग प्रॉम्प्ट से उपयोगकर्ता को एलएलएम के चरणों की जांच करने की सुविधा मिलती है, ताकि यह तय किया जा सके कि जवाब सही है या नहीं.
कॉम्पोनेंट पार्सिंग
किसी वाक्य को व्याकरण के छोटे-छोटे स्ट्रक्चर में रखने ("संक्षेप") एमएल सिस्टम का कोई बाद का हिस्सा, जैसे कि सामान्य भाषा को समझने वाला मॉडल, मूल वाक्य की तुलना में कॉम्पोनेंट को ज़्यादा आसानी से पार्स कर सकता है. उदाहरण के लिए, इस वाक्य पर विचार करें:
मेरे दोस्त ने दो बिल्लियों को गोद लिया.
एक कॉम्पोनेंट पार्सर, इस वाक्य को इन दो कॉम्पोनेंट में बांट सकता है:
- मेरा दोस्त एक संज्ञा वाक्यांश है.
- दो बिल्लियों को अपनाना एक क्रिया वाक्यांश है.
इन कॉम्पोनेंट को छोटे कॉम्पोनेंट में बांटा जा सकता है. उदाहरण के लिए, क्रिया का वाक्यांश
दो बिल्लियों को अपनाया
इसे इन कैटगरी में बांटा जा सकता है:
- इस्तेमाल किया गया एक क्रिया है.
- दो बिल्लियां एक संज्ञा वाक्यांश भी होती है.
क्रैश फ़्लावर
ऐसा वाक्य या वाक्यांश जिसका मतलब साफ़ नहीं है. सामान्य भाषा को समझने में, क्रैश ब्लॉसम एक बड़ी समस्या है. उदाहरण के लिए, हेडलाइन में रेड टेप होल्ड अप स्काईस्क्रैपर एक क्रैश फ़्लावर है, क्योंकि एनएलयू मॉडल, हेडलाइन को शाब्दिक या काल्पनिक तरीके से समझ सकता है.
D
डिकोडर
आम तौर पर, वह एमएल सिस्टम जो प्रोसेस किए गए, घने या अंदरूनी तरीके से बदलकर, रॉ, वीज़ा या बाहरी प्रज़ेंटेशन से बदल जाता है.
डिकोडर अक्सर एक बड़े मॉडल के घटक होते हैं, जहां अक्सर एन्कोडर से जुड़ा होता है.
सिलसिलेवार टास्क में, डिकोडर शुरू होता है. यह अंदरूनी स्थिति से शुरू होता है, जो एन्कोडर की मदद से अगले चरण का अनुमान लगाने के लिए जनरेट होता है.
ट्रांसफ़ॉर्मर आर्किटेक्चर में डिकोडर की परिभाषा के लिए, ट्रांसफ़ॉर्मर पर जाएं.
CANNOT TRANSLATE
अपने-आप निगरानी में रखे गए लर्निंग का आम तरीका:
- शोर को डेटासेट में आर्टिफ़िशियल तरीके से जोड़ा जाता है.
- मॉडल ग़ैर-ज़रूरी आवाज़ें हटाने की कोशिश करता है.
डिनोइंग की सुविधा चालू करने पर, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है. मूल dataset, टारगेट या लेबल और शोर वाले डेटा के तौर पर काम करता है.
मास्क किए गए भाषा के मॉडल में नीचे दी गई चीज़ों का इस्तेमाल किया जाता है:
- कुछ टोकन को मास्क करके, बिना लेबल वाले वाक्य में जोड़ दिया जाता है.
- मॉडल, ओरिजनल टोकन का अनुमान लगाने की कोशिश करता है.
डायरेक्ट प्रॉम्प्ट
ज़ीरो-शॉट प्रॉम्प्टिंग का समानार्थी शब्द.
E
दूरी में बदलाव करें
यह मेज़रमेंट कि दो टेक्स्ट स्ट्रिंग एक-दूसरे से कितनी मिलती-जुलती हैं. मशीन लर्निंग में, दूरी में बदलाव करना फ़ायदेमंद होता है, क्योंकि यह आसान है और इसका हिसाब लगाना आसान है. साथ ही, यह दो स्ट्रिंग की तुलना करने का एक असरदार तरीका है. इसके अलावा, ये किसी स्ट्रिंग से मिलती-जुलती स्ट्रिंग खोजने का भी एक तरीका है.
बदलाव की दूरी की कई परिभाषाएं हैं, जिनमें से हर एक में अलग-अलग स्ट्रिंग ऑपरेशन का इस्तेमाल किया जाता है. उदाहरण के लिए, Lentshtein दूरी सबसे कम मिटाने, शामिल करने, और बदले जाने की कार्रवाइयों को ध्यान में रखती है.
उदाहरण के लिए, "हार्ट" और "डार्ट" शब्दों के बीच लेवनशाइन की दूरी तीन है, क्योंकि एक शब्द को दूसरे से बदलने के लिए नीचे दिए गए तीन बदलावों में सबसे कम बदलाव हुए हैं:
- दिल → deart" ("d" की जगह "d") का इस्तेमाल करें
- deart → dart (मिटाएं “e”)
- डार्ट → डार्ट ('s' डालें)
एम्बेड की गई परत
खास छिपी हुई लेयर, जो हाई-डाइमेंशन वाली कैटगरी सुविधा पर ट्रेनिंग देती है. यह सुविधा, लंबे समय में कम डाइमेंशन एम्बेड करने वाले वेक्टर को सीखने के लिए काम करती है. एम्बेडिंग की लेयर, न्यूरल नेटवर्क को ज़्यादा बेहतर कैटगरी वाली ट्रेनिंग की तुलना में, ज़्यादा बेहतर तरीके से ट्रेनिंग देने में मदद करती है.
उदाहरण के लिए, फ़िलहाल धरती पर 73,000 प्रजातियों के पेड़ हैं. मान लें कि आपके मॉडल में
पेड़ की प्रजातियां एक सुविधा है, इसलिए आपके मॉडल की
इनपुट लेयर में एक एक-हॉट वेक्टर 73,000
एलिमेंट लंबा है.
उदाहरण के लिए, शायद baobab
कुछ इस तरह से दिखाया जाएगा:
73,000 एलिमेंट वाली श्रेणी बहुत लंबी है. अगर मॉडल में एम्बेड करने की कोई लेयर नहीं जोड़ी जाती है, तो 72,999 ज़ीरो को गुणा करने से ट्रेनिंग में काफ़ी समय लगेगा. हो सकता है कि आप एम्बेड करने की लेयर में 12 डाइमेंशन हों. इस वजह से, एम्बेड करने वाली लेयर धीरे-धीरे हर तरह के पेड़ के लिए एम्बेड करने वाला नया वेक्टर सीखना शुरू करेगी.
कुछ मामलों में, हैशिंग, एम्बेड करने की लेयर के लिए सही विकल्प है.
स्पेस जोड़ें
हाई-डाइमेंशन वाले वेक्टर स्पेस से दिखाई देने वाली डी-डाइमेंशन वाली वेक्टर स्पेस. आम तौर पर, एम्बेड करने की जगह में ऐसा स्ट्रक्चर मौजूद होता है जिससे काम के नतीजे मिलते हैं. उदाहरण के लिए, एम्बेड करने के सही जगह पर, एम्बेड करने की जगह को जोड़ने और घटाने से, रोज़मर्रा के काम में मदद मिल सकती है.
दो एम्बेडिंग का डॉट प्रॉडक्ट, उनकी समानता का माप है.
एम्बेड करने का वेक्टर
मोटे तौर पर, किसी भी छिपी हुई लेयर से छिपाए गए इनपुट की जानकारी देने वाली श्रेणी से, फ़्लोटिंग-पॉइंट नंबर की श्रेणी. अक्सर, एम्बेड करने वाले वेक्टर में फ़्लोटिंग-पॉइंट की संख्याएं उपलब्ध होती हैं. इन्हें एम्बेड की गई लेयर में ट्रेनिंग दी जाती है. उदाहरण के लिए, मान लीजिए कि एम्बेड करने की किसी परत को पृथ्वी की 73,000 प्रजातियों में से हर एक के लिए एम्बेड करने वाला वेक्टर सीखना चाहिए. नीचे दिए गए ऐरे में बाओबाब ट्री के लिए एम्बेडिंग वेक्टर है:
एम्बेड करने वाला वेक्टर रैंडम संख्याओं का एक समूह नहीं है. एम्बेड करने की एक लेयर, इन वैल्यू को ट्रेनिंग के ज़रिए तय करती है. यह ठीक वैसा ही है, जैसे कि कोई न्यूरल नेटवर्क ट्रेनिंग के दौरान अन्य वेट भी सीखता है. इस कैटगरी के एक हिस्से को पौधे की कुछ विशेषताओं के साथ-साथ रेटिंग दी जाती है. किस पेड़-पौधों की प्रजातियों के बारे में बताया गया है? इसका अंदाज़ा लगाना बहुत ज़्यादा मुश्किल है.
एम्बेड किए गए वेक्टर का गणितीय रूप से ध्यान देने लायक हिस्सा यह है कि एक जैसे आइटम में फ़्लोटिंग-पॉइंट नंबर के मिलते-जुलते सेट होते हैं. उदाहरण के लिए, पेड़ की मिलती-जुलती प्रजातियों में, पेड़ जैसी अलग-अलग प्रजातियों के मुकाबले फ़्लोटिंग-पॉइंट नंबर की एक जैसी सूची होती है. रेडवुड और सिक्वॉइया आपस में मिलते-जुलते पौधे हैं. इसलिए, रेडवुड और नारियल के पेड़ों की तुलना में फ़्लोटिंग पेड़ों के बारे में ऐसी ही कई संख्याएं हैं. एम्बेड करने वाले वेक्टर में मौजूद संख्याएं, मॉडल को हर बार बदलने पर भी बदलती हैं. अगर आपने मॉडल को इसी तरह के इनपुट के साथ फिर से ट्रेनिंग दी है, तो भी इसमें बदलाव होगा.
एन्कोडर
आम तौर पर, कोई एमएल सिस्टम, जो रॉ, स्पार या एक्सटर्नल प्रज़ेंटेशन से ज़्यादा प्रोसेस, घना, और ज़्यादा अंदरूनी प्रज़ेंटेशन होता है.
एन्कोडर आम तौर पर किसी बड़े मॉडल का हिस्सा होते हैं. इनमें अक्सर डिकोडर होता है. कुछ ट्रांसफ़ॉर्मर डिकोडर के साथ एन्कोडर जोड़ें, हालांकि, अन्य ट्रांसफ़ॉर्मर सिर्फ़ एन्कोडर या सिर्फ़ डिकोडर का इस्तेमाल करते हैं.
कुछ सिस्टम, क्लासिफ़िकेशन या रिग्रेशन नेटवर्क में इनपुट के तौर पर एन्कोडर के आउटपुट का इस्तेमाल करते हैं.
क्रम में चलने वाले टास्क, एन्कोडर इनपुट का क्रम लेता है और आंतरिक स्थिति (वेक्टर) दिखाता है. इसके बाद, डिकोडर उस इंटरनल स्टेट का इस्तेमाल करके, अगले क्रम का अनुमान लगाता है.
ट्रांसफ़ॉर्मर आर्किटेक्चर में, एन्कोडर की परिभाषा के लिए ट्रांसफ़ॉर्मर देखें.
शुक्र
कुछ मामलों में
ऐसा अनुरोध जिसमें एक से ज़्यादा "कुछ" उदाहरण शामिल हों, जिसमें बताया गया हो कि बड़े भाषा मॉडल का जवाब कैसे देना चाहिए. उदाहरण के लिए, नीचे दिए गए लंबे अनुरोध में दो उदाहरण दिए गए हैं. इनमें क्वेरी का जवाब देने के तरीके के साथ-साथ एक बड़ा भाषा मॉडल दिखाया गया है.
एक प्रॉम्प्ट के हिस्से | नोट |
---|---|
किसी देश की आधिकारिक मुद्रा क्या है? | वह सवाल जिसका जवाब एलएलएम से चाहिए. |
फ़्रांस: EUR | एक उदाहरण. |
यूनाइटेड किंगडम: GBP | एक और उदाहरण. |
भारत: | असल क्वेरी. |
आम तौर पर, कुछ वीडियो के लिए अनुरोध करने पर ज़ीरो-शॉट प्रॉम्प्ट और एक-शॉट प्रॉम्प्ट से ज़्यादा मनमुताबिक नतीजे मिलते हैं. हालांकि, कुछ शॉट लेने के लिए लंबे समय की ज़रूरत होती है.
कुछ मामलों में, “कुछ समय के लिए सीखने की सुविधा को प्रॉम्प्ट-आधारित लर्निंग पर लागू किया जाता है.
वायलिन
Python-फ़र्स्ट कॉन्फ़िगरेशन लाइब्रेरी, जो बिना किसी कोड या इन्फ़्रास्ट्रक्चर के फ़ंक्शन और क्लास की वैल्यू सेट करती है. Pax और दूसरे एमएल कोड बेस के मामले में, ये फ़ंक्शन और क्लास, मॉडल और ट्रेनिंग हाइपरपैरामीटर को दिखाती हैं.
Fiddle, यह मान लेता है कि मशीन लर्निंग कोड बेस को आम तौर पर इन दो कैटगरी में बांटा जाता है:
- लाइब्रेरी कोड, जो लेयर और ऑप्टिमाइज़र की जानकारी देता है.
- डेटासेट "ग्लू" कोड, जो लाइब्रेरी को वायर करता है और सब कुछ एक साथ वायर में डालता है.
Fiddle, ग्लू कोड की कॉल स्ट्रक्चर को बिना आकलन किए और बदले जा सकने वाले फ़ॉर्म में कैप्चर करता है.
फ़ाइन ट्यूनिंग
दूसरा, टास्क के हिसाब से दूसरा ट्रेनिंग पास, पहले से ट्रेनिंग दिए गए मॉडल में लिया जाता है. ऐसा करके, किसी खास इस्तेमाल के उदाहरण के लिए, पैरामीटर को बेहतर बनाया जाता है. उदाहरण के लिए, बड़े भाषा के कुछ मॉडल के लिए ट्रेनिंग का पूरा क्रम यहां दिया गया है:
- प्री-ट्रेनिंग: बड़े सामान्य डेटासेट, जैसे कि अंग्रेज़ी भाषा वाले सभी Wikipedia पेजों पर, बड़ी भाषा के मॉडल को ट्रेनिंग दें.
- फ़ाइन-ट्यूनिंग: पहले से प्रशिक्षित मॉडल को खास काम करने के लिए प्रशिक्षित करना, जैसे कि चिकित्सा क्वेरी का जवाब देना. फ़ाइन-ट्यून करने की प्रक्रिया में, आम तौर पर किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.
एक और उदाहरण के तौर पर, एक बड़े इमेज मॉडल की पूरी ट्रेनिंग का क्रम नीचे बताया गया है:
- प्री-ट्रेनिंग: बड़े सामान्य इमेज डेटासेट जैसे कि विकिमीडिया कॉमन में सभी इमेज को बड़े साइज़ के इमेज मॉडल की ट्रेनिंग दें.
- फ़ाइन-ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देकर, खास टास्क करना. जैसे, ओर्का इमेज जनरेट करना.
फ़ाइन-ट्यूनिंग के लिए, इन रणनीतियों को एक साथ इस्तेमाल किया जा सकता है:
- पहले से ट्रेनिंग दिए गए मॉडल के मौजूदा पैरामीटर के सभी में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन ट्यूनिंग कहा जाता है.
- पहले से प्रशिक्षित मॉडल के मौजूदा पैरामीटर में से सिर्फ़ कुछ कुछ चीज़ों में बदलाव करना (आम तौर पर, आउटपुट लेयर की सबसे नज़दीकी लेयर) और दूसरे मौजूदा पैरामीटर में कोई बदलाव नहीं करना (आम तौर पर, लेयर इनपुट लेयर में सबसे करीब होती है).
- आम तौर पर, आउटपुट लेयर के सबसे नज़दीकी लेयर के ऊपर और लेयर जोड़ना.
फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक हिस्सा है. इसलिए, फ़ाइन-ट्यून करने की सुविधा में अलग-अलग तरीके के फ़ंक्शन या अलग-अलग तरह के मॉडल इस्तेमाल किए जा सकते हैं. यह तरीका, पहले से इस्तेमाल किए गए मॉडल को ट्रेनिंग देने से जुड़ा नहीं होगा. उदाहरण के लिए, एक रिग्रेशन मॉडल बनाने के लिए पहले से प्रशिक्षित बड़ी इमेज के मॉडल को बेहतर बनाया जा सकता है. यह मॉडल एक इनपुट इमेज में पक्षियों की संख्या दिखाता है.
'फ़ाइन-ट्यून करना' सुविधा की तुलना नीचे दिए गए शब्दों से करें:
फ़्लैक्स
JAX के ऊपर बने डीप लर्निंग के लिए, बेहतरीन परफ़ॉर्मेंस वाली ओपन सोर्स लाइब्रेरी. फ़्लैक्स ट्रेनिंग न्यूरल नेटवर्क के लिए फ़ंक्शन देता है. साथ ही, यह उनकी परफ़ॉर्मेंस का आकलन करने का तरीका भी उपलब्ध कराता है.
फ़्लैक्सफ़ॉर्मर
एक ओपन सोर्स Transformer library, जिसे Flax पर बनाया गया है. इसे मुख्य रूप से नैचुरल लैंग्वेज प्रोसेसिंग और मल्टीमोडल रिसर्च के लिए बनाया गया है.
G
जनरेट करने वाला एआई (AI)
बिना किसी औपचारिक परिभाषा के एक उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञ इस बात से सहमत हैं कि एआई (AI) मॉडल, ये सभी "जनरेट" कर सकते हैं:
- जटिल
- एक जैसा
- मूल
उदाहरण के लिए, एक एआई (AI) मॉडल से बेहतर निबंध या इमेज बनाई जा सकती हैं.
LSTMs और RNNs जैसी पहले की कुछ टेक्नोलॉजी में, ओरिजनल और सही कॉन्टेंट भी जनरेट किया जा सकता है. कुछ विशेषज्ञ पहले की इन टेक्नोलॉजी को जनरेट करने के लिए एआई (AI) का इस्तेमाल करते हैं. हालांकि, दूसरों को यह पता चलता है कि एआई (AI) टेक्नोलॉजी की मदद से, बड़े पैमाने पर जनरेट होने वाले एआई (AI) का इस्तेमाल करना मुश्किल होता है.
अनुमानित एमएल का कंट्रास्ट.
GPT (पहले से तैयार ट्रांसफ़ॉर्मर)
Transformer पर आधारित बड़े भाषा के मॉडल, जिन्हें OpenAI ने बनाया है.
GPT के वैरिएंट, कई मोडिटी पर लागू हो सकते हैं. इनमें ये शामिल हैं:
- इमेज जनरेट करना (उदाहरण के लिए, ImageGPT)
- टेक्स्ट से इमेज जनरेट करना (उदाहरण के लिए, DALL-E).
H
मनगढ़ंत घटनाएं देखना (मतिभ्रम)
एआई (AI) मॉडल से प्रदूषित दिखने वाली और तथ्यों में गलत आउटपुट देने का मॉडल, जो असली दुनिया के बारे में एक मॉडल बनाने का दावा करता है. उदाहरण के लिए, एक एआई (AI) मॉडल जो यह दावा करता है कि रामनाथ कोविंद की 1865 में मौत हो गई है उसे महल के ऊपर चढ़ना है.
I
कॉन्टेक्स्ट के हिसाब से लर्निंग
कुछ शॉट का अनुरोध करने के लिए समानार्थी शब्द.
L
LaMDA (डायलॉग ऐप्लिकेशन के लिए भाषा का मॉडल)
ट्रांसफ़ॉर्मर बड़े भाषा का मॉडल, जिसे Google ने बनाया है. यह मॉडल एक बड़े डायलॉग डेटासेट के लिए तैयार किया गया है. यह डेटासेट, असली बातचीत के दौरान जवाब जनरेट कर सकता है.
LaMDA: हमारी बेहतरीन बातचीत टेक्नोलॉजी की खास जानकारी.
भाषा का मॉडल
मॉडल, जो टोकन या टोकन के एक लंबे क्रम में चलने वाले टोकन के क्रम की संभावना का अनुमान लगाता है.
बड़ी भाषा का मॉडल
ऐसा अनौपचारिक शब्द जिसमें कोई सख्त परिभाषा नहीं होती है. आम तौर पर, इसका मतलब भाषा का मॉडल होता है, जिसमें ज़्यादा पैरामीटर होते हैं. कुछ बड़े भाषा मॉडल में 100 अरब से ज़्यादा पैरामीटर होते हैं.
सोम
मास्क किया गया भाषा मॉडल
भाषा का मॉडल, इस बात का अनुमान लगाता है कि क्रम के हिसाब से खाली जगह भरने के लिए, उम्मीदवार टोकन की कितनी संभावना है. उदाहरण के लिए, मास्क किया गया भाषा वाला मॉडल, इस वाक्य में अंडरलाइन किए गए शब्दों को बदलने के लिए, उम्मीदवार के शब्दों की संभावनाओं की गणना कर सकता है:
हैट पर जाकर ____ बना हुआ है.
आम तौर पर, साहित्य किसी अंडरलाइन के बजाय "MASK" स्ट्रिंग का इस्तेमाल करता है. उदाहरण के लिए:
टोपी में "MASK" वापस आ गया है.
आधुनिक मास्क वाले ज़्यादातर दोतरफ़ा भाषा के मॉडल होते हैं.
मेटा-लर्निंग
मशीन लर्निंग का एक सबसेट, जो लर्निंग एल्गोरिदम की खोज करता है या उसे बेहतर बनाता है. मेटा लर्निंग सिस्टम किसी मॉडल को ट्रेनिंग देकर, कम डेटा से या पिछले टास्क से मिले अनुभव को तेज़ी से सीखने में भी मदद कर सकता है. आम तौर पर, मेटा लर्निंग एल्गोरिदम इन चीज़ों को पाने की कोशिश करते हैं:
- हाथ से बनी सुविधाओं (जैसे कि शुरुआती अक्षर या ऑप्टिमाइज़र) को बेहतर बनाएं या सीखें.
- डेटा की कम बचत और कंप्यूटेंस कम रखें.
- सामान्य बनाने के तरीके को बेहतर बनाएं.
मेटा-लर्निंग का मतलब है, कुछ शॉट से जुड़ी लर्निंग.
मोडलिटी
एक बेहतरीन डेटा कैटगरी. उदाहरण के लिए, संख्याएं, टेक्स्ट, इमेज, वीडियो, और ऑडियो पांच अलग-अलग मोडलिटी हैं.
मॉडल पैरललिज़्म
ट्रेनिंग या अनुमान को स्केल करने का एक तरीका, जिससे एक मॉडल के अलग-अलग हिस्सों को अलग-अलग डिवाइस पर रखा जाता है. मॉडल पैरललिज़्म ऐसे मॉडल चालू करता है जो एक ही डिवाइस में फ़िट होने के लिए बहुत बड़े हैं.
मॉडल पैरललिज़्म लागू करने के लिए, सिस्टम आम तौर पर ये काम करता है:
- शार्ड्स मॉडल को छोटे-छोटे हिस्सों में बांटता है.
- उन छोटे हिस्सों की ट्रेनिंग, एक से ज़्यादा प्रोसेसर के बीच बांटती है. हर प्रोसेसर, मॉडल के अपने हिस्से को ट्रेनिंग देता है.
- नतीजों को जोड़ता है, ताकि एक मॉडल बनाया जा सके.
मॉडल पैरललिज़्म ट्रेनिंग को धीमा कर देता है.
डेटा पैरललिज़्म भी देखें.
मल्टी-हेड सेल्फ़-अटेंशन
खुद को ध्यान में रखने का एक एक्सटेंशन, जो इनपुट के क्रम में हर जगह के लिए खुद को ध्यान में रखने का तरीका कई बार लागू करता है.
ट्रांसफ़ॉर्मर ने मल्टी-हेड सेल्फ़-अटेंशन को अपनाया.
मल्टीमॉडल मॉडल
ऐसा मॉडल जिसके इनपुट और/या आउटपुट में एक से ज़्यादा मॉड्यूलिटी शामिल हों. उदाहरण के लिए, ऐसे मॉडल के बारे में सोचें जो इमेज और टेक्स्ट कैप्शन, दोनों को सुविधाओं के तौर पर लेता हो. साथ ही, एक स्कोर दिखाता है. इससे पता चलता है कि टेक्स्ट के लिए इमेज कितनी सही है. इसलिए, इस मॉडल के इनपुट मल्टीमोडल हैं और आउटपुट एकतरफ़ा है.
N
नैचुरल लैंग्वेज अंडरस्टैंडिंग
उपयोगकर्ता ने क्या लिखा या क्या कहा, इसके आधार पर उनके इंटेंट तय करना. उदाहरण के लिए, कोई सर्च इंजन आसानी से समझ में आने वाली भाषा का इस्तेमाल करता है, ताकि यह तय किया जा सके कि उपयोगकर्ता ने क्या टाइप किया है या क्या बोला है.
एन-ग्राम
N शब्दों के क्रम में रखा गया क्रम. उदाहरण के लिए, सही तरीके से बताना दो ग्राम सही है. क्योंकि ऑर्डर सही है, बेहद सच में दो पागल लोगों से अलग है.
N | इस तरह के N-ग्राम का नाम | उदाहरण |
---|---|---|
2 | Bigram या 2 ग्राम | शुरू करने, खाने, दोपहर का खाना खाने, और खाने के लिए |
3 | त्रिभुज या 3 ग्राम | बहुत ज़्यादा खाना, तीन दृष्टिहीन चूहे, बेल टोल |
4 | चार ग्राम | पार्क में पैदल चलना, हवा में धूल, लड़के ने दाल खाया |
नैचुरल भाषा को समझना मॉडल, N-ग्राम पर निर्भर करते हैं और अनुमान लगाते हैं कि उपयोगकर्ता अगला शब्द टाइप करेंगे या कहेंगे. उदाहरण के लिए, मान लें कि किसी उपयोगकर्ता ने तीन ब्लाइंड टाइप किए हैं. त्रिभुजों के आधार पर बने एनएलयू मॉडल के अनुमान के हिसाब से, उपयोगकर्ता अगले माइस को चुन लेगा.
शब्द का बैग के साथ कंट्रास्ट एन-ग्राम, जो शब्दों के बिना क्रम वाले सेट होते हैं.
एनएलयू
नैचुरल लैंग्वेज अंडरस्टैंडिंग के लिए छोटा फ़ॉर्म.
O
वन-शॉट प्रॉम्प्टिंग
अनुरोध में एक उदाहरण शामिल है, जो बताता है कि बड़े भाषा मॉडल को कैसा रिस्पॉन्स देना चाहिए. उदाहरण के लिए, नीचे दिए गए संकेत में एक बड़ा भाषा मॉडल का एक उदाहरण दिया गया है. यह सभी क्वेरी का जवाब कैसे देगा.
एक प्रॉम्प्ट के हिस्से | नोट |
---|---|
किसी देश की आधिकारिक मुद्रा क्या है? | वह सवाल जिसका जवाब एलएलएम से चाहिए. |
फ़्रांस: EUR | एक उदाहरण. |
भारत: | असल क्वेरी. |
एक शॉट की सुविधा की तुलना और इसके बारे में जानने के लिए, यहां दिए गए शब्दों का इस्तेमाल करें:
P
पैरामीटर की कम ट्यूनिंग
फ़ाइन-ट्यूनिंग के मुकाबले, पहले से तैयार भाषा मॉडल (पीएलएम) का बेहतर तरीके से इस्तेमाल करने के लिए, तकनीकों का सेट. आम तौर पर, पैरामीटर की मदद से ट्यून करने की सुविधा से, फ़ुल-ट्यून ट्यूनिंग की तुलना में कम पैरामीटर ट्यून होते हैं. हालांकि, आम तौर पर यह बड़े भाषा का मॉडल बनाता है, जो पूरी तरह से फ़ाइनिंग ट्यूनिंग से बने बड़े मॉडल की तरह भी काम करता है.
पैरामीटर और बेहतर तरीके से ट्यून करने वाली सुविधा की तुलना, इनके साथ करें:
पैरामीटर के हिसाब से ट्यूनिंग को पैरामीटर की बेहतर फ़ाइन ट्यूनिंग भी कहा जाता है.
पाइपलाइनिंग
यह मॉडल की पैरललिज़्म का एक तरीका है. इसमें, मॉडल की प्रोसेसिंग को लगातार चरणों में बांटा जाता है और हर चरण को अलग-अलग डिवाइस पर लागू किया जाता है. जब स्टेज एक बैच प्रोसेस करता है, तो पिछला चरण अगले बैच पर काम कर सकता है.
स्टेज की गई ट्रेनिंग भी देखें.
पीएलएम
भाषा की पहले से जानकारी रखने वाले मॉडल को छोटा करके दिखाने की सुविधा.
पोज़िशनल एन्कोडिंग
टोकन के एम्बेड होने के क्रम में टोकन की रैंक के बारे में जानकारी जोड़ने की तकनीक. ट्रांसफ़ॉर्मर मॉडल पोज़िशनल एन्कोडिंग का इस्तेमाल करते हैं, ताकि क्रम के अलग-अलग हिस्सों के बीच के संबंध को बेहतर तरीके से समझा जा सके.
पोज़िशनल एन्कोडिंग की आम प्रोसेस के लिए, साइनसॉइडल फ़ंक्शन का इस्तेमाल किया जाता है. (खास तौर पर, साइनोसॉइड फ़ंक्शन की फ़्रीक्वेंसी और एंप्लट्यूड, क्रम में टोकन की पोज़िशन से तय होते हैं.) इस तकनीक की मदद से, ट्रांसफ़ॉर्मर मॉडल अपनी स्थिति के हिसाब से क्रम के अलग-अलग हिस्सों में चला जाता है.
पहले से प्रशिक्षित मॉडल
ऐसे मॉडल या मॉडल कॉम्पोनेंट (जैसे कि एम्बेडिंग वेक्टर) जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. कभी-कभी, न्यूरल नेटवर्क में, एम्बेड किए गए वेक्टर पहले से फ़ीड किए जा सकते हैं. अन्य समय में, आपका मॉडल एम्बेड किए गए वेक्टर को ट्रेनिंग देगा, न कि पहले से जोड़ी गई एम्बेडिंग पर.
पहले से ट्रेनिंग वाले भाषा के मॉडल का मतलब है बड़े भाषा का मॉडल. यह प्री-ट्रेनिंग से होकर गुज़रता है.
प्री-ट्रेनिंग
बड़े डेटासेट पर मॉडल की शुरुआती ट्रेनिंग. पहले से प्रशिक्षित कुछ मॉडल भद्दे जायंट होते हैं. इसलिए, इन्हें अतिरिक्त ट्रेनिंग के ज़रिए बेहतर बनाया जाना चाहिए. उदाहरण के लिए, ML विशेषज्ञ बड़े टेक्स्ट डेटासेट पर बड़े भाषा के मॉडल की ट्रेनिंग पहले ले सकते हैं, जैसे कि Wikipedia के सभी अंग्रेज़ी पेज. प्री-ट्रेनिंग के बाद, अनुमानित मॉडल को इनमें से किसी भी तकनीक की मदद से और बेहतर बनाया जा सकता है:
प्रॉम्प्ट
किसी मॉडल को एक खास तरीके से काम करने के लिए, बड़े भाषा वाले मॉडल में इनपुट के तौर पर डाला जाने वाला कोई भी टेक्स्ट. निर्देश, किसी वाक्यांश के तौर पर या मनमाने तौर पर लंबे समय तक छोटे हो सकते हैं, जैसे कि किसी उपन्यास का पूरा टेक्स्ट. अनुरोध कई कैटगरी में आते हैं. इनमें नीचे दी गई टेबल में मौजूद जानकारी भी शामिल हैं:
प्रॉम्प्ट कैटगरी | उदाहरण | नोट |
---|---|---|
Question | एक पिजन कितनी तेज़ी से उड़ सकता है? | |
निर्देश | आर्बिट्रेज के बारे में एक मज़ेदार कविता लिखें. | यह अनुरोध, बड़ी भाषा वाले मॉडल को कुछ करने के लिए कहता है. |
उदाहरण | मार्कडाउन कोड का एचटीएमएल में अनुवाद करें. उदाहरण के लिए:
मार्कडाउन: * सूची आइटम एचटीएमएल: <ul> <li>आइटम की सूची बनाएं</li> </ul> |
इस उदाहरण में दिया गया पहला वाक्य एक निर्देश है. मैसेज का बाकी हिस्सा उदाहरण के तौर पर दिया गया है. |
भूमिका | बताएं कि फ़िज़िक्स के पीएचडी में, मशीन लर्निंग ट्रेनिंग में ग्रेडिएंट ढलान का इस्तेमाल क्यों किया जाता है. | वाक्य का पहला हिस्सा निर्देश है. वाक्यांश "भौतिक विज्ञान से पीएचडी में", भूमिका का हिस्सा है. |
मॉडल पूरा करने के लिए आंशिक इनपुट | यूनाइटेड किंगडम के प्रधानमंत्री यहां रहते हैं | आंशिक इनपुट का अनुरोध या तो अचानक खत्म हो सकता है (जैसा कि इस उदाहरण में है) या अंडरस्कोर के साथ खत्म हो सकता है. |
एआई (AI) मॉडल, टेक्स्ट, कोड, इमेज, एम्बेड करने, और वीडियो...के अनुरोध का जवाब दे सकता है.
प्रॉम्प्ट-आधारित लर्निंग
कुछ मॉडल की सुविधा जो आर्बिट्रेरी टेक्स्ट इनपुट (अनुरोध) के मुताबिक, अपने व्यवहार को अडजस्ट करने में मदद करती है. आम तौर पर, अनुरोध पर आधारित लर्निंग मॉडल में, बड़े भाषा का मॉडल टेक्स्ट जनरेट करके, प्रॉम्प्ट पर प्रतिक्रिया देता है. उदाहरण के लिए, मान लें कि उपयोगकर्ता ने यह निर्देश दिया है:
खास तौर पर, न्यूटन के तीसरे मोशन कानून के बारे में बताएं.
प्रॉम्प्ट-आधारित लर्निंग से जुड़े मॉडल को, पिछले प्रॉम्प्ट का जवाब देने की ट्रेनिंग नहीं दी जाती है. इसके बजाय, मॉडल में भौतिकी के बारे में बहुत सारी जानकारी, सामान्य भाषा के नियमों के बारे में बहुत सी बातें शामिल हैं. साथ ही, यह भी बताता है कि आम तौर पर उपयोगी जवाब क्या होते हैं. "उम्मीद है कि" काम का जवाब होगा. इसके अलावा, लोगों के सुझाव, शिकायत या राय से "अन्य चीज़ों के बारे में ज़्यादा जानकारी" मिली."या "प्रतिक्रिया क्या है?") कुछ प्रॉम्प्ट आधारित लर्निंग सिस्टम हैं, जो जवाबों को ज़्यादा उपयोगी बनाते हैं.
प्रॉम्प्ट डिज़ाइन
प्रॉम्प्टिंग का समानार्थी शब्द.
प्रॉम्प्ट इंजीनियरिंग
निर्देश बनाने की कला, जो बड़ी भाषा वाले मॉडल से ज़रूरी रिस्पॉन्स देती है. वीडियो में, लोग इंजीनियरिंग करते हैं. अच्छी तरह से स्ट्रक्चर किए गए संकेत लिखना, एक बड़े भाषा मॉडल से उपयोगी जवाबों को पक्का करने का एक ज़रूरी हिस्सा है. प्रॉम्प्ट इंजीनियरिंग कई बातों पर निर्भर करती है, जिनमें ये शामिल हैं:
- इस डेटासेट का इस्तेमाल ट्रेनिंग के अनुभव को बेहतर बनाने के लिए किया गया. साथ ही, संभावित रूप से बड़ी भाषा वाले मॉडल को फ़ाइन-ट्यून किया.
- तापमान और दूसरे डिकोडिंग पैरामीटर, जिनका इस्तेमाल मॉडल, रिस्पॉन्स जनरेट करने के लिए करता है.
उपयोगी प्रॉम्प्ट लिखने के बारे में ज़्यादा जानकारी के लिए, प्रॉम्प्ट डिज़ाइन का परिचय देखें.
प्रॉम्प्ट डिज़ाइन, प्रॉम्प्ट इंजीनियरिंग का एक समानार्थी शब्द है.
प्रॉम्प्ट ट्यूनिंग
पैरामीटर के हिसाब से ट्यून करने की सुविधा वाली तकनीक, जो "प्रीफ़िक्स" सीखती है. इसे सिस्टम असली अनुरोध से पहले जोड़ता है.
प्रॉम्प्ट ट्यूनिंग की एक सुविधा—जिसे कभी-कभी प्रीफ़िक्स ट्यूनिंग कहा जाता है—आपको प्रीफ़िक्स को हर लेयर में जोड़ना होगा. वहीं, ज़्यादातर प्रॉम्प्ट ट्यून करने की सुविधा सिर्फ़ इनपुट लेयर में प्रीफ़िक्स जोड़ती है.
आर
भूमिका के बारे में बताना
अनुरोध का एक वैकल्पिक हिस्सा, जो सामान्य एआई (AI) मॉडल के जवाब के लिए टारगेट ऑडियंस की पहचान करता है. सीधे भूमिका निभाने पर, एक बड़े भाषा मॉडल में जवाब दिया जाता है. यह सवाल पूछने वाले व्यक्ति के लिए काम का हो सकता है या नहीं भी. किसी रोल रोल के साथ, बड़ी भाषा का मॉडल इस तरह से जवाब दे सकता है कि वह टारगेट किए गए खास दर्शकों के लिए ज़्यादा सही और ज़्यादा मददगार हो. उदाहरण के लिए, इन प्रॉम्प्ट के रोल प्रॉम्प्ट का हिस्सा बोल्डफ़ेस में है:
- इस लेख के ज़रिए, इकनॉमिक्स में पीएचडी के लिए बताएं.
- यह बताएं कि ज्वार दस साल के बच्चे के लिए कैसे काम करता है.
- साल 2008 के वित्तीय संकट के बारे में बताएं. जैसा कि आप एक छोटे बच्चे या एक गोल्डन रिट्रीवर से कर सकते हैं.
रवि
खुद का ध्यान खींचना (इसे खुद को ध्यान में रखते हुए लेयर जोड़ना भी कहते हैं)
न्यूरल नेटवर्क लेयर, जो एम्बेडिंग के क्रम को (जैसे कि, टोकन एम्बेड करना) एम्बेड करने के क्रम में बदल देती है. आउटपुट सीक्वेंस में हर एम्बेडिंग को बनाने के लिए इनपुट सीक्वेंस के एलिमेंट से जानकारी लेकर, अटेंशन मैकेनिज़्म को इंटिग्रेट किया जाता है.
खुद को ध्यान में रखने का खुद का हिस्सा, किसी दूसरे कॉन्टेक्स्ट के बजाय खुद में शामिल होने वाले क्रम को दिखाता है. खुद पर ध्यान देना, Transformers के लिए ज़रूरी चीज़ों में से एक है. यह “query”, “key”, और “value” जैसे डिक्शनरी लुकअप शब्द का इस्तेमाल करता है.
सेल्फ़-अटेंशन लेयर की शुरुआत, हर इनपुट के लिए एक क्रम से होती है. किसी शब्द को इनपुट के रूप में पेश करना आसान हो सकता है. इनपुट के हर क्रम में मौजूद हर शब्द के लिए, नेटवर्क शब्द के पूरे क्रम में मौजूद हर एलिमेंट के लिए शब्द की प्रासंगिकता बताता है. प्रासंगिकता स्कोर यह तय करता है कि शब्द का अंतिम प्रतिनिधित्व कितना है, इसमें अन्य शब्दों के प्रतिनिधित्व को शामिल किया जाता है.
उदाहरण के लिए, इस वाक्य पर विचार करें:
जानवर सड़क पर नहीं गुज़रा, क्योंकि वह बहुत थका हुआ था.
यह ट्रांसफ़ॉर्मर: भाषा के लिए नॉवेल न्यूरल नेटवर्क आर्किटेक्चर) का इलस्ट्रेशन, इसको ध्यान में रखता है. हर लाइन के सबसे गहरे हिस्से से यह पता चलता है कि हर शब्द के सबसे गहरे हिस्से में कितना योगदान है
खुद को ध्यान में रखने की लेयर, "it" से जुड़े शब्दों को हाइलाइट करती है. इस मामले में, ध्यान देने वाली लेयर ने उन शब्दों को हाइलाइट करना सीख लिया है जो it को रेफ़र कर सकते हैं. इस दौरान, वे सबसे ज़्यादा वज़न को animal असाइन करते हैं.
n टोकन के क्रम के लिए, खुद पर नज़र रखने की सुविधा, क्रम में हर जगह पर, n को अलग-अलग समय पर एम्बेड करने के क्रम को बदलती है.
अटेंशन और मल्टी-हेड सेल्फ़-अटेंशन भी देखें.
भावनाओं का विश्लेषण
किसी सेवा, प्रॉडक्ट, संगठन या विषय के लिए, ग्रुप के पूरे नज़रिए—पॉज़िटिव या नेगेटिव—का पता लगाने के लिए, आंकड़ों या मशीन लर्निंग एल्गोरिदम का इस्तेमाल करना. उदाहरण के लिए, सामान्य भाषा में जानकारी का इस्तेमाल करके, एल्गोरिदम एक यूनिवर्सिटी कोर्स के टेक्स्ट के आधार पर भावनाओं का विश्लेषण कर सकता है. इससे यह तय किया जाता है कि आम तौर पर छात्र-छात्राओं को कोर्स पसंद या नापसंद है या नहीं.
सिलसिलेवार टास्क
ऐसा टास्क जो टोकन के इनपुट सीक्वेंस को टोकन के आउटपुट वाले आउटपुट में बदलता है. उदाहरण के लिए, क्रम से काम करने वाले दो लोकप्रिय टास्क हैं:
- अनुवादक:
- नमूने का नमूना: "मुझे तुमसे प्यार है."
- आउटपुट का नमूना: "Je t'aime".
- सवाल का जवाब:
- इनपुट इनपुट का नमूना: "क्या मुझे दिल्ली में अपनी कार की ज़रूरत है?"
- सैंपल आउटपुट का क्रम: "नहीं. कृपया अपनी कार घर पर रखें."
स्पार्स सुविधा
ऐसी सुविधा जिसकी वैल्यू मुख्य रूप से शून्य या खाली है. उदाहरण के लिए, हो सकता है कि किसी एक वैल्यू और 00 लाख वैल्यू वाली सुविधा कम ही हो. इसके उलट, डेंस सुविधा में ऐसी वैल्यू होती हैं जो मुख्य रूप से शून्य या खाली नहीं होतीं.
मशीन लर्निंग में, बहुत कम सुविधाएं हैं. आम तौर पर, इसमें कम सुविधाएं होती हैं. उदाहरण के लिए, किसी जंगल में पेड़ों की 300 संभावित प्रजातियों में से, कोई एक सिर्फ़ मील के पेड़ की पहचान कर सकता है. या फिर किसी वीडियो लाइब्रेरी के लाखों संभावित वीडियो दिखाने से, बस "कासाब्लांका" की पहचान हो जाती है.
आम तौर पर, मॉडल में एक-हॉट एन्कोडिंग का इस्तेमाल किया जाता है. अगर एक-हॉट एन्कोडिंग बड़ा है, तो ज़्यादा क्षमता के लिए आप एक-हॉट एन्कोडिंग के ऊपर एम्बेड करने की लेयर डाल सकते हैं.
स्पार्स रिपोर्टिंग
बहुत कम सुविधाओं वाले नॉन-ज़ीरो एलिमेंट के सिर्फ़ पोज़िशन को स्टोर करना.
उदाहरण के लिए, मान लीजिए कि species
नाम की किसी कैटगरी में मौजूद किसी खास जंगल में 36
पेड़ों की प्रजातियों की पहचान की जाती है. इसके अलावा, यह भी मान लें कि हर उदाहरण सिर्फ़ एक प्रजाति की पहचान करता है.
हर उदाहरण में, पेड़ों की प्रजातियों के बारे में जानकारी देने के लिए, एक हॉट वेक्टर का इस्तेमाल किया जा सकता है.
एक हॉट वेक्टर में एक 1
(उस उदाहरण में पेड़ों की खास प्रजातियों को दिखाने के लिए) और 35 0
शामिल होंगे (33 पेड़ की उन प्रजातियों को दिखाने के लिए जो उस उदाहरण में नहीं हैं). इसलिए, maple
की एक-हॉट प्रज़ेंटेशन कुछ ऐसी दिख सकती है:
इसके अलावा, स्पार का इस्तेमाल करके खास प्रजातियों की स्थिति की ही पहचान की जा सकती है. अगर maple
24 की स्थिति में है, तो maple
का सिर्फ़ यह पता चलेगा:
24
ध्यान दें कि एक ओट-हॉट प्रज़ेंटेशन की तुलना में, स्पार का रिलेशनशिप बहुत छोटा होता है.
अलग-अलग चरणों में ट्रेनिंग
अलग-अलग चरणों के क्रम में मॉडल की ट्रेनिंग करने की रणनीति. इसका मकसद या तो ट्रेनिंग की प्रोसेस को तेज़ करना होगा या मॉडल की क्वालिटी को बेहतर बनाना होगा.
प्रोग्रेसिव स्टैकिंग अप्रोच का उदाहरण नीचे दिखाया गया है:
- पहले चरण में तीन लेयर शामिल हैं और चरण 2 में छह लेयर हैं. साथ ही, चरण 3 में 12 लेयर छिपे हुए हैं.
- चरण 2 में, चरण 1 की छिपी हुई 3 लेयर में सीखे गए वज़न के साथ ट्रेनिंग शुरू होती है. स्टेज 3, स्टेज 2 के छह छिपे हुए लेयर में सीखे गए वेट के साथ ट्रेनिंग शुरू करता है.
पाइपलाइनिंग भी देखें.
गुरु
T5
साल 2020 में, Google एआई (AI) ने पेश किया है ट्रांसफ़र लर्निंग मॉडल. T5, एन्कोडर-डिकोडर मॉडल है. यह ट्रांसफ़ॉर्मर आर्किटेक्चर पर आधारित है. इसे बहुत बड़े डेटासेट पर ट्रेनिंग दी गई है. यह बहुत सी स्वाभाविक भाषा में प्रोसेस करने के कामों में असरदार है, जैसे कि टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और बातचीत का जवाब देना.
T5 को अपना नाम "टेक्स्ट-टू-टेक्स्ट ट्रांसफ़र ट्रांसफ़ॉर्मर" नाम के पांच T से मिला है.
5 गुना
एक ओपन सोर्स मशीन लर्निंग फ़्रेमवर्क, जिसे बड़े पैमाने पर नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) मॉडल बनाने और ट्रेनिंग करने के लिए डिज़ाइन किया गया है. T5 को T5X कोड बेस पर लागू किया जाता है (इसे JAX और Flax पर बनाया गया है).
तापमान
किसी मॉडल के आउटपुट की रैंडमता की डिग्री को कंट्रोल करने वाला हाइपरपैरामीटर. ज़्यादा तापमान होने पर, ज़्यादा आउटपुट मिलता है. कम तापमान की वजह से कम आउटपुट मिलता है.
सबसे अच्छा तापमान चुनना, किसी खास ऐप्लिकेशन और मॉडल के आउटपुट की मनचाहे प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, आप क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय तापमान को बढ़ा सकते हैं. इसके उलट, जब इमेज या टेक्स्ट की कैटगरी तय करने वाला मॉडल बनाया जाता है, तो मॉडल का सटीक और एक जैसा बनाने के लिए तापमान कम किया जा सकता है.
तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.
टेक्स्ट स्पैन
श्रेणी इंडेक्स स्पैन, किसी टेक्स्ट स्ट्रिंग के खास सब-सेक्शन से जुड़ा होता है.
उदाहरण के लिए, Python स्ट्रिंग s="Be good now"
में good
शब्द का इस्तेमाल किया जाता है.
टोकन
भाषा के मॉडल में, वह ऐटॉमिक यूनिट जिस पर मॉडल को ट्रेनिंग दी जा रही है और जिसका अनुमान लगाया जा रहा है. आम तौर पर, टोकन इनमें से एक होता है:
- एक शब्द—उदाहरण के लिए, "बिल्लियों जैसे कुत्तों" जैसे वाक्यांश में तीन शब्द शामिल हैं: "कुत्ते", "पसंद" और "बिल्लियां".
- एक वर्ण—उदाहरण के लिए, "बाइक फ़िश" वाक्यांश में नौ वर्ण के टोकन होते हैं. (ध्यान दें कि खाली जगह को भी एक टोकन के तौर पर गिना जाता है.)
- सबवर्ड—एक ही शब्द में एक टोकन या एक से ज़्यादा टोकन हो सकते हैं. सबवर्ड में मूल शब्द, प्रीफ़िक्स या सफ़िक्स शामिल होता है. उदाहरण के लिए, भाषा के लिए एक मॉडल जो टोकन के तौर पर सबवर्ड का इस्तेमाल करता है, हो सकता है कि वह "डॉग" शब्द को दो टोकन (मूल शब्द "कुत्ता" और बहुवचन सफ़िक्स "s") के तौर पर देखे. हो सकता है कि एक ही भाषा के मॉडल में, एक ही शब्द "बड़ा" को दो सब-शब्द (यानी "बड़ा" और सफ़िक्स "er") के तौर पर देखा जाए.
टोकन, भाषा मॉडल से बाहर के डोमेन में होते हैं. ये दूसरी तरह के ऐटॉमिक यूनिट को दिखा सकते हैं. उदाहरण के लिए, कंप्यूटर विज़न में टोकन, इमेज का सबसेट हो सकता है.
ट्रांसफ़र्मर
Google पर डेवलप किया गया न्यूरल नेटवर्क का आर्किटेक्चर, अपने हिसाब से काम करता है. इसकी मदद से, इनपुट एम्बेड करने के क्रम को बदला जाता है. यह क्रम, आउटपुट के एम्बेड किए जाने के क्रम में होता है. इसके लिए, संवाद या बार-बार आने वाले न्यूरल नेटवर्क पर भरोसा नहीं करना पड़ता. एक ट्रांसफ़ॉर्मर खुद की ध्यान करने के लिए परत के रूप में देखा जा सकता है.
एक ट्रांसफ़ॉर्मर में इनमें से कोई भी शामिल हो सकता है:
एन्कोडर, एम्बेड किए जाने के क्रम को उसी लंबाई वाले नए क्रम में बदल देता है. एक एन्कोडर में एक जैसी लेयर शामिल होती हैं. हर लेयर में दो सब-लेयर होते हैं. ये दो सब-लेयर, इनपुट एम्बेड करने के क्रम की हर जगह पर लागू किए जाते हैं. ये क्रम के हर एलिमेंट को नए एम्बेडिंग में बदल देते हैं. पहली एन्कोडर सब-लेयर, क्रम से जानकारी इकट्ठा करती है. दूसरा एन्कोडर सब-लेयर, एग्रीगेट की गई जानकारी को आउटपुट एम्बेडिंग में बदलता है.
डिकोडर, इनपुट एम्बेड करने के क्रम को आउटपुट एम्बेडिंग के क्रम में बदल देता है. डिकोडर में, तीन सब-लेयर वाली एक जैसी लेयर शामिल होती हैं. इनमें से दो लेयर, एन्कोडर सब-लेयर की तरह होती हैं. तीसरी डिकोडर सब-लेयर, एन्कोडर का आउटपुट लेती है और उससे जानकारी इकट्ठा करने के लिए, अपने हिसाब से ध्यान देने वाली तकनीक लागू करती है.
ब्लॉग पोस्ट Transformer: भाषा के लिए एक नॉवेल न्यूरल नेटवर्क आर्किटेक्चर समझने में पूरी तरह से ट्रांसफ़ॉर्मर के लिए शुरुआती जानकारी देता है.
त्रिभुज
N-ग्राम, जिसमें N=3 होता है.
U
एकतरफ़ा
यह एक ऐसा सिस्टम है जो सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पीछे आता है. इसके उलट, बाईडायरेक्शनल सिस्टम, टेक्स्ट के टारगेट सेक्शन से पहले और फ़ॉलो करने वाले, दोनों तरह के टेक्स्ट का आकलन करता है. ज़्यादा जानकारी के लिए, दो दिशाओं वाला देखें.
एक भाषा का मॉडल
भाषा का मॉडल, इसकी संभावनाओं को सिर्फ़ टोकन पर आधारित करता है, जो टारगेट टोकन से बाद में नहीं दिखता है. दूसरी भाषा के मॉडल के उलट लिखें.
V
वैरिएशनर ऑटोएन्कोडर (VAE)
इस तरह का autoencoder, इनपुट और आउटपुट के बीच के अंतर का इस्तेमाल करके, इनपुट के बदले गए वर्शन जनरेट करता है. वैरिएशन वाले ऑटोकोडर, एआई (AI) के लिए काम करते हैं.
वीएई, अलग-अलग अनुमान पर आधारित होते हैं. इनकी मदद से, प्रॉबेबिलिटी मॉडल के पैरामीटर का अनुमान लगाया जाता है.
W
शब्द एम्बेड करना
एम्बेड करने वाले वेक्टर से सेट किए गए शब्द के हर शब्द को प्रज़ेंट करना. इसका मतलब है कि हर शब्द को 0.0 से 1.0 के बीच की फ़्लोटिंग-पॉइंट वैल्यू के वेक्टर के तौर पर दिखाया जा रहा है. एक जैसे मतलब वाले शब्द, अलग-अलग मतलब वाले शब्दों से ज़्यादा मिलते-जुलते होते हैं. उदाहरण के लिए, गाजर, सेलरी, और कंबर के सब कुछ एक जैसे ही होंगे. यह हवाई जहाज़, धूप का चश्मा, और टूथपेस्ट को दिखाने से काफ़ी अलग होगा.
Z
ज़ीरो-शॉट प्रॉम्प्ट
अनुरोध में यह बताया गया है कि बड़े भाषा मॉडल में किस तरह जवाब देना है, नहीं. उदाहरण के लिए:
एक प्रॉम्प्ट के हिस्से | नोट |
---|---|
किसी देश की आधिकारिक मुद्रा क्या है? | वह सवाल जिसका जवाब एलएलएम से चाहिए. |
भारत: | असल क्वेरी. |
ऐसा हो सकता है कि चुनी गई भाषा वाला मॉडल, इनमें से किसी भी विकल्प के साथ काम करे:
- रुपया
- INR
- ₹
- भारतीय रुपया
- रुपया
- भारतीय रुपया
सभी जवाब सही हैं. हालांकि, एक खास फ़ॉर्मैट का इस्तेमाल किया जा सकता है.
ज़ीरो-शॉट प्रॉम्प्टिंग की तुलना इसके अलावा, इन शब्दों से करें: