मशीन लर्निंग ग्लॉसरी: भाषा का आकलन

इस पेज में भाषा का मूल्यांकन करने वाले शब्दों का इस्तेमाल किया गया है. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

A

ध्यान देना

#language

न्यूरल नेटवर्क में इस्तेमाल किया जाने वाला ऐसा तरीका जो किसी खास शब्द या शब्द के हिस्से की अहमियत बताता है. ध्यान दें कि अगले टोकन/शब्द का अनुमान लगाने के लिए मॉडल को कितनी जानकारी की ज़रूरत होती है. एक खास ध्यान लगाने के तरीके में इनपुट के एक सेट पर भारित योग हो सकता है. इसमें, हर इनपुट के लिए वज़न, न्यूरल नेटवर्क के किसी दूसरे हिस्से से कैलकुलेट किया जाता है.

साथ ही, अपना ध्यान खींचने और एक से ज़्यादा लोगों को अपने ध्यान में रखने का भी ध्यान रखें, जो ट्रांसफ़ॉर्मर बनाने में मददगार होते हैं.

ऑटोएन्कोडर

#language
#image

ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी हासिल करना सीखता है. ऑटोएन्कोडर, एन्कोडर और डिकोडर का कॉम्बिनेशन होते हैं. ऑटोकोडर नीचे दी गई दो चरणों वाली प्रक्रिया पर निर्भर करते हैं:

  1. एन्कोडर, इनपुट को {0}आम तौर पर) कम लो-डाइमेंशन वाले (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
  2. डीकोडर, कम ऊंचाई वाले फ़ॉर्मैट को मूल ऊंचे डाइमेंशन वाले इनपुट फ़ॉर्मैट में मैप करके, मूल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.

ऑटो-एन्कोडर को एन्कोडर को पूरी तरह सुरक्षित (E2EE) करने की ट्रेनिंग दी जाती है. इसके लिए, कोड में मौजूद कोड को ध्यान में रखते हुए एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से मूल इनपुट को फिर से बनाने की कोशिश की जाती है. इंटरमीडिएट फ़ॉर्मैट मूल फ़ॉर्मैट से छोटा (कम डाइमेंशन वाला) होता है. इसलिए, ऑटोएन्कोडर को यह जानने के लिए मजबूर किया जाता है कि इनपुट में कौनसी जानकारी ज़रूरी है और आउटपुट पूरी तरह से इनपुट जैसा नहीं होगा.

उदाहरण के लिए:

  • अगर इनपुट डेटा एक ग्राफ़िक है, तो गैर-सटीक कॉपी मूल ग्राफ़िक की तरह होगी, लेकिन कुछ हद तक बदलाव किया गया. उदाहरण के लिए, हो सकता है कि सामान्य कॉपी, ओरिजनल ग्राफ़िक से शोर को हटा दे या कुछ छूटे हुए पिक्सल में भर जाए.
  • अगर इनपुट डेटा टेक्स्ट है, तो एक ऑटोकोडर नया टेक्स्ट जनरेट करेगा, जो मूल टेक्स्ट जैसा होगा, लेकिन उससे मिलता-जुलता नहीं होगा.

अलग-अलग तरह के ऑटोकोडर भी देखें.

अपने-आप जनरेट होने वाला मॉडल

#language
#image
#generativeAI

मॉडल, जो अपने पिछले सुझावों के आधार पर अनुमान लगाता है. उदाहरण के लिए, अपने-आप जनरेट होने वाले भाषा मॉडल, पहले से तय किए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. पूरी तरह बदलें पर आधारित सभी बड़े भाषा मॉडल अपने-आप जनरेट होते हैं.

इसके उलट, GAN पर आधारित इमेज मॉडल आम तौर पर अपने-आप जनरेट होने वाले मॉडल नहीं होते, क्योंकि वे सिंगल फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और क्रम से नहीं. हालांकि, इमेज जनरेट करने वाले कुछ मॉडल अपने-आप फिर से जनरेट होते हैं, क्योंकि कुछ चरणों में एक इमेज जनरेट होती है.

B

शब्दों का बैग

#language

फ़्रेज़ और पैसेज में दिए गए शब्दों को बिना किसी क्रम के दिखाना. उदाहरण के लिए, शब्दों का बैग निम्न तीन वाक्यांशों को एक समान रूप से दर्शाता है:

  • कूदता हुआ कुत्ता
  • कूदता है
  • कूदता हुआ कुत्ता

हर शब्द को पार्स वेक्टर से इंडेक्स किया जाता है, जहां वेक्टर में शब्दावली के हर शब्द के लिए एक इंडेक्स होता है. उदाहरण के लिए, कुत्ते के जंप वाक्यांश को फ़ीचर वेक्टर में मैप किया गया है. इसमें, शून्य के अलावा तीन इंडेक्स में, , डॉग, और जंप जैसे शब्दों का इस्तेमाल किया गया है. गैर-शून्य मान इनमें से कोई भी हो सकता है:

  • 1: किसी शब्द की मौजूदगी दिखाने के लिए.
  • बैग में किसी शब्द के दिखने की संख्या. उदाहरण के लिए, अगर वाक्यांश "मारून का कुत्ता मरून फ़र वाला कुत्ता है, तो मरून और डॉग, दोनों को 2 के रूप में दिखाया जाएगा, जबकि दूसरे शब्दों को एक के रूप में दिखाया जाएगा.
  • कुछ अन्य वैल्यू, जैसे कि बैग में किसी शब्द के दिखने की संख्या का लॉगारिद्म.

BERT (बाईडायरेक्शनल एन्कोडर ट्रांसफ़ॉर्मर फ़्रॉम ट्रांसफ़ॉर्मर)

#language

टेक्स्ट प्रज़ेंटेशन के लिए मॉडल आर्किटेक्चर. एक प्रशिक्षित BERT मॉडल, टेक्स्ट की कैटगरी तय करने या दूसरे एमएल टास्क के लिए, एक बड़े मॉडल के हिस्से के तौर पर काम कर सकता है.

BERT में ये विशेषताएं हैं:

BERT के वैरिएंट में ये शामिल हैं:

  • ALBERT, जो A Light BERT का छोटा नाम है.
  • लाब.

BERT की खास जानकारी के लिए, ओपन सोर्सिंग BERT: नैचुरल लैंग्वेज के लिए सबसे सही प्री-ट्रेनिंग की प्रोसेस देखें.

Bigram

#seq
#language

N-ग्राम, जिसमें N=2 होता है.

दोतरफ़ा

#language

ऐसे सिस्टम के बारे में बताने वाला शब्द जिससे टेक्स्ट का पता चलता है. यह टेक्स्ट, टेक्स्ट के टारगेट सेक्शन में मौजूद और फ़ॉलो करता है. इसके उलट, एकतरफ़ा सिस्टम सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पीछे जाता है.

उदाहरण के लिए, मास्क किए गए भाषा वाले मॉडल के बारे में सोचें. इससे, नीचे दिए गए सवाल के लिए अंडरलाइन किए गए शब्द या शब्दों के लिए, संभावना तय की जाएगी:

आपके साथ _____ क्या है?

एक ही भाषा के मॉडल को अपनी संभावना को सिर्फ़ "क्या", "है", और "और" शब्दों के आधार पर तय करना होगा. इसके उलट, दोतरफ़ा भाषा वाला मॉडल भी "आपके साथ" और "आप" से संदर्भ ले सकता है. इससे मॉडल को बेहतर अनुमान लगाने में मदद मिल सकती है.

द्विदिशात्मक भाषा मॉडल

#language

भाषा का मॉडल यह तय करता है कि दिए गए टोकन के आधार पर, पिछले टेक्स्ट और फ़ॉलो किए जा रहे टेक्स्ट के आधार पर टेक्स्ट का कोई हिस्सा मौजूद है.

BLEU (दो भाषाओं में मूल्यांकन)

#language

स्कोर 0.0 से 1.0 के बीच का होना चाहिए. इससे, दो मानव भाषाओं (उदाहरण के लिए, अंग्रेज़ी और रशियन के बीच) के बीच अनुवाद की क्वालिटी का पता चलता है. 1.0 का BLEU स्कोर सही अनुवाद दिखाता है; 0.0 का BLEU स्कोर बताता है कि अनुवाद बहुत खराब है.

C

कॉज़ल लैंग्वेज मॉडल

#language

एक भाषा से जुड़े मॉडल का समानार्थी शब्द.

भाषा के मॉडल के हिसाब से, निर्देश देने के अलग-अलग तरीकों के मुकाबले दोतरफ़ा भाषा वाला मॉडल देखें.

विचार करने की चेन

#language
#generativeAI

प्रॉम्प्टिंग की सुविधा की तकनीक, जो बड़े भाषा वाले मॉडल (एलएलएम) को बनाने की वजह, सिलसिलेवार तरीके से समझाती है. उदाहरण के लिए, दूसरा वाक्य इस्तेमाल करते समय, नीचे दिए गए संकेत पर खास ध्यान दें:

किसी कार में, 0 से 60 मील प्रति घंटा के हिसाब से, कितने ग्राम बलों का अनुभव होगा? जवाब में, सभी ज़रूरी कैलकुलेशन दिखाएं.

एलएलएम से जवाब मिलने की यह संभावना है:

  • किसी भौतिकी फ़ॉर्मूला का क्रम दिखाएं, जिसमें वैल्यू को 0, 60, और 7 के लिए सही जगह पर प्लग किया गया हो.
  • बताएं कि उन फ़ॉर्मूला को क्यों चुना गया और अलग-अलग वैरिएबल का क्या मतलब है.

चेन-ऑफ़-सोइंटिंग प्रॉम्प्ट से एलएम को सभी गणनाएं करने के लिए कहा जाता है. इससे उपयोगकर्ता को सही जवाब मिल सकता है. इसके अलावा, चेन ऑफ़ थिंकिंग प्रॉम्प्ट से उपयोगकर्ता को एलएलएम के चरणों की जांच करने की सुविधा मिलती है, ताकि यह तय किया जा सके कि जवाब सही है या नहीं.

कॉम्पोनेंट पार्सिंग

#language

किसी वाक्य को व्याकरण के छोटे-छोटे स्ट्रक्चर में रखने ("संक्षेप") एमएल सिस्टम का कोई बाद का हिस्सा, जैसे कि सामान्य भाषा को समझने वाला मॉडल, मूल वाक्य की तुलना में कॉम्पोनेंट को ज़्यादा आसानी से पार्स कर सकता है. उदाहरण के लिए, इस वाक्य पर विचार करें:

मेरे दोस्त ने दो बिल्लियों को गोद लिया.

एक कॉम्पोनेंट पार्सर, इस वाक्य को इन दो कॉम्पोनेंट में बांट सकता है:

  • मेरा दोस्त एक संज्ञा वाक्यांश है.
  • दो बिल्लियों को अपनाना एक क्रिया वाक्यांश है.

इन कॉम्पोनेंट को छोटे कॉम्पोनेंट में बांटा जा सकता है. उदाहरण के लिए, क्रिया का वाक्यांश

दो बिल्लियों को अपनाया

इसे इन कैटगरी में बांटा जा सकता है:

  • इस्तेमाल किया गया एक क्रिया है.
  • दो बिल्लियां एक संज्ञा वाक्यांश भी होती है.

क्रैश फ़्लावर

#language

ऐसा वाक्य या वाक्यांश जिसका मतलब साफ़ नहीं है. सामान्य भाषा को समझने में, क्रैश ब्लॉसम एक बड़ी समस्या है. उदाहरण के लिए, हेडलाइन में रेड टेप होल्ड अप स्काईस्क्रैपर एक क्रैश फ़्लावर है, क्योंकि एनएलयू मॉडल, हेडलाइन को शाब्दिक या काल्पनिक तरीके से समझ सकता है.

D

डिकोडर

#language

आम तौर पर, वह एमएल सिस्टम जो प्रोसेस किए गए, घने या अंदरूनी तरीके से बदलकर, रॉ, वीज़ा या बाहरी प्रज़ेंटेशन से बदल जाता है.

डिकोडर अक्सर एक बड़े मॉडल के घटक होते हैं, जहां अक्सर एन्कोडर से जुड़ा होता है.

सिलसिलेवार टास्क में, डिकोडर शुरू होता है. यह अंदरूनी स्थिति से शुरू होता है, जो एन्कोडर की मदद से अगले चरण का अनुमान लगाने के लिए जनरेट होता है.

ट्रांसफ़ॉर्मर आर्किटेक्चर में डिकोडर की परिभाषा के लिए, ट्रांसफ़ॉर्मर पर जाएं.

CANNOT TRANSLATE

#language

अपने-आप निगरानी में रखे गए लर्निंग का आम तरीका:

  1. शोर को डेटासेट में आर्टिफ़िशियल तरीके से जोड़ा जाता है.
  2. मॉडल ग़ैर-ज़रूरी आवाज़ें हटाने की कोशिश करता है.

डिनोइंग की सुविधा चालू करने पर, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है. मूल dataset, टारगेट या लेबल और शोर वाले डेटा के तौर पर काम करता है.

मास्क किए गए भाषा के मॉडल में नीचे दी गई चीज़ों का इस्तेमाल किया जाता है:

  1. कुछ टोकन को मास्क करके, बिना लेबल वाले वाक्य में जोड़ दिया जाता है.
  2. मॉडल, ओरिजनल टोकन का अनुमान लगाने की कोशिश करता है.

डायरेक्ट प्रॉम्प्ट

#language
#generativeAI

ज़ीरो-शॉट प्रॉम्प्टिंग का समानार्थी शब्द.

E

दूरी में बदलाव करें

#language

यह मेज़रमेंट कि दो टेक्स्ट स्ट्रिंग एक-दूसरे से कितनी मिलती-जुलती हैं. मशीन लर्निंग में, दूरी में बदलाव करना फ़ायदेमंद होता है, क्योंकि यह आसान है और इसका हिसाब लगाना आसान है. साथ ही, यह दो स्ट्रिंग की तुलना करने का एक असरदार तरीका है. इसके अलावा, ये किसी स्ट्रिंग से मिलती-जुलती स्ट्रिंग खोजने का भी एक तरीका है.

बदलाव की दूरी की कई परिभाषाएं हैं, जिनमें से हर एक में अलग-अलग स्ट्रिंग ऑपरेशन का इस्तेमाल किया जाता है. उदाहरण के लिए, Lentshtein दूरी सबसे कम मिटाने, शामिल करने, और बदले जाने की कार्रवाइयों को ध्यान में रखती है.

उदाहरण के लिए, "हार्ट" और "डार्ट" शब्दों के बीच लेवनशाइन की दूरी तीन है, क्योंकि एक शब्द को दूसरे से बदलने के लिए नीचे दिए गए तीन बदलावों में सबसे कम बदलाव हुए हैं:

  1. दिल → deart" ("d" की जगह "d") का इस्तेमाल करें
  2. deart → dart (मिटाएं “e”)
  3. डार्ट → डार्ट ('s' डालें)

एम्बेड की गई परत

#language
#fundamentals

खास छिपी हुई लेयर, जो हाई-डाइमेंशन वाली कैटगरी सुविधा पर ट्रेनिंग देती है. यह सुविधा, लंबे समय में कम डाइमेंशन एम्बेड करने वाले वेक्टर को सीखने के लिए काम करती है. एम्बेडिंग की लेयर, न्यूरल नेटवर्क को ज़्यादा बेहतर कैटगरी वाली ट्रेनिंग की तुलना में, ज़्यादा बेहतर तरीके से ट्रेनिंग देने में मदद करती है.

उदाहरण के लिए, फ़िलहाल धरती पर 73,000 प्रजातियों के पेड़ हैं. मान लें कि आपके मॉडल में पेड़ की प्रजातियां एक सुविधा है, इसलिए आपके मॉडल की इनपुट लेयर में एक एक-हॉट वेक्टर 73,000 एलिमेंट लंबा है. उदाहरण के लिए, शायद baobab कुछ इस तरह से दिखाया जाएगा:

73,000 एलिमेंट की कैटगरी. पहले 6,232 एलिमेंट,
     वैल्यू को होल्ड करते हैं. अगले एलिमेंट में वैल्यू 1 होती है. आखिरी 66,767 एलिमेंट में
     वैल्यू शून्य होती है.

73,000 एलिमेंट वाली श्रेणी बहुत लंबी है. अगर मॉडल में एम्बेड करने की कोई लेयर नहीं जोड़ी जाती है, तो 72,999 ज़ीरो को गुणा करने से ट्रेनिंग में काफ़ी समय लगेगा. हो सकता है कि आप एम्बेड करने की लेयर में 12 डाइमेंशन हों. इस वजह से, एम्बेड करने वाली लेयर धीरे-धीरे हर तरह के पेड़ के लिए एम्बेड करने वाला नया वेक्टर सीखना शुरू करेगी.

कुछ मामलों में, हैशिंग, एम्बेड करने की लेयर के लिए सही विकल्प है.

स्पेस जोड़ें

#language

हाई-डाइमेंशन वाले वेक्टर स्पेस से दिखाई देने वाली डी-डाइमेंशन वाली वेक्टर स्पेस. आम तौर पर, एम्बेड करने की जगह में ऐसा स्ट्रक्चर मौजूद होता है जिससे काम के नतीजे मिलते हैं. उदाहरण के लिए, एम्बेड करने के सही जगह पर, एम्बेड करने की जगह को जोड़ने और घटाने से, रोज़मर्रा के काम में मदद मिल सकती है.

दो एम्बेडिंग का डॉट प्रॉडक्ट, उनकी समानता का माप है.

एम्बेड करने का वेक्टर

#language

मोटे तौर पर, किसी भी छिपी हुई लेयर से छिपाए गए इनपुट की जानकारी देने वाली श्रेणी से, फ़्लोटिंग-पॉइंट नंबर की श्रेणी. अक्सर, एम्बेड करने वाले वेक्टर में फ़्लोटिंग-पॉइंट की संख्याएं उपलब्ध होती हैं. इन्हें एम्बेड की गई लेयर में ट्रेनिंग दी जाती है. उदाहरण के लिए, मान लीजिए कि एम्बेड करने की किसी परत को पृथ्वी की 73,000 प्रजातियों में से हर एक के लिए एम्बेड करने वाला वेक्टर सीखना चाहिए. नीचे दिए गए ऐरे में बाओबाब ट्री के लिए एम्बेडिंग वेक्टर है:

12 एलिमेंट वाली एक कैटगरी, जिसमें हर एक एलिमेंट का फ़्लोटिंग-पॉइंट नंबर 0.0 और 1.0 के बीच होता है.

एम्बेड करने वाला वेक्टर रैंडम संख्याओं का एक समूह नहीं है. एम्बेड करने की एक लेयर, इन वैल्यू को ट्रेनिंग के ज़रिए तय करती है. यह ठीक वैसा ही है, जैसे कि कोई न्यूरल नेटवर्क ट्रेनिंग के दौरान अन्य वेट भी सीखता है. इस कैटगरी के एक हिस्से को पौधे की कुछ विशेषताओं के साथ-साथ रेटिंग दी जाती है. किस पेड़-पौधों की प्रजातियों के बारे में बताया गया है? इसका अंदाज़ा लगाना बहुत ज़्यादा मुश्किल है.

एम्बेड किए गए वेक्टर का गणितीय रूप से ध्यान देने लायक हिस्सा यह है कि एक जैसे आइटम में फ़्लोटिंग-पॉइंट नंबर के मिलते-जुलते सेट होते हैं. उदाहरण के लिए, पेड़ की मिलती-जुलती प्रजातियों में, पेड़ जैसी अलग-अलग प्रजातियों के मुकाबले फ़्लोटिंग-पॉइंट नंबर की एक जैसी सूची होती है. रेडवुड और सिक्वॉइया आपस में मिलते-जुलते पौधे हैं. इसलिए, रेडवुड और नारियल के पेड़ों की तुलना में फ़्लोटिंग पेड़ों के बारे में ऐसी ही कई संख्याएं हैं. एम्बेड करने वाले वेक्टर में मौजूद संख्याएं, मॉडल को हर बार बदलने पर भी बदलती हैं. अगर आपने मॉडल को इसी तरह के इनपुट के साथ फिर से ट्रेनिंग दी है, तो भी इसमें बदलाव होगा.

एन्कोडर

#language

आम तौर पर, कोई एमएल सिस्टम, जो रॉ, स्पार या एक्सटर्नल प्रज़ेंटेशन से ज़्यादा प्रोसेस, घना, और ज़्यादा अंदरूनी प्रज़ेंटेशन होता है.

एन्कोडर आम तौर पर किसी बड़े मॉडल का हिस्सा होते हैं. इनमें अक्सर डिकोडर होता है. कुछ ट्रांसफ़ॉर्मर डिकोडर के साथ एन्कोडर जोड़ें, हालांकि, अन्य ट्रांसफ़ॉर्मर सिर्फ़ एन्कोडर या सिर्फ़ डिकोडर का इस्तेमाल करते हैं.

कुछ सिस्टम, क्लासिफ़िकेशन या रिग्रेशन नेटवर्क में इनपुट के तौर पर एन्कोडर के आउटपुट का इस्तेमाल करते हैं.

क्रम में चलने वाले टास्क, एन्कोडर इनपुट का क्रम लेता है और आंतरिक स्थिति (वेक्टर) दिखाता है. इसके बाद, डिकोडर उस इंटरनल स्टेट का इस्तेमाल करके, अगले क्रम का अनुमान लगाता है.

ट्रांसफ़ॉर्मर आर्किटेक्चर में, एन्कोडर की परिभाषा के लिए ट्रांसफ़ॉर्मर देखें.

शुक्र

कुछ मामलों में

#language
#generativeAI

ऐसा अनुरोध जिसमें एक से ज़्यादा "कुछ" उदाहरण शामिल हों, जिसमें बताया गया हो कि बड़े भाषा मॉडल का जवाब कैसे देना चाहिए. उदाहरण के लिए, नीचे दिए गए लंबे अनुरोध में दो उदाहरण दिए गए हैं. इनमें क्वेरी का जवाब देने के तरीके के साथ-साथ एक बड़ा भाषा मॉडल दिखाया गया है.

एक प्रॉम्प्ट के हिस्से नोट
किसी देश की आधिकारिक मुद्रा क्या है? वह सवाल जिसका जवाब एलएलएम से चाहिए.
फ़्रांस: EUR एक उदाहरण.
यूनाइटेड किंगडम: GBP एक और उदाहरण.
भारत: असल क्वेरी.

आम तौर पर, कुछ वीडियो के लिए अनुरोध करने पर ज़ीरो-शॉट प्रॉम्प्ट और एक-शॉट प्रॉम्प्ट से ज़्यादा मनमुताबिक नतीजे मिलते हैं. हालांकि, कुछ शॉट लेने के लिए लंबे समय की ज़रूरत होती है.

कुछ मामलों में, “कुछ समय के लिए सीखने की सुविधा को प्रॉम्प्ट-आधारित लर्निंग पर लागू किया जाता है.

वायलिन

#language

Python-फ़र्स्ट कॉन्फ़िगरेशन लाइब्रेरी, जो बिना किसी कोड या इन्फ़्रास्ट्रक्चर के फ़ंक्शन और क्लास की वैल्यू सेट करती है. Pax और दूसरे एमएल कोड बेस के मामले में, ये फ़ंक्शन और क्लास, मॉडल और ट्रेनिंग हाइपरपैरामीटर को दिखाती हैं.

Fiddle, यह मान लेता है कि मशीन लर्निंग कोड बेस को आम तौर पर इन दो कैटगरी में बांटा जाता है:

  • लाइब्रेरी कोड, जो लेयर और ऑप्टिमाइज़र की जानकारी देता है.
  • डेटासेट "ग्लू" कोड, जो लाइब्रेरी को वायर करता है और सब कुछ एक साथ वायर में डालता है.

Fiddle, ग्लू कोड की कॉल स्ट्रक्चर को बिना आकलन किए और बदले जा सकने वाले फ़ॉर्म में कैप्चर करता है.

फ़ाइन ट्यूनिंग

#language
#image
#generativeAI

दूसरा, टास्क के हिसाब से दूसरा ट्रेनिंग पास, पहले से ट्रेनिंग दिए गए मॉडल में लिया जाता है. ऐसा करके, किसी खास इस्तेमाल के उदाहरण के लिए, पैरामीटर को बेहतर बनाया जाता है. उदाहरण के लिए, बड़े भाषा के कुछ मॉडल के लिए ट्रेनिंग का पूरा क्रम यहां दिया गया है:

  1. प्री-ट्रेनिंग: बड़े सामान्य डेटासेट, जैसे कि अंग्रेज़ी भाषा वाले सभी Wikipedia पेजों पर, बड़ी भाषा के मॉडल को ट्रेनिंग दें.
  2. फ़ाइन-ट्यूनिंग: पहले से प्रशिक्षित मॉडल को खास काम करने के लिए प्रशिक्षित करना, जैसे कि चिकित्सा क्वेरी का जवाब देना. फ़ाइन-ट्यून करने की प्रक्रिया में, आम तौर पर किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.

एक और उदाहरण के तौर पर, एक बड़े इमेज मॉडल की पूरी ट्रेनिंग का क्रम नीचे बताया गया है:

  1. प्री-ट्रेनिंग: बड़े सामान्य इमेज डेटासेट जैसे कि विकिमीडिया कॉमन में सभी इमेज को बड़े साइज़ के इमेज मॉडल की ट्रेनिंग दें.
  2. फ़ाइन-ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देकर, खास टास्क करना. जैसे, ओर्का इमेज जनरेट करना.

फ़ाइन-ट्यूनिंग के लिए, इन रणनीतियों को एक साथ इस्तेमाल किया जा सकता है:

  • पहले से ट्रेनिंग दिए गए मॉडल के मौजूदा पैरामीटर के सभी में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन ट्यूनिंग कहा जाता है.
  • पहले से प्रशिक्षित मॉडल के मौजूदा पैरामीटर में से सिर्फ़ कुछ कुछ चीज़ों में बदलाव करना (आम तौर पर, आउटपुट लेयर की सबसे नज़दीकी लेयर) और दूसरे मौजूदा पैरामीटर में कोई बदलाव नहीं करना (आम तौर पर, लेयर इनपुट लेयर में सबसे करीब होती है).
  • आम तौर पर, आउटपुट लेयर के सबसे नज़दीकी लेयर के ऊपर और लेयर जोड़ना.

फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक हिस्सा है. इसलिए, फ़ाइन-ट्यून करने की सुविधा में अलग-अलग तरीके के फ़ंक्शन या अलग-अलग तरह के मॉडल इस्तेमाल किए जा सकते हैं. यह तरीका, पहले से इस्तेमाल किए गए मॉडल को ट्रेनिंग देने से जुड़ा नहीं होगा. उदाहरण के लिए, एक रिग्रेशन मॉडल बनाने के लिए पहले से प्रशिक्षित बड़ी इमेज के मॉडल को बेहतर बनाया जा सकता है. यह मॉडल एक इनपुट इमेज में पक्षियों की संख्या दिखाता है.

'फ़ाइन-ट्यून करना' सुविधा की तुलना नीचे दिए गए शब्दों से करें:

फ़्लैक्स

#language

JAX के ऊपर बने डीप लर्निंग के लिए, बेहतरीन परफ़ॉर्मेंस वाली ओपन सोर्स लाइब्रेरी. फ़्लैक्स ट्रेनिंग न्यूरल नेटवर्क के लिए फ़ंक्शन देता है. साथ ही, यह उनकी परफ़ॉर्मेंस का आकलन करने का तरीका भी उपलब्ध कराता है.

फ़्लैक्सफ़ॉर्मर

#language

एक ओपन सोर्स Transformer library, जिसे Flax पर बनाया गया है. इसे मुख्य रूप से नैचुरल लैंग्वेज प्रोसेसिंग और मल्टीमोडल रिसर्च के लिए बनाया गया है.

G

जनरेट करने वाला एआई (AI)

#language
#image
#generativeAI

बिना किसी औपचारिक परिभाषा के एक उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञ इस बात से सहमत हैं कि एआई (AI) मॉडल, ये सभी "जनरेट" कर सकते हैं:

  • जटिल
  • एक जैसा
  • मूल

उदाहरण के लिए, एक एआई (AI) मॉडल से बेहतर निबंध या इमेज बनाई जा सकती हैं.

LSTMs और RNNs जैसी पहले की कुछ टेक्नोलॉजी में, ओरिजनल और सही कॉन्टेंट भी जनरेट किया जा सकता है. कुछ विशेषज्ञ पहले की इन टेक्नोलॉजी को जनरेट करने के लिए एआई (AI) का इस्तेमाल करते हैं. हालांकि, दूसरों को यह पता चलता है कि एआई (AI) टेक्नोलॉजी की मदद से, बड़े पैमाने पर जनरेट होने वाले एआई (AI) का इस्तेमाल करना मुश्किल होता है.

अनुमानित एमएल का कंट्रास्ट.

GPT (पहले से तैयार ट्रांसफ़ॉर्मर)

#language

Transformer पर आधारित बड़े भाषा के मॉडल, जिन्हें OpenAI ने बनाया है.

GPT के वैरिएंट, कई मोडिटी पर लागू हो सकते हैं. इनमें ये शामिल हैं:

  • इमेज जनरेट करना (उदाहरण के लिए, ImageGPT)
  • टेक्स्ट से इमेज जनरेट करना (उदाहरण के लिए, DALL-E).

H

मनगढ़ंत घटनाएं देखना (मतिभ्रम)

#language

एआई (AI) मॉडल से प्रदूषित दिखने वाली और तथ्यों में गलत आउटपुट देने का मॉडल, जो असली दुनिया के बारे में एक मॉडल बनाने का दावा करता है. उदाहरण के लिए, एक एआई (AI) मॉडल जो यह दावा करता है कि रामनाथ कोविंद की 1865 में मौत हो गई है उसे महल के ऊपर चढ़ना है.

I

कॉन्टेक्स्ट के हिसाब से लर्निंग

#language
#generativeAI

कुछ शॉट का अनुरोध करने के लिए समानार्थी शब्द.

L

LaMDA (डायलॉग ऐप्लिकेशन के लिए भाषा का मॉडल)

#language

ट्रांसफ़ॉर्मर बड़े भाषा का मॉडल, जिसे Google ने बनाया है. यह मॉडल एक बड़े डायलॉग डेटासेट के लिए तैयार किया गया है. यह डेटासेट, असली बातचीत के दौरान जवाब जनरेट कर सकता है.

LaMDA: हमारी बेहतरीन बातचीत टेक्नोलॉजी की खास जानकारी.

भाषा का मॉडल

#language

मॉडल, जो टोकन या टोकन के एक लंबे क्रम में चलने वाले टोकन के क्रम की संभावना का अनुमान लगाता है.

बड़ी भाषा का मॉडल

#language

ऐसा अनौपचारिक शब्द जिसमें कोई सख्त परिभाषा नहीं होती है. आम तौर पर, इसका मतलब भाषा का मॉडल होता है, जिसमें ज़्यादा पैरामीटर होते हैं. कुछ बड़े भाषा मॉडल में 100 अरब से ज़्यादा पैरामीटर होते हैं.

सोम

मास्क किया गया भाषा मॉडल

#language

भाषा का मॉडल, इस बात का अनुमान लगाता है कि क्रम के हिसाब से खाली जगह भरने के लिए, उम्मीदवार टोकन की कितनी संभावना है. उदाहरण के लिए, मास्क किया गया भाषा वाला मॉडल, इस वाक्य में अंडरलाइन किए गए शब्दों को बदलने के लिए, उम्मीदवार के शब्दों की संभावनाओं की गणना कर सकता है:

हैट पर जाकर ____ बना हुआ है.

आम तौर पर, साहित्य किसी अंडरलाइन के बजाय "MASK" स्ट्रिंग का इस्तेमाल करता है. उदाहरण के लिए:

टोपी में "MASK" वापस आ गया है.

आधुनिक मास्क वाले ज़्यादातर दोतरफ़ा भाषा के मॉडल होते हैं.

मेटा-लर्निंग

#language

मशीन लर्निंग का एक सबसेट, जो लर्निंग एल्गोरिदम की खोज करता है या उसे बेहतर बनाता है. मेटा लर्निंग सिस्टम किसी मॉडल को ट्रेनिंग देकर, कम डेटा से या पिछले टास्क से मिले अनुभव को तेज़ी से सीखने में भी मदद कर सकता है. आम तौर पर, मेटा लर्निंग एल्गोरिदम इन चीज़ों को पाने की कोशिश करते हैं:

  • हाथ से बनी सुविधाओं (जैसे कि शुरुआती अक्षर या ऑप्टिमाइज़र) को बेहतर बनाएं या सीखें.
  • डेटा की कम बचत और कंप्यूटेंस कम रखें.
  • सामान्य बनाने के तरीके को बेहतर बनाएं.

मेटा-लर्निंग का मतलब है, कुछ शॉट से जुड़ी लर्निंग.

मोडलिटी

#language

एक बेहतरीन डेटा कैटगरी. उदाहरण के लिए, संख्याएं, टेक्स्ट, इमेज, वीडियो, और ऑडियो पांच अलग-अलग मोडलिटी हैं.

मॉडल पैरललिज़्म

#language

ट्रेनिंग या अनुमान को स्केल करने का एक तरीका, जिससे एक मॉडल के अलग-अलग हिस्सों को अलग-अलग डिवाइस पर रखा जाता है. मॉडल पैरललिज़्म ऐसे मॉडल चालू करता है जो एक ही डिवाइस में फ़िट होने के लिए बहुत बड़े हैं.

मॉडल पैरललिज़्म लागू करने के लिए, सिस्टम आम तौर पर ये काम करता है:

  1. शार्ड्स मॉडल को छोटे-छोटे हिस्सों में बांटता है.
  2. उन छोटे हिस्सों की ट्रेनिंग, एक से ज़्यादा प्रोसेसर के बीच बांटती है. हर प्रोसेसर, मॉडल के अपने हिस्से को ट्रेनिंग देता है.
  3. नतीजों को जोड़ता है, ताकि एक मॉडल बनाया जा सके.

मॉडल पैरललिज़्म ट्रेनिंग को धीमा कर देता है.

डेटा पैरललिज़्म भी देखें.

मल्टी-हेड सेल्फ़-अटेंशन

#language

खुद को ध्यान में रखने का एक एक्सटेंशन, जो इनपुट के क्रम में हर जगह के लिए खुद को ध्यान में रखने का तरीका कई बार लागू करता है.

ट्रांसफ़ॉर्मर ने मल्टी-हेड सेल्फ़-अटेंशन को अपनाया.

मल्टीमॉडल मॉडल

#language

ऐसा मॉडल जिसके इनपुट और/या आउटपुट में एक से ज़्यादा मॉड्यूलिटी शामिल हों. उदाहरण के लिए, ऐसे मॉडल के बारे में सोचें जो इमेज और टेक्स्ट कैप्शन, दोनों को सुविधाओं के तौर पर लेता हो. साथ ही, एक स्कोर दिखाता है. इससे पता चलता है कि टेक्स्ट के लिए इमेज कितनी सही है. इसलिए, इस मॉडल के इनपुट मल्टीमोडल हैं और आउटपुट एकतरफ़ा है.

N

नैचुरल लैंग्वेज अंडरस्टैंडिंग

#language

उपयोगकर्ता ने क्या लिखा या क्या कहा, इसके आधार पर उनके इंटेंट तय करना. उदाहरण के लिए, कोई सर्च इंजन आसानी से समझ में आने वाली भाषा का इस्तेमाल करता है, ताकि यह तय किया जा सके कि उपयोगकर्ता ने क्या टाइप किया है या क्या बोला है.

एन-ग्राम

#seq
#language

N शब्दों के क्रम में रखा गया क्रम. उदाहरण के लिए, सही तरीके से बताना दो ग्राम सही है. क्योंकि ऑर्डर सही है, बेहद सच में दो पागल लोगों से अलग है.

N इस तरह के N-ग्राम का नाम उदाहरण
2 Bigram या 2 ग्राम शुरू करने, खाने, दोपहर का खाना खाने, और खाने के लिए
3 त्रिभुज या 3 ग्राम बहुत ज़्यादा खाना, तीन दृष्टिहीन चूहे, बेल टोल
4 चार ग्राम पार्क में पैदल चलना, हवा में धूल, लड़के ने दाल खाया

नैचुरल भाषा को समझना मॉडल, N-ग्राम पर निर्भर करते हैं और अनुमान लगाते हैं कि उपयोगकर्ता अगला शब्द टाइप करेंगे या कहेंगे. उदाहरण के लिए, मान लें कि किसी उपयोगकर्ता ने तीन ब्लाइंड टाइप किए हैं. त्रिभुजों के आधार पर बने एनएलयू मॉडल के अनुमान के हिसाब से, उपयोगकर्ता अगले माइस को चुन लेगा.

शब्द का बैग के साथ कंट्रास्ट एन-ग्राम, जो शब्दों के बिना क्रम वाले सेट होते हैं.

एनएलयू

#language

नैचुरल लैंग्वेज अंडरस्टैंडिंग के लिए छोटा फ़ॉर्म.

O

वन-शॉट प्रॉम्प्टिंग

#language
#generativeAI

अनुरोध में एक उदाहरण शामिल है, जो बताता है कि बड़े भाषा मॉडल को कैसा रिस्पॉन्स देना चाहिए. उदाहरण के लिए, नीचे दिए गए संकेत में एक बड़ा भाषा मॉडल का एक उदाहरण दिया गया है. यह सभी क्वेरी का जवाब कैसे देगा.

एक प्रॉम्प्ट के हिस्से नोट
किसी देश की आधिकारिक मुद्रा क्या है? वह सवाल जिसका जवाब एलएलएम से चाहिए.
फ़्रांस: EUR एक उदाहरण.
भारत: असल क्वेरी.

एक शॉट की सुविधा की तुलना और इसके बारे में जानने के लिए, यहां दिए गए शब्दों का इस्तेमाल करें:

P

पैरामीटर की कम ट्यूनिंग

#language
#generativeAI

फ़ाइन-ट्यूनिंग के मुकाबले, पहले से तैयार भाषा मॉडल (पीएलएम) का बेहतर तरीके से इस्तेमाल करने के लिए, तकनीकों का सेट. आम तौर पर, पैरामीटर की मदद से ट्यून करने की सुविधा से, फ़ुल-ट्यून ट्यूनिंग की तुलना में कम पैरामीटर ट्यून होते हैं. हालांकि, आम तौर पर यह बड़े भाषा का मॉडल बनाता है, जो पूरी तरह से फ़ाइनिंग ट्यूनिंग से बने बड़े मॉडल की तरह भी काम करता है.

पैरामीटर और बेहतर तरीके से ट्यून करने वाली सुविधा की तुलना, इनके साथ करें:

पैरामीटर के हिसाब से ट्यूनिंग को पैरामीटर की बेहतर फ़ाइन ट्यूनिंग भी कहा जाता है.

पाइपलाइनिंग

#language

यह मॉडल की पैरललिज़्म का एक तरीका है. इसमें, मॉडल की प्रोसेसिंग को लगातार चरणों में बांटा जाता है और हर चरण को अलग-अलग डिवाइस पर लागू किया जाता है. जब स्टेज एक बैच प्रोसेस करता है, तो पिछला चरण अगले बैच पर काम कर सकता है.

स्टेज की गई ट्रेनिंग भी देखें.

पीएलएम

#language
#generativeAI

भाषा की पहले से जानकारी रखने वाले मॉडल को छोटा करके दिखाने की सुविधा.

पोज़िशनल एन्कोडिंग

#language

टोकन के एम्बेड होने के क्रम में टोकन की रैंक के बारे में जानकारी जोड़ने की तकनीक. ट्रांसफ़ॉर्मर मॉडल पोज़िशनल एन्कोडिंग का इस्तेमाल करते हैं, ताकि क्रम के अलग-अलग हिस्सों के बीच के संबंध को बेहतर तरीके से समझा जा सके.

पोज़िशनल एन्कोडिंग की आम प्रोसेस के लिए, साइनसॉइडल फ़ंक्शन का इस्तेमाल किया जाता है. (खास तौर पर, साइनोसॉइड फ़ंक्शन की फ़्रीक्वेंसी और एंप्लट्यूड, क्रम में टोकन की पोज़िशन से तय होते हैं.) इस तकनीक की मदद से, ट्रांसफ़ॉर्मर मॉडल अपनी स्थिति के हिसाब से क्रम के अलग-अलग हिस्सों में चला जाता है.

पहले से प्रशिक्षित मॉडल

#language
#image
#generativeAI

ऐसे मॉडल या मॉडल कॉम्पोनेंट (जैसे कि एम्बेडिंग वेक्टर) जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. कभी-कभी, न्यूरल नेटवर्क में, एम्बेड किए गए वेक्टर पहले से फ़ीड किए जा सकते हैं. अन्य समय में, आपका मॉडल एम्बेड किए गए वेक्टर को ट्रेनिंग देगा, न कि पहले से जोड़ी गई एम्बेडिंग पर.

पहले से ट्रेनिंग वाले भाषा के मॉडल का मतलब है बड़े भाषा का मॉडल. यह प्री-ट्रेनिंग से होकर गुज़रता है.

प्री-ट्रेनिंग

#language
#image
#generativeAI

बड़े डेटासेट पर मॉडल की शुरुआती ट्रेनिंग. पहले से प्रशिक्षित कुछ मॉडल भद्दे जायंट होते हैं. इसलिए, इन्हें अतिरिक्त ट्रेनिंग के ज़रिए बेहतर बनाया जाना चाहिए. उदाहरण के लिए, ML विशेषज्ञ बड़े टेक्स्ट डेटासेट पर बड़े भाषा के मॉडल की ट्रेनिंग पहले ले सकते हैं, जैसे कि Wikipedia के सभी अंग्रेज़ी पेज. प्री-ट्रेनिंग के बाद, अनुमानित मॉडल को इनमें से किसी भी तकनीक की मदद से और बेहतर बनाया जा सकता है:

प्रॉम्प्ट

#language
#generativeAI

किसी मॉडल को एक खास तरीके से काम करने के लिए, बड़े भाषा वाले मॉडल में इनपुट के तौर पर डाला जाने वाला कोई भी टेक्स्ट. निर्देश, किसी वाक्यांश के तौर पर या मनमाने तौर पर लंबे समय तक छोटे हो सकते हैं, जैसे कि किसी उपन्यास का पूरा टेक्स्ट. अनुरोध कई कैटगरी में आते हैं. इनमें नीचे दी गई टेबल में मौजूद जानकारी भी शामिल हैं:

प्रॉम्प्ट कैटगरी उदाहरण नोट
Question एक पिजन कितनी तेज़ी से उड़ सकता है?
निर्देश आर्बिट्रेज के बारे में एक मज़ेदार कविता लिखें. यह अनुरोध, बड़ी भाषा वाले मॉडल को कुछ करने के लिए कहता है.
उदाहरण मार्कडाउन कोड का एचटीएमएल में अनुवाद करें. उदाहरण के लिए:
मार्कडाउन: * सूची आइटम
एचटीएमएल: <ul> <li>आइटम की सूची बनाएं</li> </ul>
इस उदाहरण में दिया गया पहला वाक्य एक निर्देश है. मैसेज का बाकी हिस्सा उदाहरण के तौर पर दिया गया है.
भूमिका बताएं कि फ़िज़िक्स के पीएचडी में, मशीन लर्निंग ट्रेनिंग में ग्रेडिएंट ढलान का इस्तेमाल क्यों किया जाता है. वाक्य का पहला हिस्सा निर्देश है. वाक्यांश "भौतिक विज्ञान से पीएचडी में", भूमिका का हिस्सा है.
मॉडल पूरा करने के लिए आंशिक इनपुट यूनाइटेड किंगडम के प्रधानमंत्री यहां रहते हैं आंशिक इनपुट का अनुरोध या तो अचानक खत्म हो सकता है (जैसा कि इस उदाहरण में है) या अंडरस्कोर के साथ खत्म हो सकता है.

एआई (AI) मॉडल, टेक्स्ट, कोड, इमेज, एम्बेड करने, और वीडियो...के अनुरोध का जवाब दे सकता है.

प्रॉम्प्ट-आधारित लर्निंग

#language
#generativeAI

कुछ मॉडल की सुविधा जो आर्बिट्रेरी टेक्स्ट इनपुट (अनुरोध) के मुताबिक, अपने व्यवहार को अडजस्ट करने में मदद करती है. आम तौर पर, अनुरोध पर आधारित लर्निंग मॉडल में, बड़े भाषा का मॉडल टेक्स्ट जनरेट करके, प्रॉम्प्ट पर प्रतिक्रिया देता है. उदाहरण के लिए, मान लें कि उपयोगकर्ता ने यह निर्देश दिया है:

खास तौर पर, न्यूटन के तीसरे मोशन कानून के बारे में बताएं.

प्रॉम्प्ट-आधारित लर्निंग से जुड़े मॉडल को, पिछले प्रॉम्प्ट का जवाब देने की ट्रेनिंग नहीं दी जाती है. इसके बजाय, मॉडल में भौतिकी के बारे में बहुत सारी जानकारी, सामान्य भाषा के नियमों के बारे में बहुत सी बातें शामिल हैं. साथ ही, यह भी बताता है कि आम तौर पर उपयोगी जवाब क्या होते हैं. "उम्मीद है कि" काम का जवाब होगा. इसके अलावा, लोगों के सुझाव, शिकायत या राय से "अन्य चीज़ों के बारे में ज़्यादा जानकारी" मिली."या "प्रतिक्रिया क्या है?") कुछ प्रॉम्प्ट आधारित लर्निंग सिस्टम हैं, जो जवाबों को ज़्यादा उपयोगी बनाते हैं.

प्रॉम्प्ट डिज़ाइन

#language
#generativeAI

प्रॉम्प्टिंग का समानार्थी शब्द.

प्रॉम्प्ट इंजीनियरिंग

#language
#generativeAI

निर्देश बनाने की कला, जो बड़ी भाषा वाले मॉडल से ज़रूरी रिस्पॉन्स देती है. वीडियो में, लोग इंजीनियरिंग करते हैं. अच्छी तरह से स्ट्रक्चर किए गए संकेत लिखना, एक बड़े भाषा मॉडल से उपयोगी जवाबों को पक्का करने का एक ज़रूरी हिस्सा है. प्रॉम्प्ट इंजीनियरिंग कई बातों पर निर्भर करती है, जिनमें ये शामिल हैं:

उपयोगी प्रॉम्प्ट लिखने के बारे में ज़्यादा जानकारी के लिए, प्रॉम्प्ट डिज़ाइन का परिचय देखें.

प्रॉम्प्ट डिज़ाइन, प्रॉम्प्ट इंजीनियरिंग का एक समानार्थी शब्द है.

प्रॉम्प्ट ट्यूनिंग

#language
#generativeAI

पैरामीटर के हिसाब से ट्यून करने की सुविधा वाली तकनीक, जो "प्रीफ़िक्स" सीखती है. इसे सिस्टम असली अनुरोध से पहले जोड़ता है.

प्रॉम्प्ट ट्यूनिंग की एक सुविधा—जिसे कभी-कभी प्रीफ़िक्स ट्यूनिंग कहा जाता है—आपको प्रीफ़िक्स को हर लेयर में जोड़ना होगा. वहीं, ज़्यादातर प्रॉम्प्ट ट्यून करने की सुविधा सिर्फ़ इनपुट लेयर में प्रीफ़िक्स जोड़ती है.

आर

भूमिका के बारे में बताना

#language
#generativeAI

अनुरोध का एक वैकल्पिक हिस्सा, जो सामान्य एआई (AI) मॉडल के जवाब के लिए टारगेट ऑडियंस की पहचान करता है. सीधे भूमिका निभाने पर, एक बड़े भाषा मॉडल में जवाब दिया जाता है. यह सवाल पूछने वाले व्यक्ति के लिए काम का हो सकता है या नहीं भी. किसी रोल रोल के साथ, बड़ी भाषा का मॉडल इस तरह से जवाब दे सकता है कि वह टारगेट किए गए खास दर्शकों के लिए ज़्यादा सही और ज़्यादा मददगार हो. उदाहरण के लिए, इन प्रॉम्प्ट के रोल प्रॉम्प्ट का हिस्सा बोल्डफ़ेस में है:

  • इस लेख के ज़रिए, इकनॉमिक्स में पीएचडी के लिए बताएं.
  • यह बताएं कि ज्वार दस साल के बच्चे के लिए कैसे काम करता है.
  • साल 2008 के वित्तीय संकट के बारे में बताएं. जैसा कि आप एक छोटे बच्चे या एक गोल्डन रिट्रीवर से कर सकते हैं.

रवि

खुद का ध्यान खींचना (इसे खुद को ध्यान में रखते हुए लेयर जोड़ना भी कहते हैं)

#language

न्यूरल नेटवर्क लेयर, जो एम्बेडिंग के क्रम को (जैसे कि, टोकन एम्बेड करना) एम्बेड करने के क्रम में बदल देती है. आउटपुट सीक्वेंस में हर एम्बेडिंग को बनाने के लिए इनपुट सीक्वेंस के एलिमेंट से जानकारी लेकर, अटेंशन मैकेनिज़्म को इंटिग्रेट किया जाता है.

खुद को ध्यान में रखने का खुद का हिस्सा, किसी दूसरे कॉन्टेक्स्ट के बजाय खुद में शामिल होने वाले क्रम को दिखाता है. खुद पर ध्यान देना, Transformers के लिए ज़रूरी चीज़ों में से एक है. यह “query”, “key”, और “value” जैसे डिक्शनरी लुकअप शब्द का इस्तेमाल करता है.

सेल्फ़-अटेंशन लेयर की शुरुआत, हर इनपुट के लिए एक क्रम से होती है. किसी शब्द को इनपुट के रूप में पेश करना आसान हो सकता है. इनपुट के हर क्रम में मौजूद हर शब्द के लिए, नेटवर्क शब्द के पूरे क्रम में मौजूद हर एलिमेंट के लिए शब्द की प्रासंगिकता बताता है. प्रासंगिकता स्कोर यह तय करता है कि शब्द का अंतिम प्रतिनिधित्व कितना है, इसमें अन्य शब्दों के प्रतिनिधित्व को शामिल किया जाता है.

उदाहरण के लिए, इस वाक्य पर विचार करें:

जानवर सड़क पर नहीं गुज़रा, क्योंकि वह बहुत थका हुआ था.

यह ट्रांसफ़ॉर्मर: भाषा के लिए नॉवेल न्यूरल नेटवर्क आर्किटेक्चर) का इलस्ट्रेशन, इसको ध्यान में रखता है. हर लाइन के सबसे गहरे हिस्से से यह पता चलता है कि हर शब्द के सबसे गहरे हिस्से में कितना योगदान है

नीचे दिया गया वाक्य दो बार दिखता है: &#39;जानवर इस सड़क से नहीं गुज़रा, क्योंकि वह बहुत थका हुआ था.&#39;  लाइनों में एक वाक्य के लिए, &#39;it&#39; शब्द को पांच टोकन (&#39;The&#39;, &#39;animal&#39;, &#39;street&#39;, &#39;it&#39;, और &quot;period&quot;) से जोड़ा गया है.  &#39;it&#39; और &#39;animal&#39; के बीच की स्ट्रिंग सबसे मज़बूत होती है.

खुद को ध्यान में रखने की लेयर, "it" से जुड़े शब्दों को हाइलाइट करती है. इस मामले में, ध्यान देने वाली लेयर ने उन शब्दों को हाइलाइट करना सीख लिया है जो it को रेफ़र कर सकते हैं. इस दौरान, वे सबसे ज़्यादा वज़न को animal असाइन करते हैं.

n टोकन के क्रम के लिए, खुद पर नज़र रखने की सुविधा, क्रम में हर जगह पर, n को अलग-अलग समय पर एम्बेड करने के क्रम को बदलती है.

अटेंशन और मल्टी-हेड सेल्फ़-अटेंशन भी देखें.

भावनाओं का विश्लेषण

#language

किसी सेवा, प्रॉडक्ट, संगठन या विषय के लिए, ग्रुप के पूरे नज़रिए—पॉज़िटिव या नेगेटिव—का पता लगाने के लिए, आंकड़ों या मशीन लर्निंग एल्गोरिदम का इस्तेमाल करना. उदाहरण के लिए, सामान्य भाषा में जानकारी का इस्तेमाल करके, एल्गोरिदम एक यूनिवर्सिटी कोर्स के टेक्स्ट के आधार पर भावनाओं का विश्लेषण कर सकता है. इससे यह तय किया जाता है कि आम तौर पर छात्र-छात्राओं को कोर्स पसंद या नापसंद है या नहीं.

सिलसिलेवार टास्क

#language

ऐसा टास्क जो टोकन के इनपुट सीक्वेंस को टोकन के आउटपुट वाले आउटपुट में बदलता है. उदाहरण के लिए, क्रम से काम करने वाले दो लोकप्रिय टास्क हैं:

  • अनुवादक:
    • नमूने का नमूना: "मुझे तुमसे प्यार है."
    • आउटपुट का नमूना: "Je t'aime".
  • सवाल का जवाब:
    • इनपुट इनपुट का नमूना: "क्या मुझे दिल्ली में अपनी कार की ज़रूरत है?"
    • सैंपल आउटपुट का क्रम: "नहीं. कृपया अपनी कार घर पर रखें."

स्पार्स सुविधा

#language
#fundamentals

ऐसी सुविधा जिसकी वैल्यू मुख्य रूप से शून्य या खाली है. उदाहरण के लिए, हो सकता है कि किसी एक वैल्यू और 00 लाख वैल्यू वाली सुविधा कम ही हो. इसके उलट, डेंस सुविधा में ऐसी वैल्यू होती हैं जो मुख्य रूप से शून्य या खाली नहीं होतीं.

मशीन लर्निंग में, बहुत कम सुविधाएं हैं. आम तौर पर, इसमें कम सुविधाएं होती हैं. उदाहरण के लिए, किसी जंगल में पेड़ों की 300 संभावित प्रजातियों में से, कोई एक सिर्फ़ मील के पेड़ की पहचान कर सकता है. या फिर किसी वीडियो लाइब्रेरी के लाखों संभावित वीडियो दिखाने से, बस "कासाब्लांका" की पहचान हो जाती है.

आम तौर पर, मॉडल में एक-हॉट एन्कोडिंग का इस्तेमाल किया जाता है. अगर एक-हॉट एन्कोडिंग बड़ा है, तो ज़्यादा क्षमता के लिए आप एक-हॉट एन्कोडिंग के ऊपर एम्बेड करने की लेयर डाल सकते हैं.

स्पार्स रिपोर्टिंग

#language
#fundamentals

बहुत कम सुविधाओं वाले नॉन-ज़ीरो एलिमेंट के सिर्फ़ पोज़िशन को स्टोर करना.

उदाहरण के लिए, मान लीजिए कि species नाम की किसी कैटगरी में मौजूद किसी खास जंगल में 36 पेड़ों की प्रजातियों की पहचान की जाती है. इसके अलावा, यह भी मान लें कि हर उदाहरण सिर्फ़ एक प्रजाति की पहचान करता है.

हर उदाहरण में, पेड़ों की प्रजातियों के बारे में जानकारी देने के लिए, एक हॉट वेक्टर का इस्तेमाल किया जा सकता है. एक हॉट वेक्टर में एक 1 (उस उदाहरण में पेड़ों की खास प्रजातियों को दिखाने के लिए) और 35 0 शामिल होंगे (33 पेड़ की उन प्रजातियों को दिखाने के लिए जो उस उदाहरण में नहीं हैं). इसलिए, maple की एक-हॉट प्रज़ेंटेशन कुछ ऐसी दिख सकती है:

0 से 23 तक की पोज़िशन, 0 से 0 होने पर, 24 की वैल्यू 0 से और 25 से 35 की वैल्यू 0 से बनी रहती है.

इसके अलावा, स्पार का इस्तेमाल करके खास प्रजातियों की स्थिति की ही पहचान की जा सकती है. अगर maple 24 की स्थिति में है, तो maple का सिर्फ़ यह पता चलेगा:

24

ध्यान दें कि एक ओट-हॉट प्रज़ेंटेशन की तुलना में, स्पार का रिलेशनशिप बहुत छोटा होता है.

अलग-अलग चरणों में ट्रेनिंग

#language

अलग-अलग चरणों के क्रम में मॉडल की ट्रेनिंग करने की रणनीति. इसका मकसद या तो ट्रेनिंग की प्रोसेस को तेज़ करना होगा या मॉडल की क्वालिटी को बेहतर बनाना होगा.

प्रोग्रेसिव स्टैकिंग अप्रोच का उदाहरण नीचे दिखाया गया है:

  • पहले चरण में तीन लेयर शामिल हैं और चरण 2 में छह लेयर हैं. साथ ही, चरण 3 में 12 लेयर छिपे हुए हैं.
  • चरण 2 में, चरण 1 की छिपी हुई 3 लेयर में सीखे गए वज़न के साथ ट्रेनिंग शुरू होती है. स्टेज 3, स्टेज 2 के छह छिपे हुए लेयर में सीखे गए वेट के साथ ट्रेनिंग शुरू करता है.

तीन चरण, जिन पर &#39;स्टेज 1&#39;, &#39;स्टेज 2&#39;, और &#39;स्टेज 3&#39; लेबल हैं.
          हर चरण में अलग-अलग लेयर होती हैं: पहले चरण में
          तीन लेयर होती हैं, जबकि दूसरे चरण में 12 लेयर होती हैं.
          पहले चरण की तीन लेयर, चरण 2 की पहली तीन लेयर बन जाती हैं.
          इसी तरह, स्टेज 2 की छह लेयर, स्टेज 3 की पहली छह लेयर बन जाती हैं.

पाइपलाइनिंग भी देखें.

गुरु

T5

#language

साल 2020 में, Google एआई (AI) ने पेश किया है ट्रांसफ़र लर्निंग मॉडल. T5, एन्कोडर-डिकोडर मॉडल है. यह ट्रांसफ़ॉर्मर आर्किटेक्चर पर आधारित है. इसे बहुत बड़े डेटासेट पर ट्रेनिंग दी गई है. यह बहुत सी स्वाभाविक भाषा में प्रोसेस करने के कामों में असरदार है, जैसे कि टेक्स्ट जनरेट करना, भाषाओं का अनुवाद करना, और बातचीत का जवाब देना.

T5 को अपना नाम "टेक्स्ट-टू-टेक्स्ट ट्रांसफ़र ट्रांसफ़ॉर्मर" नाम के पांच T से मिला है.

5 गुना

#language

एक ओपन सोर्स मशीन लर्निंग फ़्रेमवर्क, जिसे बड़े पैमाने पर नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) मॉडल बनाने और ट्रेनिंग करने के लिए डिज़ाइन किया गया है. T5 को T5X कोड बेस पर लागू किया जाता है (इसे JAX और Flax पर बनाया गया है).

तापमान

#language
#image
#generativeAI

किसी मॉडल के आउटपुट की रैंडमता की डिग्री को कंट्रोल करने वाला हाइपरपैरामीटर. ज़्यादा तापमान होने पर, ज़्यादा आउटपुट मिलता है. कम तापमान की वजह से कम आउटपुट मिलता है.

सबसे अच्छा तापमान चुनना, किसी खास ऐप्लिकेशन और मॉडल के आउटपुट की मनचाहे प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, आप क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय तापमान को बढ़ा सकते हैं. इसके उलट, जब इमेज या टेक्स्ट की कैटगरी तय करने वाला मॉडल बनाया जाता है, तो मॉडल का सटीक और एक जैसा बनाने के लिए तापमान कम किया जा सकता है.

तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.

टेक्स्ट स्पैन

#language

श्रेणी इंडेक्स स्पैन, किसी टेक्स्ट स्ट्रिंग के खास सब-सेक्शन से जुड़ा होता है. उदाहरण के लिए, Python स्ट्रिंग s="Be good now" में good शब्द का इस्तेमाल किया जाता है.

टोकन

#language

भाषा के मॉडल में, वह ऐटॉमिक यूनिट जिस पर मॉडल को ट्रेनिंग दी जा रही है और जिसका अनुमान लगाया जा रहा है. आम तौर पर, टोकन इनमें से एक होता है:

  • एक शब्द—उदाहरण के लिए, "बिल्लियों जैसे कुत्तों" जैसे वाक्यांश में तीन शब्द शामिल हैं: "कुत्ते", "पसंद" और "बिल्लियां".
  • एक वर्ण—उदाहरण के लिए, "बाइक फ़िश" वाक्यांश में नौ वर्ण के टोकन होते हैं. (ध्यान दें कि खाली जगह को भी एक टोकन के तौर पर गिना जाता है.)
  • सबवर्ड—एक ही शब्द में एक टोकन या एक से ज़्यादा टोकन हो सकते हैं. सबवर्ड में मूल शब्द, प्रीफ़िक्स या सफ़िक्स शामिल होता है. उदाहरण के लिए, भाषा के लिए एक मॉडल जो टोकन के तौर पर सबवर्ड का इस्तेमाल करता है, हो सकता है कि वह "डॉग" शब्द को दो टोकन (मूल शब्द "कुत्ता" और बहुवचन सफ़िक्स "s") के तौर पर देखे. हो सकता है कि एक ही भाषा के मॉडल में, एक ही शब्द "बड़ा" को दो सब-शब्द (यानी "बड़ा" और सफ़िक्स "er") के तौर पर देखा जाए.

टोकन, भाषा मॉडल से बाहर के डोमेन में होते हैं. ये दूसरी तरह के ऐटॉमिक यूनिट को दिखा सकते हैं. उदाहरण के लिए, कंप्यूटर विज़न में टोकन, इमेज का सबसेट हो सकता है.

ट्रांसफ़र्मर

#language

Google पर डेवलप किया गया न्यूरल नेटवर्क का आर्किटेक्चर, अपने हिसाब से काम करता है. इसकी मदद से, इनपुट एम्बेड करने के क्रम को बदला जाता है. यह क्रम, आउटपुट के एम्बेड किए जाने के क्रम में होता है. इसके लिए, संवाद या बार-बार आने वाले न्यूरल नेटवर्क पर भरोसा नहीं करना पड़ता. एक ट्रांसफ़ॉर्मर खुद की ध्यान करने के लिए परत के रूप में देखा जा सकता है.

एक ट्रांसफ़ॉर्मर में इनमें से कोई भी शामिल हो सकता है:

एन्कोडर, एम्बेड किए जाने के क्रम को उसी लंबाई वाले नए क्रम में बदल देता है. एक एन्कोडर में एक जैसी लेयर शामिल होती हैं. हर लेयर में दो सब-लेयर होते हैं. ये दो सब-लेयर, इनपुट एम्बेड करने के क्रम की हर जगह पर लागू किए जाते हैं. ये क्रम के हर एलिमेंट को नए एम्बेडिंग में बदल देते हैं. पहली एन्कोडर सब-लेयर, क्रम से जानकारी इकट्ठा करती है. दूसरा एन्कोडर सब-लेयर, एग्रीगेट की गई जानकारी को आउटपुट एम्बेडिंग में बदलता है.

डिकोडर, इनपुट एम्बेड करने के क्रम को आउटपुट एम्बेडिंग के क्रम में बदल देता है. डिकोडर में, तीन सब-लेयर वाली एक जैसी लेयर शामिल होती हैं. इनमें से दो लेयर, एन्कोडर सब-लेयर की तरह होती हैं. तीसरी डिकोडर सब-लेयर, एन्कोडर का आउटपुट लेती है और उससे जानकारी इकट्ठा करने के लिए, अपने हिसाब से ध्यान देने वाली तकनीक लागू करती है.

ब्लॉग पोस्ट Transformer: भाषा के लिए एक नॉवेल न्यूरल नेटवर्क आर्किटेक्चर समझने में पूरी तरह से ट्रांसफ़ॉर्मर के लिए शुरुआती जानकारी देता है.

त्रिभुज

#seq
#language

N-ग्राम, जिसमें N=3 होता है.

U

एकतरफ़ा

#language

यह एक ऐसा सिस्टम है जो सिर्फ़ उस टेक्स्ट का आकलन करता है जो टेक्स्ट के टारगेट सेक्शन से पीछे आता है. इसके उलट, बाईडायरेक्शनल सिस्टम, टेक्स्ट के टारगेट सेक्शन से पहले और फ़ॉलो करने वाले, दोनों तरह के टेक्स्ट का आकलन करता है. ज़्यादा जानकारी के लिए, दो दिशाओं वाला देखें.

एक भाषा का मॉडल

#language

भाषा का मॉडल, इसकी संभावनाओं को सिर्फ़ टोकन पर आधारित करता है, जो टारगेट टोकन से बाद में नहीं दिखता है. दूसरी भाषा के मॉडल के उलट लिखें.

V

वैरिएशनर ऑटोएन्कोडर (VAE)

#language

इस तरह का autoencoder, इनपुट और आउटपुट के बीच के अंतर का इस्तेमाल करके, इनपुट के बदले गए वर्शन जनरेट करता है. वैरिएशन वाले ऑटोकोडर, एआई (AI) के लिए काम करते हैं.

वीएई, अलग-अलग अनुमान पर आधारित होते हैं. इनकी मदद से, प्रॉबेबिलिटी मॉडल के पैरामीटर का अनुमान लगाया जाता है.

W

शब्द एम्बेड करना

#language

एम्बेड करने वाले वेक्टर से सेट किए गए शब्द के हर शब्द को प्रज़ेंट करना. इसका मतलब है कि हर शब्द को 0.0 से 1.0 के बीच की फ़्लोटिंग-पॉइंट वैल्यू के वेक्टर के तौर पर दिखाया जा रहा है. एक जैसे मतलब वाले शब्द, अलग-अलग मतलब वाले शब्दों से ज़्यादा मिलते-जुलते होते हैं. उदाहरण के लिए, गाजर, सेलरी, और कंबर के सब कुछ एक जैसे ही होंगे. यह हवाई जहाज़, धूप का चश्मा, और टूथपेस्ट को दिखाने से काफ़ी अलग होगा.

Z

ज़ीरो-शॉट प्रॉम्प्ट

#language
#generativeAI

अनुरोध में यह बताया गया है कि बड़े भाषा मॉडल में किस तरह जवाब देना है, नहीं. उदाहरण के लिए:

एक प्रॉम्प्ट के हिस्से नोट
किसी देश की आधिकारिक मुद्रा क्या है? वह सवाल जिसका जवाब एलएलएम से चाहिए.
भारत: असल क्वेरी.

ऐसा हो सकता है कि चुनी गई भाषा वाला मॉडल, इनमें से किसी भी विकल्प के साथ काम करे:

  • रुपया
  • INR
  • भारतीय रुपया
  • रुपया
  • भारतीय रुपया

सभी जवाब सही हैं. हालांकि, एक खास फ़ॉर्मैट का इस्तेमाल किया जा सकता है.

ज़ीरो-शॉट प्रॉम्प्टिंग की तुलना इसके अलावा, इन शब्दों से करें: