मशीन लर्निंग ग्लॉसरी: इमेज मॉडल

इस पेज में इमेज मॉडल की ग्लॉसरी के शब्द मौजूद हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

जवाब

बढ़ी हुई वास्तविकता

#image

ऐसी टेक्नोलॉजी जो कंप्यूटर से जनरेट की गई इमेज को, उपयोगकर्ता की असल दुनिया के व्यू से जोड़ देती है. इस तरह, यह एक कंपोज़िट व्यू उपलब्ध कराती है.

ऑटोएनकोडर

#language
#image

एक ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी निकालना सीखता है. ऑटोएनकोडर, एन्कोडर और डीकोडर का कॉम्बिनेशन होता है. ऑटोएनकोडर नीचे दी गई दो चरणों वाली प्रोसेस पर निर्भर करते हैं:

  1. एन्कोडर, इनपुट को (आम तौर पर) नुकसान वाले लोअर डाइमेंशन (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
  2. डिकोडर, कम डाइमेंशन वाले फ़ॉर्मैट को ओरिजनल हाई डाइमेंशन इनपुट फ़ॉर्मैट से मैप करके, ओरिजनल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.

ऑटोकोडर को एंड-टू-एंड ट्रेनिंग दी जाती है. डिकोडर की मदद से, एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से ओरिजनल इनपुट को जितना हो सके, उतना करीब से बनाया जाता है. इंटरमीडिएट फ़ॉर्मैट, ओरिजनल फ़ॉर्मैट से छोटा (लोअर-डाइमेंशन) होता है, इसलिए ऑटोएनकोडर को यह समझने के लिए मजबूर किया जाता है कि इनपुट में दी गई कौनसी जानकारी ज़रूरी है. आउटपुट, इनपुट से पूरी तरह मेल नहीं खाता.

उदाहरण के लिए:

  • अगर इनपुट डेटा ग्राफ़िक है, तो सटीक कॉपी न दिखने वाली कॉपी ओरिजनल ग्राफ़िक की तरह होगी, लेकिन उसमें कुछ हद तक बदलाव किया गया होगा. ऐसा भी हो सकता है कि टेक्स्ट की पूरी तरह कॉपी न होने पर, ओरिजनल ग्राफ़िक से शोर को हटा दिया जाए या कुछ पिक्सल में कमी हो जाए.
  • अगर इनपुट डेटा टेक्स्ट है, तो ऑटोएनकोडर नया टेक्स्ट जनरेट करेगा. यह मूल टेक्स्ट की नकल (लेकिन, उससे अलग) होगा.

अलग-अलग ऑटोएनकोडर भी देखें.

ऑटो-रिग्रेसिव मॉडल

#language
#image
#generativeAI

ऐसा model जो अपने पिछले अनुमानों के आधार पर, किसी अनुमान का अनुमान लगाता है. उदाहरण के लिए, ऑटो-रिग्रेसिव लैंग्वेज मॉडल, पहले बताए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. ट्रांसफ़ॉर्मर पर आधारित बड़े लैंग्वेज मॉडल, ऑटो-रिग्रेसिव होते हैं.

वहीं दूसरी ओर, GAN पर आधारित इमेज मॉडल आम तौर पर ऑटो-रिग्रेसिव नहीं होते, क्योंकि वे एक ही फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और बार-बार ऐसा नहीं करते. हालांकि, कुछ इमेज जनरेट करने वाले मॉडल, ऑटो-रिग्रेसिव होते हैं, क्योंकि वे चरणों में इमेज जनरेट करते हैं.

B

बाउंडिंग बॉक्स

#image

इमेज में, दिलचस्पी वाली जगह के आस-पास एक रेक्टैंगल के (x, y) निर्देशांक, जैसे कि नीचे की इमेज में दिख रहा कुत्ता.

सोफ़े पर बैठे कुत्ते की फ़ोटो. हरे रंग का एक बाउंडिंग बॉक्स
 कुत्ते के शरीर को घेरता है. बॉक्स में
 ऊपर बाईं ओर (275, 1271) और सबसे नीचे दाएं
कोऑर्डिनेट (2954, 2761) हैं.

C

कॉन्वोलूशन

#image

गणित में, सिंपल बोले जाने पर, दो फ़ंक्शन का एक मिला-जुला रूप. मशीन लर्निंग में, कन्वर्ज़न में वज़न को ट्रेनिंग देने के लिए कंवोलूशनल फ़िल्टर और इनपुट मैट्रिक्स को मिक्स किया जाता है.

मशीन लर्निंग में "कंवोलूशन" शब्द आम तौर पर, कंवोलूशनल ऑपरेशन या कंवोलूशनल लेयर का छोटा रूप होता है.

कन्वर्ज़न के बिना, मशीन लर्निंग एल्गोरिदम को बड़े टेंसर में हर सेल के लिए, अलग से वज़न सीखना पड़ता. उदाहरण के लिए, 2K x 2K इमेज पर ट्रेनिंग लेने वाले मशीन लर्निंग एल्गोरिदम को 40 लाख अलग-अलग वेट अपनाने होंगे. कन्वर्ज़न की वजह से, मशीन लर्निंग एल्गोरिदम को कंवोलूशनल फ़िल्टर में मौजूद हर सेल का सिर्फ़ वेट पता करना होता है. इससे मॉडल को ट्रेनिंग देने के लिए ज़रूरी मेमोरी काफ़ी कम हो जाती है. जब कॉन्वोलूशनल फ़िल्टर को लागू किया जाता है, तो उसे सेल में इस तरह कॉपी किया जाता है कि हर सेल को फ़िल्टर से गुणा किया जाता है.

कॉन्वलूशनल फ़िल्टर

#image

उन दो अभिनेताओं में से एक, कंवोलूशनल ऑपरेशन में हिस्सा ले रहे हैं. (दूसरा अभिनेता, इनपुट मैट्रिक्स का एक हिस्सा है.) कॉन्वोलूशनल फ़िल्टर एक ऐसा मैट्रिक्स है जिसमें इनपुट मैट्रिक्स की तरह ही रैंक होती है, लेकिन उसका आकार छोटा होता है. उदाहरण के लिए, 28x28 इनपुट मैट्रिक्स दिए जाने पर, फ़िल्टर 28x28 से छोटा कोई भी 2D मैट्रिक्स हो सकता है.

फ़ोटोग्राफ़िक हेर-फेर में, किसी कन्वलूशनल फ़िल्टर में मौजूद सभी कोशिकाएं आम तौर पर, एक और शून्य के स्थिर पैटर्न पर सेट होती हैं. मशीन लर्निंग में, कॉन्वोलूशनल फ़िल्टर को आम तौर पर रैंडम नंबर के साथ जोड़ा जाता है और फिर नेटवर्क, सही वैल्यू ट्रेन करता है.

कॉन्वलूशनल लेयर

#image

डीप न्यूरल नेटवर्क की एक लेयर, जिसमें कंवोलूशनल फ़िल्टर किसी इनपुट मैट्रिक्स के साथ पास होता है. उदाहरण के लिए, यहां दिए गए 3x3 फ़ॉर्मैट वाले कंवोलूशनल फ़िल्टर का इस्तेमाल करें:

इन वैल्यू वाला 3x3 मैट्रिक्स: [[0,1,0], [1,0,1], [0,1,0]]

नीचे दिया गया ऐनिमेशन, कॉन्वोलूशनल लेयर दिखाता है. इसमें 5x5 इनपुट मैट्रिक्स को शामिल करते हुए 9 कंवोल्यूशनल ऑपरेटर मौजूद हैं. ध्यान दें कि हर कन्वोलूशनल ऑपरेशन, इनपुट मैट्रिक्स के अलग-अलग 3x3 स्लाइस पर काम करता है. दाईं ओर मौजूद 3x3 वाली मैट्रिक्स में, नौ कंवोलूशनल ऑपरेशन के नतीजे होते हैं:

एक ऐनिमेशन, जिसमें दो मैट्रिक्स दिखाए जा रहे हैं. पहला मैट्रिक्स 5x5 वाला मैट्रिक्स है: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,179,2]1,3.1,
          दूसरा मैट्रिक्स 3x3 मैट्रिक्स है:
          [[1,81,303,618], [11,53,38,605], [1,69,351,560]].
          दूसरे मैट्रिक्स को कैलकुलेट करने के लिए, 5x5 मैट्रिक्स के अलग-अलग 3x3 सबसेट में, कन्वोलूशनल फ़िल्टर [[0, 1, 0], [1, 0, 1], [0, 1, 0]] लागू किया जाता है.

कॉन्वलूशनल न्यूरल नेटवर्क

#image

न्यूरल नेटवर्क, जिसमें कम से कम एक लेयर, कंवोलूशनल लेयर होती है. एक सामान्य कॉन्वलूशनल न्यूरल नेटवर्क में नीचे दी गई लेयर के कुछ कॉम्बिनेशन होते हैं:

कॉन्वोलूशनल न्यूरल नेटवर्क को इमेज की पहचान जैसी कुछ खास तरह की समस्याओं में बड़ी सफलता मिली है.

कॉन्वोलूशनल ऑपरेशन

#image

नीचे दिए गए दो चरणों में गणित के नियम:

  1. कंवोलूशनल फ़िल्टर और इनपुट मैट्रिक्स के एक स्लाइस के एलिमेंट के हिसाब से गुणा करना. (इनपुट मैट्रिक्स के स्लाइस की रैंक और साइज़ वही होता है जो कन्वलूशनल फ़िल्टर की होती है.)
  2. नतीजे के प्रॉडक्ट मैट्रिक्स में सभी वैल्यू का योग.

उदाहरण के लिए, नीचे दिए गए 5x5 इनपुट मैट्रिक्स पर विचार करें:

5x5 वाली मैट्रिक्स: [[1,28,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [30,719].1,

अब नीचे दिए गए 2x2 कॉन्वोलूशनल फ़िल्टर की कल्पना करें:

2x2 मैट्रिक्स: [[1, 0], [0, 1]]

हर कन्वलूशनल ऑपरेशन में इनपुट मैट्रिक्स का एक 2x2 स्लाइस शामिल होता है. उदाहरण के लिए, मान लें कि हम इनपुट मैट्रिक्स के सबसे ऊपर बाईं ओर मौजूद 2x2 स्लाइस का इस्तेमाल करते हैं. इसलिए, इस स्लाइस पर कन्वर्ज़न ऐक्शन इस तरह दिखता है:

इनपुट मैट्रिक्स के सबसे ऊपर बाईं ओर 2x2 सेक्शन में [[1, 0], [0, 1]] लागू किया जा रहा है, जो [[1,28,97], [35,22]] है.
          कॉन्वलूशनल फ़िल्टर की वजह से, 128 और 22 पर कोई असर नहीं पड़ता, लेकिन
          97 और 35 की संख्या शून्य हो जाती है. इससे, कन्वर्ज़न ऑपरेशन की वैल्यू 150 (128+22) मिलती है.

कंवोलूशनल लेयर में कन्वोलूशनल लेयर होती है, जो इनपुट मैट्रिक्स के अलग-अलग स्लाइस पर काम करती है.

D

डेटा ऑग्मेंटेशन

#image

ट्रेनिंग के उदाहरणों की संख्या और रेंज को गलत तरीके से बढ़ाने के लिए, मौजूदा उदाहरणों में बदलाव करें. उदाहरण के लिए, मान लीजिए कि इमेज आपकी सुविधाओं में से एक है, लेकिन आपके डेटासेट में इमेज के उतने उदाहरण नहीं हैं जितने ज़रूरी हैं. आम तौर पर, मॉडल को सही तरीके से ट्रेनिंग देने के लिए, आपको अपने डेटासेट में लेबल वाली काफ़ी इमेज जोड़नी होंगी. अगर ऐसा नहीं हो सकता, तो डेटा को बेहतर बनाने की सुविधा की मदद से, हर इमेज को घुमाया जा सकता है, फैलाया जा सकता है, और दिखाया जा सकता है. इससे, ओरिजनल तस्वीर के कई वैरिएंट बनाने में मदद मिलती है. इससे, लेबल किया गया डेटा मिल जाता है, ताकि बेहतर ट्रेनिंग दी जा सके.

गहराई से अलग किए जा सकने वाले कॉन्वोलूशनल न्यूरल नेटवर्क (sepCNN)

#image

कनवोलूशनल न्यूरल नेटवर्क आर्किटेक्चर, इनसेप्शन पर आधारित है, लेकिन जहां इंसेप्शन मॉड्यूल को गहराई से अलग किए जा सकने वाले कंवोल्यूशन से बदला जाता है. इसे Xसेप्शन के नाम से भी जाना जाता है.

गहराई से अलग किए जा सकने वाले कॉन्वोल्यूशन (इसे अलग किए जा सकने वाले कन्वर्ज़न के तौर पर भी कहा जाता है) स्टैंडर्ड 3-D कॉन्वोल्यूशन को, दो अलग-अलग कॉन्वोलूशन कार्रवाइयों में बांटता है. इससे पहले, बेहतर तरीके से कॉन्वोलूशन का इस्तेमाल किया जाता है: पहला, गहराई से कॉन्वोलूशन, जिसमें 1 की गहराई (n ἁ n शुरुआत 1) होती है और फिर दूसरा, चरण 1, बिंदु की चौड़ाई, और 1 अंक के साथ.

ज़्यादा जानने के लिए, Xeption: डेप्थवाइज़ डिपेरेबल कन्वर्ज़न के साथ डीप लर्निंग लेख पढ़ें.

डाउनसैंपलिंग

#image

बहुत ज़्यादा लोड होने वाले शब्द का मतलब इनमें से कोई एक हो सकता है:

  • किसी मॉडल को बेहतर तरीके से ट्रेन करने के लिए, सुविधा में जानकारी की मात्रा कम करना. उदाहरण के लिए, किसी इमेज की पहचान करने वाले मॉडल की ट्रेनिंग से पहले, हाई-रिज़ॉल्यूशन वाली इमेज को लो-रिज़ॉल्यूशन वाले फ़ॉर्मैट में डाउनसैंपल करना.
  • क्लास से जुड़े उन उदाहरणों पर ट्रेनिंग दी जाती है जिन्हें ज़रूरत से ज़्यादा दिखाया गया हो. इसका मकसद, उन कक्षाओं के लिए मॉडल ट्रेनिंग को बेहतर बनाना है जिनमें कम पहचान दिलाने की कोशिश की गई है. उदाहरण के लिए, क्लास-अबैलेंस वाले डेटासेट में, मॉडल मेजरिटी क्लास के बारे में काफ़ी जानकारी हासिल करते हैं, न कि अल्पसंख्यक क्लास के बारे में. डाउनसैंपलिंग की मदद से, ज़्यादातर और अल्पसंख्यकों के लिए ट्रेनिंग के बीच संतुलन बनाया जा सकता है.

F

फ़ाइन ट्यूनिंग

#language
#image
#generativeAI

दूसरा, टास्क के हिसाब से दिया जाने वाला ट्रेनिंग पास. इसे पहले से ट्रेनिंग दिए गए मॉडल पर परफ़ॉर्म किया जाता है, ताकि किसी खास इस्तेमाल के उदाहरण के लिए इसके पैरामीटर को बेहतर बनाया जा सके. उदाहरण के लिए, कुछ बड़े लैंग्वेज मॉडल के लिए ट्रेनिंग का पूरा सीक्वेंस इस तरह है:

  1. ट्रेनिंग शुरू करने से पहले: एक बड़े सामान्य डेटासेट पर बड़े भाषा मॉडल को ट्रेनिंग दें, जैसे कि अंग्रेज़ी भाषा के सभी Wikipedia पेज.
  2. फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, स्वास्थ्य से जुड़ी क्वेरी का जवाब देना. आम तौर पर, किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.

एक अन्य उदाहरण में, बड़े इमेज मॉडल के लिए ट्रेनिंग का पूरा क्रम इस तरह है:

  1. प्री-ट्रेनिंग: एक बड़े सामान्य इमेज डेटासेट पर एक बड़े इमेज मॉडल को ट्रेनिंग दें, जैसे कि 'विकिमीडिया कॉमन्स' में मौजूद सभी इमेज.
  2. फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, ओरका की इमेज जनरेट करना.

फ़ाइन-ट्यूनिंग के लिए नीचे दी गई रणनीतियों का कोई भी कॉम्बिनेशन लागू हो सकता है:

  • पहले से ट्रेनिंग दिए गए मॉडल के सभी मौजूदा पैरामीटर में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन-ट्यूनिंग भी कहा जाता है.
  • पहले से ट्रेनिंग वाले मॉडल के सिर्फ़ कुछ मौजूदा पैरामीटर में बदलाव करता है (आम तौर पर, आउटपुट लेयर के सबसे करीब लेयर). अन्य मौजूदा पैरामीटर में कोई बदलाव नहीं करता है (आम तौर पर, लेयर इनपुट लेयर के आस-पास होती हैं). पैरामीटर की बेहतर ट्यूनिंग देखें.
  • ज़्यादा लेयर जोड़ना, आम तौर पर आउटपुट लेयर के सबसे करीब मौजूद लेयर के ऊपर.

फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक तरीका है. इसलिए, फ़ाइन-ट्यूनिंग के लिए नुकसान पहुंचाने वाले किसी अलग फ़ंक्शन या मॉडल टाइप का इस्तेमाल किया जा सकता है, जो पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देने वाले फ़ंक्शन से अलग होता है. उदाहरण के लिए, आपके पास पहले से ट्रेनिंग वाले बड़े इमेज मॉडल को इस तरह से बेहतर बनाने का विकल्प है कि रिग्रेशन मॉडल बनाया जा सके. इससे इनपुट इमेज में पक्षियों की संख्या दिखाई जाएगी.

इन शब्दों से तुलना करें और इनकी तुलना करें:

G

जनरेटिव एआई

#language
#image
#generativeAI

औपचारिक परिभाषा वाला कोई उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञों का मानना है कि जनरेटिव एआई (AI) मॉडल, इस तरह का कॉन्टेंट बना ("जनरेट") कर सकते हैं.

  • जटिल
  • अनुकूल
  • मूल

उदाहरण के लिए, जनरेटिव एआई (AI) मॉडल से मुश्किल निबंध या इमेज बनाई जा सकती हैं.

कुछ पुरानी टेक्नोलॉजी भी ओरिजनल और एक जैसा कॉन्टेंट जनरेट कर सकती हैं. इन टेक्नोलॉजी में, LSTM और RNN शामिल हैं. कुछ विशेषज्ञ इन पुरानी टेक्नोलॉजी को जनरेटिव एआई मानते हैं. हालांकि, कुछ का मानना है कि असल में जनरेटिव एआई को पहले की टेक्नोलॉजी के मुकाबले ज़्यादा मुश्किल आउटपुट की ज़रूरत होती है.

अनुमानित एमएल का कंट्रास्ट.

I

इमेज पहचानने की सुविधा

#image

ऐसी प्रोसेस जो किसी इमेज में मौजूद ऑब्जेक्ट, पैटर्न या कॉन्सेप्ट को अलग-अलग कैटगरी में बांटती है. इमेज की पहचान करने की सुविधा को इमेज क्लासिफ़िकेशन भी कहा जाता है.

ज़्यादा जानकारी के लिए, एमएल प्रैक्टिकल: इमेज क्लासिफ़िकेशन देखें.

यूनियन पर इंटरसेक्शन (IoU)

#image

दो सेट का इंटरसेक्शन, जो उनके यूनियन से भाग दिया जाता है. मशीन लर्निंग में इमेज की पहचान करने वाले टास्क में, IoU का इस्तेमाल मॉडल के अनुमानित बाउंडिंग बॉक्स को मापने के लिए किया जाता है. ऐसा ग्राउंड-ट्रुथ बाउंडिंग बॉक्स के हिसाब से किया जाता है. इस मामले में, दो बॉक्स के लिए IoU, ओवरलैप होने वाली जगह और कुल इलाके के बीच का अनुपात है और इसकी वैल्यू 0 से (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रुथ बाउंडिंग बॉक्स का ओवरलैप नहीं) से 1 (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रुथ बाउंडिंग बॉक्स के बीच का अनुपात) बिलकुल समान होती है.

उदाहरण के लिए, नीचे दी गई इमेज में:

  • अनुमानित बाउंडिंग बॉक्स (वे कोऑर्डिनेट को सीमांकित किया जाता है जहां मॉडल पेंटिंग में रात की टेबल का अनुमान लगाता है) बैंगनी रंग में दिखाया गया है.
  • ग्राउंड-ट्रूथ बाउंडिंग बॉक्स (पेंटिंग में रात की टेबल जिस जगह पर है, उसे दिखाने वाले कोऑर्डिनेट) हरे रंग से आउटलाइन किए गए हैं.

वैन गॉग 'आर्ल्स में विंसेंट्स बेडरूम' की पेंटिंग बना रहे हैं. इसमें बिस्तर के बगल में नाइट टेबल के चारों ओर दो अलग-अलग बाउंडिंग बॉक्स हैं. ग्राउंड-ट्रुथ बाउंडिंग बॉक्स (हरे रंग में) से नाइट टेबल को पूरी तरह से घेरता है. अनुमानित बाउंडिंग बॉक्स (बैंगनी रंग में)

यहां, अनुमान और असल जानकारी के लिए बाउंडिंग बॉक्स का इंटरसेक्शन (नीचे बाईं ओर) 1 है और अनुमान और असल जानकारी के लिए बाउंडिंग बॉक्स का कॉम्बिनेशन (नीचे दाईं ओर) 7 है. इसलिए, IoU \(\frac{1}{7}\)है.

ऊपर दी गई इमेज जैसी ही है, लेकिन उसमें हर बाउंडिंग बॉक्स को चार
          क्वाड्रेंट में बांटा गया है. कुल सात क्वाड्रेंट हैं, क्योंकि ग्राउंड-ट्रुथ बाउंडिंग बॉक्स का सबसे नीचे दाईं ओर वाला क्वाड्रेंट और अनुमानित बाउंडिंग बॉक्स का सबसे ऊपर बाईं ओर का क्वाड्रेंट एक-दूसरे को ओवरलैप कर रहा है. ओवरलैप होने वाला यह सेक्शन (हरे रंग से हाइलाइट किया गया) चौराहे को दिखाता है और इसका एरिया 1 है. ऊपर दी गई इमेज जैसी ही है, लेकिन उसमें हर बाउंडिंग बॉक्स को चार
          क्वाड्रेंट में बांटा गया है. कुल सात क्वाड्रेंट हैं, क्योंकि ग्राउंड-ट्रुथ बाउंडिंग बॉक्स का सबसे नीचे दाईं ओर वाला क्वाड्रेंट और अनुमानित बाउंडिंग बॉक्स का सबसे ऊपर बाईं ओर का क्वाड्रेंट एक-दूसरे को ओवरलैप कर रहा है.
          दोनों बाउंडिंग बॉक्स से घिरा पूरा अंदरूनी हिस्सा (हरे रंग से हाइलाइट किया गया), यूनियन को दिखाता है और इसमें सात का क्षेत्रफल है.

K

की-पॉइंट

#image

किसी इमेज में मौजूद खास सुविधाओं के कोऑर्डिनेट. उदाहरण के लिए, इमेज की पहचान करने वाले मॉडल के लिए, जो फूलों की प्रजातियों के बीच अंतर करता है, उसकी हर पंखुड़ी, स्टेम, और स्टैमन वगैरह के बीच की पॉइंट हो सकते हैं.

L

लैंडमार्क

#image

कीपॉइंट के लिए समानार्थी शब्द.

सोम

एमएनआईएसटी

#image

LeCun, Cortes, और बर्गर ने एक सार्वजनिक डोमेन डेटासेट इकट्ठा किया है,जिसमें 60, 000 इमेज हैं. हर इमेज में दिखाया गया है कि किसी व्यक्ति ने 0-9 तक के किसी खास अंक को मैन्युअल तरीके से कैसे लिखा. हर इमेज को पूर्णांक की 28x28 ऐरे के तौर पर सेव किया जाता है. इसमें हर पूर्णांक में 0 से 255 के बीच की एक ग्रेस्केल वैल्यू होती है.

एमएनआईएसटी, मशीन लर्निंग के लिए एक कैननिकल डेटासेट है. इसका इस्तेमाल, अक्सर मशीन लर्निंग के नए तरीकों की जांच करने के लिए किया जाता है. ज़्यादा जानकारी के लिए, हैंडराइट किए गए अंकों का MNIST डेटाबेस देखें.

P

पूलिंग

#image

पहले की कंवोलूशनल लेयर से बने मैट्रिक्स या मैट्रिक्स को छोटा करके, छोटा मैट्रिक्स बनाना. आम तौर पर, पूलिंग में पूल की गई जगह की ज़्यादा से ज़्यादा या औसत वैल्यू ली जाती है. उदाहरण के लिए, मान लें कि हमारे पास नीचे दिया गया 3x3 का मैट्रिक्स है:

3x3 वाली मैट्रिक्स [[5,3,1], [8,2,5], [9,4,3]].

कॉन्वलूशनल ऑपरेशन की तरह ही, पूल करने का ऑपरेशन, उस मैट्रिक्स को स्लाइस में बांटता है और फिर उस कन्वर्ज़न को स्ट्रिड से स्लाइड करता है. उदाहरण के लिए, मान लें कि पूलिंग ऑपरेशन, कन्वोलूशनल मैट्रिक्स को 1x1 स्ट्राइड के साथ 2x2 स्लाइस में बांटता है. जैसा कि नीचे दिए गए डायग्राम में दिखाया गया है, पूल करने की चार कार्रवाइयां होती हैं. मान लें कि पूल करने की हर कार्रवाई में, उस स्लाइस में मौजूद चार वैल्यू की ज़्यादा से ज़्यादा वैल्यू चुनी जाती है:

इनपुट मैट्रिक्स 3x3 की वैल्यू है, जिसकी वैल्यू हैं: [[5,3,1], [8,2,5], [9,4,3]].
          इनपुट मैट्रिक्स का सबसे ऊपर बाईं ओर वाला 2x2 सबमैट्रिक्स [[5,3], [8,2]] है, इसलिए
 सबसे ऊपर बाईं ओर पूल करने की कार्रवाई से वैल्यू 8 (5, 3, 8, और 2) मिलती है. इनपुट मैट्रिक्स का सबसे ऊपर दाईं ओर वाला 2x2 सबमैट्रिक्स [[3,1], [2,5]] है. इसलिए, सबसे ऊपर दाईं ओर पूल करने की कार्रवाई से
 वैल्यू 5 मिलती है. इनपुट मैट्रिक्स का सबसे नीचे बाईं ओर मौजूद 2x2 सबमैट्रिक्स [[8,2], [9,4]] है. इसलिए, सबसे नीचे बाईं ओर पूल करने की कार्रवाई से 9 की वैल्यू मिलती है. इनपुट मैट्रिक्स का सबसे नीचे दाईं ओर वाला 2x2 सबमैट्रिक्स,
          [[2,5], [4,3]] है. इसलिए, सबसे नीचे दाईं ओर पूल करने की कार्रवाई से, वैल्यू
          5 मिलती है. खास जानकारी में, पूल करने की कार्रवाई से 2x2 मैट्रिक्स मिलता है
          [[8,5], [9,5]].

पूलिंग की मदद से, इनपुट मैट्रिक्स में ट्रांसलेशनल इनवैरिएंस लागू किया जा सकता है.

विज़न ऐप्लिकेशन के लिए पूलिंग को औपचारिक तौर पर स्पेशल पूलिंग कहा जाता है. टाइम सीरीज़ ऐप्लिकेशन में, आम तौर पर पूलिंग को टेंपोरल पूलिंग कहा जाता है. औपचारिक तौर पर, पूलिंग को सबसैंपलिंग या डाउनसैंपलिंग कहा जाता है.

पहले से ट्रेनिंग वाला मॉडल

#language
#image
#generativeAI

ऐसे मॉडल या मॉडल कॉम्पोनेंट जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. जैसे, एम्बेड करने वाला वेक्टर. कभी-कभी, आपको पहले से ट्रेनिंग दिए गए एम्बेडिंग वेक्टर को न्यूरल नेटवर्क में फ़ीड करना होगा. अन्य बार, आपका मॉडल पहले से प्रशिक्षित एम्बेड करने पर निर्भर होने के बजाय, एम्बेड किए जाने वाले वेक्टर को खुद ही प्रशिक्षित करेगा.

पहले से प्रशिक्षित भाषा मॉडल शब्द का मतलब, बड़े भाषा के मॉडल से है, जिसे प्री-ट्रेनिंग से गुज़रना पड़ा.

प्री-ट्रेनिंग

#language
#image
#generativeAI

बड़े डेटासेट पर किसी मॉडल की शुरुआती ट्रेनिंग. कुछ पहले से ट्रेनिंग दिए गए मॉडल, अनाड़ी जायंट होते हैं और आम तौर पर उन्हें अतिरिक्त ट्रेनिंग की मदद से और बेहतर बनाया जा सकता है. उदाहरण के लिए, मशीन लर्निंग विशेषज्ञ एक बड़े टेक्स्ट डेटासेट, जैसे कि विकिपीडिया में अंग्रेज़ी के सभी पेजों पर बड़े भाषा मॉडल को पहले से ट्रेनिंग दे सकते हैं. प्री-ट्रेनिंग के बाद, इनमें से किसी भी तकनीक का इस्तेमाल करके, मॉडल को और बेहतर बनाया जा सकता है:

R

रोटेशनल इनवैरिएंस

#image

इमेज की कैटगरी तय करने से जुड़ी समस्या में, इमेज का ओरिएंटेशन बदलने पर भी इमेज की कैटगरी तय करने की एल्गोरिदम की क्षमता. उदाहरण के लिए, एल्गोरिदम अब भी टेनिस रैकेट की पहचान कर सकता है, चाहे वह ऊपर की ओर इशारा कर रहा हो, साइडवे या नीचे हो. ध्यान दें कि रोटेशनल इनवैरिएंस हमेशा ज़रूरी नहीं होता है; उदाहरण के लिए, अपसाइड-डाउन 9 को 9 के तौर पर कैटगरी में नहीं रखा जाना चाहिए.

ट्रांसलेशनल इनवैरियंस और साइज़ का इनवैरियंस भी देखें.

S

साइज़ इनवैरिएंस

#image

इमेज की कैटगरी तय करने में होने वाली समस्या में, इमेज का साइज़ बदलने पर भी इमेज की कैटगरी तय करने की एल्गोरिदम की क्षमता. उदाहरण के लिए, एल्गोरिदम अब भी बिल्ली की पहचान कर सकता है वह 2M पिक्सल का इस्तेमाल करती है या 200K पिक्सल. ध्यान रखें कि इमेज क्लासिफ़िकेशन के सबसे अच्छे एल्गोरिदम के मामले में भी, साइज़ के उतार-चढ़ाव को लेकर व्यावहारिक सीमाएं लागू होती हैं. उदाहरण के लिए, हो सकता है कि कोई एल्गोरिदम (या कोई व्यक्ति) सिर्फ़ 20 पिक्सल वाली बिल्ली की इमेज की सही कैटगरी तय न कर पाए.

ट्रांसलेशनल इनवैरियंस और रोटेशनल इनवैरिएंस भी देखें.

स्पेशल पूलिंग

#image

पूलिंग देखें.

स्ट्राइड

#image

कॉन्वलूशनल ऑपरेशन या पूलिंग में, इनपुट स्लाइस की अगली सीरीज़ के हर डाइमेंशन में डेल्टा. उदाहरण के लिए, नीचे दिया गया ऐनिमेशन कन्वलूशनल ऑपरेशन के दौरान (1,1) चाल को दिखाता है. इसलिए, अगला इनपुट स्लाइस, पिछले इनपुट स्लाइस के दाईं ओर एक पोज़िशन शुरू करता है. जब कार्रवाई दाएं किनारे पर पहुंच जाती है, तो अगला स्लाइस बाईं ओर एक स्थिति नीचे होता है.

इनपुट 5x5 मैट्रिक्स और 3x3 कॉन्वोलूशनल फ़िल्टर. स्ट्राइड (1,1)
     होने की वजह से, कॉन्वलूशनल फ़िल्टर को नौ बार लागू किया जाएगा. पहला कॉन्वोलूशनल स्लाइस, इनपुट मैट्रिक्स के सबसे ऊपर बाएं 3x3 सबमैट्रिक्स की जांच करता है. दूसरा स्लाइस, टॉप-मिडल 3x3
     सबमैट्रिक्स का आकलन करता है. तीसरा कॉन्वोलूशनल स्लाइस, सबसे ऊपर दाईं ओर मौजूद 3x3 वाले सबमैट्रिक्स की जांच करता है.  चौथा स्लाइस, बीच के बाएं 3x3 सबमैट्रिक्स की जांच करता है.
     पांचवा स्लाइस, बीच वाले 3x3 सबमैट्रिक्स की जांच करता है. छठा स्लाइस,
     बीच के दाईं ओर मौजूद 3x3 सबमैट्रिक्स की जांच करता है. सातवां स्लाइस, सबसे नीचे बाईं ओर मौजूद 3x3 सबमैट्रिक्स की जांच करता है.  आठवां स्लाइस, बॉटम-मिडल 3x3 सबमेट्रिक्स
     का आकलन करता है. नौवां स्लाइस, निचले दाएं हिस्से के 3x3 सबमैट्रिक्स की जांच करता है.

पिछला उदाहरण दो-डाइमेंशन वाले चाल को दिखाता है. अगर इनपुट मैट्रिक्स तीन-डाइमेंशन वाला है, तो चाल भी तीन-डाइमेंशन वाली होगी.

सबसैंपलिंग

#image

पूलिंग देखें.

T

तापमान

#language
#image
#generativeAI

हाइपर पैरामीटर, जो किसी मॉडल के आउटपुट की रैंडमनेस की डिग्री को कंट्रोल करता है. ज़्यादा तापमान से ज़्यादा आउटपुट मिलता है, जबकि कम तापमान से आउटपुट बिलकुल कम मिलता है.

सबसे सही तापमान चुनना, ऐप्लिकेशन और मॉडल से मिलने वाले आउटपुट से जुड़ी ज़रूरी प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय, हो सकता है कि आप तापमान को बढ़ाएं. इसके ठीक उलट, हो सकता है कि आप मॉडल बनाते समय तापमान कम करें, जो इमेज या टेक्स्ट की कैटगरी तय करता हो, ताकि मॉडल को ज़्यादा सटीक बनाया जा सके.

तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.

ट्रांसलेशनल इनवैरिएंस

#image

इमेज की कैटगरी तय करने से जुड़ी समस्या में, इमेज में ऑब्जेक्ट की जगह बदलने पर भी इमेज की कैटगरी तय करने की एल्गोरिदम की क्षमता. जैसे, एल्गोरिदम अब भी कुत्ते की पहचान कर सकता है, चाहे वह फ़्रेम के बीच में हो या फ़्रेम के बाईं ओर.

साइज़ इनवैरिएंस और रोटेशनल इनवैरिएंस भी देखें.