मशीन लर्निंग ग्लॉसरी: इमेज मॉडल

इस पेज में इमेज मॉडल से जुड़े शब्दों को शामिल किया गया है. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

A

बढ़ी हुई वास्तविकता

#image

यह एक ऐसी टेक्नोलॉजी है जो उपयोगकर्ता के हिसाब से, असल दुनिया के व्यू पर कंप्यूटर की मदद से इमेज लागू करती है, ताकि एक पूरी जानकारी मिल सके.

ऑटोएन्कोडर

#language
#image

ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी हासिल करना सीखता है. ऑटोएन्कोडर, एन्कोडर और डिकोडर का कॉम्बिनेशन होते हैं. ऑटोकोडर नीचे दी गई दो चरणों वाली प्रक्रिया पर निर्भर करते हैं:

  1. एन्कोडर, इनपुट को {0}आम तौर पर) कम लो-डाइमेंशन वाले (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
  2. डीकोडर, कम ऊंचाई वाले फ़ॉर्मैट को मूल ऊंचे डाइमेंशन वाले इनपुट फ़ॉर्मैट में मैप करके, मूल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.

ऑटो-एन्कोडर को एन्कोडर को पूरी तरह सुरक्षित (E2EE) करने की ट्रेनिंग दी जाती है. इसके लिए, कोड में मौजूद कोड को ध्यान में रखते हुए एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से मूल इनपुट को फिर से बनाने की कोशिश की जाती है. इंटरमीडिएट फ़ॉर्मैट मूल फ़ॉर्मैट से छोटा (कम डाइमेंशन वाला) होता है. इसलिए, ऑटोएन्कोडर को यह जानने के लिए मजबूर किया जाता है कि इनपुट में कौनसी जानकारी ज़रूरी है और आउटपुट पूरी तरह से इनपुट जैसा नहीं होगा.

उदाहरण के लिए:

  • अगर इनपुट डेटा एक ग्राफ़िक है, तो गैर-सटीक कॉपी मूल ग्राफ़िक की तरह होगी, लेकिन कुछ हद तक बदलाव किया गया. उदाहरण के लिए, हो सकता है कि सामान्य कॉपी, ओरिजनल ग्राफ़िक से शोर को हटा दे या कुछ छूटे हुए पिक्सल में भर जाए.
  • अगर इनपुट डेटा टेक्स्ट है, तो एक ऑटोकोडर नया टेक्स्ट जनरेट करेगा, जो मूल टेक्स्ट जैसा होगा, लेकिन उससे मिलता-जुलता नहीं होगा.

अलग-अलग तरह के ऑटोकोडर भी देखें.

अपने-आप जनरेट होने वाला मॉडल

#language
#image
#generativeAI

मॉडल, जो अपने पिछले सुझावों के आधार पर अनुमान लगाता है. उदाहरण के लिए, अपने-आप जनरेट होने वाले भाषा मॉडल, पहले से तय किए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. पूरी तरह बदलें पर आधारित सभी बड़े भाषा मॉडल अपने-आप जनरेट होते हैं.

इसके उलट, GAN पर आधारित इमेज मॉडल आम तौर पर अपने-आप जनरेट होने वाले मॉडल नहीं होते, क्योंकि वे सिंगल फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और क्रम से नहीं. हालांकि, इमेज जनरेट करने वाले कुछ मॉडल अपने-आप फिर से जनरेट होते हैं, क्योंकि कुछ चरणों में एक इमेज जनरेट होती है.

B

बाउंडिंग बॉक्स

#image

किसी इमेज में, (x, y) रुचि के क्षेत्र के चारों ओर एक आयत के निर्देशांक, जैसे कि नीचे दी गई इमेज में मौजूद कुत्ता.

सोफ़े पर बैठे एक कुत्ते की फ़ोटो. हरे रंग के बाउंडिंग बॉक्स में, सबसे ऊपर बाएं कोने में (275, 1271) और सबसे नीचे दाईं ओर मौजूद निर्देशांक (2954, 2761) हैं, जो कुत्ते के शरीर को घेरते हैं

C

कॉन्वोल्यूशन

#image

गणित में, कैज़ुअल तरीके से, दो फ़ंक्शन का कॉम्बिनेशन. मशीन लर्निंग में, एक कॉन्वोलेशन, कंवोलूशनल फ़िल्टर और इनपुट मैट्रिक्स को मिला-जुलाकर वज़न दिखाता है.

"मशीन लर्निंग" में "कन्वर्ज़न" शब्द, अक्सर कंवोलूशनल ऑपरेशन या कंवोलूशनल लेयर का छोटा तरीका होता है.

कन्वर्ज़न के बिना, मशीन लर्निंग एल्गोरिदम को बड़े टेंसर में हर सेल के लिए, अलग से वज़न समझना होगा. उदाहरण के लिए, 2K x 2K इमेज पर मशीन लर्निंग एल्गोरिदम की मदद से, इमेज को 40 लाख अलग-अलग वज़न के साथ दिखाना होगा. कन्वर्ज़न के लिए धन्यवाद, मशीन लर्निंग एल्गोरिदम को कन्वर्ज़न फ़िल्टर में मौजूद हर सेल के लिए सिर्फ़ वज़न तय करना होता है. इस वजह से, मॉडल को ट्रेनिंग देने के लिए ज़रूरी मेमोरी कम होती है. जब प्रमुख फ़िल्टर लागू किया जाता है, तो उसे सभी सेल में दोहराया जाता है, ताकि हर फ़िल्टर को फ़िल्टर से गुणा कर दिया जाए.

कॉन्वोलूशनल फ़िल्टर

#image

कंस्ट्रक्शनल ऑपरेशन का इस्तेमाल करने वाले दोनों अभिनेताओं में से एक. (दूसरा कलाकार, इनपुट मैट्रिक्स का एक हिस्सा है.) कॉन्वोलूशनल फ़िल्टर एक मैट्रिक्स है, जिसका इनपुट मैट्रिक्स के रूप में रैंक होता है, लेकिन इसका आकार छोटा होता है. उदाहरण के लिए, 28x28 इनपुट मैट्रिक्स को ध्यान में रखते हुए, फ़िल्टर 28x28 से छोटा कोई भी 2D मैट्रिक्स हो सकता है.

फ़ोटोग्राफ़िक फेरबदल में, सभी कोशिकाएं फ़िल्टर में सभी कोशिकाएं आम तौर पर एक और शून्य के स्थिर पैटर्न पर सेट होती हैं. मशीन लर्निंग में, कंवर्ज़नल फ़िल्टर को आम तौर पर बिना किसी क्रम वाली संख्या के साथ जोड़ा जाता है. इसके बाद, नेटवर्क के लिए सही वैल्यू ट्रेनिंग की जाती है.

कॉन्वोलूशनल लेयर

#image

डीप न्यूरल नेटवर्क की एक लेयर, जिसमें कंवोल्यूशन फ़िल्टर इनपुट मैट्रिक के पास से गुज़रता है. उदाहरण के लिए, यहां दिए गए 3x3 कंवोल्यूशन फ़िल्टर का इस्तेमाल करें:

3x3 मैट्रिक्स, जिसमें ये वैल्यू हैं: [[0,1,0], [1,0,1], [0,1,0]

नीचे दिए गए ऐनिमेशन में, एक कॉन्वोलूशनल लेयर दिखाई गई है, जिसमें 5x5 इनपुट मैट्रिक्स वाले 9 कॉन्वोलूशनल ऑपरेशन शामिल हैं. ध्यान दें कि हर कॉन्वोलूशनल ऑपरेशन, इनपुट मैट्रिक्स के एक अलग 3x3 स्लाइस पर काम करता है. नतीजे में मिलने वाले 3x3 मैट्रिक्स (दाईं ओर) में 9 कॉन्वोलूशनल ऑपरेशन के नतीजे शामिल होते हैं:

दो मैट्रिक्स को दिखाते हुए एक ऐनिमेशन. पहला मैट्रिक्स 5x5
          मैट्रिक्स है: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,17, 1]
          दूसरा मैट्रिक्स 3x3 मैट्रिक्स है:
          [[181,303,618], [115,338,605], [169,351,560].
          दूसरे मैट्रिक्स की गिनती करने के लिए, 5x5 मैट्रिक्स के अलग-अलग 3x3 सबसेट में कॉन्वोल्यूशनल फ़िल्टर [[0, 1, 0], [1, 0, 1], [0, 1, 0], लागू किए जाते हैं.

कॉन्वोलूशनल न्यूरल नेटवर्क

#image

न्यूरल नेटवर्क, जिसमें कम से कम एक लेयर, कंस्ट्रक्शनल लेयर हो. एक सामान्य कॉन्वोलूशनल न्यूरल नेटवर्क में इन लेयर का कुछ कॉम्बिनेशन होता है:

कॉन्वोलूशनल न्यूरल नेटवर्क ने इमेज की पहचान करने जैसी समस्याओं में काफ़ी कामयाबी हासिल की.

कॉन्वोलूशनल ऑपरेशन

#image

गणित के बारे में नीचे दी गई दो चरणों वाली कार्रवाइयां:

  1. कन्वर्ज़न फ़िल्टर और इनपुट मैट्रिक्स के स्लाइस की मदद से, गुणा के हिसाब से गुणा करें. (इनपुट मैट्रिक्स के स्लाइस की रैंक और साइज़, कॉन्वोलूशनल फ़िल्टर की तरह ही होता है.)
  2. नतीजे में दिए गए प्रॉडक्ट मैट्रिक्स में सभी वैल्यू को जोड़कर देखें.

उदाहरण के लिए, यहां दिए गए 5x5 इनपुट मैट्रिक्स पर विचार करें:

5x5 मैट्रिक्स: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,28,92,175]10

अब 2x2 कॉन्वोलूशनल फ़िल्टर के बारे में सोचें:

2x2 मैट्रिक्स: [[1, 0], [0, 1]]

हर कॉन्वोलूशनल ऑपरेशन में इनपुट मैट्रिक्स का एक 2x2 स्लाइस होता है. उदाहरण के लिए, मान लें कि हम इनपुट मैट्रिक्स के सबसे ऊपर बाईं ओर, 2x2 स्लाइस का इस्तेमाल करते हैं. इसलिए, इस स्लाइस पर कॉन्वोल्यूशन ऑपरेशन इस तरह दिखाई देता है:

इनपुट मेट्रिक्स के सबसे ऊपर बाएं 2x2 सेक्शन पर [कन्वर्ज़न] [[1, 0], [0, 1]] लागू किया जा रहा है, जो कि [[128,97], [35,22]] है.
          कॉन्वोलूशनल फ़िल्टर 128 और 22 को बरकरार रखता है, लेकिन 97 और 35 को शून्य कर देता है. इस तरह, कॉन्वोल्यूशन ऑपरेशन की वैल्यू 150 (128+22) होती है.

कंवोलूशनल लेयर में कॉन्वोलूशनल ऑपरेशन की एक सीरीज़ होती है. इनमें से हर एक, इनपुट मैट्रिक्स के अलग-अलग स्लाइस पर काम करती है.

D

डेटा बढ़ोतरी

#image

ट्रेनिंग के उदाहरणों की संख्या और रेंज को आर्टिफ़िशियल तरीके से बढ़ाना , ताकि मौजूदा उदाहरण के लिए उदाहरण बदले जा सकें. उदाहरण के लिए, इमेज की इमेज सुविधाओं में से एक है. हालांकि, आपके डेटासेट में इमेज के ऐसे उदाहरण नहीं हैं जिनमें काम के असोसिएशन के बारे में बताया जा सके. बेहतर होगा कि आप अपने डेटासेट में ज़रूरत के हिसाब से लेबल की गई इमेज जोड़ें, ताकि आपका मॉडल सही तरीके से ट्रेनिंग ले सके. अगर यह मुमकिन नहीं है, तो डेटा बेहतर बनाने की सुविधा, हर इमेज को घुमा सकती है, स्ट्रेच कर सकती है, और हर इमेज को दिखा सकती है. इससे, मूल इमेज के कई वैरिएंट बन सकते हैं. हालांकि, बेहतर ट्रेनिंग चालू करने के लिए, ज़रूरत के मुताबिक लेबल किया गया डेटा मिल सकता है.

पूरी तरह से अलग होने वाला कॉन्वोलूशनल न्यूरल नेटवर्क (sepCNN)

#image

संयोजक तंत्रिका नेटवर्क पर आधारित आर्किटेक्चर इनसेप्शन जहां इन्सेक्शन मॉड्यूल को पूरी तरह से अलग करने लायक जगह से बदला गया है इसे एक्ससेप्शन के नाम से भी जाना जाता है.

पूरी तरह से अलग करने लायक कॉन्वोलूशन (जिसे अलग से कॉन्वोलेशन के तौर पर भी जाना जाता है) स्टैंडर्ड 3-D कॉन्वोल्यूशन को दो अलग-अलग कॉन्वोलेशन ऐक्शन के तौर पर फ़ैक्टर करता है. ये कंप्यूटर की तुलना में ज़्यादा बेहतर तरीके से कॉन्वोल्यूशन होते हैं: पहले (गुरुओं की तुलना में गहराई से देखना, एक चौड़ाई (वई, और 1) चौड़ी.

ज़्यादा जानने के लिए, एक्ससेप्शन: डीप लर्निंग विथ डेप्थली सेपरेबल्स कॉन्वोलूशन देखें.

डाउनसैंपलिंग

#image

ओवरलोड होने वाला शब्द, जिसका मतलब इनमें से कोई एक हो सकता है:

  • किसी मॉडल को बेहतर तरीके से ट्रेन करने के लिए, जानकारी की मात्रा को सुविधा में कम करना. उदाहरण के लिए, इमेज की पहचान करने वाले मॉडल को ट्रेनिंग देने से पहले, हाई रिज़ॉल्यूशन वाली इमेज को लो रिज़ॉल्यूशन वाले फ़ॉर्मैट में कम करें.
  • बहुत कम प्रतिनिधित्व मिलने वाली क्लास के उदाहरणों को कम ट्रेनिंग देना. इसका मकसद, कम प्रतिनिधित्व वाली कक्षाओं के लिए मॉडल ट्रेनिंग को बेहतर बनाना है. उदाहरण के लिए, कक्षा-असंतुष्ट डेटासेट में मॉडल, मैजोरिटी क्लास के बारे में बहुत कुछ सीखते हैं और माइनर क्लास के बारे में काफ़ी नहीं होते. डाउनसैंपलिंग से, अल्पसंख्यकों और अल्पसंख्यकों की ट्रेनिंग के बीच संतुलन रखने में मदद मिलती है.

शुक्र

फ़ाइन ट्यूनिंग

#language
#image
#generativeAI

दूसरा, टास्क के हिसाब से दूसरा ट्रेनिंग पास, पहले से ट्रेनिंग दिए गए मॉडल में लिया जाता है. ऐसा करके, किसी खास इस्तेमाल के उदाहरण के लिए, पैरामीटर को बेहतर बनाया जाता है. उदाहरण के लिए, बड़े भाषा के कुछ मॉडल के लिए ट्रेनिंग का पूरा क्रम यहां दिया गया है:

  1. प्री-ट्रेनिंग: बड़े सामान्य डेटासेट, जैसे कि अंग्रेज़ी भाषा वाले सभी Wikipedia पेजों पर, बड़ी भाषा के मॉडल को ट्रेनिंग दें.
  2. फ़ाइन-ट्यूनिंग: पहले से प्रशिक्षित मॉडल को खास काम करने के लिए प्रशिक्षित करना, जैसे कि चिकित्सा क्वेरी का जवाब देना. फ़ाइन-ट्यून करने की प्रक्रिया में, आम तौर पर किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.

एक और उदाहरण के तौर पर, एक बड़े इमेज मॉडल की पूरी ट्रेनिंग का क्रम नीचे बताया गया है:

  1. प्री-ट्रेनिंग: बड़े सामान्य इमेज डेटासेट जैसे कि विकिमीडिया कॉमन में सभी इमेज को बड़े साइज़ के इमेज मॉडल की ट्रेनिंग दें.
  2. फ़ाइन-ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देकर, खास टास्क करना. जैसे, ओर्का इमेज जनरेट करना.

फ़ाइन-ट्यूनिंग के लिए, इन रणनीतियों को एक साथ इस्तेमाल किया जा सकता है:

  • पहले से ट्रेनिंग दिए गए मॉडल के मौजूदा पैरामीटर के सभी में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन ट्यूनिंग कहा जाता है.
  • पहले से प्रशिक्षित मॉडल के मौजूदा पैरामीटर में से सिर्फ़ कुछ कुछ चीज़ों में बदलाव करना (आम तौर पर, आउटपुट लेयर की सबसे नज़दीकी लेयर) और दूसरे मौजूदा पैरामीटर में कोई बदलाव नहीं करना (आम तौर पर, लेयर इनपुट लेयर में सबसे करीब होती है).
  • आम तौर पर, आउटपुट लेयर के सबसे नज़दीकी लेयर के ऊपर और लेयर जोड़ना.

फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक हिस्सा है. इसलिए, फ़ाइन-ट्यून करने की सुविधा में अलग-अलग तरीके के फ़ंक्शन या अलग-अलग तरह के मॉडल इस्तेमाल किए जा सकते हैं. यह तरीका, पहले से इस्तेमाल किए गए मॉडल को ट्रेनिंग देने से जुड़ा नहीं होगा. उदाहरण के लिए, एक रिग्रेशन मॉडल बनाने के लिए पहले से प्रशिक्षित बड़ी इमेज के मॉडल को बेहतर बनाया जा सकता है. यह मॉडल एक इनपुट इमेज में पक्षियों की संख्या दिखाता है.

'फ़ाइन-ट्यून करना' सुविधा की तुलना नीचे दिए गए शब्दों से करें:

G

जनरेट करने वाला एआई (AI)

#language
#image
#generativeAI

बिना किसी औपचारिक परिभाषा के एक उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञ इस बात से सहमत हैं कि एआई (AI) मॉडल, ये सभी "जनरेट" कर सकते हैं:

  • जटिल
  • एक जैसा
  • मूल

उदाहरण के लिए, एक एआई (AI) मॉडल से बेहतर निबंध या इमेज बनाई जा सकती हैं.

LSTMs और RNNs जैसी पहले की कुछ टेक्नोलॉजी में, ओरिजनल और सही कॉन्टेंट भी जनरेट किया जा सकता है. कुछ विशेषज्ञ पहले की इन टेक्नोलॉजी को जनरेट करने के लिए एआई (AI) का इस्तेमाल करते हैं. हालांकि, दूसरों को यह पता चलता है कि एआई (AI) टेक्नोलॉजी की मदद से, बड़े पैमाने पर जनरेट होने वाले एआई (AI) का इस्तेमाल करना मुश्किल होता है.

अनुमानित एमएल का कंट्रास्ट.

I

इमेज पहचानने की सुविधा

#image

यह एक प्रोसेस है जो इमेज में मौजूद ऑब्जेक्ट, पैटर्न या कॉन्सेप्ट को अलग-अलग ग्रुप में बांटती है. इमेज की पहचान करने की सुविधा को इमेज क्लासिफ़िकेशन भी कहा जाता है.

ज़्यादा जानकारी के लिए, एमएल प्रैक्टिस: इमेज क्लासिफ़िकेशन देखें.

यूनियन पर चौराहा (IoU)

#image

दो सेट के मिलने की जगह को उनके केंद्र से भाग दिया जाता है. मशीन लर्निंग में इमेज की पहचान करने वाले टास्क के लिए, IoU का इस्तेमाल करके मॉडल के बाउंडिंग बॉक्स के सटीक होने का आकलन किया जाता है. यह काम ग्राउंड-ट्रूथ के बाउंडिंग बॉक्स के संबंध में होता है. इस मामले में, दो बॉक्स के लिए IOU ओवरलैप करने वाले क्षेत्र और कुल क्षेत्र के बीच का अनुपात है और इसकी वैल्यू की सीमा 0 (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रूथ बाउंडिंग बॉक्स का ओवरलैप नहीं) से लेकर 1 (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रुथ बाउंडिंग बॉक्स) होती है.

उदाहरण के लिए, नीचे दी गई इमेज में:

  • अनुमानित बाउंडिंग बॉक्स (कोऑर्डिनेट, जो यह तय करता है कि पेंटिंग में रात की टेबल कहां दिखेगी) को बैंगनी रंग से दिखाया गया है.
  • ग्राउंड-ट्रूथ बाउंडिंग बॉक्स को दर्शाता है कि (हर वह जगह जहां से पेंटिंग में रात को दिखाया गया है) हरे रंग से दिखती है.

वैन गॉग 'आरल्स में विंसेंट का बेडरूम' बना रहे हैं. साथ ही, बेड के बगल में नाइट टेबल के आस-पास दो अलग-अलग बाउंडिंग बॉक्स हैं. ग्राउंड-ट्रूथ बाउंडिंग बॉक्स (हरे रंग में) पूरी तरह से नाइट टेबल को घेरता है. अनुमानित बाउंडिंग बॉक्स (बैंगनी रंग का) 50% नीचे और ज़मीन की वास्तविक सीमा वाले बॉक्स के दाईं ओर ऑफ़सेट होता है. यह टेबल के सबसे नीचे दाईं ओर होता है, लेकिन टेबल के बाकी हिस्से से छूट जाता है.

यहां, अनुमान लगाने और ज़मीनी सच्चाई के लिए बाउंडिंग बॉक्स का इंटरसेक्शन एक (नीचे बाईं ओर) है और अनुमान के लिए सीमांकन बॉक्स और नीचे दाईं ओर बाउंडिंग बॉक्स का यूनियन है, तो IoU \(\frac{1}{7}\)है.

ऊपर दी गई इमेज की तरह ही, हर बाउंडिंग बॉक्स को चार क्वाड्रेंट में बांटा गया है. कुल मिलाकर सात क्वाड्रेंट हैं, क्योंकि ग्राउंड-ट्रूथ बाउंडिंग बॉक्स में सबसे नीचे दाईं ओर का क्वाड्रेंट है. साथ ही, अनुमानित बाउंडिंग बॉक्स में सबसे ऊपर बायां क्वाड्रेंट एक-दूसरे को ओवरलैप करता है. ओवरलैप होने वाले इस सेक्शन को हरे रंग से हाइलाइट किया गया है. यह एक हिस्से को दिखाता है. ऊपर दी गई इमेज की तरह ही, हर बाउंडिंग बॉक्स को चार क्वाड्रेंट में बांटा गया है. कुल मिलाकर सात क्वाड्रेंट हैं, क्योंकि ग्राउंड-ट्रूथ बाउंडिंग बॉक्स में सबसे नीचे दाईं ओर का क्वाड्रेंट है. साथ ही, अनुमानित बाउंडिंग बॉक्स में सबसे ऊपर बायां क्वाड्रेंट एक-दूसरे को ओवरलैप करता है.
          चारों तरफ़ से बाउंडिंग बॉक्स (हरे रंग से हाइलाइट किया गया) के बीच में बना पूरा अंदरूनी हिस्सा, यूनियन की जानकारी देता है और उसका एरिया 7 है.

K

खास बातें

#image

किसी इमेज में खास सुविधाओं के निर्देशांक. उदाहरण के लिए, फूलों की प्रजातियों में अंतर करने वाले इमेज पहचानने मॉडल के लिए कीपॉइंट, हर पंखुड़ी, स्टेम, मूल इमेज, और इसी तरह की अन्य इमेज का केंद्र हो सकते हैं.

L

लैंडमार्क

#image

मुख्य बिंदु का समानार्थी शब्द.

सोम

एमएनआईएस

#image

एक सार्वजनिक-डोमेन डेटासेट जिसे LeCun, Cortes, और Bures ने इकट्ठा किया है. इसमें 60,000 इमेज शामिल हैं. इनमें से हर इमेज में दिखाया गया है कि किसी व्यक्ति ने मैन्युअल तरीके से 0 से 9 तक की कोई अंक कैसे लिखी है. हर इमेज को पूर्णांक की 28x28 श्रेणी के तौर पर सेव किया जाता है. इसमें हर इंटीजर, 0 से 255 के बीच की ग्रेस्केल वैल्यू होती है.

एमएनआईएस, मशीन लर्निंग के लिए कैननिकल डेटासेट है. इसका इस्तेमाल, अक्सर मशीन लर्निंग के नए तरीकों को टेस्ट करने के लिए किया जाता है. जानकारी के लिए, हाथ से लिखे अंकों का MNIST डेटाबेस देखें.

P

पूल करना

#image

किसी मैट्रिक्स (या मैट्रिक्स) को कम करके, मैट्रिक्स बनाने के लिए इस्तेमाल किया गया हो. इसे मैट्रिक्स बनाते समय, पहले से बनी कन्वर्ज़न लेयर का इस्तेमाल करके बनाया गया हो. पूलिंग में आम तौर पर, पूल किए गए इलाके की ज़्यादा से ज़्यादा या औसत वैल्यू होती है. उदाहरण के लिए, मान लें कि हमारे पास 3x3 मैट्रिक्स है:

3x3 मैट्रिक्स [[5,3,1], [8,2,5], [9,4,3]].

पूलिंग ऑपरेशन, जैसे कि कॉन्वोलूशन ऑपरेशन उदाहरण के लिए, मान लीजिए कि पूलिंग ऑपरेशन में, कॉन्वोलूशनल मैट्रिक्स को 2x2 स्लाइस में 1x1 स्ट्राइड बांटा जाता है. यहां दिए गए डायग्राम में दिखाया गया है कि पूल करने की चार कार्रवाइयां होती हैं. मान लें कि किसी पूलिंग ऑपरेशन में, उस स्लाइस में चार वैल्यू की सबसे ज़्यादा वैल्यू चुनी जाती है:

इनपुट मैट्रिक्स इन वैल्यू के साथ 3x3 है: [[5,3,1], [8,2,5], [9,4,3].
          इनपुट मैट्रिक्स का सबसे ऊपर 2x2 सबमैट्रिक्स [[5,3], [8,2], इसलिए
          सबसे ऊपर बाएं पूलिंग ऑपरेशन का मान 8 (जो ज़्यादा से ज़्यादा 5, 3, 8 और 2)
          होता है. इनपुट मैट्रिक्स का सबसे दायां 2x2 सबमैट्रिक्स [[3,1], [2,5] है, इसलिए सबसे ऊपर दाईं ओर पूल किए जाने वाले ऑपरेशन से वैल्यू 5 बनती है. इनपुट मैट्रिक्स का सबसे नीचे बायां 2x2 सबमैट्रिक्स
 [[8,2], [9,4]] है, इसलिए सबसे नीचे बाईं ओर का पूलिंग ऑपरेशन 9 वैल्यू देता है. इनपुट मैट्रिक्स का सबसे नीचे दाईं ओर 2x2 सबमैट्रिक्स
 [[2,5], [4,3]] है, इसलिए सबसे नीचे दाईं ओर पूल करने की कार्रवाई से वैल्यू 5 मिलती है. कुल मिलाकर, पूल करने की कार्रवाई से 2x2 मैट्रिक्स मिलता है
          [[8,5], [9,5].

पूलिंग, इनपुट मैट्रिक्स में अनुवाद करने का तरीका लागू करने में मदद करती है.

विज़न ऐप्लिकेशन के लिए पूलिंग को आधिकारिक तौर पर स्पेशल पूलिंग के तौर पर जाना जाता है. आम तौर पर, टाइम सीरीज़ के आवेदन को कुछ समय के लिए पूल करना कहते हैं. कम औपचारिक तौर पर पूल करने को अक्सर सबसैंपलिंग या डाउनसैंपलिंग कहा जाता है.

पहले से प्रशिक्षित मॉडल

#language
#image
#generativeAI

ऐसे मॉडल या मॉडल कॉम्पोनेंट (जैसे कि एम्बेडिंग वेक्टर) जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. कभी-कभी, न्यूरल नेटवर्क में, एम्बेड किए गए वेक्टर पहले से फ़ीड किए जा सकते हैं. अन्य समय में, आपका मॉडल एम्बेड किए गए वेक्टर को ट्रेनिंग देगा, न कि पहले से जोड़ी गई एम्बेडिंग पर.

पहले से ट्रेनिंग वाले भाषा के मॉडल का मतलब है बड़े भाषा का मॉडल. यह प्री-ट्रेनिंग से होकर गुज़रता है.

प्री-ट्रेनिंग

#language
#image
#generativeAI

बड़े डेटासेट पर मॉडल की शुरुआती ट्रेनिंग. पहले से प्रशिक्षित कुछ मॉडल भद्दे जायंट होते हैं. इसलिए, इन्हें अतिरिक्त ट्रेनिंग के ज़रिए बेहतर बनाया जाना चाहिए. उदाहरण के लिए, ML विशेषज्ञ बड़े टेक्स्ट डेटासेट पर बड़े भाषा के मॉडल की ट्रेनिंग पहले ले सकते हैं, जैसे कि Wikipedia के सभी अंग्रेज़ी पेज. प्री-ट्रेनिंग के बाद, अनुमानित मॉडल को इनमें से किसी भी तकनीक की मदद से और बेहतर बनाया जा सकता है:

आर

रोटेशनल इनवैरिएंस

#image

इमेज की कैटगरी तय करने में आने वाली समस्या की वजह से एल्गोरिदम, इमेज की ओरिएंटेशन बदलने के बावजूद उसे अलग-अलग कैटगरी में बांट देता है. उदाहरण के लिए, एल्गोरिदम अभी भी टेनिस रैकेट की पहचान कर सकता है, फिर चाहे वह ऊपर की ओर हो, किनारे पर या नीचे की ओर हो. ध्यान दें कि रोटेशनल इनवैरिएंस हमेशा ज़रूरी नहीं होता. उदाहरण के लिए, अपसाइड-डाउन 9 को 9 के तौर पर नहीं दिखाया जाना चाहिए.

अनुवाद करने के हिसाब से किया गया बदलाव और साइज़ का अंतर भी देखें.

रवि

साइज़ वैरियंस

#image

इमेज की कैटगरी तय करने में होने वाली समस्या की वजह से एल्गोरिदम, इमेज का साइज़ बदलने पर भी उसे बेहतर ढंग से अलग-अलग कैटगरी में बांट सकता है. उदाहरण के लिए, एल्गोरिदम अब भी बिल्ली की पहचान कर सकता है. इसके लिए यह ज़रूरी है कि उस इमेज में 20 लाख पिक्सल या 200 हज़ार पिक्सल की खपत हो. ध्यान दें कि सबसे अच्छे इमेज क्लासिफ़िकेशन एल्गोरिदम में, साइज़ के हिसाब से अब भी बदलाव हो सकते हैं. उदाहरण के लिए, किसी एल्गोरिदम की मदद से या सिर्फ़ 20 पिक्सल की इमेज वाली बिल्ली की इमेज को सही कैटगरी में बांटने की संभावना कम होती है.

अनुवाद करने का तरीका और रोशनल इनवैरियंस भी देखें.

स्पेशल पूलिंग

#image

पूल करना देखें.

स्ट्राइड

#image

किसी कोलन, ऑपरेशन या पूलिंग में, इनपुट स्लाइस की अगली सीरीज़ के हर डाइमेंशन में मौजूद डेल्टा. उदाहरण के लिए, नीचे दिया गया ऐनिमेशन, कॉन्वोकेशनल ऑपरेशन के दौरान (1,1) स्ट्रैट दिखाता है. इसलिए, अगला इनपुट स्लाइस पिछले इनपुट स्लाइस की दाईं ओर एक पोज़िशन शुरू करता है. जब कार्रवाई दाएं किनारे पर पहुंच जाती है, तो अगला स्लाइस बाईं ओर होता है और नीचे एक ही स्थिति में होता है.

एक इनपुट 5x5 मैट्रिक्स और 3x3 कॉन्वोलूशनल फ़िल्टर. चलते समय
     1 (1) होता है, इसलिए एक कॉन्वोलूशनल फ़िल्टर नौ बार लागू किया जाएगा. पहला
     कॉन्वोल्यूशनल स्लाइस, इनपुट मैट्रिक्स के सबसे ऊपर बाएं 3x3 सबमैट्रिक्स का
     आकलन करता है. दूसरा स्लाइस, टॉप-मिडल 3x3
     सबमैट्रिक्स का आकलन करता है. तीसरा कॉन्वोलूशनल स्लाइस, सबसे ऊपर दाईं ओर दिए गए 3x3 सबमैट्रिक्स का आकलन करता है.  चौथा स्लाइस, बीच के बाएं 3x3 सबमैट्रिक्स का आकलन करता है.
     पांचवां स्लाइस, बीच के 3x3 सबमैट्रिक्स का आकलन करता है. छठा स्लाइस,
     बीच के दाएं 3x3 सबमैट्रिक्स का आकलन करता है. सातवां स्लाइस, सबसे नीचे वाली 3x3 सबमैट्रिक्स का आकलन करता है.  आठवां स्लाइस, सबसे नीचे वाले 3x3 सबमैट्रिक्स का आकलन करता है. नौवां स्लाइस, सबसे नीचे दाईं ओर मौजूद 3x3 सबमैट्रिक्स का आकलन करता है.

ऊपर दिया गया उदाहरण, दो आयामों वाली रेस को दिखाता है. अगर इनपुट मैट्रिक्स तीन-डाइमेंशन वाला है, तो स्ट्राइड भी तीन-डाइमेंशन वाला होगा.

सबसैंपलिंग

#image

पूल करना देखें.

गुरु

तापमान

#language
#image
#generativeAI

किसी मॉडल के आउटपुट की रैंडमता की डिग्री को कंट्रोल करने वाला हाइपरपैरामीटर. ज़्यादा तापमान होने पर, ज़्यादा आउटपुट मिलता है. कम तापमान की वजह से कम आउटपुट मिलता है.

सबसे अच्छा तापमान चुनना, किसी खास ऐप्लिकेशन और मॉडल के आउटपुट की मनचाहे प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, आप क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय तापमान को बढ़ा सकते हैं. इसके उलट, जब इमेज या टेक्स्ट की कैटगरी तय करने वाला मॉडल बनाया जाता है, तो मॉडल का सटीक और एक जैसा बनाने के लिए तापमान कम किया जा सकता है.

तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.

ट्रांसलेशनल इनवैरिएंस

#image

इमेज की कैटगरी तय करने में होने वाली समस्या की वजह से एल्गोरिदम, इमेज को आसानी से अलग-अलग कैटगरी में बांटता है. भले ही, इमेज की पोज़िशन बदल जाए. उदाहरण के लिए, एल्गोरिदम अब भी कुत्ते की पहचान कर सकता है, चाहे वह फ़्रेम के बीच में हो या फ़्रेम के बाएं हिस्से में.

साइज़ इनवैरिएंस और रोटेटल इन्वैरेंस भी देखें.