इस पेज में इमेज मॉडल से जुड़े शब्दों को शामिल किया गया है. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
A
बढ़ी हुई वास्तविकता
यह एक ऐसी टेक्नोलॉजी है जो उपयोगकर्ता के हिसाब से, असल दुनिया के व्यू पर कंप्यूटर की मदद से इमेज लागू करती है, ताकि एक पूरी जानकारी मिल सके.
ऑटोएन्कोडर
ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी हासिल करना सीखता है. ऑटोएन्कोडर, एन्कोडर और डिकोडर का कॉम्बिनेशन होते हैं. ऑटोकोडर नीचे दी गई दो चरणों वाली प्रक्रिया पर निर्भर करते हैं:
- एन्कोडर, इनपुट को {0}आम तौर पर) कम लो-डाइमेंशन वाले (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
- डीकोडर, कम ऊंचाई वाले फ़ॉर्मैट को मूल ऊंचे डाइमेंशन वाले इनपुट फ़ॉर्मैट में मैप करके, मूल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.
ऑटो-एन्कोडर को एन्कोडर को पूरी तरह सुरक्षित (E2EE) करने की ट्रेनिंग दी जाती है. इसके लिए, कोड में मौजूद कोड को ध्यान में रखते हुए एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से मूल इनपुट को फिर से बनाने की कोशिश की जाती है. इंटरमीडिएट फ़ॉर्मैट मूल फ़ॉर्मैट से छोटा (कम डाइमेंशन वाला) होता है. इसलिए, ऑटोएन्कोडर को यह जानने के लिए मजबूर किया जाता है कि इनपुट में कौनसी जानकारी ज़रूरी है और आउटपुट पूरी तरह से इनपुट जैसा नहीं होगा.
उदाहरण के लिए:
- अगर इनपुट डेटा एक ग्राफ़िक है, तो गैर-सटीक कॉपी मूल ग्राफ़िक की तरह होगी, लेकिन कुछ हद तक बदलाव किया गया. उदाहरण के लिए, हो सकता है कि सामान्य कॉपी, ओरिजनल ग्राफ़िक से शोर को हटा दे या कुछ छूटे हुए पिक्सल में भर जाए.
- अगर इनपुट डेटा टेक्स्ट है, तो एक ऑटोकोडर नया टेक्स्ट जनरेट करेगा, जो मूल टेक्स्ट जैसा होगा, लेकिन उससे मिलता-जुलता नहीं होगा.
अलग-अलग तरह के ऑटोकोडर भी देखें.
अपने-आप जनरेट होने वाला मॉडल
मॉडल, जो अपने पिछले सुझावों के आधार पर अनुमान लगाता है. उदाहरण के लिए, अपने-आप जनरेट होने वाले भाषा मॉडल, पहले से तय किए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. पूरी तरह बदलें पर आधारित सभी बड़े भाषा मॉडल अपने-आप जनरेट होते हैं.
इसके उलट, GAN पर आधारित इमेज मॉडल आम तौर पर अपने-आप जनरेट होने वाले मॉडल नहीं होते, क्योंकि वे सिंगल फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और क्रम से नहीं. हालांकि, इमेज जनरेट करने वाले कुछ मॉडल अपने-आप फिर से जनरेट होते हैं, क्योंकि कुछ चरणों में एक इमेज जनरेट होती है.
B
बाउंडिंग बॉक्स
किसी इमेज में, (x, y) रुचि के क्षेत्र के चारों ओर एक आयत के निर्देशांक, जैसे कि नीचे दी गई इमेज में मौजूद कुत्ता.
C
कॉन्वोल्यूशन
गणित में, कैज़ुअल तरीके से, दो फ़ंक्शन का कॉम्बिनेशन. मशीन लर्निंग में, एक कॉन्वोलेशन, कंवोलूशनल फ़िल्टर और इनपुट मैट्रिक्स को मिला-जुलाकर वज़न दिखाता है.
"मशीन लर्निंग" में "कन्वर्ज़न" शब्द, अक्सर कंवोलूशनल ऑपरेशन या कंवोलूशनल लेयर का छोटा तरीका होता है.
कन्वर्ज़न के बिना, मशीन लर्निंग एल्गोरिदम को बड़े टेंसर में हर सेल के लिए, अलग से वज़न समझना होगा. उदाहरण के लिए, 2K x 2K इमेज पर मशीन लर्निंग एल्गोरिदम की मदद से, इमेज को 40 लाख अलग-अलग वज़न के साथ दिखाना होगा. कन्वर्ज़न के लिए धन्यवाद, मशीन लर्निंग एल्गोरिदम को कन्वर्ज़न फ़िल्टर में मौजूद हर सेल के लिए सिर्फ़ वज़न तय करना होता है. इस वजह से, मॉडल को ट्रेनिंग देने के लिए ज़रूरी मेमोरी कम होती है. जब प्रमुख फ़िल्टर लागू किया जाता है, तो उसे सभी सेल में दोहराया जाता है, ताकि हर फ़िल्टर को फ़िल्टर से गुणा कर दिया जाए.
कॉन्वोलूशनल फ़िल्टर
कंस्ट्रक्शनल ऑपरेशन का इस्तेमाल करने वाले दोनों अभिनेताओं में से एक. (दूसरा कलाकार, इनपुट मैट्रिक्स का एक हिस्सा है.) कॉन्वोलूशनल फ़िल्टर एक मैट्रिक्स है, जिसका इनपुट मैट्रिक्स के रूप में रैंक होता है, लेकिन इसका आकार छोटा होता है. उदाहरण के लिए, 28x28 इनपुट मैट्रिक्स को ध्यान में रखते हुए, फ़िल्टर 28x28 से छोटा कोई भी 2D मैट्रिक्स हो सकता है.
फ़ोटोग्राफ़िक फेरबदल में, सभी कोशिकाएं फ़िल्टर में सभी कोशिकाएं आम तौर पर एक और शून्य के स्थिर पैटर्न पर सेट होती हैं. मशीन लर्निंग में, कंवर्ज़नल फ़िल्टर को आम तौर पर बिना किसी क्रम वाली संख्या के साथ जोड़ा जाता है. इसके बाद, नेटवर्क के लिए सही वैल्यू ट्रेनिंग की जाती है.
कॉन्वोलूशनल लेयर
डीप न्यूरल नेटवर्क की एक लेयर, जिसमें कंवोल्यूशन फ़िल्टर इनपुट मैट्रिक के पास से गुज़रता है. उदाहरण के लिए, यहां दिए गए 3x3 कंवोल्यूशन फ़िल्टर का इस्तेमाल करें:
नीचे दिए गए ऐनिमेशन में, एक कॉन्वोलूशनल लेयर दिखाई गई है, जिसमें 5x5 इनपुट मैट्रिक्स वाले 9 कॉन्वोलूशनल ऑपरेशन शामिल हैं. ध्यान दें कि हर कॉन्वोलूशनल ऑपरेशन, इनपुट मैट्रिक्स के एक अलग 3x3 स्लाइस पर काम करता है. नतीजे में मिलने वाले 3x3 मैट्रिक्स (दाईं ओर) में 9 कॉन्वोलूशनल ऑपरेशन के नतीजे शामिल होते हैं:
कॉन्वोलूशनल न्यूरल नेटवर्क
न्यूरल नेटवर्क, जिसमें कम से कम एक लेयर, कंस्ट्रक्शनल लेयर हो. एक सामान्य कॉन्वोलूशनल न्यूरल नेटवर्क में इन लेयर का कुछ कॉम्बिनेशन होता है:
कॉन्वोलूशनल न्यूरल नेटवर्क ने इमेज की पहचान करने जैसी समस्याओं में काफ़ी कामयाबी हासिल की.
कॉन्वोलूशनल ऑपरेशन
गणित के बारे में नीचे दी गई दो चरणों वाली कार्रवाइयां:
- कन्वर्ज़न फ़िल्टर और इनपुट मैट्रिक्स के स्लाइस की मदद से, गुणा के हिसाब से गुणा करें. (इनपुट मैट्रिक्स के स्लाइस की रैंक और साइज़, कॉन्वोलूशनल फ़िल्टर की तरह ही होता है.)
- नतीजे में दिए गए प्रॉडक्ट मैट्रिक्स में सभी वैल्यू को जोड़कर देखें.
उदाहरण के लिए, यहां दिए गए 5x5 इनपुट मैट्रिक्स पर विचार करें:
अब 2x2 कॉन्वोलूशनल फ़िल्टर के बारे में सोचें:
हर कॉन्वोलूशनल ऑपरेशन में इनपुट मैट्रिक्स का एक 2x2 स्लाइस होता है. उदाहरण के लिए, मान लें कि हम इनपुट मैट्रिक्स के सबसे ऊपर बाईं ओर, 2x2 स्लाइस का इस्तेमाल करते हैं. इसलिए, इस स्लाइस पर कॉन्वोल्यूशन ऑपरेशन इस तरह दिखाई देता है:
कंवोलूशनल लेयर में कॉन्वोलूशनल ऑपरेशन की एक सीरीज़ होती है. इनमें से हर एक, इनपुट मैट्रिक्स के अलग-अलग स्लाइस पर काम करती है.
D
डेटा बढ़ोतरी
ट्रेनिंग के उदाहरणों की संख्या और रेंज को आर्टिफ़िशियल तरीके से बढ़ाना , ताकि मौजूदा उदाहरण के लिए उदाहरण बदले जा सकें. उदाहरण के लिए, इमेज की इमेज सुविधाओं में से एक है. हालांकि, आपके डेटासेट में इमेज के ऐसे उदाहरण नहीं हैं जिनमें काम के असोसिएशन के बारे में बताया जा सके. बेहतर होगा कि आप अपने डेटासेट में ज़रूरत के हिसाब से लेबल की गई इमेज जोड़ें, ताकि आपका मॉडल सही तरीके से ट्रेनिंग ले सके. अगर यह मुमकिन नहीं है, तो डेटा बेहतर बनाने की सुविधा, हर इमेज को घुमा सकती है, स्ट्रेच कर सकती है, और हर इमेज को दिखा सकती है. इससे, मूल इमेज के कई वैरिएंट बन सकते हैं. हालांकि, बेहतर ट्रेनिंग चालू करने के लिए, ज़रूरत के मुताबिक लेबल किया गया डेटा मिल सकता है.
पूरी तरह से अलग होने वाला कॉन्वोलूशनल न्यूरल नेटवर्क (sepCNN)
संयोजक तंत्रिका नेटवर्क पर आधारित आर्किटेक्चर इनसेप्शन जहां इन्सेक्शन मॉड्यूल को पूरी तरह से अलग करने लायक जगह से बदला गया है इसे एक्ससेप्शन के नाम से भी जाना जाता है.
पूरी तरह से अलग करने लायक कॉन्वोलूशन (जिसे अलग से कॉन्वोलेशन के तौर पर भी जाना जाता है) स्टैंडर्ड 3-D कॉन्वोल्यूशन को दो अलग-अलग कॉन्वोलेशन ऐक्शन के तौर पर फ़ैक्टर करता है. ये कंप्यूटर की तुलना में ज़्यादा बेहतर तरीके से कॉन्वोल्यूशन होते हैं: पहले (गुरुओं की तुलना में गहराई से देखना, एक चौड़ाई (वई, और 1) चौड़ी.
ज़्यादा जानने के लिए, एक्ससेप्शन: डीप लर्निंग विथ डेप्थली सेपरेबल्स कॉन्वोलूशन देखें.
डाउनसैंपलिंग
ओवरलोड होने वाला शब्द, जिसका मतलब इनमें से कोई एक हो सकता है:
- किसी मॉडल को बेहतर तरीके से ट्रेन करने के लिए, जानकारी की मात्रा को सुविधा में कम करना. उदाहरण के लिए, इमेज की पहचान करने वाले मॉडल को ट्रेनिंग देने से पहले, हाई रिज़ॉल्यूशन वाली इमेज को लो रिज़ॉल्यूशन वाले फ़ॉर्मैट में कम करें.
- बहुत कम प्रतिनिधित्व मिलने वाली क्लास के उदाहरणों को कम ट्रेनिंग देना. इसका मकसद, कम प्रतिनिधित्व वाली कक्षाओं के लिए मॉडल ट्रेनिंग को बेहतर बनाना है. उदाहरण के लिए, कक्षा-असंतुष्ट डेटासेट में मॉडल, मैजोरिटी क्लास के बारे में बहुत कुछ सीखते हैं और माइनर क्लास के बारे में काफ़ी नहीं होते. डाउनसैंपलिंग से, अल्पसंख्यकों और अल्पसंख्यकों की ट्रेनिंग के बीच संतुलन रखने में मदद मिलती है.
शुक्र
फ़ाइन ट्यूनिंग
दूसरा, टास्क के हिसाब से दूसरा ट्रेनिंग पास, पहले से ट्रेनिंग दिए गए मॉडल में लिया जाता है. ऐसा करके, किसी खास इस्तेमाल के उदाहरण के लिए, पैरामीटर को बेहतर बनाया जाता है. उदाहरण के लिए, बड़े भाषा के कुछ मॉडल के लिए ट्रेनिंग का पूरा क्रम यहां दिया गया है:
- प्री-ट्रेनिंग: बड़े सामान्य डेटासेट, जैसे कि अंग्रेज़ी भाषा वाले सभी Wikipedia पेजों पर, बड़ी भाषा के मॉडल को ट्रेनिंग दें.
- फ़ाइन-ट्यूनिंग: पहले से प्रशिक्षित मॉडल को खास काम करने के लिए प्रशिक्षित करना, जैसे कि चिकित्सा क्वेरी का जवाब देना. फ़ाइन-ट्यून करने की प्रक्रिया में, आम तौर पर किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.
एक और उदाहरण के तौर पर, एक बड़े इमेज मॉडल की पूरी ट्रेनिंग का क्रम नीचे बताया गया है:
- प्री-ट्रेनिंग: बड़े सामान्य इमेज डेटासेट जैसे कि विकिमीडिया कॉमन में सभी इमेज को बड़े साइज़ के इमेज मॉडल की ट्रेनिंग दें.
- फ़ाइन-ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देकर, खास टास्क करना. जैसे, ओर्का इमेज जनरेट करना.
फ़ाइन-ट्यूनिंग के लिए, इन रणनीतियों को एक साथ इस्तेमाल किया जा सकता है:
- पहले से ट्रेनिंग दिए गए मॉडल के मौजूदा पैरामीटर के सभी में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन ट्यूनिंग कहा जाता है.
- पहले से प्रशिक्षित मॉडल के मौजूदा पैरामीटर में से सिर्फ़ कुछ कुछ चीज़ों में बदलाव करना (आम तौर पर, आउटपुट लेयर की सबसे नज़दीकी लेयर) और दूसरे मौजूदा पैरामीटर में कोई बदलाव नहीं करना (आम तौर पर, लेयर इनपुट लेयर में सबसे करीब होती है).
- आम तौर पर, आउटपुट लेयर के सबसे नज़दीकी लेयर के ऊपर और लेयर जोड़ना.
फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक हिस्सा है. इसलिए, फ़ाइन-ट्यून करने की सुविधा में अलग-अलग तरीके के फ़ंक्शन या अलग-अलग तरह के मॉडल इस्तेमाल किए जा सकते हैं. यह तरीका, पहले से इस्तेमाल किए गए मॉडल को ट्रेनिंग देने से जुड़ा नहीं होगा. उदाहरण के लिए, एक रिग्रेशन मॉडल बनाने के लिए पहले से प्रशिक्षित बड़ी इमेज के मॉडल को बेहतर बनाया जा सकता है. यह मॉडल एक इनपुट इमेज में पक्षियों की संख्या दिखाता है.
'फ़ाइन-ट्यून करना' सुविधा की तुलना नीचे दिए गए शब्दों से करें:
G
जनरेट करने वाला एआई (AI)
बिना किसी औपचारिक परिभाषा के एक उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञ इस बात से सहमत हैं कि एआई (AI) मॉडल, ये सभी "जनरेट" कर सकते हैं:
- जटिल
- एक जैसा
- मूल
उदाहरण के लिए, एक एआई (AI) मॉडल से बेहतर निबंध या इमेज बनाई जा सकती हैं.
LSTMs और RNNs जैसी पहले की कुछ टेक्नोलॉजी में, ओरिजनल और सही कॉन्टेंट भी जनरेट किया जा सकता है. कुछ विशेषज्ञ पहले की इन टेक्नोलॉजी को जनरेट करने के लिए एआई (AI) का इस्तेमाल करते हैं. हालांकि, दूसरों को यह पता चलता है कि एआई (AI) टेक्नोलॉजी की मदद से, बड़े पैमाने पर जनरेट होने वाले एआई (AI) का इस्तेमाल करना मुश्किल होता है.
अनुमानित एमएल का कंट्रास्ट.
I
इमेज पहचानने की सुविधा
यह एक प्रोसेस है जो इमेज में मौजूद ऑब्जेक्ट, पैटर्न या कॉन्सेप्ट को अलग-अलग ग्रुप में बांटती है. इमेज की पहचान करने की सुविधा को इमेज क्लासिफ़िकेशन भी कहा जाता है.
ज़्यादा जानकारी के लिए, एमएल प्रैक्टिस: इमेज क्लासिफ़िकेशन देखें.
यूनियन पर चौराहा (IoU)
दो सेट के मिलने की जगह को उनके केंद्र से भाग दिया जाता है. मशीन लर्निंग में इमेज की पहचान करने वाले टास्क के लिए, IoU का इस्तेमाल करके मॉडल के बाउंडिंग बॉक्स के सटीक होने का आकलन किया जाता है. यह काम ग्राउंड-ट्रूथ के बाउंडिंग बॉक्स के संबंध में होता है. इस मामले में, दो बॉक्स के लिए IOU ओवरलैप करने वाले क्षेत्र और कुल क्षेत्र के बीच का अनुपात है और इसकी वैल्यू की सीमा 0 (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रूथ बाउंडिंग बॉक्स का ओवरलैप नहीं) से लेकर 1 (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रुथ बाउंडिंग बॉक्स) होती है.
उदाहरण के लिए, नीचे दी गई इमेज में:
- अनुमानित बाउंडिंग बॉक्स (कोऑर्डिनेट, जो यह तय करता है कि पेंटिंग में रात की टेबल कहां दिखेगी) को बैंगनी रंग से दिखाया गया है.
- ग्राउंड-ट्रूथ बाउंडिंग बॉक्स को दर्शाता है कि (हर वह जगह जहां से पेंटिंग में रात को दिखाया गया है) हरे रंग से दिखती है.
यहां, अनुमान लगाने और ज़मीनी सच्चाई के लिए बाउंडिंग बॉक्स का इंटरसेक्शन एक (नीचे बाईं ओर) है और अनुमान के लिए सीमांकन बॉक्स और नीचे दाईं ओर बाउंडिंग बॉक्स का यूनियन है, तो IoU \(\frac{1}{7}\)है.


K
खास बातें
किसी इमेज में खास सुविधाओं के निर्देशांक. उदाहरण के लिए, फूलों की प्रजातियों में अंतर करने वाले इमेज पहचानने मॉडल के लिए कीपॉइंट, हर पंखुड़ी, स्टेम, मूल इमेज, और इसी तरह की अन्य इमेज का केंद्र हो सकते हैं.
L
लैंडमार्क
मुख्य बिंदु का समानार्थी शब्द.
सोम
एमएनआईएस
एक सार्वजनिक-डोमेन डेटासेट जिसे LeCun, Cortes, और Bures ने इकट्ठा किया है. इसमें 60,000 इमेज शामिल हैं. इनमें से हर इमेज में दिखाया गया है कि किसी व्यक्ति ने मैन्युअल तरीके से 0 से 9 तक की कोई अंक कैसे लिखी है. हर इमेज को पूर्णांक की 28x28 श्रेणी के तौर पर सेव किया जाता है. इसमें हर इंटीजर, 0 से 255 के बीच की ग्रेस्केल वैल्यू होती है.
एमएनआईएस, मशीन लर्निंग के लिए कैननिकल डेटासेट है. इसका इस्तेमाल, अक्सर मशीन लर्निंग के नए तरीकों को टेस्ट करने के लिए किया जाता है. जानकारी के लिए, हाथ से लिखे अंकों का MNIST डेटाबेस देखें.
P
पूल करना
किसी मैट्रिक्स (या मैट्रिक्स) को कम करके, मैट्रिक्स बनाने के लिए इस्तेमाल किया गया हो. इसे मैट्रिक्स बनाते समय, पहले से बनी कन्वर्ज़न लेयर का इस्तेमाल करके बनाया गया हो. पूलिंग में आम तौर पर, पूल किए गए इलाके की ज़्यादा से ज़्यादा या औसत वैल्यू होती है. उदाहरण के लिए, मान लें कि हमारे पास 3x3 मैट्रिक्स है:
पूलिंग ऑपरेशन, जैसे कि कॉन्वोलूशन ऑपरेशन उदाहरण के लिए, मान लीजिए कि पूलिंग ऑपरेशन में, कॉन्वोलूशनल मैट्रिक्स को 2x2 स्लाइस में 1x1 स्ट्राइड बांटा जाता है. यहां दिए गए डायग्राम में दिखाया गया है कि पूल करने की चार कार्रवाइयां होती हैं. मान लें कि किसी पूलिंग ऑपरेशन में, उस स्लाइस में चार वैल्यू की सबसे ज़्यादा वैल्यू चुनी जाती है:
पूलिंग, इनपुट मैट्रिक्स में अनुवाद करने का तरीका लागू करने में मदद करती है.
विज़न ऐप्लिकेशन के लिए पूलिंग को आधिकारिक तौर पर स्पेशल पूलिंग के तौर पर जाना जाता है. आम तौर पर, टाइम सीरीज़ के आवेदन को कुछ समय के लिए पूल करना कहते हैं. कम औपचारिक तौर पर पूल करने को अक्सर सबसैंपलिंग या डाउनसैंपलिंग कहा जाता है.
पहले से प्रशिक्षित मॉडल
ऐसे मॉडल या मॉडल कॉम्पोनेंट (जैसे कि एम्बेडिंग वेक्टर) जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. कभी-कभी, न्यूरल नेटवर्क में, एम्बेड किए गए वेक्टर पहले से फ़ीड किए जा सकते हैं. अन्य समय में, आपका मॉडल एम्बेड किए गए वेक्टर को ट्रेनिंग देगा, न कि पहले से जोड़ी गई एम्बेडिंग पर.
पहले से ट्रेनिंग वाले भाषा के मॉडल का मतलब है बड़े भाषा का मॉडल. यह प्री-ट्रेनिंग से होकर गुज़रता है.
प्री-ट्रेनिंग
बड़े डेटासेट पर मॉडल की शुरुआती ट्रेनिंग. पहले से प्रशिक्षित कुछ मॉडल भद्दे जायंट होते हैं. इसलिए, इन्हें अतिरिक्त ट्रेनिंग के ज़रिए बेहतर बनाया जाना चाहिए. उदाहरण के लिए, ML विशेषज्ञ बड़े टेक्स्ट डेटासेट पर बड़े भाषा के मॉडल की ट्रेनिंग पहले ले सकते हैं, जैसे कि Wikipedia के सभी अंग्रेज़ी पेज. प्री-ट्रेनिंग के बाद, अनुमानित मॉडल को इनमें से किसी भी तकनीक की मदद से और बेहतर बनाया जा सकता है:
आर
रोटेशनल इनवैरिएंस
इमेज की कैटगरी तय करने में आने वाली समस्या की वजह से एल्गोरिदम, इमेज की ओरिएंटेशन बदलने के बावजूद उसे अलग-अलग कैटगरी में बांट देता है. उदाहरण के लिए, एल्गोरिदम अभी भी टेनिस रैकेट की पहचान कर सकता है, फिर चाहे वह ऊपर की ओर हो, किनारे पर या नीचे की ओर हो. ध्यान दें कि रोटेशनल इनवैरिएंस हमेशा ज़रूरी नहीं होता. उदाहरण के लिए, अपसाइड-डाउन 9 को 9 के तौर पर नहीं दिखाया जाना चाहिए.
अनुवाद करने के हिसाब से किया गया बदलाव और साइज़ का अंतर भी देखें.
रवि
साइज़ वैरियंस
इमेज की कैटगरी तय करने में होने वाली समस्या की वजह से एल्गोरिदम, इमेज का साइज़ बदलने पर भी उसे बेहतर ढंग से अलग-अलग कैटगरी में बांट सकता है. उदाहरण के लिए, एल्गोरिदम अब भी बिल्ली की पहचान कर सकता है. इसके लिए यह ज़रूरी है कि उस इमेज में 20 लाख पिक्सल या 200 हज़ार पिक्सल की खपत हो. ध्यान दें कि सबसे अच्छे इमेज क्लासिफ़िकेशन एल्गोरिदम में, साइज़ के हिसाब से अब भी बदलाव हो सकते हैं. उदाहरण के लिए, किसी एल्गोरिदम की मदद से या सिर्फ़ 20 पिक्सल की इमेज वाली बिल्ली की इमेज को सही कैटगरी में बांटने की संभावना कम होती है.
अनुवाद करने का तरीका और रोशनल इनवैरियंस भी देखें.
स्पेशल पूलिंग
पूल करना देखें.
स्ट्राइड
किसी कोलन, ऑपरेशन या पूलिंग में, इनपुट स्लाइस की अगली सीरीज़ के हर डाइमेंशन में मौजूद डेल्टा. उदाहरण के लिए, नीचे दिया गया ऐनिमेशन, कॉन्वोकेशनल ऑपरेशन के दौरान (1,1) स्ट्रैट दिखाता है. इसलिए, अगला इनपुट स्लाइस पिछले इनपुट स्लाइस की दाईं ओर एक पोज़िशन शुरू करता है. जब कार्रवाई दाएं किनारे पर पहुंच जाती है, तो अगला स्लाइस बाईं ओर होता है और नीचे एक ही स्थिति में होता है.
ऊपर दिया गया उदाहरण, दो आयामों वाली रेस को दिखाता है. अगर इनपुट मैट्रिक्स तीन-डाइमेंशन वाला है, तो स्ट्राइड भी तीन-डाइमेंशन वाला होगा.
सबसैंपलिंग
पूल करना देखें.
गुरु
तापमान
किसी मॉडल के आउटपुट की रैंडमता की डिग्री को कंट्रोल करने वाला हाइपरपैरामीटर. ज़्यादा तापमान होने पर, ज़्यादा आउटपुट मिलता है. कम तापमान की वजह से कम आउटपुट मिलता है.
सबसे अच्छा तापमान चुनना, किसी खास ऐप्लिकेशन और मॉडल के आउटपुट की मनचाहे प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, आप क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय तापमान को बढ़ा सकते हैं. इसके उलट, जब इमेज या टेक्स्ट की कैटगरी तय करने वाला मॉडल बनाया जाता है, तो मॉडल का सटीक और एक जैसा बनाने के लिए तापमान कम किया जा सकता है.
तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.
ट्रांसलेशनल इनवैरिएंस
इमेज की कैटगरी तय करने में होने वाली समस्या की वजह से एल्गोरिदम, इमेज को आसानी से अलग-अलग कैटगरी में बांटता है. भले ही, इमेज की पोज़िशन बदल जाए. उदाहरण के लिए, एल्गोरिदम अब भी कुत्ते की पहचान कर सकता है, चाहे वह फ़्रेम के बीच में हो या फ़्रेम के बाएं हिस्से में.
साइज़ इनवैरिएंस और रोटेटल इन्वैरेंस भी देखें.