इस पेज में इमेज मॉडल की ग्लॉसरी के शब्द मौजूद हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
जवाब
बढ़ी हुई वास्तविकता
ऐसी टेक्नोलॉजी जो कंप्यूटर से जनरेट की गई इमेज को, उपयोगकर्ता की असल दुनिया के व्यू से जोड़ देती है. इस तरह, यह एक कंपोज़िट व्यू उपलब्ध कराती है.
ऑटोएनकोडर
एक ऐसा सिस्टम जो इनपुट से सबसे अहम जानकारी निकालना सीखता है. ऑटोएनकोडर, एन्कोडर और डीकोडर का कॉम्बिनेशन होता है. ऑटोएनकोडर नीचे दी गई दो चरणों वाली प्रोसेस पर निर्भर करते हैं:
- एन्कोडर, इनपुट को (आम तौर पर) नुकसान वाले लोअर डाइमेंशन (इंटरमीडिएट) फ़ॉर्मैट में मैप करता है.
- डिकोडर, कम डाइमेंशन वाले फ़ॉर्मैट को ओरिजनल हाई डाइमेंशन इनपुट फ़ॉर्मैट से मैप करके, ओरिजनल इनपुट का नुकसान पहुंचाने वाला वर्शन बनाता है.
ऑटोकोडर को एंड-टू-एंड ट्रेनिंग दी जाती है. डिकोडर की मदद से, एन्कोडर के इंटरमीडिएट फ़ॉर्मैट से ओरिजनल इनपुट को जितना हो सके, उतना करीब से बनाया जाता है. इंटरमीडिएट फ़ॉर्मैट, ओरिजनल फ़ॉर्मैट से छोटा (लोअर-डाइमेंशन) होता है, इसलिए ऑटोएनकोडर को यह समझने के लिए मजबूर किया जाता है कि इनपुट में दी गई कौनसी जानकारी ज़रूरी है. आउटपुट, इनपुट से पूरी तरह मेल नहीं खाता.
उदाहरण के लिए:
- अगर इनपुट डेटा ग्राफ़िक है, तो सटीक कॉपी न दिखने वाली कॉपी ओरिजनल ग्राफ़िक की तरह होगी, लेकिन उसमें कुछ हद तक बदलाव किया गया होगा. ऐसा भी हो सकता है कि टेक्स्ट की पूरी तरह कॉपी न होने पर, ओरिजनल ग्राफ़िक से शोर को हटा दिया जाए या कुछ पिक्सल में कमी हो जाए.
- अगर इनपुट डेटा टेक्स्ट है, तो ऑटोएनकोडर नया टेक्स्ट जनरेट करेगा. यह मूल टेक्स्ट की नकल (लेकिन, उससे अलग) होगा.
अलग-अलग ऑटोएनकोडर भी देखें.
ऑटो-रिग्रेसिव मॉडल
ऐसा model जो अपने पिछले अनुमानों के आधार पर, किसी अनुमान का अनुमान लगाता है. उदाहरण के लिए, ऑटो-रिग्रेसिव लैंग्वेज मॉडल, पहले बताए गए टोकन के आधार पर अगले टोकन का अनुमान लगाते हैं. ट्रांसफ़ॉर्मर पर आधारित बड़े लैंग्वेज मॉडल, ऑटो-रिग्रेसिव होते हैं.
वहीं दूसरी ओर, GAN पर आधारित इमेज मॉडल आम तौर पर ऑटो-रिग्रेसिव नहीं होते, क्योंकि वे एक ही फ़ॉरवर्ड-पास में इमेज जनरेट करते हैं और बार-बार ऐसा नहीं करते. हालांकि, कुछ इमेज जनरेट करने वाले मॉडल, ऑटो-रिग्रेसिव होते हैं, क्योंकि वे चरणों में इमेज जनरेट करते हैं.
B
बाउंडिंग बॉक्स
इमेज में, दिलचस्पी वाली जगह के आस-पास एक रेक्टैंगल के (x, y) निर्देशांक, जैसे कि नीचे की इमेज में दिख रहा कुत्ता.
C
कॉन्वोलूशन
गणित में, सिंपल बोले जाने पर, दो फ़ंक्शन का एक मिला-जुला रूप. मशीन लर्निंग में, कन्वर्ज़न में वज़न को ट्रेनिंग देने के लिए कंवोलूशनल फ़िल्टर और इनपुट मैट्रिक्स को मिक्स किया जाता है.
मशीन लर्निंग में "कंवोलूशन" शब्द आम तौर पर, कंवोलूशनल ऑपरेशन या कंवोलूशनल लेयर का छोटा रूप होता है.
कन्वर्ज़न के बिना, मशीन लर्निंग एल्गोरिदम को बड़े टेंसर में हर सेल के लिए, अलग से वज़न सीखना पड़ता. उदाहरण के लिए, 2K x 2K इमेज पर ट्रेनिंग लेने वाले मशीन लर्निंग एल्गोरिदम को 40 लाख अलग-अलग वेट अपनाने होंगे. कन्वर्ज़न की वजह से, मशीन लर्निंग एल्गोरिदम को कंवोलूशनल फ़िल्टर में मौजूद हर सेल का सिर्फ़ वेट पता करना होता है. इससे मॉडल को ट्रेनिंग देने के लिए ज़रूरी मेमोरी काफ़ी कम हो जाती है. जब कॉन्वोलूशनल फ़िल्टर को लागू किया जाता है, तो उसे सेल में इस तरह कॉपी किया जाता है कि हर सेल को फ़िल्टर से गुणा किया जाता है.
कॉन्वलूशनल फ़िल्टर
उन दो अभिनेताओं में से एक, कंवोलूशनल ऑपरेशन में हिस्सा ले रहे हैं. (दूसरा अभिनेता, इनपुट मैट्रिक्स का एक हिस्सा है.) कॉन्वोलूशनल फ़िल्टर एक ऐसा मैट्रिक्स है जिसमें इनपुट मैट्रिक्स की तरह ही रैंक होती है, लेकिन उसका आकार छोटा होता है. उदाहरण के लिए, 28x28 इनपुट मैट्रिक्स दिए जाने पर, फ़िल्टर 28x28 से छोटा कोई भी 2D मैट्रिक्स हो सकता है.
फ़ोटोग्राफ़िक हेर-फेर में, किसी कन्वलूशनल फ़िल्टर में मौजूद सभी कोशिकाएं आम तौर पर, एक और शून्य के स्थिर पैटर्न पर सेट होती हैं. मशीन लर्निंग में, कॉन्वोलूशनल फ़िल्टर को आम तौर पर रैंडम नंबर के साथ जोड़ा जाता है और फिर नेटवर्क, सही वैल्यू ट्रेन करता है.
कॉन्वलूशनल लेयर
डीप न्यूरल नेटवर्क की एक लेयर, जिसमें कंवोलूशनल फ़िल्टर किसी इनपुट मैट्रिक्स के साथ पास होता है. उदाहरण के लिए, यहां दिए गए 3x3 फ़ॉर्मैट वाले कंवोलूशनल फ़िल्टर का इस्तेमाल करें:
नीचे दिया गया ऐनिमेशन, कॉन्वोलूशनल लेयर दिखाता है. इसमें 5x5 इनपुट मैट्रिक्स को शामिल करते हुए 9 कंवोल्यूशनल ऑपरेटर मौजूद हैं. ध्यान दें कि हर कन्वोलूशनल ऑपरेशन, इनपुट मैट्रिक्स के अलग-अलग 3x3 स्लाइस पर काम करता है. दाईं ओर मौजूद 3x3 वाली मैट्रिक्स में, नौ कंवोलूशनल ऑपरेशन के नतीजे होते हैं:
कॉन्वलूशनल न्यूरल नेटवर्क
न्यूरल नेटवर्क, जिसमें कम से कम एक लेयर, कंवोलूशनल लेयर होती है. एक सामान्य कॉन्वलूशनल न्यूरल नेटवर्क में नीचे दी गई लेयर के कुछ कॉम्बिनेशन होते हैं:
कॉन्वोलूशनल न्यूरल नेटवर्क को इमेज की पहचान जैसी कुछ खास तरह की समस्याओं में बड़ी सफलता मिली है.
कॉन्वोलूशनल ऑपरेशन
नीचे दिए गए दो चरणों में गणित के नियम:
- कंवोलूशनल फ़िल्टर और इनपुट मैट्रिक्स के एक स्लाइस के एलिमेंट के हिसाब से गुणा करना. (इनपुट मैट्रिक्स के स्लाइस की रैंक और साइज़ वही होता है जो कन्वलूशनल फ़िल्टर की होती है.)
- नतीजे के प्रॉडक्ट मैट्रिक्स में सभी वैल्यू का योग.
उदाहरण के लिए, नीचे दिए गए 5x5 इनपुट मैट्रिक्स पर विचार करें:
अब नीचे दिए गए 2x2 कॉन्वोलूशनल फ़िल्टर की कल्पना करें:
हर कन्वलूशनल ऑपरेशन में इनपुट मैट्रिक्स का एक 2x2 स्लाइस शामिल होता है. उदाहरण के लिए, मान लें कि हम इनपुट मैट्रिक्स के सबसे ऊपर बाईं ओर मौजूद 2x2 स्लाइस का इस्तेमाल करते हैं. इसलिए, इस स्लाइस पर कन्वर्ज़न ऐक्शन इस तरह दिखता है:
कंवोलूशनल लेयर में कन्वोलूशनल लेयर होती है, जो इनपुट मैट्रिक्स के अलग-अलग स्लाइस पर काम करती है.
D
डेटा ऑग्मेंटेशन
ट्रेनिंग के उदाहरणों की संख्या और रेंज को गलत तरीके से बढ़ाने के लिए, मौजूदा उदाहरणों में बदलाव करें. उदाहरण के लिए, मान लीजिए कि इमेज आपकी सुविधाओं में से एक है, लेकिन आपके डेटासेट में इमेज के उतने उदाहरण नहीं हैं जितने ज़रूरी हैं. आम तौर पर, मॉडल को सही तरीके से ट्रेनिंग देने के लिए, आपको अपने डेटासेट में लेबल वाली काफ़ी इमेज जोड़नी होंगी. अगर ऐसा नहीं हो सकता, तो डेटा को बेहतर बनाने की सुविधा की मदद से, हर इमेज को घुमाया जा सकता है, फैलाया जा सकता है, और दिखाया जा सकता है. इससे, ओरिजनल तस्वीर के कई वैरिएंट बनाने में मदद मिलती है. इससे, लेबल किया गया डेटा मिल जाता है, ताकि बेहतर ट्रेनिंग दी जा सके.
गहराई से अलग किए जा सकने वाले कॉन्वोलूशनल न्यूरल नेटवर्क (sepCNN)
कनवोलूशनल न्यूरल नेटवर्क आर्किटेक्चर, इनसेप्शन पर आधारित है, लेकिन जहां इंसेप्शन मॉड्यूल को गहराई से अलग किए जा सकने वाले कंवोल्यूशन से बदला जाता है. इसे Xसेप्शन के नाम से भी जाना जाता है.
गहराई से अलग किए जा सकने वाले कॉन्वोल्यूशन (इसे अलग किए जा सकने वाले कन्वर्ज़न के तौर पर भी कहा जाता है) स्टैंडर्ड 3-D कॉन्वोल्यूशन को, दो अलग-अलग कॉन्वोलूशन कार्रवाइयों में बांटता है. इससे पहले, बेहतर तरीके से कॉन्वोलूशन का इस्तेमाल किया जाता है: पहला, गहराई से कॉन्वोलूशन, जिसमें 1 की गहराई (n ἁ n शुरुआत 1) होती है और फिर दूसरा, चरण 1, बिंदु की चौड़ाई, और 1 अंक के साथ.
ज़्यादा जानने के लिए, Xeption: डेप्थवाइज़ डिपेरेबल कन्वर्ज़न के साथ डीप लर्निंग लेख पढ़ें.
डाउनसैंपलिंग
बहुत ज़्यादा लोड होने वाले शब्द का मतलब इनमें से कोई एक हो सकता है:
- किसी मॉडल को बेहतर तरीके से ट्रेन करने के लिए, सुविधा में जानकारी की मात्रा कम करना. उदाहरण के लिए, किसी इमेज की पहचान करने वाले मॉडल की ट्रेनिंग से पहले, हाई-रिज़ॉल्यूशन वाली इमेज को लो-रिज़ॉल्यूशन वाले फ़ॉर्मैट में डाउनसैंपल करना.
- क्लास से जुड़े उन उदाहरणों पर ट्रेनिंग दी जाती है जिन्हें ज़रूरत से ज़्यादा दिखाया गया हो. इसका मकसद, उन कक्षाओं के लिए मॉडल ट्रेनिंग को बेहतर बनाना है जिनमें कम पहचान दिलाने की कोशिश की गई है. उदाहरण के लिए, क्लास-अबैलेंस वाले डेटासेट में, मॉडल मेजरिटी क्लास के बारे में काफ़ी जानकारी हासिल करते हैं, न कि अल्पसंख्यक क्लास के बारे में. डाउनसैंपलिंग की मदद से, ज़्यादातर और अल्पसंख्यकों के लिए ट्रेनिंग के बीच संतुलन बनाया जा सकता है.
F
फ़ाइन ट्यूनिंग
दूसरा, टास्क के हिसाब से दिया जाने वाला ट्रेनिंग पास. इसे पहले से ट्रेनिंग दिए गए मॉडल पर परफ़ॉर्म किया जाता है, ताकि किसी खास इस्तेमाल के उदाहरण के लिए इसके पैरामीटर को बेहतर बनाया जा सके. उदाहरण के लिए, कुछ बड़े लैंग्वेज मॉडल के लिए ट्रेनिंग का पूरा सीक्वेंस इस तरह है:
- ट्रेनिंग शुरू करने से पहले: एक बड़े सामान्य डेटासेट पर बड़े भाषा मॉडल को ट्रेनिंग दें, जैसे कि अंग्रेज़ी भाषा के सभी Wikipedia पेज.
- फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, स्वास्थ्य से जुड़ी क्वेरी का जवाब देना. आम तौर पर, किसी खास टास्क पर फ़ोकस करने वाले सैकड़ों या हज़ारों उदाहरण शामिल होते हैं.
एक अन्य उदाहरण में, बड़े इमेज मॉडल के लिए ट्रेनिंग का पूरा क्रम इस तरह है:
- प्री-ट्रेनिंग: एक बड़े सामान्य इमेज डेटासेट पर एक बड़े इमेज मॉडल को ट्रेनिंग दें, जैसे कि 'विकिमीडिया कॉमन्स' में मौजूद सभी इमेज.
- फ़ाइन ट्यूनिंग: पहले से ट्रेनिंग वाले मॉडल को कोई खास टास्क करने के लिए ट्रेनिंग दें. जैसे, ओरका की इमेज जनरेट करना.
फ़ाइन-ट्यूनिंग के लिए नीचे दी गई रणनीतियों का कोई भी कॉम्बिनेशन लागू हो सकता है:
- पहले से ट्रेनिंग दिए गए मॉडल के सभी मौजूदा पैरामीटर में बदलाव करना. इसे कभी-कभी फ़ुल फ़ाइन-ट्यूनिंग भी कहा जाता है.
- पहले से ट्रेनिंग वाले मॉडल के सिर्फ़ कुछ मौजूदा पैरामीटर में बदलाव करता है (आम तौर पर, आउटपुट लेयर के सबसे करीब लेयर). अन्य मौजूदा पैरामीटर में कोई बदलाव नहीं करता है (आम तौर पर, लेयर इनपुट लेयर के आस-पास होती हैं). पैरामीटर की बेहतर ट्यूनिंग देखें.
- ज़्यादा लेयर जोड़ना, आम तौर पर आउटपुट लेयर के सबसे करीब मौजूद लेयर के ऊपर.
फ़ाइन-ट्यूनिंग, ट्रांसफ़र लर्निंग का एक तरीका है. इसलिए, फ़ाइन-ट्यूनिंग के लिए नुकसान पहुंचाने वाले किसी अलग फ़ंक्शन या मॉडल टाइप का इस्तेमाल किया जा सकता है, जो पहले से ट्रेनिंग वाले मॉडल को ट्रेनिंग देने वाले फ़ंक्शन से अलग होता है. उदाहरण के लिए, आपके पास पहले से ट्रेनिंग वाले बड़े इमेज मॉडल को इस तरह से बेहतर बनाने का विकल्प है कि रिग्रेशन मॉडल बनाया जा सके. इससे इनपुट इमेज में पक्षियों की संख्या दिखाई जाएगी.
इन शब्दों से तुलना करें और इनकी तुलना करें:
G
जनरेटिव एआई
औपचारिक परिभाषा वाला कोई उभरता हुआ फ़ील्ड. हालांकि, ज़्यादातर विशेषज्ञों का मानना है कि जनरेटिव एआई (AI) मॉडल, इस तरह का कॉन्टेंट बना ("जनरेट") कर सकते हैं.
- जटिल
- अनुकूल
- मूल
उदाहरण के लिए, जनरेटिव एआई (AI) मॉडल से मुश्किल निबंध या इमेज बनाई जा सकती हैं.
कुछ पुरानी टेक्नोलॉजी भी ओरिजनल और एक जैसा कॉन्टेंट जनरेट कर सकती हैं. इन टेक्नोलॉजी में, LSTM और RNN शामिल हैं. कुछ विशेषज्ञ इन पुरानी टेक्नोलॉजी को जनरेटिव एआई मानते हैं. हालांकि, कुछ का मानना है कि असल में जनरेटिव एआई को पहले की टेक्नोलॉजी के मुकाबले ज़्यादा मुश्किल आउटपुट की ज़रूरत होती है.
अनुमानित एमएल का कंट्रास्ट.
I
इमेज पहचानने की सुविधा
ऐसी प्रोसेस जो किसी इमेज में मौजूद ऑब्जेक्ट, पैटर्न या कॉन्सेप्ट को अलग-अलग कैटगरी में बांटती है. इमेज की पहचान करने की सुविधा को इमेज क्लासिफ़िकेशन भी कहा जाता है.
ज़्यादा जानकारी के लिए, एमएल प्रैक्टिकल: इमेज क्लासिफ़िकेशन देखें.
यूनियन पर इंटरसेक्शन (IoU)
दो सेट का इंटरसेक्शन, जो उनके यूनियन से भाग दिया जाता है. मशीन लर्निंग में इमेज की पहचान करने वाले टास्क में, IoU का इस्तेमाल मॉडल के अनुमानित बाउंडिंग बॉक्स को मापने के लिए किया जाता है. ऐसा ग्राउंड-ट्रुथ बाउंडिंग बॉक्स के हिसाब से किया जाता है. इस मामले में, दो बॉक्स के लिए IoU, ओवरलैप होने वाली जगह और कुल इलाके के बीच का अनुपात है और इसकी वैल्यू 0 से (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रुथ बाउंडिंग बॉक्स का ओवरलैप नहीं) से 1 (अनुमानित बाउंडिंग बॉक्स और ग्राउंड-ट्रुथ बाउंडिंग बॉक्स के बीच का अनुपात) बिलकुल समान होती है.
उदाहरण के लिए, नीचे दी गई इमेज में:
- अनुमानित बाउंडिंग बॉक्स (वे कोऑर्डिनेट को सीमांकित किया जाता है जहां मॉडल पेंटिंग में रात की टेबल का अनुमान लगाता है) बैंगनी रंग में दिखाया गया है.
- ग्राउंड-ट्रूथ बाउंडिंग बॉक्स (पेंटिंग में रात की टेबल जिस जगह पर है, उसे दिखाने वाले कोऑर्डिनेट) हरे रंग से आउटलाइन किए गए हैं.
यहां, अनुमान और असल जानकारी के लिए बाउंडिंग बॉक्स का इंटरसेक्शन (नीचे बाईं ओर) 1 है और अनुमान और असल जानकारी के लिए बाउंडिंग बॉक्स का कॉम्बिनेशन (नीचे दाईं ओर) 7 है. इसलिए, IoU \(\frac{1}{7}\)है.
K
की-पॉइंट
किसी इमेज में मौजूद खास सुविधाओं के कोऑर्डिनेट. उदाहरण के लिए, इमेज की पहचान करने वाले मॉडल के लिए, जो फूलों की प्रजातियों के बीच अंतर करता है, उसकी हर पंखुड़ी, स्टेम, और स्टैमन वगैरह के बीच की पॉइंट हो सकते हैं.
L
लैंडमार्क
कीपॉइंट के लिए समानार्थी शब्द.
सोम
एमएनआईएसटी
LeCun, Cortes, और बर्गर ने एक सार्वजनिक डोमेन डेटासेट इकट्ठा किया है,जिसमें 60, 000 इमेज हैं. हर इमेज में दिखाया गया है कि किसी व्यक्ति ने 0-9 तक के किसी खास अंक को मैन्युअल तरीके से कैसे लिखा. हर इमेज को पूर्णांक की 28x28 ऐरे के तौर पर सेव किया जाता है. इसमें हर पूर्णांक में 0 से 255 के बीच की एक ग्रेस्केल वैल्यू होती है.
एमएनआईएसटी, मशीन लर्निंग के लिए एक कैननिकल डेटासेट है. इसका इस्तेमाल, अक्सर मशीन लर्निंग के नए तरीकों की जांच करने के लिए किया जाता है. ज़्यादा जानकारी के लिए, हैंडराइट किए गए अंकों का MNIST डेटाबेस देखें.
P
पूलिंग
पहले की कंवोलूशनल लेयर से बने मैट्रिक्स या मैट्रिक्स को छोटा करके, छोटा मैट्रिक्स बनाना. आम तौर पर, पूलिंग में पूल की गई जगह की ज़्यादा से ज़्यादा या औसत वैल्यू ली जाती है. उदाहरण के लिए, मान लें कि हमारे पास नीचे दिया गया 3x3 का मैट्रिक्स है:
कॉन्वलूशनल ऑपरेशन की तरह ही, पूल करने का ऑपरेशन, उस मैट्रिक्स को स्लाइस में बांटता है और फिर उस कन्वर्ज़न को स्ट्रिड से स्लाइड करता है. उदाहरण के लिए, मान लें कि पूलिंग ऑपरेशन, कन्वोलूशनल मैट्रिक्स को 1x1 स्ट्राइड के साथ 2x2 स्लाइस में बांटता है. जैसा कि नीचे दिए गए डायग्राम में दिखाया गया है, पूल करने की चार कार्रवाइयां होती हैं. मान लें कि पूल करने की हर कार्रवाई में, उस स्लाइस में मौजूद चार वैल्यू की ज़्यादा से ज़्यादा वैल्यू चुनी जाती है:
पूलिंग की मदद से, इनपुट मैट्रिक्स में ट्रांसलेशनल इनवैरिएंस लागू किया जा सकता है.
विज़न ऐप्लिकेशन के लिए पूलिंग को औपचारिक तौर पर स्पेशल पूलिंग कहा जाता है. टाइम सीरीज़ ऐप्लिकेशन में, आम तौर पर पूलिंग को टेंपोरल पूलिंग कहा जाता है. औपचारिक तौर पर, पूलिंग को सबसैंपलिंग या डाउनसैंपलिंग कहा जाता है.
पहले से ट्रेनिंग वाला मॉडल
ऐसे मॉडल या मॉडल कॉम्पोनेंट जिन्हें पहले ही ट्रेनिंग दी जा चुकी है. जैसे, एम्बेड करने वाला वेक्टर. कभी-कभी, आपको पहले से ट्रेनिंग दिए गए एम्बेडिंग वेक्टर को न्यूरल नेटवर्क में फ़ीड करना होगा. अन्य बार, आपका मॉडल पहले से प्रशिक्षित एम्बेड करने पर निर्भर होने के बजाय, एम्बेड किए जाने वाले वेक्टर को खुद ही प्रशिक्षित करेगा.
पहले से प्रशिक्षित भाषा मॉडल शब्द का मतलब, बड़े भाषा के मॉडल से है, जिसे प्री-ट्रेनिंग से गुज़रना पड़ा.
प्री-ट्रेनिंग
बड़े डेटासेट पर किसी मॉडल की शुरुआती ट्रेनिंग. कुछ पहले से ट्रेनिंग दिए गए मॉडल, अनाड़ी जायंट होते हैं और आम तौर पर उन्हें अतिरिक्त ट्रेनिंग की मदद से और बेहतर बनाया जा सकता है. उदाहरण के लिए, मशीन लर्निंग विशेषज्ञ एक बड़े टेक्स्ट डेटासेट, जैसे कि विकिपीडिया में अंग्रेज़ी के सभी पेजों पर बड़े भाषा मॉडल को पहले से ट्रेनिंग दे सकते हैं. प्री-ट्रेनिंग के बाद, इनमें से किसी भी तकनीक का इस्तेमाल करके, मॉडल को और बेहतर बनाया जा सकता है:
R
रोटेशनल इनवैरिएंस
इमेज की कैटगरी तय करने से जुड़ी समस्या में, इमेज का ओरिएंटेशन बदलने पर भी इमेज की कैटगरी तय करने की एल्गोरिदम की क्षमता. उदाहरण के लिए, एल्गोरिदम अब भी टेनिस रैकेट की पहचान कर सकता है, चाहे वह ऊपर की ओर इशारा कर रहा हो, साइडवे या नीचे हो. ध्यान दें कि रोटेशनल इनवैरिएंस हमेशा ज़रूरी नहीं होता है; उदाहरण के लिए, अपसाइड-डाउन 9 को 9 के तौर पर कैटगरी में नहीं रखा जाना चाहिए.
ट्रांसलेशनल इनवैरियंस और साइज़ का इनवैरियंस भी देखें.
S
साइज़ इनवैरिएंस
इमेज की कैटगरी तय करने में होने वाली समस्या में, इमेज का साइज़ बदलने पर भी इमेज की कैटगरी तय करने की एल्गोरिदम की क्षमता. उदाहरण के लिए, एल्गोरिदम अब भी बिल्ली की पहचान कर सकता है वह 2M पिक्सल का इस्तेमाल करती है या 200K पिक्सल. ध्यान रखें कि इमेज क्लासिफ़िकेशन के सबसे अच्छे एल्गोरिदम के मामले में भी, साइज़ के उतार-चढ़ाव को लेकर व्यावहारिक सीमाएं लागू होती हैं. उदाहरण के लिए, हो सकता है कि कोई एल्गोरिदम (या कोई व्यक्ति) सिर्फ़ 20 पिक्सल वाली बिल्ली की इमेज की सही कैटगरी तय न कर पाए.
ट्रांसलेशनल इनवैरियंस और रोटेशनल इनवैरिएंस भी देखें.
स्पेशल पूलिंग
पूलिंग देखें.
स्ट्राइड
कॉन्वलूशनल ऑपरेशन या पूलिंग में, इनपुट स्लाइस की अगली सीरीज़ के हर डाइमेंशन में डेल्टा. उदाहरण के लिए, नीचे दिया गया ऐनिमेशन कन्वलूशनल ऑपरेशन के दौरान (1,1) चाल को दिखाता है. इसलिए, अगला इनपुट स्लाइस, पिछले इनपुट स्लाइस के दाईं ओर एक पोज़िशन शुरू करता है. जब कार्रवाई दाएं किनारे पर पहुंच जाती है, तो अगला स्लाइस बाईं ओर एक स्थिति नीचे होता है.
पिछला उदाहरण दो-डाइमेंशन वाले चाल को दिखाता है. अगर इनपुट मैट्रिक्स तीन-डाइमेंशन वाला है, तो चाल भी तीन-डाइमेंशन वाली होगी.
सबसैंपलिंग
पूलिंग देखें.
T
तापमान
हाइपर पैरामीटर, जो किसी मॉडल के आउटपुट की रैंडमनेस की डिग्री को कंट्रोल करता है. ज़्यादा तापमान से ज़्यादा आउटपुट मिलता है, जबकि कम तापमान से आउटपुट बिलकुल कम मिलता है.
सबसे सही तापमान चुनना, ऐप्लिकेशन और मॉडल से मिलने वाले आउटपुट से जुड़ी ज़रूरी प्रॉपर्टी पर निर्भर करता है. उदाहरण के लिए, क्रिएटिव आउटपुट जनरेट करने वाला ऐप्लिकेशन बनाते समय, हो सकता है कि आप तापमान को बढ़ाएं. इसके ठीक उलट, हो सकता है कि आप मॉडल बनाते समय तापमान कम करें, जो इमेज या टेक्स्ट की कैटगरी तय करता हो, ताकि मॉडल को ज़्यादा सटीक बनाया जा सके.
तापमान का इस्तेमाल अक्सर softmax के साथ किया जाता है.
ट्रांसलेशनल इनवैरिएंस
इमेज की कैटगरी तय करने से जुड़ी समस्या में, इमेज में ऑब्जेक्ट की जगह बदलने पर भी इमेज की कैटगरी तय करने की एल्गोरिदम की क्षमता. जैसे, एल्गोरिदम अब भी कुत्ते की पहचान कर सकता है, चाहे वह फ़्रेम के बीच में हो या फ़्रेम के बाईं ओर.
साइज़ इनवैरिएंस और रोटेशनल इनवैरिएंस भी देखें.