इस पेज का अनुवाद Cloud Translation API से किया गया है.

ट्रेनिंग और टेस्ट सेट: प्लेग्राउंड एक्सरसाइज़

ट्रेनिंग सेट और टेस्ट सेट

हम ट्रेनिंग सेट और टेस्ट सेट के साथ प्रयोग करने के लिए प्लेग्राउंड वापस आते हैं.

नारंगी और नीले बिंदुओं का मतलब बताने के लिए, प्लस आइकॉन पर क्लिक करें.

विज़ुअलाइज़ेशन में:

हर नीला बिंदु, डेटा की एक कैटगरी (उदाहरण के लिए, स्पैम) का एक उदाहरण दिखाता है.
हर नारंगी बिंदु, डेटा की किसी दूसरी कैटगरी का एक उदाहरण दिखाता है. जैसे, स्पैम नहीं.
बैकग्राउंड का रंग, मॉडल का यह अनुमान दिखाता है कि उस रंग के उदाहरण कहां मिल सकते हैं. नीले बिंदु के आस-पास नीले रंग के बैकग्राउंड का मतलब है कि मॉडल उस उदाहरण का सही अनुमान लगा रहा है. वहीं, नीले बिंदु के आस-पास नारंगी रंग के बैकग्राउंड का मतलब है कि मॉडल इस उदाहरण के लिए गलत अनुमान लगा रहा है.

इस अभ्यास से एक टेस्ट सेट और ट्रेनिंग सेट, दोनों मिलते हैं. ये दोनों एक ही डेटा सेट से लिए जाते हैं. डिफ़ॉल्ट रूप से, विज़ुअलाइज़ेशन में सिर्फ़ ट्रेनिंग सेट दिखता है. अगर आपको टेस्ट सेट भी देखना है, तो विज़ुअलाइज़ेशन के ठीक नीचे टेस्ट डेटा दिखाएं चेकबॉक्स पर क्लिक करें. विज़ुअलाइज़ेशन में, इस अंतर पर ध्यान दें:

ट्रेनिंग के उदाहरणों में एक सफ़ेद आउटलाइन दी गई है.
जांच के उदाहरणों में काले रंग की आउटलाइन वाली इमेज दिखती है.

टास्क 1: दी गई सेटिंग के साथ Playground चलाने के लिए, ये काम करें:

चलाएं/रोकें बटन पर क्लिक करें:
टेस्ट में हुए नुकसान और ट्रेनिंग में हुई कमी की वैल्यू में हुए बदलाव देखें.
जब टेस्ट में होने वाले नुकसान और ट्रेनिंग में कमी की वैल्यू बदलना बंद हो जाएं या सिर्फ़ एक बार बदलें हों, तो प्लेग्राउंड को रोकने के लिए, रन/रोकें बटन को फिर से दबाएं.

टेस्ट के नुकसान और ट्रेनिंग में हुए नुकसान के बीच के अंतर पर ध्यान दें. हम नीचे दिए गए टास्क में इस डेल्टा को कम करने की कोशिश करेंगे.

टास्क 2: ये काम करें:

रीसेट करें बटन दबाएं.
लर्निंग रेट में बदलाव करें.
चलाएं/रोकें बटन दबाएं:
प्लेग्राउंड को कम से कम 150 epochs तक चलने दें.

क्या सीखने की इस नई दर के चलते, परीक्षा में होने वाले नुकसान और ट्रेनिंग हारने के बीच का अंतर कम या ज़्यादा है? लर्निंग रेट और बैच साइज़ में बदलाव करने पर क्या होगा?

ज़रूरी नहीं टास्क 3: ट्रेनिंग डेटा का प्रतिशत लेबल वाले स्लाइडर की मदद से, डेटा की जांच करने के लिए ट्रेनिंग डेटा के अनुपात को कंट्रोल किया जा सकता है. उदाहरण के लिए, जब डेटा को 90% पर सेट किया जाता है, तो 90% डेटा ट्रेनिंग सेट के लिए और बचा हुआ 10% डेटा टेस्ट सेट के लिए इस्तेमाल किया जाता है.

तो निम्न कार्य करें:

"ट्रेनिंग से जुड़ा डेटा प्रतिशत" को 50% से घटाकर 10% करें.
सीखने की दर और बैच के साइज़ के साथ प्रयोग करके, अपनी जानकारी नोट करें.

क्या ट्रेनिंग डेटा के प्रतिशत में बदलाव करने से, टास्क 2 में खोजी गई सबसे अच्छी लर्निंग सेटिंग बदल जाती हैं? अगर हां, तो उन्हें यह भूमिका क्यों दी गई है?

टास्क 1 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.

अगर लर्निंग रेट को 3 (शुरुआती सेटिंग) पर सेट किया गया है, तो ट्रेनिंग में होने वाले नुकसान की तुलना में, टेस्ट के नुकसान की संख्या काफ़ी ज़्यादा है.

टास्क 2 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.

सीखने की दर को कम करने से (उदाहरण के लिए, 0.001), ट्रेनिंग के नुकसान के बहुत करीब पहुंचने पर, जांच के नतीजे में कमी आ जाती है. ज़्यादातर रन में, बैच का साइज़ बढ़ाने से ट्रेनिंग में होने वाली कमी या टेस्ट लॉस पर कोई असर नहीं पड़ता. हालांकि, बहुत कम रन करने पर, बैच का साइज़ 20 या इससे ज़्यादा होने से, ट्रेनिंग में होने वाली कमी से थोड़ी कम हो जाती है.

प्लेग्राउंड के डेटा सेट रैंडम तरीके से जनरेट होते हैं. इसलिए, हो सकता है कि हमारे जवाब हमेशा आपके जवाबों से पूरी तरह से मेल न खाएं.

टास्क 3 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.

ट्रेनिंग डेटा प्रतिशत को 50% से घटाकर 10% करने पर, ट्रेनिंग सेट में डेटा पॉइंट की संख्या बहुत कम हो जाती है. डेटा बहुत कम होने, ज़्यादा बैच साइज़ और सीखने की दर ज़्यादा होने की वजह से, ट्रेनिंग मॉडल में बार-बार गड़बड़ी होती है. यह डेटा, तय की गई सीमा से ज़्यादा बार दिखता है.