ट्रेनिंग सेट और टेस्ट सेट
हम ट्रेनिंग सेट और टेस्ट सेट के साथ प्रयोग करने के लिए प्लेग्राउंड वापस आते हैं.
नारंगी और नीले बिंदुओं का मतलब बताने के लिए, प्लस आइकॉन पर क्लिक करें.
विज़ुअलाइज़ेशन में:
- हर नीला बिंदु, डेटा की एक कैटगरी (उदाहरण के लिए,
स्पैम) का एक उदाहरण दिखाता है.
- हर नारंगी बिंदु, डेटा की किसी दूसरी कैटगरी का एक उदाहरण दिखाता है. जैसे, स्पैम नहीं.
- बैकग्राउंड का रंग, मॉडल का यह अनुमान दिखाता है कि उस रंग के उदाहरण कहां मिल सकते हैं. नीले बिंदु के आस-पास नीले रंग के बैकग्राउंड का मतलब है कि मॉडल उस उदाहरण का सही अनुमान लगा रहा है. वहीं, नीले बिंदु के आस-पास नारंगी रंग के बैकग्राउंड का मतलब है कि मॉडल इस उदाहरण के लिए गलत अनुमान लगा रहा है.
इस अभ्यास से एक टेस्ट सेट और ट्रेनिंग सेट, दोनों मिलते हैं. ये दोनों एक ही डेटा सेट से लिए जाते हैं. डिफ़ॉल्ट रूप से, विज़ुअलाइज़ेशन में सिर्फ़ ट्रेनिंग सेट दिखता है. अगर आपको टेस्ट सेट भी देखना है, तो विज़ुअलाइज़ेशन के ठीक नीचे टेस्ट डेटा दिखाएं चेकबॉक्स पर क्लिक करें. विज़ुअलाइज़ेशन में, इस अंतर पर ध्यान दें:
- ट्रेनिंग के उदाहरणों में एक सफ़ेद आउटलाइन दी गई है.
- जांच के उदाहरणों में काले रंग की आउटलाइन वाली इमेज दिखती है.
टास्क 1: दी गई सेटिंग के साथ Playground चलाने के लिए,
ये काम करें:
- चलाएं/रोकें बटन पर क्लिक करें:
- टेस्ट में हुए नुकसान और ट्रेनिंग में हुई कमी की वैल्यू में हुए बदलाव देखें.
- जब टेस्ट में होने वाले नुकसान और ट्रेनिंग में कमी की वैल्यू बदलना बंद हो जाएं
या सिर्फ़ एक बार बदलें हों, तो प्लेग्राउंड को रोकने के लिए, रन/रोकें बटन
को फिर से दबाएं.
टेस्ट के नुकसान और ट्रेनिंग में हुए नुकसान के बीच के अंतर पर ध्यान दें. हम नीचे दिए गए टास्क में
इस डेल्टा को कम करने की कोशिश करेंगे.
टास्क 2: ये काम करें:
- रीसेट करें बटन दबाएं.
- लर्निंग रेट में बदलाव करें.
- चलाएं/रोकें बटन दबाएं:
- प्लेग्राउंड को कम से कम 150 epochs तक चलने दें.
क्या सीखने की इस नई दर के चलते, परीक्षा में होने वाले नुकसान और ट्रेनिंग
हारने के बीच का अंतर कम या ज़्यादा है? लर्निंग रेट और बैच साइज़ में बदलाव करने पर क्या होगा?
ज़रूरी नहीं टास्क 3: ट्रेनिंग डेटा का प्रतिशत लेबल वाले स्लाइडर की मदद से,
डेटा की जांच करने के लिए ट्रेनिंग डेटा के अनुपात को कंट्रोल किया जा सकता है. उदाहरण के लिए,
जब डेटा को 90% पर सेट किया जाता है, तो 90% डेटा ट्रेनिंग सेट के लिए और बचा हुआ 10% डेटा
टेस्ट सेट के लिए इस्तेमाल किया जाता है.
तो निम्न कार्य करें:
- "ट्रेनिंग से जुड़ा डेटा प्रतिशत" को 50% से घटाकर 10% करें.
- सीखने की दर और बैच के साइज़ के साथ प्रयोग करके, अपनी
जानकारी नोट करें.
क्या ट्रेनिंग डेटा के प्रतिशत में बदलाव करने से, टास्क 2 में खोजी गई
सबसे अच्छी लर्निंग सेटिंग बदल जाती हैं? अगर हां, तो उन्हें यह भूमिका क्यों दी गई है?
टास्क 1 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.
अगर लर्निंग रेट को 3 (शुरुआती सेटिंग) पर सेट किया गया है, तो
ट्रेनिंग में होने वाले नुकसान की तुलना में, टेस्ट के नुकसान की संख्या काफ़ी ज़्यादा है.
टास्क 2 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.
सीखने की दर को कम करने से (उदाहरण के लिए, 0.001),
ट्रेनिंग के नुकसान के बहुत करीब पहुंचने पर, जांच के नतीजे में कमी आ जाती है. ज़्यादातर रन में, बैच का साइज़ बढ़ाने से ट्रेनिंग में होने वाली कमी या टेस्ट लॉस पर कोई असर नहीं पड़ता. हालांकि, बहुत कम रन करने पर, बैच का साइज़ 20 या इससे ज़्यादा होने से, ट्रेनिंग में होने वाली कमी
से थोड़ी कम हो जाती है.
प्लेग्राउंड के डेटा सेट रैंडम तरीके से जनरेट होते हैं. इसलिए, हो सकता है कि हमारे जवाब हमेशा आपके जवाबों से पूरी तरह से मेल न खाएं.
टास्क 3 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.
ट्रेनिंग डेटा प्रतिशत को 50% से घटाकर 10% करने पर, ट्रेनिंग सेट में
डेटा पॉइंट की संख्या बहुत कम हो जाती है. डेटा बहुत कम होने,
ज़्यादा बैच साइज़ और सीखने की दर ज़्यादा होने की वजह से, ट्रेनिंग मॉडल में
बार-बार गड़बड़ी होती है. यह डेटा, तय की गई सीमा से ज़्यादा बार दिखता है.