ट्रेनिंग सेट और टेस्ट सेट
ट्रेनिंग सेट के साथ एक्सपेरिमेंट करने के लिए, हम प्लेग्राउंड पर वापस लौटते हैं
और टेस्ट सेट.
नारंगी और नीले बिंदुओं का मतलब समझने के लिए प्लस आइकॉन पर क्लिक करें.
विज़ुअलाइज़ेशन में:
- हर नीला बिंदु, क्लास के डेटा का एक उदाहरण देता है. जैसे,
स्पैम).
- हर नारंगी बिंदु, डेटा की किसी दूसरी क्लास के एक उदाहरण को दिखाता है (जैसे,
उदाहरण के लिए, स्पैम नहीं).
- बैकग्राउंड का रंग, मॉडल का वह अनुमान दिखाता है जिसमें उदाहरण होते हैं
लोगो मिल जाना चाहिए. नीले बिंदु के आस-पास नीला बैकग्राउंड
इसका मतलब है कि मॉडल उस उदाहरण का सही अनुमान लगा रहा है. इसके उलट,
नीले बिंदु के आस-पास नारंगी रंग के बैकग्राउंड का मतलब है कि मॉडल
उस उदाहरण के लिए एक गलत अनुमान.
इस अभ्यास में एक परीक्षण सेट और एक प्रशिक्षण सेट, दोनों उपलब्ध कराए जाते हैं, जिन्हें इन दोनों से लिया जा सकता है:
एक ही डेटा सेट जैसा है. डिफ़ॉल्ट रूप से, विज़ुअलाइज़ेशन में सिर्फ़ ट्रेनिंग
सेट. यदि आप परीक्षण सेट भी देखना चाहते हैं, तो
विज़ुअलाइज़ेशन के ठीक नीचे, टेस्ट डेटा दिखाएं चेकबॉक्स को चुनें. इस
विज़ुअलाइज़ेशन के लिए, निम्नलिखित भेद पर ध्यान दें:
- ट्रेनिंग के उदाहरणों में, सफ़ेद रंग की आउटलाइन दिखती है.
- जांच के उदाहरणों में काले रंग की आउटलाइन दिखती है.
टास्क 1:
फ़ॉलो किया जा रहा है:
- चलाएं/रोकें बटन पर क्लिक करें:

- टेस्ट लॉस और ट्रेनिंग लॉस की वैल्यू में हुए बदलावों को देखें.
- जब टेस्ट लॉस और ट्रेनिंग लॉस की वैल्यू में बदलाव होना बंद हो जाता है
या समय-समय पर सिर्फ़ एक बार बदलने के लिए, चलाएँ/रोकें बटन को दबाएँ
प्लेग्राउंड को रोकने के लिए फिर से दबाएं.
टेस्ट में हारने और ट्रेनिंग में हुए नुकसान के बीच के अंतर को नोट करें. हम इसे कम करने की कोशिश करेंगे
डेल्टा का पता लगाएं.
टास्क 2: ये काम करें:
- रीसेट करें बटन दबाएं.

- लर्निंग में बदलाव करें
दर.
- चलाएं/रोकें बटन दबाएं:
- प्लेग्राउंड को कम से कम 150 युगों तक चलने दें.
क्या टेस्ट में लॉस और ट्रेनिंग के बीच का अंतर कम है या
क्या यह सीखने की इस नई दर से काफ़ी ज़्यादा है? अगर आप दोनों में बदलाव करते हैं, तो क्या होगा
सीखने की दर और
बैच का साइज़?
वैकल्पिक टास्क 3: ट्रेनिंग डेटा का प्रतिशत लेबल वाला स्लाइडर
इसकी मदद से, डेटा की जांच करने के लिए ट्रेनिंग डेटा के अनुपात को कंट्रोल किया जा सकता है. उदाहरण के लिए,
90% पर सेट करने से, 90% डेटा का इस्तेमाल ट्रेनिंग सेट और
बाकी 10% का इस्तेमाल टेस्ट सेट के लिए किया जाता है.
तो निम्न कार्य करें:
- "ट्रेनिंग के लिए डेटा का प्रतिशत" कम करें 50% से 10% तक.
- सीखने की दर और बैच साइज़ के साथ एक्सपेरिमेंट करें और अपने
से जुड़े फ़ैसले.
क्या ट्रेनिंग डेटा प्रतिशत में बदलाव करने से सबसे सही
वह लर्निंग सेटिंग हैं जो आपने टास्क 2 में खोजी हैं? अगर हां, तो उन्हें यह भूमिका क्यों दी गई है?
टास्क 1 के जवाब के लिए प्लस आइकॉन पर क्लिक करें.
लर्निंग रेट को 3 (शुरुआती सेटिंग) पर सेट करके,
ट्रेनिंग में हुए नुकसान की तुलना में, टेस्ट में होने वाली कमी काफ़ी ज़्यादा है.
टास्क 2 के जवाब के लिए प्लस आइकॉन पर क्लिक करें.
सीखने की दर को कम करके (उदाहरण के लिए, 0.001 तक),
ट्रेनिंग में गिरावट की वैल्यू के काफ़ी करीब, लॉस में गिरावट की जांच करें. ज़्यादातर दौड़ों में,
बैच का साइज़ बढ़ाने से, ट्रेनिंग खोने या टेस्ट पर कोई असर नहीं पड़ता
काफ़ी कमी आई है. हालांकि, दौड़ने के कुछ प्रतिशत में,
बैच का साइज़ 20 या उससे ज़्यादा होने पर, टेस्ट लॉस में मामूली गिरावट आती है
ट्रेनिंग नहीं मिली.
प्लेग्राउंड के डेटा सेट बिना किसी क्रम के जनरेट होते हैं. इस वजह से, हमारा
यह ज़रूरी नहीं है कि आपके जवाब हमेशा आपके जवाबों से पूरी तरह मेल खाते हों.
टास्क 3 के जवाब के लिए प्लस आइकॉन पर क्लिक करें.
ट्रेनिंग के डेटा के प्रतिशत को 50% से घटाकर 10% करना
ट्रेनिंग सेट में डेटा पॉइंट की संख्या को कम करता है. इतने कम डेटा के साथ,
बड़े बैच साइज़ और सीखने की ज़्यादा दर की वजह से, ट्रेनिंग मॉडल बेहतर तरीके से परफ़ॉर्म करता है
करीब-करीब अव्यवस्थित (कम से कम बिंदु से बार-बार कूदना).