ओवरफ़िटिंग: लॉस कर्व की व्याख्या करना

मशीन लर्निंग का इस्तेमाल करना तब ज़्यादा आसान होता, जब पहली बार मॉडल को ट्रेनिंग देने पर, आपके सभी लॉस कर्व कुछ इस तरह दिखते:

इमेज 20. मशीन लर्निंग मॉडल को ट्रेनिंग देते समय, आदर्श लॉस कर्व दिखाने वाला प्लॉट. लॉस कर्व, y-ऐक्सिस पर लॉस को प्लॉट करता है और x-ऐक्सिस पर ट्रेनिंग के चरणों की संख्या को दिखाता है. ट्रेनिंग के चरणों की संख्या बढ़ने पर, लॉस की वैल्यू ज़्यादा से शुरू होती है. इसके बाद, यह तेजी से कम होती जाती है और आखिर में, लॉस की वैल्यू कम से कम हो जाती है.
इमेज 20. लॉस कर्व का सही उदाहरण.

माफ़ करें, लॉस कर्व को समझना अक्सर मुश्किल होता है. इस पेज पर दिए गए अभ्यासों को हल करने के लिए, लॉस कर्व के बारे में अपने अनुमान का इस्तेमाल करें.

पहला एक्सरसाइज़: ऑसीलेट करने वाला लॉस कर्व

इमेज 21. ऐसा लॉस कर्व (y-ऐक्सिस पर लॉस; x-ऐक्सिस पर ट्रेनिंग के चरण की संख्या) जिसमें लॉस कम नहीं होता.
            इसके बजाय, नुकसान में उतार-चढ़ाव होता रहता है.
इमेज 21. ऑसीलेट करने वाला लॉस कर्व.
इमेज 21 में दिखाए गए लॉस कर्व को बेहतर बनाने के लिए, तीन कौनसी कार्रवाइयां की जा सकती हैं?
गलत उदाहरणों का पता लगाने के लिए, अपने डेटा की तुलना डेटा स्कीमा से करें. इसके बाद, ट्रेनिंग सेट से गलत उदाहरण हटाएं.
हां, यह सभी मॉडल के लिए एक अच्छा तरीका है.
लर्निंग रेट कम करें.
हां, ट्रेनिंग से जुड़ी समस्या को डीबग करते समय, आम तौर पर लर्निंग रेट को कम करना एक अच्छा तरीका होता है.
ट्रेनिंग सेट को भरोसेमंद उदाहरणों की छोटी संख्या तक कम करें.
भले ही, यह तकनीक कृत्रिम लगती है, लेकिन यह असल में एक अच्छा तरीका है. मान लें कि मॉडल, भरोसेमंद उदाहरणों के छोटे सेट पर आधारित है. इसके बाद, धीरे-धीरे ज़्यादा उदाहरण जोड़े जा सकते हैं. इससे यह पता चल सकता है कि किन उदाहरणों की वजह से लॉस कर्व में उतार-चढ़ाव होता है.
ट्रेनिंग सेट में उदाहरणों की संख्या बढ़ाएं.
यह एक दिलचस्प विचार है, लेकिन इससे समस्या ठीक होने की संभावना बहुत कम है.
लर्निंग रेट बढ़ाएं.
आम तौर पर, जब किसी मॉडल के लर्निंग कर्व से कोई समस्या का पता चलता है, तो लर्निंग रेट बढ़ाने से बचें.

दूसरा एक्सरसाइज़. अचानक गिरावट वाला लॉस कर्व

इमेज 22. लॉस कर्व प्लॉट, जो ट्रेनिंग के कुछ चरणों तक लॉस को कम दिखाता है और फिर ट्रेनिंग के अगले चरणों में अचानक बढ़ जाता है.
इमेज 22. नुकसान में तेज़ी से बढ़ोतरी.
यहां दिए गए दो स्टेटमेंट में से, कौनसे ऐसे हैं जिनसे यह पता चलता है कि फ़िगर 22 में दिखाए गए, अचानक हुए नुकसान की संभावित वजहें क्या हैं?
इनपुट डेटा में एक या उससे ज़्यादा NaNs हैं. उदाहरण के लिए, शून्य से भाग देने पर मिलने वाली वैल्यू.
ऐसा होना आम बात है.
इनपुट डेटा में आउटलायर की संख्या ज़्यादा है.
कभी-कभी, बैच को सही तरीके से शफ़ल न करने की वजह से, किसी बैच में बहुत ज़्यादा आउटलायर हो सकते हैं.
लर्निंग रेट बहुत कम है.
बहुत कम लर्निंग रेट से ट्रेनिंग में लगने वाला समय बढ़ सकता है, लेकिन यह अजीब लॉस कर्व की वजह नहीं है.
नियमित करने की दर बहुत ज़्यादा है.
ज़्यादा रेगुलराइज़ेशन की वजह से, मॉडल को एक साथ काम करने से रोका जा सकता है. हालांकि, इससे फ़िगर 22 में दिखाया गया अजीब लॉस कर्व नहीं बनेगा.

तीसरा अभ्यास. टेस्ट लॉस, ट्रेनिंग लॉस से अलग होना

इमेज 23. ट्रेनिंग लॉस कर्व एक साथ दिखता है, लेकिन ट्रेनिंग के कुछ चरणों के बाद, पुष्टि करने से जुड़ा लॉस बढ़ने लगता है.
23वीं इमेज. पुष्टि न होने की संख्या में तेज़ी से बढ़ोतरी.
ट्रेनिंग और टेस्ट सेट के लॉस कर्व के बीच इस अंतर की वजह के बारे में, इनमें से किस वाक्य से सबसे बेहतर तरीके से पता चलता है?
मॉडल, ट्रेनिंग सेट को ओवरफ़िट कर रहा है.
हां, ऐसा हो सकता है. समस्या को हल करने के लिए ये तरीके आज़माएं:
  • मॉडल को आसान बनाएं. इसके लिए, सुविधाओं की संख्या कम करें.
  • नियमित करने की दर बढ़ाएं.
  • पक्का करें कि ट्रेनिंग सेट और टेस्ट सेट, आंकड़ों के हिसाब से एक जैसे हों.
लर्निंग रेट बहुत ज़्यादा है.
अगर लर्निंग रेट बहुत ज़्यादा होता, तो ट्रेनिंग सेट के लिए लॉस कर्व का व्यवहार वैसा नहीं होता जैसा कि हुआ.

चौथा अभ्यास. लॉस कर्व रुक जाता है

इमेज 24. लॉस कर्व का प्लॉट, जिसमें दिख रहा है कि ट्रेनिंग के साथ लॉस कम होना शुरू हो गया है. हालांकि, इसके बाद बार-बार दिखने वाले पैटर्न दिख रहे हैं, जो रेक्टैंगल के आकार वाली वेव की तरह दिख रहे हैं.
24वीं इमेज. कुछ चरणों के बाद, गड़बड़ी की वजह से डेटा का खो जाना.
इनमें से किस वाक्य से, फ़ोटो 24 में दिखाए गए अनियमित लॉस कर्व की सबसे सही जानकारी मिलती है?
ट्रेनिंग सेट को अच्छी तरह से शफ़ल नहीं किया गया है.
ऐसा हो सकता है. उदाहरण के लिए, अगर ट्रेनिंग सेट में कुत्तों की 100 और बिल्ली की 100 इमेज हैं, तो मॉडल के ट्रेन होने पर, लॉस में उतार-चढ़ाव हो सकता है. पक्का करें कि आपने उदाहरणों को ज़रूरत के मुताबिक क्रम में लगाया हो.
नियमित करने की दर बहुत ज़्यादा है.
ऐसा होने की संभावना कम है.
ट्रेनिंग सेट में बहुत ज़्यादा सुविधाएं हैं.
ऐसा होने की संभावना कम है.