पुष्टि करने का सेट: एक और बंटवारा

पिछले मॉड्यूल में डेटा सेट को ट्रेनिंग सेट और टेस्ट सेट में बांटा गया. इस विभाजन से आपको उदाहरणों के एक सेट के आधार पर ट्रेनिंग दी जा सकेगी और फिर उदाहरणों के दूसरे सेट के साथ मॉडल की जांच की जा सकेगी. दो सेगमेंट में बांटने पर, वर्कफ़्लो इस तरह दिख सकता है:

तीन चरणों वाला वर्कफ़्लो डायग्राम. 1. ट्रेनिंग सेट पर ट्रेन का मॉडल. 2. टेस्ट सेट पर मॉडल का आकलन करें. 3. टेस्ट सेट पर मिले नतीजों के हिसाब से मॉडल को ट्वीक करें. 1, 2, और 3 पर दोहराएं और वह मॉडल चुनें जो टेस्ट सेट पर सबसे अच्छा परफ़ॉर्म करे.

पहली इमेज. कोई वर्कफ़्लो?

यहां, "ट्वीक मॉडल" का मतलब है, अपने हिसाब से मॉडल में बदलाव करना. जैसे, सीखने की दर बदलना, सुविधाएं जोड़ना या हटाना, और नए मॉडल को नए सिरे से डिज़ाइन करना. इस वर्कफ़्लो के आखिर में, आप वह मॉडल चुनते हैं जो टेस्ट सेट पर सबसे अच्छा परफ़ॉर्म करता है.

डेटा सेट को दो सेट में विभाजित करना एक अच्छा विचार है, लेकिन यह एक अच्छा विकल्प नहीं है. यहां दिए गए डायग्राम में दिखाए गए डेटा को तीन सबसेट में बांटकर, ज़्यादा फ़िट होने की अपनी संभावना को काफ़ी कम किया जा सकता है:

हॉरिज़ॉन्टल बार को तीन हिस्सों में बांटा गया है: इसका 70% हिस्सा ट्रेनिंग सेट का है, 15% पुष्टि सेट है, और 15% टेस्ट सेट है

दूसरा डायग्राम. एक डेटा सेट को तीन सबसेट में बांटना.

ट्रेनिंग सेट से मिले नतीजों का आकलन करने के लिए, पुष्टि करने के सेट का इस्तेमाल करें. इसके बाद, पुष्टि करने के सेट को "पास" करने के बाद, अपने इवैलुएशन की दोबारा जांच करने के लिए, टेस्ट सेट का इस्तेमाल करें. नीचे दिया गया डायग्राम, इस नए वर्कफ़्लो को दिखाता है:

चित्र 1 के समान वर्कफ़्लो, सिवाय इसके कि परीक्षण सेट के प्रति मॉडल का मूल्यांकन करने के बजाय, वर्कफ़्लो, मान्यता सेट के आधार पर मॉडल का मूल्यांकन करता है. इसके बाद, जब ट्रेनिंग सेट और पुष्टि करने के लिए कम या ज़्यादा विकल्प सेट हो जाएं, तो टेस्ट सेट के लिए मॉडल की पुष्टि करें.

तीसरी इमेज. बेहतर वर्कफ़्लो.

इस बेहतर वर्कफ़्लो में:

  1. वह मॉडल चुनें जो पुष्टि करने के सेट पर सबसे सही तरीके से काम करता है.
  2. टेस्ट सेट के लिए उस मॉडल की दोबारा जांच करें.

यह एक बेहतर वर्कफ़्लो है, क्योंकि इससे टेस्ट सेट का एक्सपोज़र कम हो जाता है.