पिछले मॉड्यूल में डेटा सेट को ट्रेनिंग सेट और टेस्ट सेट में बांटा गया. इस विभाजन से आपको उदाहरणों के एक सेट के आधार पर ट्रेनिंग दी जा सकेगी और फिर उदाहरणों के दूसरे सेट के साथ मॉडल की जांच की जा सकेगी. दो सेगमेंट में बांटने पर, वर्कफ़्लो इस तरह दिख सकता है:
पहली इमेज. कोई वर्कफ़्लो?
यहां, "ट्वीक मॉडल" का मतलब है, अपने हिसाब से मॉडल में बदलाव करना. जैसे, सीखने की दर बदलना, सुविधाएं जोड़ना या हटाना, और नए मॉडल को नए सिरे से डिज़ाइन करना. इस वर्कफ़्लो के आखिर में, आप वह मॉडल चुनते हैं जो टेस्ट सेट पर सबसे अच्छा परफ़ॉर्म करता है.
डेटा सेट को दो सेट में विभाजित करना एक अच्छा विचार है, लेकिन यह एक अच्छा विकल्प नहीं है. यहां दिए गए डायग्राम में दिखाए गए डेटा को तीन सबसेट में बांटकर, ज़्यादा फ़िट होने की अपनी संभावना को काफ़ी कम किया जा सकता है:
दूसरा डायग्राम. एक डेटा सेट को तीन सबसेट में बांटना.
ट्रेनिंग सेट से मिले नतीजों का आकलन करने के लिए, पुष्टि करने के सेट का इस्तेमाल करें. इसके बाद, पुष्टि करने के सेट को "पास" करने के बाद, अपने इवैलुएशन की दोबारा जांच करने के लिए, टेस्ट सेट का इस्तेमाल करें. नीचे दिया गया डायग्राम, इस नए वर्कफ़्लो को दिखाता है:
तीसरी इमेज. बेहतर वर्कफ़्लो.
इस बेहतर वर्कफ़्लो में:
- वह मॉडल चुनें जो पुष्टि करने के सेट पर सबसे सही तरीके से काम करता है.
- टेस्ट सेट के लिए उस मॉडल की दोबारा जांच करें.
यह एक बेहतर वर्कफ़्लो है, क्योंकि इससे टेस्ट सेट का एक्सपोज़र कम हो जाता है.