ज़रूरत पड़ने पर, आपका डेटा और सैंपलिंग इकट्ठा करने के बाद, आपके डेटा को ट्रेनिंग सेट, पुष्टि करने के सेट, और टेस्टिंग सेट में बांटा जाता है.
जब रैंडम तौर पर बंटवारा करना सबसे सही तरीका हो
हालांकि, मशीन लर्निंग की कई समस्याओं के लिए रैंडम स्प्लिट सबसे अच्छा तरीका है, लेकिन यह हमेशा सही समाधान होता है. उदाहरण के लिए, ऐसे डेटा सेट पर विचार करें जिनमें उदाहरणों को स्वाभाविक रूप से मिलते-जुलते उदाहरणों में रखा गया है.
मान लें कि आप चाहते हैं कि आपका मॉडल, विषय को समाचार लेख के टेक्स्ट से अलग-अलग कैटगरी में बांटे. रैंडम स्प्लिट में क्या समस्या होगी?
पहली इमेज. खबरों को एक ही ग्रुप में रखा जाता है.
समाचारों को क्लस्टर में दिखाया जाता है: एक ही विषय के बारे में एक से ज़्यादा खबरें एक ही समय पर प्रकाशित की जाती हैं. अगर हम डेटा को बिना किसी तय क्रम के बांट देते हैं, तो जांच सेट और ट्रेनिंग सेट में एक जैसी खबरें आ सकती हैं. असल में, इस तरीके से काम नहीं किया जा सकता, क्योंकि ऐसी सारी कहानियां एक ही समय पर होती हैं. इसलिए, ऐसा करने से सब कुछ बदल जाएगा.
दूसरी इमेज. रैंडम स्प्लिट, सेट में किसी क्लस्टर को बांट देगा. इससे टेढ़ा-मेढ़ा चल जाएगा.
इस समस्या को ठीक करने का सबसे आसान तरीका यह है कि हम स्टोरी के प्रकाशित होने के समय के हिसाब से डेटा प्रकाशित कर दें. ऐसा तब किया जा सकता है, जब स्टोरी प्रकाशित हो चुकी हो. इससे एक ही दिन में कहानियों को एक ही स्प्लिट में रखा जाता है.
तीसरी इमेज. ग्रुप को समय पर बांटने से, ज़्यादातर क्लस्टर एक ही सेट में खत्म हो जाते हैं.
हज़ारों या उससे ज़्यादा खबरों के साथ, हो सकता है कि प्रतिशत को दिनों के हिसाब से बांटा जाए. हालांकि, इसमें कोई दिक्कत नहीं है, लेकिन असल में ये खबरें दो दिनों की हैं. इसके अलावा, आप कटऑफ़ की तय सीमा के अंदर डेटा को फेंक सकते हैं. इससे यह पक्का हो सकेगा कि डेटा ओवरलैप न हो. उदाहरण के लिए, आप अप्रैल महीने के लिए, स्टोरी के बारे में ट्रेन दिखा सकते हैं. इसके बाद, हफ़्ते के अंतर को रोकने वाले हफ़्ते के अंतर के साथ, टेस्ट सेट के तौर पर मई के दूसरे हफ़्ते का इस्तेमाल करें.