डेटा विभाजन का उदाहरण

ज़रूरत पड़ने पर, आपका डेटा और सैंपलिंग इकट्ठा करने के बाद, आपके डेटा को ट्रेनिंग सेट, पुष्टि करने के सेट, और टेस्टिंग सेट में बांटा जाता है.

जब रैंडम तौर पर बंटवारा करना सबसे सही तरीका हो

हालांकि, मशीन लर्निंग की कई समस्याओं के लिए रैंडम स्प्लिट सबसे अच्छा तरीका है, लेकिन यह हमेशा सही समाधान होता है. उदाहरण के लिए, ऐसे डेटा सेट पर विचार करें जिनमें उदाहरणों को स्वाभाविक रूप से मिलते-जुलते उदाहरणों में रखा गया है.

मान लें कि आप चाहते हैं कि आपका मॉडल, विषय को समाचार लेख के टेक्स्ट से अलग-अलग कैटगरी में बांटे. रैंडम स्प्लिट में क्या समस्या होगी?

लेखों के चार अलग-अलग ग्रुप बनाए गए हैं (एक लेबल और कोट की गई जानकारी;स्टोरी 1 "और&स्टोरी 2",
"स्टोरी 3", & "स्टोरी 4")
एक टाइमलाइन पर. पहली इमेज. खबरों को एक ही ग्रुप में रखा जाता है.

समाचारों को क्लस्टर में दिखाया जाता है: एक ही विषय के बारे में एक से ज़्यादा खबरें एक ही समय पर प्रकाशित की जाती हैं. अगर हम डेटा को बिना किसी तय क्रम के बांट देते हैं, तो जांच सेट और ट्रेनिंग सेट में एक जैसी खबरें आ सकती हैं. असल में, इस तरीके से काम नहीं किया जा सकता, क्योंकि ऐसी सारी कहानियां एक ही समय पर होती हैं. इसलिए, ऐसा करने से सब कुछ बदल जाएगा.

इमेज 1 के वही लेख अब टाइमलाइन पर नहीं हैं. इसके बजाय, अब लेखों को किसी भी तरह से ट्रेनिंग सेट और टेस्टिंग सेट में बांट दिया जाता है. ट्रेनिंग सेट और टेस्टिंग सेट
में हर तरह के चार उदाहरणों के अलग-अलग उदाहरण
शामिल हैं. दूसरी इमेज. रैंडम स्प्लिट, सेट में किसी क्लस्टर को बांट देगा. इससे टेढ़ा-मेढ़ा चल जाएगा.

इस समस्या को ठीक करने का सबसे आसान तरीका यह है कि हम स्टोरी के प्रकाशित होने के समय के हिसाब से डेटा प्रकाशित कर दें. ऐसा तब किया जा सकता है, जब स्टोरी प्रकाशित हो चुकी हो. इससे एक ही दिन में कहानियों को एक ही स्प्लिट में रखा जाता है.

इमेज 1 की मूल टाइमलाइन को अब ट्रेनिंग सेट और टेस्ट सेट में बांट दिया गया है. "स्टोरी 1"और स्टोरी 2"
के सभी लेख ट्रेनिंग सेट में हैं. "स्टोरी 3"और स्टोरी 4"
के सभी लेख टेस्ट सेट में हैं. तीसरी इमेज. ग्रुप को समय पर बांटने से, ज़्यादातर क्लस्टर एक ही सेट में खत्म हो जाते हैं.

हज़ारों या उससे ज़्यादा खबरों के साथ, हो सकता है कि प्रतिशत को दिनों के हिसाब से बांटा जाए. हालांकि, इसमें कोई दिक्कत नहीं है, लेकिन असल में ये खबरें दो दिनों की हैं. इसके अलावा, आप कटऑफ़ की तय सीमा के अंदर डेटा को फेंक सकते हैं. इससे यह पक्का हो सकेगा कि डेटा ओवरलैप न हो. उदाहरण के लिए, आप अप्रैल महीने के लिए, स्टोरी के बारे में ट्रेन दिखा सकते हैं. इसके बाद, हफ़्ते के अंतर को रोकने वाले हफ़्ते के अंतर के साथ, टेस्ट सेट के तौर पर मई के दूसरे हफ़्ते का इस्तेमाल करें.