इस पेज का अनुवाद Cloud Translation API से किया गया है.

डेटा को स्प्लिट करना

जैसा कि समाचार कहानी का उदाहरण है, सही तरीके से बंटवारा करना, हमेशा सही तरीका नहीं होता.

ऑनलाइन सिस्टम के लिए बार-बार आने वाली तकनीक को समय के हिसाब से डेटा में बांटना है, ताकि आप:

30 दिनों का डेटा इकट्ठा करें.
1-29 दिन के डेटा से ट्रेनिंग करें.
30 दिन के डेटा का आकलन करें.

ऑनलाइन सिस्टम के लिए, ट्रेनिंग डेटा पुराने डेटा के मुकाबले पुराना होता है. इसलिए, यह तकनीक पक्का करती है कि आपकी पुष्टि का सेट, ट्रेनिंग और सर्विंग के बीच के लैग को लगातार दिखा सके. हालांकि, समय के आधार पर स्प्लिट बहुत बड़े डेटासेट के साथ सबसे अच्छे तरीके से काम करते हैं, जैसे कि उनके लाखों उदाहरण हैं. जिन प्रोजेक्ट का डेटा कम होता है उनमें डिस्ट्रिब्यूशन, ट्रेनिंग, टेस्टिंग, और टेस्टिंग से काफ़ी अलग होता है.

मशीन लर्निंग क्रिएशन कोर्स में बताए गए मशीन लर्निंग लिटरेचर प्रोजेक्ट से भी डेटा स्प्लिट की बात को याद करें. यह डेटा तीन लेखकों में से किसी एक ने लिखा था, इसलिए डेटा तीन मुख्य ग्रुप में शामिल हो गया. टीम ने बिना किसी क्रम के स्प्लिट करने का तरीका लागू किया, इसलिए हर ग्रुप का डेटा, ट्रेनिंग, इवैलुएशन, और जांच सेट में मौजूद था. इसलिए, मॉडल से मिली जानकारी से यह पता चलता था कि उस डेटा के लिए अनुमान लगाने का समय ज़रूरी नहीं था. यह समस्या तब हो सकती है, जब कभी आपका डेटा ग्रुप में रखा जाता है, चाहे वह तारीख की सीरीज़ का डेटा हो या दूसरे पैरामीटर के हिसाब से. डोमेन के बारे में जानकारी से यह पता चलता है कि आपने डेटा को किस तरह बांटा है.

ज़्यादा समीक्षा के लिए, मशीन लर्निंग क्रैश कोर्स में ये मॉड्यूल देखें:

पीछे जाएं

डेटा विभाजन का उदाहरण

आगे बढ़ें

रैंडमाइज़ेशन