डेटा को स्प्लिट करना

जैसा कि समाचार कहानी का उदाहरण है, सही तरीके से बंटवारा करना, हमेशा सही तरीका नहीं होता.

ऑनलाइन सिस्टम के लिए बार-बार आने वाली तकनीक को समय के हिसाब से डेटा में बांटना है, ताकि आप:

  • 30 दिनों का डेटा इकट्ठा करें.
  • 1-29 दिन के डेटा से ट्रेनिंग करें.
  • 30 दिन के डेटा का आकलन करें.

ऑनलाइन सिस्टम के लिए, ट्रेनिंग डेटा पुराने डेटा के मुकाबले पुराना होता है. इसलिए, यह तकनीक पक्का करती है कि आपकी पुष्टि का सेट, ट्रेनिंग और सर्विंग के बीच के लैग को लगातार दिखा सके. हालांकि, समय के आधार पर स्प्लिट बहुत बड़े डेटासेट के साथ सबसे अच्छे तरीके से काम करते हैं, जैसे कि उनके लाखों उदाहरण हैं. जिन प्रोजेक्ट का डेटा कम होता है उनमें डिस्ट्रिब्यूशन, ट्रेनिंग, टेस्टिंग, और टेस्टिंग से काफ़ी अलग होता है.

मशीन लर्निंग क्रिएशन कोर्स में बताए गए मशीन लर्निंग लिटरेचर प्रोजेक्ट से भी डेटा स्प्लिट की बात को याद करें. यह डेटा तीन लेखकों में से किसी एक ने लिखा था, इसलिए डेटा तीन मुख्य ग्रुप में शामिल हो गया. टीम ने बिना किसी क्रम के स्प्लिट करने का तरीका लागू किया, इसलिए हर ग्रुप का डेटा, ट्रेनिंग, इवैलुएशन, और जांच सेट में मौजूद था. इसलिए, मॉडल से मिली जानकारी से यह पता चलता था कि उस डेटा के लिए अनुमान लगाने का समय ज़रूरी नहीं था. यह समस्या तब हो सकती है, जब कभी आपका डेटा ग्रुप में रखा जाता है, चाहे वह तारीख की सीरीज़ का डेटा हो या दूसरे पैरामीटर के हिसाब से. डोमेन के बारे में जानकारी से यह पता चलता है कि आपने डेटा को किस तरह बांटा है.

ज़्यादा समीक्षा के लिए, मशीन लर्निंग क्रैश कोर्स में ये मॉड्यूल देखें: