सैंपलिंग और स्प्लिट डेटा

सैंपलिंग के बारे में जानकारी

मशीन लर्निंग प्रोजेक्ट के लिए अक्सर डेटा इकट्ठा करना काफ़ी मुश्किल होता है. हालांकि, कभी-कभी इसमें बहुत ज़्यादा डेटा होता है. इसलिए, आपको ट्रेनिंग के उदाहरणों के सबसेट को चुनना होगा.

आप वह सबसेट कैसे चुनते हैं? उदाहरण के तौर पर, मान लीजिए कि आप Google Search का इस्तेमाल करते हैं. आपको कितनी जानकारी से मिलने वाले डेटा के बारे में बता सकता है? क्या आप रैंडम क्वेरी का इस्तेमाल करेंगे? रैंडम सेशन? रैंडम उपयोगकर्ता?

आखिरकार, जवाब इस समस्या पर निर्भर करता है कि हम क्या अनुमान लगाना चाहते हैं और हमें क्या सुविधाएं चाहिए?

  • पिछली क्वेरी सुविधा का इस्तेमाल करने के लिए, आपको सत्र स्तर पर नमूना बनाना होगा, क्योंकि सत्रों में क्वेरी का एक क्रम होता है.
  • पिछले दिनों के उपयोगकर्ता व्यवहार सुविधा का इस्तेमाल करने के लिए, आपको उपयोगकर्ता लेवल पर नमूना लेना होगा.

व्यक्तिगत पहचान से जुड़ी जानकारी को फ़िल्टर करना (व्यक्तिगत पहचान से जुड़ी जानकारी)

अगर आपके डेटा में व्यक्तिगत पहचान से जुड़ी जानकारी (व्यक्तिगत पहचान से जुड़ी जानकारी) शामिल है, तो आपको उसे अपने डेटा से फ़िल्टर करना पड़ सकता है. उदाहरण के लिए, किसी नीति की वजह से आपको कभी-कभी सुविधाओं को हटाना पड़ सकता है.

यह फ़िल्टर करने से, आपके डिस्ट्रिब्यूशन का डेटा बदल जाएगा. आप टेल में जानकारी खो देंगे (बहुत कम मानों के साथ वितरण का हिस्सा, औसत से बहुत दूर).

फ़िल्टर करना मददगार होता है, क्योंकि बहुत कम सुविधाओं को सीखना मुश्किल होता है. हालांकि, यह जानना ज़रूरी है कि आपसे डेटासेट के बारे में अलग-अलग राय ली जाती है. पेश करते समय, इस बात की ज़्यादा उम्मीद की जा सकती है कि शुरुआत से ही, इसके उदाहरण अच्छी तरह दिखेंगे, क्योंकि ये वही उदाहरण हैं जो आपकी ट्रेनिंग के डेटा से फ़िल्टर कर दिए गए हैं. हालांकि, इस टेढ़ी-मेढ़ी से बचा नहीं जा सकता, लेकिन विश्लेषण के दौरान इसकी जानकारी रखें.