पहला चरण: डेटा इकट्ठा करना

निगरानी में रखे गए डिवाइस पर मशीन लर्निंग से जुड़ी किसी भी समस्या को हल करने के लिए, डेटा इकट्ठा करना सबसे ज़रूरी चरण है. टेक्स्ट की कैटगरी तय करने वाला टूल उतना ही काम कर सकता है जितना कि उससे बनाया गया डेटासेट है.

अगर आपको कोई ऐसी समस्या नहीं है जिसे हल करना हो और आपको सिर्फ़ टेक्स्ट की कैटगरी तय करने में दिलचस्पी हो, तो कई ओपन सोर्स डेटासेट उपलब्ध हैं. आप उनमें से कुछ के लिंक हमारे GitHub.repo में देख सकते हैं. दूसरी ओर, अगर आप किसी खास समस्या का सामना कर रहे हैं, तो आपको ज़रूरी डेटा इकट्ठा करना होगा. कई संगठन अपना डेटा ऐक्सेस करने के लिए सार्वजनिक एपीआई उपलब्ध कराते हैं. उदाहरण के लिए, Twitter API या NY Times API. आप शायद इन समस्याओं को हल करने की कोशिश कर रहे हों.

डेटा इकट्ठा करते समय, ध्यान रखने वाली कुछ ज़रूरी बातें:

  • अगर आप सार्वजनिक एपीआई का इस्तेमाल कर रहे हैं, तो उसका इस्तेमाल करने से पहले एपीआई की सीमाओं को समझें. उदाहरण के लिए, कुछ एपीआई, दर तय करने की सीमा तय करते हैं.
  • जितने ज़्यादा ट्रेनिंग के उदाहरण दिए गए हैं (जैसा कि इस गाइड के बाकी हिस्से में नमूने के तौर पर बताया गया है), वे जितने बेहतर होंगे. इससे आपके मॉडल को बेहतर बनाने में मदद मिलेगी.
  • पक्का करें कि हर क्लास या विषय के लिए नमूनों की संख्या ज़रूरत से ज़्यादा असंतुलित न हो. इसका मतलब है कि आपके पास हर क्लास में सैंपल की संख्या होनी चाहिए.
  • पक्का करें कि आपके सैंपल में, सिर्फ़ संभावित मामलों में ही नहीं, बल्कि संभावित इनपुट के लिए बची जगह के बारे में भी बताया गया हो.

इस पूरी गाइड में, हम वर्कफ़्लो को दिखाने के लिए, इंटरनेट फ़िल्म डेटाबेस (IMDb) फ़िल्म की समीक्षाओं वाले डेटासेट का इस्तेमाल करेंगे. इस डेटासेट में उन फ़िल्मों की समीक्षाएं शामिल हैं जिन्हें IMDb की वेबसाइट पर लोगों ने पोस्ट किया है. साथ ही, इससे जुड़े लेबल ("पॉज़िटिव" या "नेगेटिव") भी शामिल होते हैं. इससे पता चलता है कि समीक्षक को फ़िल्म पसंद आई या नहीं. यह भावनाओं का विश्लेषण करने से जुड़ी समस्या का एक क्लासिक उदाहरण है.