पहला चरण: डेटा इकट्ठा करना
संग्रह की मदद से व्यवस्थित रहें
अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.
सुपरवाइज़्ड मशीन लर्निंग से जुड़ी किसी भी समस्या को हल करने के लिए, डेटा इकट्ठा करना सबसे ज़रूरी चरण होता है. टेक्स्ट की कैटगरी तय करने वाली सुविधा, सिर्फ़ उस डेटासेट से बढ़िया हो सकती है जिससे वह बनाया गया है.
अगर आपके पास कोई ऐसी समस्या नहीं है जिसे आपको हल करना है और टेक्स्ट की कैटगरी तय करने के बारे में सिर्फ़ जानना है, तो आपके लिए ओपन सोर्स डेटासेट उपलब्ध हैं. इनमें से कुछ के लिंक आपको हमारे GitHub रेपो में मिल सकते हैं.
दूसरी ओर, अगर कोई खास समस्या हल की जा रही है,
तो आपको ज़रूरी डेटा इकट्ठा करना होगा. कई संगठन अपना डेटा ऐक्सेस करने के लिए, सार्वजनिक एपीआई उपलब्ध कराते हैं. उदाहरण के लिए, X API या NY Times API. आपको जिस समस्या को हल करना है
उसके लिए इन एपीआई का इस्तेमाल किया जा सकता है.
डेटा इकट्ठा करते समय ध्यान रखने वाली कुछ ज़रूरी बातें:
- अगर सार्वजनिक एपीआई का इस्तेमाल किया जा रहा है, तो उसका इस्तेमाल करने से पहले एपीआई की सीमाओं को समझ लें. उदाहरण के लिए, कुछ एपीआई क्वेरी करने की दर की एक सीमा तय करते हैं.
- आपके पास ट्रेनिंग के जितने ज़्यादा उदाहरण होंगे (जिन्हें इस गाइड में सैंपल कहा गया है), उतना ही बेहतर होगा. इससे आपके मॉडल को
सामान्य बनाने में मदद मिलेगी.
- पक्का करें कि हर क्लास या विषय के लिए सैंपल की संख्या
असंतुलित न हो. इसका मतलब है कि
आपकी हर क्लास में ऐसे सैंपल होने चाहिए जिनकी तुलना की जा सके.
- पक्का कर लें कि आपके सैंपल, संभावित इनपुट के स्पेस को सही तरह से कवर करते हों, न कि सिर्फ़ सामान्य मामलों को.
इस पूरी गाइड में, हम वर्कफ़्लो को समझाने के लिए, इंटरनेट फ़िल्म डेटाबेस (IMDb) फ़िल्म की समीक्षाओं का डेटासेट इस्तेमाल करेंगे. इस डेटासेट में, आईएमडीबी की वेबसाइट पर लोगों की पोस्ट की गई फ़िल्मों की समीक्षाएं शामिल हैं. साथ ही, इनसे जुड़े लेबल ("सकारात्मक" या "नेगेटिव") जो बताते हैं कि समीक्षक को फ़िल्म पसंद आई या नहीं. यह भावनाओं के विश्लेषण से जुड़ी
समस्या का क्लासिक उदाहरण है.
जब तक कुछ अलग से न बताया जाए, तब तक इस पेज की सामग्री को Creative Commons Attribution 4.0 License के तहत और कोड के नमूनों को Apache 2.0 License के तहत लाइसेंस मिला है. ज़्यादा जानकारी के लिए, Google Developers साइट नीतियां देखें. Oracle और/या इससे जुड़ी हुई कंपनियों का, Java एक रजिस्टर किया हुआ ट्रेडमार्क है.
आखिरी बार 2024-06-25 (UTC) को अपडेट किया गया.
[[["समझने में आसान है","easyToUnderstand","thumb-up"],["मेरी समस्या हल हो गई","solvedMyProblem","thumb-up"],["अन्य","otherUp","thumb-up"]],[["वह जानकारी मौजूद नहीं है जो मुझे चाहिए","missingTheInformationINeed","thumb-down"],["बहुत मुश्किल है / बहुत सारे चरण हैं","tooComplicatedTooManySteps","thumb-down"],["पुराना","outOfDate","thumb-down"],["अनुवाद से जुड़ी समस्या","translationIssue","thumb-down"],["सैंपल / कोड से जुड़ी समस्या","samplesCodeIssue","thumb-down"],["अन्य","otherDown","thumb-down"]],["आखिरी बार 2024-06-25 (UTC) को अपडेट किया गया."],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]