الخطوة 1: جمع البيانات
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
جمع البيانات هو أهم خطوة في حل أي مشكلة تعلّم آلة خاضعة للإشراف. يمكن أن يكون مصنف النص بنفس جودة مجموعة البيانات التي تم إنشاؤها منها.
إذا لم تكن لديك مشكلة محددة تريد حلها وكنت مهتمًا فقط
باستكشاف تصنيف النص بشكل عام، فهناك الكثير من مجموعات البيانات المتاحة
مفتوحة المصدر. يمكنك العثور على روابط لبعض منها في مستودع
GitHub.
من ناحية أخرى، إذا كنت تواجه مشكلة معينة،
فستحتاج إلى جمع البيانات اللازمة. توفّر العديد من المؤسسات واجهات برمجة تطبيقات عامة للوصول إلى بياناتها، مثل X API أو NY Times API. قد تتمكن من الاستفادة من واجهات برمجة التطبيقات
هذه لحل المشكلة التي تحاول حلها.
فيما يلي بعض الأشياء المهمة التي يجب تذكرها عند جمع البيانات:
- إذا كنت تستخدم واجهة برمجة تطبيقات عامة، عليك فهم قيود واجهة برمجة التطبيقات قبل استخدامها. على سبيل المثال، تضع بعض واجهات برمجة التطبيقات حدًا لمعدّل إجراء طلبات البحث.
- كلما زاد عدد أمثلة التدريب (المشار إليها باسم نماذج في بقية هذا الدليل)، كان ذلك أفضل. سيساعد ذلك في تعميم النموذج بشكل أفضل.
- احرص على ألّا يكون عدد العيّنات لكل صف أو موضوع
غير متوازن بشكل مفرط. أي، ينبغي أن يكون لديك عدد مماثل من العينات في كل فئة.
- تأكَّد من أنّ نماذجك تغطي بشكل كافٍ مساحة الإدخالات المحتملة، وليس الحالات الشائعة فقط.
في هذا الدليل، سنستخدم مجموعة بيانات مراجعات الأفلام على الإنترنت (IMDb) لتوضيح سير العمل. تحتوي مجموعة البيانات هذه على مراجعات للأفلام نشرها أشخاص على موقع IMDb الإلكتروني، بالإضافة إلى التسميات المقابلة ("إيجابية" أو "سلبية")
تشير إلى ما إذا أبدى المُراجع إعجابه بالفيلم أم لا. هذا مثال كلاسيكي
على مشكلة تحليل الآراء.
إنّ محتوى هذه الصفحة مرخّص بموجب ترخيص Creative Commons Attribution 4.0 ما لم يُنصّ على خلاف ذلك، ونماذج الرموز مرخّصة بموجب ترخيص Apache 2.0. للاطّلاع على التفاصيل، يُرجى مراجعة سياسات موقع Google Developers. إنّ Java هي علامة تجارية مسجَّلة لشركة Oracle و/أو شركائها التابعين.
تاريخ التعديل الأخير: 2024-06-25 (حسب التوقيت العالمي المتفَّق عليه)
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],["تاريخ التعديل الأخير: 2024-06-25 (حسب التوقيت العالمي المتفَّق عليه)"],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]