مقدمة لإنشاء مجموعة بياناتك

خطوات إنشاء مجموعة البيانات

لإنشاء مجموعة البيانات (وقبل إجراء تحويل البيانات)، يجب:

  1. جمع البيانات الأولية
  2. تحديد مصادر الميزات والتصنيفات
  3. اختَر استراتيجية لأخذ العينات.
  4. تقسيم البيانات

تعتمد هذه الخطوات بشكل كبير على كيفية وضع إطار لمشكلة تعلّم الآلة. يمكنك استخدام عملية التحقق الذاتي أدناه لإعادة تحميل ذكرياتك حول وضع الإطارات والتحقّق من افتراضاتك بشأن جمع البيانات.

التحقّق من تلفيق المشاكل وحلّها وجمع البيانات

بالنسبة إلى الأسئلة التالية، انقر على السهم المطلوب للتحقق من إجابتك:

أنت حاليًا في مشروع جديد لتعلّم الآلة وعلى وشك اختيار ميزاتك الأولى. كم عدد الميزات التي يجب اختيارها؟
اختَر من ميزة واحدة إلى 3 ميزات يبدو أنها قوية القدرة على التوقّع.
من الأفضل أن يبدأ مسار جمع البيانات بميزة أو واحدة فقط. وسيساعدك ذلك في التأكّد من أن نموذج تعلُّم الآلة يعمل على النحو المنشود. بالإضافة إلى ذلك، عندما تنشئ مرجعًا من بعض الميزات، ستشعر بأنك تحرز تقدّمًا.
اختَر من 4 إلى 6 ميزات يبدو أنها قوية القدرة على التوقّع.
قد تستخدم هذه الميزات كثيرًا، ولكن لا يزال من الأفضل أن تبدأ بعدد أقل من الميزات. وتؤدي الميزات الأقل عادةً إلى حدوث مضاعفات غير ضرورية.
اختَر أكبر عدد ممكن من الميزات، لكي تتمكّن من ملاحظة الميزات التي تحقّق أعلى قوة تنبئية.
ابدأ بحجم أصغر. تضيف كل ميزة جديدة بُعدًا جديدًا إلى مجموعة بيانات التدريب. عندما يزداد البُعد، يزداد حجم المساحة بسرعة كبيرة، ما يجعل بيانات التدريب المتاحة قليلة. وكلما كانت بياناتك توزّع المحتوى، كان من الصعب على النموذج معرفة العلاقة بين الميزات التي تهمّه والتصنيف الفعلي. وتُسمّى هذه الظواهر&
يشعر "سام" بحماسة كبيرة بشأن النتائج الأولية لتحليله الإحصائي. وأفاد أنّ البيانات توضّح العلاقة الإيجابية بين عدد عمليات تنزيل التطبيق وعدد مرات ظهور مراجعة التطبيق. ولكنه غير متأكد مما إذا كان سيجري تنزيل الملف على أي حال بدون الاطّلاع على المراجعة. أي ردّ هو الأكثر فائدة بالنسبة إلى سمير؟
يمكنك إجراء تجربة لمقارنة سلوك المستخدمين الذين لم يروا المراجعة مع المستخدمين المشابهين الذين لم يطّلعوا عليها.
إجابتك صحيحة. وإذا لاحظ سام أن المستخدمين الذين رأوا المراجعة الإيجابية كانوا أكثر احتمالاً بأن ينزّلوا التطبيق مقارنةً بالأشخاص الذين لم ينزّلواه، تتوفر لديه أدلة معقولة تشير إلى أنّ المراجعة الإيجابية تشجّع المستخدمين على الحصول على التطبيق.
الوثوق في البيانات من الواضح أنّ هذه المراجعة الرائعة هي سبب تنزيل المستخدمين للتطبيق.
إجابتك غير صحيحة. لن يؤدي هذا الرد إلى توجيه سام إلى الاتجاه الصحيح. لا يمكنك تحديد السبب من بيانات المراقبة فقط. يلاحظ "سام" ارتباطًا ارتباطيًا بين الأرقام (أي الاعتمادية الإحصائية على الأرقام) التي قد تشير إلى السبب أو لا تشير إليه. لا تسمح لتحليلاتك بالانضمام إلى ترتيب العلاقات غير المقصودة.