المهام التابعة للبيانات

لا تقل أهمية البيانات لمطوّري برامج تعلّم الآلة عن أهمية الترميز بالنسبة إلى المبرمجين التقليديين. يركز هذا الدرس على أنواع الأسئلة التي يجب طرحها على بياناتك.

العناصر التابعة للبيانات

  • تحدِّد بيانات الإدخال (الميزات) سلوك نظام تعلُّم الآلة.
    • نكتب اختبارات الوحدات لمكتبات البرامج، ولكن ماذا عن البيانات؟
  • يجب توخي الحذر عند اختيار إشارات الإدخال.
    • وقد يكون الأمر أكثر أهمية من تحديد مكتبات البرامج التي يجب الاعتماد عليها؟
  • الموثوقية
    • ماذا يحدث في حال عدم توفّر الإشارة؟ هل تعلم؟
  • الموثوقية
    • ماذا يحدث في حال عدم توفّر الإشارة؟ هل تعلم؟
  • تحديد الإصدارات
    • هل حدث أي تغيير في النظام الذي يحسب هذه الإشارة؟ كم مرة؟ ما الذي سيحدث؟
  • الموثوقية
    • ماذا يحدث في حال عدم توفّر الإشارة؟ هل تعلم؟
  • تحديد الإصدارات
    • هل حدث أي تغيير في النظام الذي يحسب هذه الإشارة؟ كم مرة؟ ما الذي سيحدث؟
  • ضرورة
    • هل فائدة استخدام الإشارة تبرر تكلفة تضمينها؟
  • الارتباطات
    • هل تكون أي من إشارات الإدخال مرتبطة ببعضها البعض لدرجة أننا بحاجة إلى استراتيجيات إضافية للتمييز بينها؟
  • الارتباطات
    • هل تكون أي من إشارات الإدخال مرتبطة ببعضها البعض لدرجة أننا بحاجة إلى استراتيجيات إضافية للتمييز بينها؟
  • تكرار التعليقات
    • أي من إشارات الإدخال يمكن أن تتأثر بمخرجات نموذجي؟

ملخّص محاضرات الفيديو

يعتمد سلوك نظام تعلّم الآلة على سلوك ميزات الإدخال وسماتها. وكلما تغيّرت بيانات الإدخال لهذه الميزات، تغيّر كذلك النموذج. في بعض الأحيان يكون هذا التغيير مرغوبًا فيه، ولكنه ليس إجراءً كذلك في بعض الأحيان.

في التطوير التقليدي للبرامج، فإنك تركز على الشفرة أكثر من البيانات. على الرغم من أن الترميز لا يزال جزءًا من المهمة، إلا أنه يجب توسيع نطاق تركيزك ليشمل البيانات. فعلى سبيل المثال، في مشاريع تطوير البرامج التقليدية، من أفضل الممارسات كتابة اختبارات الوحدة للتحقق من صحة الشفرة. في مشاريع تعلّم الآلة، يجب أيضًا اختبار بيانات الإدخال والتحقّق منها ومراقبتها باستمرار.

على سبيل المثال، يجب مراقبة النموذج باستمرار لإزالة الميزات غير المستخدمة (أو التي يتم استخدامها على نطاق محدود). تخيّل ميزة معينة تسهم بشكل قليل في النموذج أو لا شيء على الإطلاق. وإذا تغيرت بيانات الإدخال لهذه الميزة فجأة، فقد يتغير سلوك النموذج على نحو مفاجئ.

الموثوقية

بعض الأسئلة التي يجب طرحها بشأن موثوقية بيانات الإدخال:

  • هل ستكون الإشارة متاحة دائمًا أم أنها من مصدر غير موثوق به؟ على سبيل المثال:
    • هل تأتي الإشارة من خادم يتعطل بسبب حمل شديد؟
    • هل تأتي الإشارة من أشخاص يذهبون في عطلة كل شهر آب (أغسطس)؟

تحديد الإصدارات

بعض الأسئلة التي يجب طرحها حول الإصدارات:

  • هل حدث تغيير في النظام الذي يحسب هذه البيانات؟ إذا كان الأمر كذلك:
    • كم مرة؟
    • كيف ستعرف متى يتغير هذا النظام؟

في بعض الأحيان، تأتي البيانات من عملية مصدر البيانات. فإذا تغيرت هذه العملية فجأة، فقد يعاني النموذج.

يمكنك إنشاء نسختك الخاصة من البيانات التي تتلقاها من عملية التحميل. ثم تقدم فقط إلى الإصدار التالي من البيانات التي يتم تحميلها حينما تكون متأكدًا من أنه يمكنك إجراء ذلك بأمان.

ضرورة

قد يذكرك السؤال التالي بالانتظام:

  • هل فائدة هذه الميزة تبرر تكلفة تضمينها؟

من المغري دائمًا إضافة المزيد من الميزات إلى النموذج. على سبيل المثال، لنفترض أنك عثرت على ميزة جديدة جعلت إضافتها نموذجك أكثر دقة قليلاً. مزيد من الدقة بالأصوات أفضل من الدقة الأقل. ومع ذلك، فقد تمت الآن الآن إضافة عبء الصيانة إلى حسابك. قد تتدهور هذه الميزة الإضافية بشكل غير متوقع، لذلك يجب عليك مراقبتها. فكّر جيدًا قبل إضافة ميزات تؤدي إلى فوز بسيط على المدى القصير.

الارتباطات

ترتبط بعض الميزات (بشكل إيجابي أو سلبي) بميزات أخرى. اطرح على نفسك السؤال التالي:

  • هل هناك أي ميزات مرتبطة ببعضها البعض لدرجة أنك تحتاج إلى إستراتيجيات إضافية للتمييز بينها؟

تكرار التعليقات

في بعض الأحيان يمكن أن يؤثر النموذج على بيانات التدريب الخاصة به. على سبيل المثال، تُدخل النتائج من بعض النماذج ميزات بشكل مباشر أو غير مباشر في النموذج نفسه.

في بعض الأحيان يمكن أن يؤثر النموذج على نموذج آخر. على سبيل المثال، جرّب نموذجين لتوقع أسعار الأسهم:

  • النموذج (أ)، وهو نموذج تنبؤي سيئ.
  • النموذج ب.

نظرًا لأن العربة (أ) تنطوي على سيارات باجي، قررت بالخطأ شراء أسهم في الأسهم س. وتزيد هذه المشتريات من سعر السهم X. يستخدم النموذج ب سعر السهم س كميزة إدخال، لذلك يمكن أن يصل النموذج ب إلى استنتاجات كاذبة حول قيمة السهم س. وبالتالي، يمكن للنموذج "ب" شراء أسهم من الأسهم س، أو بيعها، استنادًا إلى سلوك العربات "أ" من النموذج "أ". وفي المقابل، يمكن أن يؤثر سلوك النموذج (ب) في النموذج (أ)، ما قد يؤدي إلى هوس زهرة التوليب أو شريحة في سهم الشركة (س)