اختبار أنابيب التجهيزات

تهانينا لقد نشرت توقعات لحديثك على مستوى العالم. وأنت بحاجة إلى أن يعمل التنبؤ على مدار 24 ساعة طوال أيام الأسبوع بدون أي ربط وتدرك بسرعة أنك بحاجة إلى مراقبة مسار تعلّم الآلة. في حين أنّ مراقبة جميع المكوّنات قد يبدو شاقًا، يمكننا إلقاء نظرة على المتطلبات والحلول.

التحقّق من انطباق تقديم التدريب

يشير الانحراف أثناء تقديم التدريب إلى أنّ بيانات الإدخال تختلف بين التدريب والعرض. يصف الجدول التالي النوعَين المهمّين للانحراف:

النوع التعريف مثال الحل
انحراف المخطط لا تتوافق بيانات الإدخال للتدريب والعرض مع المخطط نفسه. يتغيّر تنسيق بيانات العرض أو توزيعها أثناء مواصلة تدريب النموذج على البيانات القديمة. استخدِم المخطط نفسه للتحقُّق من بيانات التدريب والعرض. تأكّد من التحقق بشكل منفصل من الإحصاءات التي لم يتم التحقق منها في المخطط، مثل كسر القيم المفقودة.
انحراف الميزة تختلف البيانات الهندسية بين التدريب والعرض. يختلف رمز هندسة الميزات بين التدريب والعرض، ما يؤدي إلى إنشاء بيانات هندسية مختلفة. كما هو الحال في انحراف المخطط، طبِّق القواعد الإحصائية نفسها على مستوى التدريب لعرض البيانات الهندسية. تتبّع عدد الميزات المائلة التي تم اكتشافها، ونسبة الأمثلة المائلة لكل ميزة.

مراقبة أعمار النموذج خلال مسار التعلّم

وإذا تطوّرت بيانات العرض بمرور الوقت ولكن لم تتم إعادة تدريب نموذجك بانتظام، سترى انخفاضًا في جودة النموذج. يمكنك تتبّع الوقت الذي كان فيه النموذج ساريًا من جديد على البيانات الجديدة، وحدّد حدًا أدنى للتنبيهات. فضلاً عن مراقبة عمر النموذج في الخدمة، يجب مراقبة عمر النموذج طوال مسار التعلّم من أجل التقاط أكشاك الأنابيب.

اختبار أن أوزان النماذج وإخراجها ثابتة رقميًا

أثناء تدريب النموذج، يجب ألا تكون قيمة النتائج ومخرجات الطبقة عبارة عن NaN أو Inf. اكتب اختبارات للتحقق من قيم NaN وInf للأوزان ومخرجات الطبقات. إضافةً إلى ذلك، اختبِر أن أكثر من نصف مخرجات الطبقة لا تكون صفرًا.

تتبُّع أداء النموذج

لقد توقّع المؤشر الخاص بمظهر مظهر وحيد القرن أكثر من المتوقّع. تتلقى العديد من طلبات التوقع والمزيد من بيانات التدريب. تعتقد أنّ هذا الأمر رائع، لأنك تدرك أنّ نموذجك يتطلّب المزيد من الذكريات ووقت التدريب. وتقرّر مراقبة أداء النموذج باتّباع هذه الخطوات:

  • يمكنك تتبُّع أداء النموذج حسب إصدارات الرمز والطراز والبيانات. ويسمح لك هذا التتبّع بتحديد السبب الدقيق لأي تراجع في الأداء.
  • يمكنك اختبار خطوات التدريب لكل ثانية للإصدار الجديد من النموذج مقارنةً بالإصدار السابق وبمقابل حد أدنى ثابت.
  • رصد تسرّبات الذاكرة من خلال ضبط حدّ معيّن لاستخدام الذاكرة
  • تتبُّع أوقات استجابة واجهة برمجة التطبيقات وتتبُّع الشرائح المئوية. على الرغم من أنّ أوقات استجابة واجهة برمجة التطبيقات قد تكون خارجة عن سيطرتك، قد تؤدي الردود البطيئة إلى تدهور أداء المقاييس في العالم الفعلي.
  • مراقبة عدد طلبات البحث التي تمت الإجابة عنها في الثانية

اختبار جودة النموذج المباشر على البيانات المعروضة

لقد تحققت من صحة النموذج. ولكن ماذا لو تغيّرت سيناريوهات العالم الفعلي، مثل سلوك القرن الواحد، بعد تسجيل بيانات التحقق؟ وستنخفض جودة النموذج الذي يتم عرضه. ومع ذلك، فإن اختبار جودة العرض أمر صعب لأنه لا يتم دائمًا تصنيف البيانات الفعلية. إذا لم يتم تصنيف بيانات العرض، ننصحك بالاطّلاع على هذه الاختبارات:

  • أنشئ تصنيفات باستخدام المصنّفين.

  • تحقّق من النماذج التي تُظهر انحيازًا إحصائيًا كبيرًا في التوقعات. يُرجى الاطّلاع على التصنيف: انحياز التوقّع.

  • تتبُّع مقاييس فعلية لنموذجك على سبيل المثال، إذا كنت تصنّف محتوًى غير مرغوب فيه، قارِن توقعاتك بالمحتوى غير المرغوب فيه الذي أبلغ عنه المستخدم.

  • يمكنك الحدّ من الاختلافات المحتملة بين التدريب وعرض البيانات من خلال عرض إصدار نموذج جديد على جزء من طلبات البحث. للاطّلاع على نموذج العرض الجديد، يمكنك تبديل كل طلبات البحث إلى الإصدار الجديد تدريجيًا.

ومن خلال إجراء هذه الاختبارات، تذكَّر مراقبة التدهور المفاجئ والبطيء في جودة التوقّعات.