في عملية الإنتاج باستخدام تعلُّم الآلة، لا يكون الهدف هو إنشاء نموذج واحد ونشره. والهدف هو إنشاء مسارات مبرمَجة لتطوير النماذج واختبارها ونشرها بمرور الوقت. لماذا؟ ومع تغيُّر العالم، تتغيّر المؤشرات في البيانات، ما يؤدي إلى عدم صلاحية النماذج في مرحلة الإنتاج. تحتاج النماذج عادةً إلى إعادة تدريب باستخدام بيانات حديثة لمواصلة تقديم توقّعات عالية الجودة على المدى الطويل. بعبارة أخرى، ستحتاج إلى طريقة لاستبدال النماذج القديمة بنماذج جديدة.
بدون خطوط أنابيب، يكون استبدال نموذج قديم عملية عرضة للأخطاء. على سبيل المثال، عندما يبدأ أحد النماذج في عرض توقّعات غير صحيحة، سيحتاج أحد الأشخاص إلى جمع بيانات جديدة ومعالجتها يدويًا، وتدريب نموذج جديد، والتحقّق من جودته، ثم نشره في النهاية. تعمل مسارات تعلُّم الآلة على أتمتة العديد من هذه العمليات المتكررة، ما يجعل إدارة النماذج وصيانتها أكثر فعالية وموثوقية.
إنشاء خطوط نقل البيانات
تنظّم مسارات تعلُّم الآلة خطوات إنشاء النماذج ونشرها في مهام محدّدة جيدًا. تتضمّن خطوط المعالجة إحدى الوظيفتَين التاليتَين: عرض عبارات البحث المقترَحة أو تعديل النموذج.
عرض التوقّعات
تعرض سلسلة معالجة العرض التقديرات. وهي تعرض نموذجك للعالم الحقيقي، ما يتيح للمستخدمين الوصول إليه. على سبيل المثال، عندما يريد المستخدم الحصول على توقّع، مثل حالة الطقس غدًا أو المدة التي سيستغرقها الوصول إلى المطار أو قائمة بالفيديوهات المقترَحة، يتلقّى مسار العرض بيانات المستخدم ويعالجها، ثم يتوقّع النتيجة ويعرضها على المستخدم.
تعديل النموذج
تميل النماذج إلى أن تصبح قديمة بعد فترة قصيرة من طرحها في مرحلة الإنتاج. وبشكل أساسي، يتم تقديم التوقعات باستخدام معلومات قديمة. وقد سجّلت مجموعات بيانات التدريب حالة العالم قبل يوم واحد، أو قبل ساعة واحدة في بعض الحالات. لقد تغيّر العالم بشكل حتمي: شاهد المستخدم عددًا أكبر من الفيديوهات ويحتاج إلى قائمة جديدة بالاقتراحات، أو تسبّب المطر في تباطؤ حركة المرور ويحتاج المستخدمون إلى تقديرات معدَّلة لأوقات وصولهم، أو أدّى مؤشر رائج إلى أن يطلب تجار التجزئة توقّعات معدَّلة للمخزون من سلع معيّنة.
عادةً، تُدرّب الفِرق نماذج جديدة قبل أن يصبح نموذج الإنتاج قديمًا. في بعض الحالات، تدرب الفِرق نماذج جديدة وتنفذها يوميًا في دورة تدريب وتنفيذ مستمرة. من المفترض أن يتم تدريب نموذج جديد قبل أن يصبح النموذج الإنتاجي قديمًا.
تعمل مسارات المعالجة التالية معًا لتدريب نموذج جديد:
- مسار البيانات: يعالج مسار البيانات بيانات المستخدمين لإنشاء مجموعات بيانات التدريب والاختبار.
- مسار التدريب: تعمل سلسلة التدريب على تدريب النماذج باستخدام مجموعات بيانات التدريب الجديدة من سلسلة البيانات.
- مسار التحقّق تتحقّق عملية التحقّق من صحة النموذج المدرَّب من خلال مقارنته بنموذج الإنتاج باستخدام مجموعات بيانات الاختبار التي تم إنشاؤها بواسطة عملية البيانات.
يوضّح الشكل 4 مدخلات ومخرجات كل مسار ML.
عمليات تعلُّم الآلة
الشكل 4 تتولّى مسارات التعلّم الآلي برمجة العديد من العمليات اللازمة لتطوير النماذج وصيانتها. تعرض كل عملية معالجة مدخلاتها ومخرجاتها.
على مستوى عام جدًا، إليك الطريقة التي تحافظ بها خطوط الإنتاج على توفّر نموذج جديد في مرحلة الإنتاج:
أولاً، يتم نشر النموذج، وتبدأ عملية العرض في تقديم التوقعات.
يبدأ مسار البيانات على الفور في جمع البيانات لإنشاء مجموعات بيانات جديدة للتدريب والاختبار.
استنادًا إلى جدول زمني أو مشغّل، تعمل مسارات التدريب والتحقّق من الصحة على تدريب نموذج جديد والتحقّق من صحته باستخدام مجموعات البيانات التي تم إنشاؤها بواسطة مسار البيانات.
عندما تؤكّد عملية التحقّق من صحة البيانات أنّ النموذج الجديد ليس أسوأ من نموذج الإنتاج، يتم نشر النموذج الجديد.
وتتكرّر هذه العملية باستمرار.
عدم حداثة النموذج ومعدّل التدريب
تصبح جميع النماذج تقريبًا قديمة. تصبح بعض النماذج قديمة بشكل أسرع من غيرها. على سبيل المثال، تصبح النماذج التي تقترح ملابس قديمة بسرعة لأنّ الخيارات المفضّلة لدى المستهلكين تتغيّر بشكل متكرّر. من ناحية أخرى، قد لا تصبح النماذج التي تحدّد الزهور قديمة أبدًا. تظل الخصائص المميزة للزهرة ثابتة.
تبدأ معظم النماذج في فقدان فعاليتها فور طرحها في مرحلة الإنتاج. عليك تحديد معدّل تكرار التدريب الذي يعكس طبيعة بياناتك. إذا كانت البيانات ديناميكية، يجب التدريب بشكل متكرر. إذا كان أقل ديناميكية، قد لا تحتاج إلى التدريب بشكل متكرر.
تدريب النماذج قبل أن تصبح قديمة يوفّر التدريب المبكر فترة احتياطية لحل المشاكل المحتملة، مثلاً، في حال تعذُّر الحصول على البيانات أو تعذُّر إعداد مسار التدريب، أو إذا كانت جودة النموذج رديئة.
من أفضل الممارسات المقترَحة تدريب نماذج جديدة ونشرها يوميًا. وكما هو الحال مع مشاريع البرامج العادية التي تتضمّن عملية إنشاء وإصدار يومية، غالبًا ما تكون أفضل طريقة لتنفيذ مسارات ML لعمليات التدريب والتحقّق هي تنفيذها يوميًا.
التحقّق من فهمك
مسار العرض
تنشئ سلسلة العرض التقديمي التوقعات وتقدّمها بإحدى طريقتَين: على الإنترنت أو بلا إنترنت.
عبارات البحث المقترَحة على الإنترنت تحدث التوقّعات على الإنترنت في الوقت الفعلي، عادةً عن طريق إرسال طلب إلى خادم على الإنترنت وعرض توقّع. على سبيل المثال، عندما يريد المستخدم الحصول على نتيجة توقّعية، يتم إرسال بياناته إلى النموذج، ثم يعرض النموذج النتيجة التوقّعية.
عبارات البحث المقترَحة بلا إنترنت يتم احتساب التوقعات بلا إنترنت مسبقًا وتخزينها مؤقتًا. لعرض تنبؤ، يبحث التطبيق عن التنبؤ المخزّن مؤقتًا في قاعدة البيانات ويعرضه. على سبيل المثال، قد تتوقّع خدمة قائمة على الاشتراك معدّل توقّف المشتركين عن استخدامها. يتوقّع النموذج احتمالية توقّف كل مشترك عن استخدام الخدمات ويخزّن هذه المعلومات مؤقتًا. عندما يحتاج التطبيق إلى التوقّع، مثلاً لتحفيز المستخدمين الذين قد يتوقفون عن استخدام التطبيق، ما عليه سوى البحث عن التوقّع الذي تم حسابه مسبقًا.
يوضّح الشكل 5 كيفية إنشاء التوقّعات على الإنترنت وبلا إنترنت وتقديمها.
توقّعات على الإنترنت وبلا إنترنت
الشكل 5 تقدّم التوقعات على الإنترنت التوقعات في الوقت الفعلي. يتم تخزين بيانات التوقّعات بلا إنترنت مؤقتًا والبحث عنها في وقت العرض.
المعالجة اللاحقة للتوقّعات
عادةً ما تتم معالجة التوقعات بعد إنشائها قبل تسليمها. على سبيل المثال، قد تتم معالجة التوقعات بعد إنشائها لإزالة المحتوى السام أو المتحيّز. قد تستخدم نتائج التصنيف لإعادة ترتيب النتائج بدلاً من عرض الناتج الأولي للنموذج، مثلاً، لتعزيز المحتوى الأكثر موثوقية أو عرض مجموعة متنوعة من النتائج أو خفض ترتيب نتائج معيّنة (مثل المحتوى الجاذب للنقر) أو إزالة النتائج لأسباب قانونية.
تعرض "الشكل 6" مسار عرض البيانات والمهام النموذجية المتضمّنة في تقديم التوقعات.
عبارات البحث المقترَحة بعد المعالجة
الشكل 6 تعرض هذه الصورة المهام النموذجية التي يجب تنفيذها لتقديم التوقعات.
يُرجى العِلم أنّ خطوة تصميم الميزات يتم إنشاؤها عادةً داخل النموذج وليس كعملية منفصلة ومستقلة. غالبًا ما تكون تعليمات برمجية معالجة البيانات في مسار العرض مطابقة تقريبًا لتعليمات برمجية معالجة البيانات التي يستخدمها مسار البيانات لإنشاء مجموعات بيانات التدريب والاختبار.
تخزين مواد العرض والبيانات الوصفية
يجب أن تتضمّن عملية العرض خطوة لتخزين سجلّ بتوقّعات النموذج، والواقع إن أمكن ذلك.
يتيح لك تسجيل توقّعات النموذج مراقبة جودة النموذج. من خلال تجميع التوقعات، يمكنك مراقبة الجودة العامة للنموذج وتحديد ما إذا كان قد بدأ يفقد جودته. بشكل عام، يجب أن يكون متوسط التوقعات التي يقدّمها نموذج الإنتاج هو نفسه متوسط التصنيفات من مجموعة بيانات التدريب. لمزيد من المعلومات، اطّلِع على مقالة تحيّز التوقّعات.
تسجيل المعلومات الفعلية
في بعض الحالات، لا تتوفّر الحقيقة الأساسية إلا بعد فترة طويلة. على سبيل المثال، إذا توقّع تطبيق الطقس حالة الطقس بعد ستة أسابيع، لن تتوفّر البيانات الأساسية (حالة الطقس الفعلية) لمدة ستة أسابيع.
عند الإمكان، اطلب من المستخدمين الإبلاغ عن البيانات الصحيحة من خلال إضافة آليات تلقّي الملاحظات إلى التطبيق. يمكن لتطبيق البريد الإلكتروني أن يسجّل ملاحظات المستخدمين بشكل ضمني عندما ينقلون الرسائل من البريد الوارد إلى مجلد الرسائل غير المرغوب فيها. ومع ذلك، لا يعمل ذلك إلا عندما يصنّف المستخدم بريده بشكل صحيح. عندما يترك المستخدمون الرسائل غير المرغوب فيها في صندوق الوارد (لأنّهم يعرفون أنّها رسائل غير مرغوب فيها ولا يفتحونها أبدًا)، تصبح بيانات التدريب غير دقيقة. سيتم تصنيف هذه الرسالة تحديدًا على أنّها "ليست رسالة غير مرغوب فيها"، مع أنّها يجب أن تكون "رسالة غير مرغوب فيها". بعبارة أخرى، حاوِل دائمًا إيجاد طرق لتسجيل البيانات الأساسية، ولكن عليك أن تكون على دراية بالعيوب التي قد تكون موجودة في آليات تقديم الملاحظات.
تعرض الصورة 7 اقتراحات يتم تقديمها إلى أحد المستخدمين وتسجيلها في مستودع.
تسجيل العبارات المقترَحة
الشكل 7 تسجيل التوقعات لمراقبة جودة النموذج
مسارات البيانات
تنشئ مسارات البيانات مجموعات بيانات التدريب والاختبار من بيانات التطبيق. بعد ذلك، تستخدم مسارات التدريب والتحقّق مجموعات البيانات لتدريب نماذج جديدة والتحقّق من صحتها.
تنشئ مسار البيانات مجموعتَي بيانات للتدريب والاختبار تتضمّنان الميزات والتصنيفات نفسها التي تم استخدامها في الأصل لتدريب النموذج، ولكن مع معلومات أحدث. على سبيل المثال، يمكن لتطبيق خرائط إنشاء مجموعات بيانات تدريب واختبار من أوقات السفر الحديثة بين نقاط لملايين المستخدمين، بالإضافة إلى بيانات أخرى ذات صلة، مثل الطقس.
سيُنشئ تطبيق لاقتراح الفيديوهات مجموعات بيانات تدريب واختبار تتضمّن الفيديوهات التي نقر عليها المستخدم من القائمة المقترَحة (بالإضافة إلى الفيديوهات التي لم ينقر عليها)، فضلاً عن بيانات أخرى ذات صلة، مثل سجلّ المشاهدة.
يوضّح الشكل 8 مسار البيانات الذي يستخدم بيانات التطبيق لإنشاء مجموعات بيانات التدريب والاختبار.
مسار البيانات
الشكل 8 يعالج مسار البيانات بيانات التطبيق لإنشاء مجموعات بيانات لمسارات التدريب والتحقّق من الصحة.
جمع البيانات ومعالجتها
من المحتمل أن تختلف مهام جمع البيانات ومعالجتها في مسارات نقل البيانات عن مرحلة التجربة (التي حدّدت فيها أنّ حلك ممكن):
جمع البيانات: أثناء التجربة، يتطلّب جمع البيانات عادةً الوصول إلى البيانات المحفوظة. بالنسبة إلى مسارات معالجة البيانات، قد يتطلّب جمع البيانات اكتشاف بيانات سجلّات البث والحصول على موافقة للوصول إليها.
إذا كنت بحاجة إلى بيانات مصنّفة يدويًا (مثل الصور الطبية)، ستحتاج أيضًا إلى عملية لجمعها وتعديلها.
معالجة البيانات: أثناء التجربة، تم الحصول على الميزات المناسبة من خلال استخراج البيانات ودمجها وأخذ عينات منها من مجموعات بيانات التجربة. بالنسبة إلى مسارات نقل البيانات، قد يتطلّب إنشاء الميزات نفسها عمليات مختلفة تمامًا. ومع ذلك، احرص على تكرار عمليات تحويل البيانات من مرحلة التجربة من خلال تطبيق العمليات الرياضية نفسها على الميزات والتصنيفات.
تخزين مواد العرض والبيانات الوصفية
ستحتاج إلى عملية لتخزين مجموعات بيانات التدريب والاختبار وإصدارها وإدارتها. توفِّر المستودعات التي يتم التحكّم في إصداراتها المزايا التالية:
إمكانية إعادة الإنتاج: إعادة إنشاء بيئات تدريب النماذج وتوحيدها ومقارنة جودة التوقّعات بين النماذج المختلفة
الامتثال الالتزام بمتطلبات الامتثال للّوائح التنظيمية المتعلّقة بإمكانية التدقيق والشفافية
الاحتفاظ بالبيانات: اضبط قيم الاحتفاظ بالبيانات لتحديد مدة تخزين البيانات.
إدارة أذونات الوصول إدارة المستخدمين الذين يمكنهم الوصول إلى بياناتك من خلال أذونات دقيقة
سلامة البيانات: تتبُّع التغييرات التي تطرأ على مجموعات البيانات وفهمها بمرور الوقت، ما يسهّل تشخيص المشاكل في بياناتك أو نموذجك
قابلية الاكتشاف: سهِّل على الآخرين العثور على مجموعات البيانات والميزات التي توفّرها. وبعد ذلك، يمكن للفِرق الأخرى تحديد ما إذا كانت هذه النماذج ستكون مفيدة لأغراضها.
توثيق بياناتك
تساعد المستندات الجيدة الآخرين في فهم المعلومات الأساسية حول بياناتك، مثل نوعها ومصدرها وحجمها وغيرها من البيانات الوصفية الأساسية. في معظم الحالات، يكون توثيق بياناتك في مستند تصميم كافيًا. إذا كنت تخطّط لمشاركة بياناتك أو نشرها، استخدِم بطاقات البيانات لتنظيم المعلومات. تسهّل بطاقات البيانات على المستخدمين الآخرين اكتشاف مجموعات البيانات وفهمها.
خطوط التدريب والتحقّق
تنتج مسارات التدريب والتحقّق نماذج جديدة لتحلّ محل النماذج الحالية قبل أن تصبح قديمة. يضمن التدريب المستمر على النماذج الجديدة والتحقّق من صحتها أنّ النموذج الأفضل يكون دائمًا في مرحلة الإنتاج.
تنشئ عملية التدريب نموذجًا جديدًا من مجموعات بيانات التدريب، وتقارن عملية التحقّق جودة النموذج الجديد بالنموذج الحالي باستخدام مجموعات بيانات الاختبار.
يوضّح الشكل 9 مسار التدريب باستخدام مجموعة بيانات تدريب لتدريب نموذج جديد.
مسار التدريب
الشكل 9 تدرّب سلسلة التدريب نماذج جديدة باستخدام مجموعة بيانات التدريب الأحدث.
بعد تدريب النموذج، تستخدم عملية التحقّق مجموعات بيانات الاختبار لمقارنة جودة النموذج المستخدَم في الإنتاج بالنموذج المدرَّب.
بشكل عام، إذا لم يكن النموذج المدرَّب أسوأ بشكل ملحوظ من نموذج الإنتاج، يتم نشر النموذج المدرَّب. إذا كان النموذج المدرَّب أسوأ، يجب أن تنشئ البنية الأساسية للمراقبة تنبيهًا. قد تشير النماذج المدرَّبة التي تتضمّن جودة توقعات أسوأ إلى مشاكل محتملة في البيانات أو مسارات التحقّق من الصحة. يضمن هذا النهج توفّر أفضل نموذج تم تدريبه على أحدث البيانات دائمًا في مرحلة الإنتاج.
تخزين مواد العرض والبيانات الوصفية
يجب تخزين النماذج وبياناتها الوصفية في مستودعات ذات إصدارات لتنظيم عمليات نشر النماذج وتتبُّعها. تقدّم مستودعات النماذج المزايا التالية:
التتبُّع والتقييم تتبُّع النماذج في مرحلة الإنتاج وفهم مقاييس جودة التقييم والتوقّع
عملية إصدار النموذج يمكنك بسهولة مراجعة النماذج أو الموافقة عليها أو طرحها أو التراجع عنها.
إمكانية إعادة الإنتاج وتصحيح الأخطاء: إعادة إنتاج نتائج النموذج وتصحيح الأخطاء بشكل أكثر فعالية من خلال تتبُّع مجموعات بيانات النموذج والتبعيات في عمليات النشر المختلفة
قابلية الاكتشاف: سهِّل على الآخرين العثور على تصميمك. يمكن للفِرق الأخرى بعد ذلك تحديد ما إذا كان يمكن استخدام النموذج (أو أجزاء منه) لأغراضها.
يوضّح الشكل 10 نموذجًا تم التحقّق من صحته وتم تخزينه في مستودع نماذج.
مساحة تخزين النماذج
الشكل 10 يتم تخزين النماذج التي تم التحقّق من صحتها في مستودع نماذج لتتبُّعها وتسهيل العثور عليها.
استخدِم بطاقات النماذج لتوثيق المعلومات الأساسية حول نموذجك ومشاركتها، مثل الغرض منه وبنيته ومتطلبات الأجهزة ومقاييس التقييم وما إلى ذلك.
التحقّق من فهمك
التحديات التي تواجه إنشاء قنوات العرض
عند إنشاء خطوط معالجة البيانات، قد تواجه التحديات التالية:
الوصول إلى البيانات التي تحتاج إليها قد يتطلّب الوصول إلى البيانات تقديم مبرّر لاحتياجك إليها. على سبيل المثال، قد تحتاج إلى توضيح طريقة استخدام البيانات وتوضيح كيفية حلّ المشاكل المتعلّقة بمعلومات تحديد الهوية الشخصية (PII). يجب أن تكون مستعدًا لتقديم دليل على صحة المفهوم يوضّح كيف يحسّن نموذجك من دقّة التوقّعات عند الوصول إلى أنواع معيّنة من البيانات.
الحصول على الميزات المناسبة: في بعض الحالات، لن تتوفّر الميزات المستخدَمة في مرحلة التجربة من البيانات في الوقت الفعلي. لذلك، عند إجراء تجارب، حاوِل التأكّد من إمكانية الحصول على الميزات نفسها في مرحلة الإنتاج.
فهم طريقة جمع البيانات وعرضها قد يستغرق التعرّف على كيفية جمع البيانات والجهة التي جمعتها وطريقة جمعها (بالإضافة إلى المشاكل الأخرى) وقتًا وجهدًا. من المهم فهم البيانات بدقة. لا تستخدِم بيانات غير موثوقة لتدريب نموذج قد يتم طرحه.
فهم نقاط التوازن بين الجهد والتكلفة وجودة النموذج قد يتطلّب دمج ميزة جديدة في مسار معالجة البيانات الكثير من الجهد. ومع ذلك، قد تؤدي الميزة الإضافية إلى تحسين جودة النموذج بشكل طفيف فقط. في حالات أخرى، قد تكون إضافة ميزة جديدة أمرًا سهلاً. ومع ذلك، قد تكون الموارد اللازمة للحصول على الميزة وتخزينها باهظة التكلفة.
الحصول على موارد حسابية إذا كنت بحاجة إلى وحدات TPU لإعادة التدريب، قد يكون من الصعب الحصول على الحصة المطلوبة. بالإضافة إلى ذلك، فإنّ إدارة وحدات معالجة الموتّرات (TPU) أمر معقّد. على سبيل المثال، قد تحتاج بعض أجزاء النموذج أو البيانات إلى تصميم خاص لوحدات TPU من خلال تقسيم أجزاء منها على عدة شرائح TPU.
العثور على مجموعة البيانات الذهبية المناسبة: إذا كانت البيانات تتغيّر بشكل متكرّر، قد يكون من الصعب الحصول على مجموعات بيانات ذهبية تتضمّن تصنيفات متسقة ودقيقة.
يوفّر رصد هذه الأنواع من المشاكل أثناء التجربة الوقت. على سبيل المثال، لا تريد تطوير أفضل الميزات والنماذج ثم تكتشف أنّها غير قابلة للتطبيق في مرحلة الإنتاج. لذلك، حاوِل التأكّد في أقرب وقت ممكن من أنّ الحلّ الذي تقدّمه سيعمل ضمن قيود بيئة الإنتاج. من الأفضل قضاء بعض الوقت في التأكّد من أنّ الحلّ يعمل بدلاً من الاضطرار إلى العودة إلى مرحلة التجربة لأنّ مرحلة خط الإنتاج كشفت عن مشاكل لا يمكن التغلّب عليها.