معدّل التعلّم

يحتوي هذا الملحق على بعض التفاصيل الإضافية حول معدّل التعلّم.

الجدول الزمني لتناقص معدّل التعلّم

تُعد أفضل مجموعة من جداول انخفاض معدل التعلّم مشكلة مفتوحة، إذ ليس من الواضح كيفية إنشاء مجموعة من التجارب الدقيقة للإجابة عن هذا السؤال بثقة. على الرغم من أنّنا لا نعرف أفضل جدول زمني للعائلة، إلا أنّنا واثقون مما يلي:

  • من المهم أن يكون لديك بعض الجدول الزمني (غير الثابت).
  • لذلك، من المهم تعديل هذا الجدول الزمني.

تعمل معدّلات التعلّم المختلفة بشكل أفضل في أوقات مختلفة خلال عملية التحسين. يساعد توفّر جدول زمني في زيادة احتمال أن يحقّق النموذج معدّل تعلّم جيدًا.

أفضل انخفاض تلقائي في معدّل التعلّم

ننصحك باستخدام إحدى مجموعتَي معدّل التعلّم المتناقص التاليتَين كإعداد تلقائي:

  • التضاؤل الخطي
  • تضاؤل جيب التمام

من المحتمل أنّ العديد من عائلات الجداول الزمنية الأخرى مناسبة أيضًا.

لماذا تتضمّن بعض الأوراق العلمية جداول معقّدة لمعدّل التعلّم؟

تستخدم العديد من الأوراق الأكاديمية جداول معقّدة لتناقص معدّل التعلّم (LR) على مراحل. يتساءل القرّاء غالبًا عن كيفية وضع المؤلفين لجدول زمني معقّد كهذا. تنتج العديد من جداول معدّل التعلّم المعقّدة عن ضبط الجدول كدالة لأداء مجموعة التحقّق بطريقة مخصّصة. والمقصود:

  1. ابدأ عملية تدريب واحدة مع بعض الانخفاض البسيط في معدّل التعلّم (أو معدّل تعلّم ثابت).
  2. استمر في التدريب إلى أن يبدو الأداء ثابتًا. في حال حدوث ذلك، أوقِف التدريب مؤقتًا. بعد ذلك، استأنِف التدريب باستخدام جدول زمني أسرع لانخفاض معدل التعلّم (أو معدل تعلّم ثابت أصغر) من هذه النقطة. كرِّر هذه العملية (حتى موعد انتهاء المؤتمر أو الإطلاق).

بشكل عام، لا يُنصح بنسخ الجدول الزمني الناتج بشكل عشوائي، لأنّ أفضل جدول زمني معيّن يتأثر بمجموعة من خيارات المعلَمات الفائقة الأخرى. ننصحك بنسخ الخوارزمية التي أنتجت الجدول الزمني، مع أنّ ذلك نادرًا ما يكون ممكنًا عندما يكون الجدول الزمني ناتجًا عن حكم بشري عشوائي. يمكن استخدام هذا النوع من الجداول الحساسة لأخطاء التحقّق من الصحة إذا كان يمكن تشغيلها آليًا بالكامل، ولكن الجداول التي تتضمّن تدخّل بشري والتي تعتمد على أخطاء التحقّق من الصحة تكون هشة ولا يمكن إعادة إنتاجها بسهولة، لذا ننصح بتجنُّبها. قبل نشر نتائج تم الحصول عليها باستخدام جدول زمني كهذا، يُرجى محاولة جعلها قابلة للتكرار بشكل كامل.

كيف يجب ضبط المعلمات الفائقة في خوارزمية Adam؟

ليست كل المَعلمات الفائقة في خوارزمية Adam مهمة بالقدر نفسه. تتطابق القواعد التجريبية التالية مع "ميزانيات" مختلفة لعدد المحاولات في إحدى الدراسات.

  • إذا كان عدد المحاولات في الدراسة أقل من 10، اضبط معدّل التعلّم (الأساسي) فقط.
  • إذا كانت هناك من 10 إلى 25 محاولة في إحدى الدراسات، اضبط معدّل التعلّم وbeta_1.
  • إذا كان عدد المحاولات 25 أو أكثر، اضبط معدّل التعلّم beta_1 وepsilon.
  • إذا كان عدد المحاولات أكبر بكثير من 25 محاولة، اضبط beta_2 أيضًا.

نظرًا لصعوبة تقديم قواعد عامة بشأن مساحات البحث وعدد النقاط التي يجب أخذ عيّنات منها من مساحة البحث، يجب اعتبار القواعد العامة المذكورة في هذا القسم إرشادات تقريبية".