تدريب الشبكات العصبية: أفضل الممارسات

يشرح هذا القسم حالات فشل الانتشار الخلفي والطريقة الأكثر شيوعًا لتنظيم الشبكة العصبية.

حالات الإخفاق

هناك عدة طرق شائعة قد تؤدي إلى حدوث خطأ في عملية الانتشار الخلفي.

اختفاء التدرجات

يمكن أن تصبح تدرّجات الطبقات السفلى (الأقرب من المدخل) صغيرة جدًا. في الشبكات العميقة، يمكن أن تتضمن حوسبة هذه التدرجات ناتج العديد من المصطلحات الصغيرة.

عندما تختفي التدرجات باتجاه 0 للطبقات السفلية، يتم تدريب هذه الطبقات ببطء شديد، أو لا يتم تدريبها على الإطلاق.

يمكن لوظيفة التفعيل ReLU المساعدة في منع اختفاء التدرجات.

تدرُّجات متفجّرة

وإذا كانت الأوزان في الشبكة كبيرة جدًا، فإن تدرجات الطبقات السفلى تتضمن منتجات ذات مصطلحات كبيرة عديدة. وفي هذه الحالة قد تكون لديك تدرّجات متفجّرة: تدرّجات كبيرة جدًا لدرجة لا يمكن التقارب فيها.

يمكن أن تساعد تسوية الدفعات في منع انفجار التدرجات، كما يمكن أن يؤدي إلى خفض معدل التعلّم.

وحدات ReLU غير الصالحة

بمجرد أن ينخفض المجموع المرجح لوحدة ReLU عن 0، قد تتعطل وحدة ReLU. ولا ينتج عنها أي تفعيل، ولا تساهم بأي شيء في مخرجات الشبكة، ولا يمكن أن تتدفق التدرجات من خلالها أثناء الانتشار العكسي. مع اقتطاع مصدر التدرجات، قد لا يتغير الإدخال إلى وحدة ReLU بشكل كافٍ لإعادة المجموع المرجح مرة أخرى فوق 0.

وقد يساعد خفض معدل التعلم في منع موت وحدات ReLU.

تسوية الانسحاب

هناك شكل آخر من أشكال التسوية، يُسمى Dropout، وهو مفيد للشبكات العصبية. فهي تعمل من خلال "إسقاط" عمليات تنشيط الوحدات بشكل عشوائي في الشبكة لخطوة تدرج واحدة. كلما انسحبت، كان التنظيم أقوى:

  • 0.0 = لا توجد تسوية لعمليات الخروج.
  • 1.0 = إسقاط كل شيء. لا يتعلم النموذج أي شيء.
  • القيم بين 0.0 و1.0 = أكثر فائدة.