Machine Learning | Google for Developers

تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

أول شبكة عصبية

في هذا التمرين، سندرّب أول شبكة عصبية صغيرة. ستعطينا الشبكات العصبية طريقة لتعلم النماذج غير الخطية بدون استخدام تقاطعات الخصائص الواضحة.

المهمة 1: يجمع النموذج كما هو مذكور بين ميزتي الإدخال في خلية عصبية واحدة. هل سيتعلم هذا النموذج أي خطوط غير خطية؟ قم بتشغيله للتأكد من كما أعتقد.

المهمة 2: حاول زيادة عدد الخلايا العصبية في الطبقة المخفية من 1 إلى 2، وحاول أيضًا التغيير من التفعيل الخطّي إلى التفعيل غير الخطّي مثل ReLU. هل يمكنك إنشاء نموذج يمكنه أن يتعلم الأمور غير الخطية؟ هل يمكنه تصميم البيانات بشكل فعال؟

المهمة 3: حاول زيادة عدد الخلايا العصبية في الطبقة المخفية من 2 إلى 3، باستخدام تفعيل غير خطي مثل ReLU. هل يمكنه نمذجة البيانات فعالية؟ كيف تختلف جودة النموذج من عملية تشغيل إلى أخرى؟

المهمة 4: متابعة التجربة عن طريق إضافة طبقات مخفية أو إزالتها والخلايا العصبية في كل طبقة. لا تتردد أيضًا في تغيير معدلات التعلم، والتسويق وإعدادات التعلم الأخرى. ما الأصغر عدد الخلايا العصبية والطبقات التي يمكنك استخدامها لمنح الاختبار 0.177 أو أقل؟

هل تؤدي زيادة حجم النموذج إلى تحسين الملاءمة أم مدى سرعة التقارب؟ هل يؤدي هذا إلى تغيير عدد المرات التي تتقارب فيها إلى نموذج جيد؟ على سبيل المثال، جرّب الهندسة التالية:

أول طبقة مخفية تحتوي على 3 خلايا عصبية.
طبقة ثانية مخفية تحتوي على 3 خلايا عصبية.
الطبقة المخفية الثالثة مع خليتين عصبيتين.

(تظهر الإجابات أسفل التمرين مباشرةً.)

انقر فوق رمز الإضافة للحصول على إجابة على المهمة 1.

تم ضبط التفعيل على خطي، لذا لا يمكن لهذا النموذج تعلُّم لأي خطوط غير خطية. الخسارة كبيرة جدًا، ونقول إن النموذج غير متوافق البيانات.

انقر فوق رمز الإضافة للحصول على إجابة على المهمة 2.

يمكن لدالة التفعيل غير الخطي أن تتعلم نماذج غير خطية. ومع ذلك، لا يمكن لطبقة واحدة مخفية تحتوي على خليتين عصبيتين أن تعكس جميع الخطوط غير الخطية في مجموعة البيانات هذه، وستفقد الكثير حتى بدون تشويش: فهي لا تزال يضعف ملاءمة البيانات. هذه التمارين غير حتمية، لذلك قد تتضمن بعض تمارين الجري لن يتعلم نموذجًا فعالاً، في حين أن عمليات التشغيل الأخرى ستؤدي بشكل جيد. قد لا يكون النموذج الأفضل بالشكل الذي تتوقعه!

انقر فوق أيقونة الجمع للحصول على إجابة على المهمة 3.

في هذا التمرين، تبرز الطبيعة غير الحاسمة في Playground. حاسمة طبقة واحدة مخفية مع ثلاث خلايا عصبية كافية لنمذجة مجموعة البيانات (غير موجودة الضوضاء)، ولكن لن تتقارب جميع عمليات التشغيل مع نموذج جيد.

هناك 3 خلايا عصبية كافية لأنه يمكن التعبير عن الدالة XOR كمجموعة من 3 مستويات نصفية (تفعيل ReLU). يمكنك أن ترى هذا من خلال النظر إلى صور الخلايا العصبية، والتي توضح ناتج الخلايا العصبية الفردية. في نموذج جيد تحتوي على 3 خلايا عصبية وتنشيط ReLU، تكون هناك صورة واحدة تضم خط عمودي، حيث اكتشاف أن X¹ موجبة (أو سالبة؛ ويمكن أن تكون العلامة تبديلاً)، صورة واحدة بخط أفقي تقريبًا، لاكتشاف علامة X² وصورة واحدة بخط قطري، عند رصد التفاعل.

ومع ذلك، لن تتقارب جميع عمليات التشغيل مع نموذج جيد. بعض عمليات الجري لن تفيد أفضل من نموذج يحتوي على خليتين عصبيتين، ويمكنك أن ترى خلايا عصبية مكررة في الحالات.

انقر فوق أيقونة الجمع للحصول على إجابة على المهمة 4.

يمكن لطبقة واحدة مخفية تحتوي على ثلاث خلايا عصبية أن تكون نموذجًا للبيانات، لكن لا توجد التكرار، لذلك في العديد من عمليات التشغيل، فإنها تفقد الخلايا العصبية بشكل فعال ولن تتعلم نموذج جيد. هناك طبقة واحدة تحتوي على أكثر من ثلاث خلايا عصبية تحتوي على مزيد من التكرار، وبالتالي يزيد احتمال الالتقاء بنموذج جيد.

كما رأينا، لا يمكن لطبقة مخفية واحدة تحتوي على خليتين عصبيتين فقط نمذجة البيانات أيضًا. إذا جربت ذلك، يمكنك أن تلاحظ أن كل العناصر في طبقة الإخراج لا يمكن أن توجد سوى أشكال مكونة من خطوط من هاتين العُقدتين. في هذه الحالة، شبكة أعمق، إلى وضع نموذج لمجموعة البيانات بشكل أفضل من الطبقة المخفية الأولى وحدها: يمكن للخلايا العصبية الفردية في الطبقة الثانية أن تصمم أشكالاً أكثر تعقيدًا، مثل ربع الدائرة العلوي الأيمن، من خلال الجمع بين الخلايا العصبية في الطبقة الأولى. أثناء إضافة ذلك يمكن للطبقة المخفية الثانية أن تكون نموذجًا لمجموعة البيانات بشكل أفضل من الطبقة الأولى المخفية فقط، قد يكون من المنطقي إضافة مزيد من العُقد إلى الطبقة الأولى اجعل المزيد من الخطوط جزءًا من المجموعة التي تصنع منها الطبقة الثانية الأشكال.

ومع ذلك، لا يمكن لأي نموذج يحتوي على خلية عصبية واحدة في الطبقة المخفية الأولى أن يتعلم قيمة النموذج بغض النظر عن مدى عمقه. هذا لأن ناتج أول طبقة معينة فقط على طول بُعد واحد (عادةً يكون خطًا قطريًا)، والذي لا بما يكفي لنمذجة مجموعة البيانات هذه بشكل جيد. لا يمكن للطبقات اللاحقة تعويض هذا الأمر، مهما كانت معقدة؛ كانت البيانات الواردة في بيانات الإدخال غير قابلة للاسترداد وتفقدها.

ماذا لو بدلا من محاولة امتلاك شبكة صغيرة، أصبح لدينا العديد من الطبقات عدد كبير من الخلايا العصبية، لحل مشكلة بسيطة كهذه؟ حسنًا، كما رأينا، طبقة يمكن من خلالها تجربة العديد من انحدارات الخط المختلفة. والثاني طبقة القدرة على تجميعها في العديد من الأشكال المختلفة، مع الكثير والكثير من الأشكال لأسفل عبر الطبقات اللاحقة.

من خلال السماح للنموذج بالنظر في العديد من الأشكال المختلفة من خلال العديد من خلايا عصبية مخفية مختلفة، تكون بذلك مساحة كافية للنموذج المبالغة في التوافق مع الضوضاء في مجموعة التدريب، مما يسمح والأشكال المعقدة لمطابقة نقاط ضعف بيانات التطبيق بدلاً من الحقائق الواقعية المعممة. في هذا المثال، يمكن أن تكون النماذج الكبيرة معقدة لتتطابق مع نقاط البيانات الدقيقة. في الحالات القصوى، قد يؤدّي نموذج كبير يمكننا تعلم جزيرة حول نقطة ضجيج فردية، وهو ما يسمى لحفظ البيانات. ومن خلال السماح بأن يكون النموذج أكبر بكثير، فإنك يكون أداؤه غالبًا أسوأ من النموذج الأبسط الذي يستخدم ما يكفي من الخلايا العصبية لحل المشكلة.