التضمينات

لنفترض أنّك بصدد إنشاء تطبيق يقدّم للمستخدمين أطعمة موصى بها بناءً على بيانات يدخلونها عن وجباتهم المفضلة. عليك إنشاء نموذج لتعلُّم الآلة يمكنه توقّع أوجه الشبه بين الأطعمة كي يستطيع التطبيق تقديم اقتراحات مفيدة (على سبيل المثال، "نقترح عليك تناول شاورما الدجاج بناءً على تفضيلك للشاورما").

لتدريب النموذج، يمكنك إنشاء مجموعة بيانات تحتوي على 5,000 طبق رائج من بينها حساء البرش وشطيرة هوت دوغ والسلطة والبيتزا والشاورما.

الشكل 1. مجموعة من الصور التوضيحية تحتوي على خمسة أطباق. في اتجاه عقارب الساعة من أعلى اليسار: حساء البرش وشطيرة هوت دوغ والسلطة والبيتزا والشاورما.
الشكل 1. عينة من الأطباق التي تشتمل عليها مجموعة بيانات الطعام.

أنت تنشئ ميزة meal تحتوي على عرض بترميز أحادي لكل طبق في مجموعة البيانات. يشير الترميز إلى عملية اختيار تمثيل رقمي أوّلي للبيانات بهدف تدريب النموذج عليها.

الشكل 2.  الأعلى: صورة لترميز حساء البرش بشكل أحادي
       يتم عرض المتجه [1، 0، 0، 0، ...، 0] فوق ستة مربعات، كل مربع منها بمحاذاة من اليسار إلى اليمين مع أحد أرقام المتجه. تحتوي المربعات من اليسار إلى اليمين على الصور التالية: حساء البرش، شطيرة هوت دوغ، السلطة، البيتزا، [فارغ]، الشاورما. الوسط: صورة لترميز شطيرة الهوت دوغ بشكل أحادي
       يتم عرض المتجه [0، 1، 0، 0، ...، 0] فوق ستة مربعات، كل مربع منها بمحاذاة من اليسار إلى اليمين مع أحد أرقام المتجه. تمثل المربعات الصور نفسها من اليسار إلى اليمين على النحو الوارد في صورة حساء البرش أعلاه. الأسفل: صورة لترميز الشاورما بشكل أحادي يتم عرض المتجه [0، 0، 0، 0، ...، 1] فوق ستة مربعات، كل مربع منها بمحاذاة من اليسار إلى اليمين مع أحد أرقام المتجه. تمثل المربعات الصور نفسها من اليسار إلى اليمين على النحو الوارد في صورة حساء البرش وشطيرة الهوت دوغ.
الشكل 2. الترميز الأحادي لحساء البرش وشطيرة الهوت دوغ والشاورما. يصل طول كل متجه من متجهات الترميز الأحادي إلى 5,000 إدخال (إدخال واحد لكل طبق من أطباق مجموعة البيانات). تمثل علامة الحذف (النقاط الثلاث) في الشكل البياني 4,995 إدخالاً غير ظاهرة.

عيوب التمثيل باستخدام قدر محدود من البيانات

بالاطّلاع على عمليات الترميز الأحادي السابقة، ربما تكون لاحظت عدة مشاكل في تمثيل البيانات.

  • عدد الأوزان: يعني توفر متجهات إدخال كبيرة توفر عدد ضخم من الأوزان لأي شبكة عصبونية. من خلال الإدخالات M في الترميز الأحادث، والعقد N في الطبقة الأولى للشبكة بعد الإدخال، يكون على النموذج تدريب أوزان M×N لتلك الطبقة.
  • عدد نقاط البيانات: كلما زادت الأوزان في النموذج، زاد حجم البيانات التي يجب التدريب عليها بشكل كفء.
  • حجم العمليات الحسابية: كلما زادت الأوزان، زاد حجم العمليات الحسابية المطلوبة لتدريب النموذج واستخدامه. وهذا يجعل من السهل تجاوز إمكانات الأجهزة المتوفرة.
  • سعة الذاكرة: كلما زادت الأوزان في النموذج، زاد حجم الذاكرة المطلوبة في المسرعات للتدريب وعرض البيانات. ومن الصعب للغاية توفير ما يلزم لتنفيذ هذه المهام بكفاءة.
  • صعوبة توفير تعلم الآلة على الجهاز فقط (ODML): إذا كنت تريد تشغيل نموذج تعلّم الآلة على أجهزة محلية (مقارنة بعرض بياناته فقط)، يجب الاهتمام بأن يكون النموذج أصغر ومن ثم خفض عدد الأوزان.

يمكنك من خلال هذه الوحدة معرفة كيفية إنشاء تضمينات وخفض التمثيل البياني لفضاء السمات الضيق للتغلب على المشاكل.