التضمين هو تمثيل بالمتجهات للبيانات في مساحة التضمين. بشكل عام، يكشف النموذج عن التضمينات المحتمَلة من خلال إسقاط المساحة العالية الأبعاد لمتّجهات البيانات الأولية في مساحة منخفضة الأبعاد. لمناقشة البيانات العالية الأبعاد مقابل البيانات المنخفضة الأبعاد، يُرجى مراجعة وحدة البيانات الفئوية.
تسهّل التضمينات تنفيذ تعلُّم الآلة على متّجهات الميزات الكبيرة، مثل المتّجهات المتناثرة التي تمثل عناصر الوجبات التي تمّت مناقشتها في القسم السابق. في بعض الأحيان، قد يكون للمواضع النسبية للعناصر في مساحة التضمين علاقة دلالية محتمَلة، ولكن في كثير من الأحيان لا يمكن للمستخدمين تفسير عملية العثور على مساحة منخفضة الأبعاد، والمواضع النسبية في تلك المساحة، ومن الصعب فهم التضمينات الناتجة.
ومع ذلك، من أجل إفهام المستخدمين، ولإعطاء فكرة عن الطريقة التي تمثّل بها متّجهات التضمين المعلومات، يُرجى الأخذ في اعتبارك التمثيل الأحادي البُعد التالي للأطباق: هوت دوغ وبيتزا وسلطة وشاورما وبُرش على مقياس بدءًا من "الأقل تشابهًا مع الشطيرة" إلى "الأكثر تشابهًا مع الشطيرة". البُعد الواحد هو مقياس وهمي لدرجة "التشابه مع الشطيرة".

أين تقع
فطيرة التفاح
على الخط؟ من المؤكَّد أنّها تقع بين hot dog
وshawarma
، لكن يبدو أنّ فطيرة التفاح تحتوي أيضًا على بُعد إضافي من الحلاوة
أو التحلية، ما يجعلها مختلفة تمامًا عن الخيارات الأخرى.
يوضّح الشكل التالي ذلك من خلال إضافة بُعد "التحلية":

يمثل التضمين كل عنصر في مساحة ذات عدد nمن الأبعاد مع عدد n من أرقام النقطة العائمة (عادةً في النطاق من –1 إلى 1 أو 0 إلى 1). يمثل التضمين في الشكل 3 كل طعام في مساحة أحادية البُعد بإحداثي واحد، بينما يمثل الشكل 4 كل طعام في مساحة ثنائية الأبعاد بإحداثيَين. في الشكل 4، تقع "فطيرة التفاح" في الربع العلوي الأيمن من الرسم البياني ويمكن تحديدها بالنقطة (0.5, 0.3)، في حين يقع "الهوت دوغ" في الربع السفلي الأيمن من الرسم البياني ويمكن تحديده بالنقطة (0.2, –0.5).
في التضمين، يمكن حساب
المسافة بين أي عنصرَين رياضيًا، ويمكن تفسيرها كمقياس للتشابه
النسبي بين هذين العنصرَين. العنصران القريبان من بعضهما بعضًا، مثل
shawarma
وhot dog
في الشكل 4، يرتبطان بشكل أوثق في
تمثيل النموذج للبيانات مقارنة بعنصرَين أبعد عن بعضهما بعضًا،
مثل apple strudel
وborscht
.
تجدُر الإشارة أيضًا إلى أنّه في المساحة الثنائية الأبعاد في الشكل 4، تكون apple strudel
أبعد كثيرًا
عن shawarma
وhot dog
مما ستكون عليه في المساحة الأحادية البُعد، وهو ما يتوافق مع
الحدس: apple strudel
ليست مشابهة للهوت دوغ أو الشاورما
كما هو الحال مع الهوت دوغ والشاورما بالنسبة لبعضهما بعضًا.
علينا الآن التفكير في البُرش، الذي تزيد فيه نسبة السوائل بكثير عن العناصر الأخرى. وهذا يشير إلى بُعد ثالث، وهو السيولة، أو مدى سيولة الطعام. وبإضافة هذا البُعد، يمكن عرض العناصر الثلاثية الأبعاد بهذه الطريقة:

أين سيكون تانغيوان في هذه المساحة الثلاثية الأبعاد؟ إنّه يشبه الحساء، مثل البُرش، وحلوى حلوة مثل فطيرة التفاح، وبالتأكيد ليس شطيرة. وهنا أحد المواضع المحتمَلة:

تحتوي هذه الأبعاد الثلاثية على الكثير من المعلومات. يمكنك تخيُّل إدخال أبعاد إضافية، مثل مقدار اللحم في الطعام أو درجة الخَبز، على الرغم من صعوبة العرض المرئي للمساحات الرباعية الأبعاد والخماسية الأبعاد وذات الأبعاد الأعلى.
مساحات التضمين في العالم الواقعي
في العالم الواقعي، تكون مساحات التضمين ذات أبعاد بعدد d، حيث يكون d أعلى بكثير من 3 على الرغم من أنّه أقل من أبعاد البيانات، والعلاقات بين نقاط البيانات ليست بالضرورة حدسية كما هو الحال في الرسم التوضيحي المبتكر أعلاه. (في تضمينات الكلمات، غالبًا ما يساوي d 256 أو 512 أو 1024.1)
في الممارسة العملية، يحدِّد ممارس تعلُّم الآلة عادةً المَهمّة المحدَّدة وعدد أبعاد التضمين. يحاول النموذج بعد ذلك ترتيب أمثلة التدريب لتكون قريبة من مساحة التضمين ذات العدد المحدَّد من الأبعاد، أو يحاول ضبط عدد الأبعاد، إذا لم يتم تصحيح d. نادرًا ما تكون الأبعاد الفردية مفهومة، على عكس "التحلية" أو "السيولة". وفي بعض الأحيان يمكن استنتاج ما "دلالتها" ولكن هذا ليس هو الحال دائمًا.
ستكون التضمينات عادةً خاصة بالمَهمّة، ومختلفة عن بعضها بعضًا عندما تختلف المَهمّة. على سبيل المثال، ستكون التضمينات التي تم إنشاؤها بواسطة نموذج التصنيف النباتي مقابل غير النباتي مختلفة عن التضمينات التي تم إنشاؤها بواسطة نموذج يقترح الأطباق بناءً على الوقت من اليوم أو الموسم. من المحتمل أن تكون "الحبوب" و"نقانق الإفطار" قريبتَين من بعضهما بعضًا في مساحة التضمين لنموذج الوقت من اليوم، ولكنّهما بعيدان عن بعضهما بعضًا في مساحة التضمين للنموذج النباتي مقابل غير النباتي، على سبيل المثال.
التضمينات الثابتة
رغم أنّ التضمينات تختلف من مَهمّة إلى أخرى، هناك مَهمّة واحدة لها بعض التطبيقات العامة، وهي توقُّع سياق الكلمة. تفترض النماذج المدرَّبة على توقُّع سياق الكلمة أنّ الكلمات التي تظهر في سياقات مماثلة مرتبطة دلاليًا. على سبيل المثال، تشير بيانات التدريب التي تتضمّن الجملتَين "ركبوا حمارًا باتجاه غراند كانيون" و"ركبوا حصانًا باتجاه الوادي" إلى أنّ كلمة "حصان" تظهر في سياقات مشابهة لكلمة "حمار". لقد تبيّن أنّ التضمينات القائمة على التشابه الدلالي تعمل بشكل جيد للعديد من مهام اللغة العامة.
رغم أنّه مثال أقدم، وقد تم استبداله إلى حدّ كبير بنماذج أخرى، إلا أنّ نموذج
word2vec يظلّ مفيدًا للتوضيح. يتدرّب word2vec
على مجموعة من المستندات للحصول على تضمين شامل واحد لكل كلمة. عندما يكون لكل كلمة أو نقطة بيانات متّجه تضمين واحد، يُسمى ذلك تضمينًا ثابتًا. يوضح الفيديو التالي شرحًا مبسطًا لتدريب word2vec
.
تشير الأبحاث إلى أنّ هذه التضمينات الثابتة، بعد تدريبها، تشفّر درجة معيَّنة من المعلومات الدلالية، وخاصة في العلاقات بين الكلمات. وهذا يعني أنّ الكلمات المستخدَمة في سياقات متشابهة ستكون أقرب إلى بعضها بعضًا في مساحة التضمين. ستعتمد متّجهات التضمين المحدَّدة التي تم إنشاؤها على مجموعة البيانات المستخدَمة للتدريب. يُرجى الاطّلاع على مقالة "تي ميكولوف" وزملائه (2013) بعنوان "Efficient estimation of word representations in vector space" لمعرفة التفاصيل.
-
كتاب Deep Learning with Python لـ "فرانسوا شوليت" (Shelter Island, NY: Manning, 2017)، القسم 6.1.2. ↩