التضمينات: مساحة التضمين والتضمينات الثابتة

التضمين هو تمثيل بالمتجهات للبيانات في مساحة التضمين. بشكل عام، يكشف النموذج عن التضمينات المحتمَلة من خلال إسقاط المساحة العالية الأبعاد لمتّجهات البيانات الأولية في مساحة منخفضة الأبعاد. لمناقشة البيانات العالية الأبعاد مقابل البيانات المنخفضة الأبعاد، يُرجى مراجعة وحدة البيانات الفئوية.

تسهّل التضمينات تنفيذ تعلُّم الآلة على متّجهات الميزات الكبيرة، مثل المتّجهات المتناثرة التي تمثل عناصر الوجبات التي تمّت مناقشتها في القسم السابق. في بعض الأحيان، قد يكون للمواضع النسبية للعناصر في مساحة التضمين علاقة دلالية محتمَلة، ولكن في كثير من الأحيان لا يمكن للمستخدمين تفسير عملية العثور على مساحة منخفضة الأبعاد، والمواضع النسبية في تلك المساحة، ومن الصعب فهم التضمينات الناتجة.

ومع ذلك، من أجل إفهام المستخدمين، ولإعطاء فكرة عن الطريقة التي تمثّل بها متّجهات التضمين المعلومات، يُرجى الأخذ في اعتبارك التمثيل الأحادي البُعد التالي للأطباق: هوت دوغ وبيتزا وسلطة وشاورما وبُرش على مقياس بدءًا من "الأقل تشابهًا مع الشطيرة" إلى "الأكثر تشابهًا مع الشطيرة". البُعد الواحد هو مقياس وهمي لدرجة "التشابه مع الشطيرة".

الشكل 3. على طول محور "التشابه مع الشطيرة"، بدءًا من الأقل احتمالية إلى الأكثر احتمالية: بُرش، سلطة، بيتزا، هوت دوغ، شاورما.
الشكل 3. أطعمة على طول البُعد الوهمي لـ "التشابه مع الشطيرة".

أين تقع فطيرة التفاح على الخط؟ من المؤكَّد أنّها تقع بين hot dog وshawarma، لكن يبدو أنّ فطيرة التفاح تحتوي أيضًا على بُعد إضافي من الحلاوة أو التحلية، ما يجعلها مختلفة تمامًا عن الخيارات الأخرى. يوضّح الشكل التالي ذلك من خلال إضافة بُعد "التحلية":

الشكل 4. نفس الصورة السابقة، ولكن مع محور
    عمودي للتحلية. تقع فطيرة التفاح بين الهوت دوغ والشاورما ولكنّها تقع في أعلى المحور الأفقي، وأعلى من محور التحلية.
الشكل 4. الأطعمة التي يمكن تمثيلها بكلّ من "التشابه مع الشطيرة" و"التحلية".

يمثل التضمين كل عنصر في مساحة ذات عدد nمن الأبعاد مع عدد n من أرقام النقطة العائمة (عادةً في النطاق من –1 إلى 1 أو 0 إلى 1). يمثل التضمين في الشكل 3 كل طعام في مساحة أحادية البُعد بإحداثي واحد، بينما يمثل الشكل 4 كل طعام في مساحة ثنائية الأبعاد بإحداثيَين. في الشكل 4، تقع "فطيرة التفاح" في الربع العلوي الأيمن من الرسم البياني ويمكن تحديدها بالنقطة (‎0.5, 0.3)، في حين يقع "الهوت دوغ" في الربع السفلي الأيمن من الرسم البياني ويمكن تحديده بالنقطة (‎0.2, –0.5).

في التضمين، يمكن حساب المسافة بين أي عنصرَين رياضيًا، ويمكن تفسيرها كمقياس للتشابه النسبي بين هذين العنصرَين. العنصران القريبان من بعضهما بعضًا، مثل shawarma وhot dog في الشكل 4، يرتبطان بشكل أوثق في تمثيل النموذج للبيانات مقارنة بعنصرَين أبعد عن بعضهما بعضًا، مثل apple strudel وborscht.

تجدُر الإشارة أيضًا إلى أنّه في المساحة الثنائية الأبعاد في الشكل 4، تكون apple strudel أبعد كثيرًا عن shawarma وhot dog مما ستكون عليه في المساحة الأحادية البُعد، وهو ما يتوافق مع الحدس: apple strudel ليست مشابهة للهوت دوغ أو الشاورما كما هو الحال مع الهوت دوغ والشاورما بالنسبة لبعضهما بعضًا.

علينا الآن التفكير في البُرش، الذي تزيد فيه نسبة السوائل بكثير عن العناصر الأخرى. وهذا يشير إلى بُعد ثالث، وهو السيولة، أو مدى سيولة الطعام. وبإضافة هذا البُعد، يمكن عرض العناصر الثلاثية الأبعاد بهذه الطريقة:

الشكل 5. الصورة السابقة نفسها، ولكن مع محور ثالث للسيولة
    متعامد على المحورَين الآخرين، وقد تحرّك البُرش بعيدًا على طول هذا المحور.
الشكل 5. الأطعمة التي يمكن تمثيلها بكلّ من "التشابه مع الشطيرة" و"التحلية" و"السيولة".

أين سيكون تانغيوان في هذه المساحة الثلاثية الأبعاد؟ إنّه يشبه الحساء، مثل البُرش، وحلوى حلوة مثل فطيرة التفاح، وبالتأكيد ليس شطيرة. وهنا أحد المواضع المحتمَلة:

الشكل 6. الصورة السابقة نفسها، ولكن مع وضع تانغيوان في مرتبة أعلى من التحلية والسيولة ومنخفضة عن التشابه مع الشطيرة
الشكل 6. إضافة تانغيوان إلى الصورة السابقة، بدرجة عالية من "التحلية" و"السيولة" ودرجة منخفضة من "التشابه مع الشطيرة".

تحتوي هذه الأبعاد الثلاثية على الكثير من المعلومات. يمكنك تخيُّل إدخال أبعاد إضافية، مثل مقدار اللحم في الطعام أو درجة الخَبز، على الرغم من صعوبة العرض المرئي للمساحات الرباعية الأبعاد والخماسية الأبعاد وذات الأبعاد الأعلى.

مساحات التضمين في العالم الواقعي

في العالم الواقعي، تكون مساحات التضمين ذات أبعاد بعدد d، حيث يكون d أعلى بكثير من 3 على الرغم من أنّه أقل من أبعاد البيانات، والعلاقات بين نقاط البيانات ليست بالضرورة حدسية كما هو الحال في الرسم التوضيحي المبتكر أعلاه. (في تضمينات الكلمات، غالبًا ما يساوي d‏ 256 أو 512 أو 1024.‏1)

في الممارسة العملية، يحدِّد ممارس تعلُّم الآلة عادةً المَهمّة المحدَّدة وعدد أبعاد التضمين. يحاول النموذج بعد ذلك ترتيب أمثلة التدريب لتكون قريبة من مساحة التضمين ذات العدد المحدَّد من الأبعاد، أو يحاول ضبط عدد الأبعاد، إذا لم يتم تصحيح d. نادرًا ما تكون الأبعاد الفردية مفهومة، على عكس "التحلية" أو "السيولة". وفي بعض الأحيان يمكن استنتاج ما "دلالتها" ولكن هذا ليس هو الحال دائمًا.

ستكون التضمينات عادةً خاصة بالمَهمّة، ومختلفة عن بعضها بعضًا عندما تختلف المَهمّة. على سبيل المثال، ستكون التضمينات التي تم إنشاؤها بواسطة نموذج التصنيف النباتي مقابل غير النباتي مختلفة عن التضمينات التي تم إنشاؤها بواسطة نموذج يقترح الأطباق بناءً على الوقت من اليوم أو الموسم. من المحتمل أن تكون "الحبوب" و"نقانق الإفطار" قريبتَين من بعضهما بعضًا في مساحة التضمين لنموذج الوقت من اليوم، ولكنّهما بعيدان عن بعضهما بعضًا في مساحة التضمين للنموذج النباتي مقابل غير النباتي، على سبيل المثال.

التضمينات الثابتة

رغم أنّ التضمينات تختلف من مَهمّة إلى أخرى، هناك مَهمّة واحدة لها بعض التطبيقات العامة، وهي توقُّع سياق الكلمة. تفترض النماذج المدرَّبة على توقُّع سياق الكلمة أنّ الكلمات التي تظهر في سياقات مماثلة مرتبطة دلاليًا. على سبيل المثال، تشير بيانات التدريب التي تتضمّن الجملتَين "ركبوا حمارًا باتجاه غراند كانيون" و"ركبوا حصانًا باتجاه الوادي" إلى أنّ كلمة "حصان" تظهر في سياقات مشابهة لكلمة "حمار". لقد تبيّن أنّ التضمينات القائمة على التشابه الدلالي تعمل بشكل جيد للعديد من مهام اللغة العامة.

رغم أنّه مثال أقدم، وقد تم استبداله إلى حدّ كبير بنماذج أخرى، إلا أنّ نموذج word2vec يظلّ مفيدًا للتوضيح. يتدرّب word2vec على مجموعة من المستندات للحصول على تضمين شامل واحد لكل كلمة. عندما يكون لكل كلمة أو نقطة بيانات متّجه تضمين واحد، يُسمى ذلك تضمينًا ثابتًا. يوضح الفيديو التالي شرحًا مبسطًا لتدريب word2vec.

تشير الأبحاث إلى أنّ هذه التضمينات الثابتة، بعد تدريبها، تشفّر درجة معيَّنة من المعلومات الدلالية، وخاصة في العلاقات بين الكلمات. وهذا يعني أنّ الكلمات المستخدَمة في سياقات متشابهة ستكون أقرب إلى بعضها بعضًا في مساحة التضمين. ستعتمد متّجهات التضمين المحدَّدة التي تم إنشاؤها على مجموعة البيانات المستخدَمة للتدريب. يُرجى الاطّلاع على مقالة "تي ميكولوف" وزملائه (2013) بعنوان "Efficient estimation of word representations in vector space" لمعرفة التفاصيل.


  1. كتاب Deep Learning with Python لـ "فرانسوا شوليت" (Shelter Island, NY: Manning, 2017)، القسم 6.1.2.