التضمينات: التمارين التفاعلية

يعمل التطبيق المصغّر التالي المستنِد إلى أداة عرض التضمينات في TensorFlow على إسقاط 10,000 متّجه word2vec ثابت في مساحة ثلاثية الأبعاد. قد يكون هذا الاختزال في الأبعاد مضللاً، لأنّ النقاط الأقرب إلى بعضها البعض في المساحة الأصلية العالية الأبعاد قد تظهر أبعد عن بعضها البعض في الإسقاط الثلاثي الأبعاد. يتم تمييز أقرب n من النقاط باللون الأرجواني، ويحدد المستخدم قيمة n من النقاط من خلال خيار Isolate __ points (عزل النقاط). يُحدد الشريط الجانبي الموجود على اليمين أقرب النقاط المجاورة.

في هذه التجارب، سيتم استكشاف تضمينات word2vec الموجودة في التطبيق المصغّر أعلاه.

المَهمّة 1

عليك محاولة العثور على أقرب 20 نقطة مجاورة لما يلي، والنظر إلى مواضع توزيع المجموعات في الشكل السحابي.

  • iii وthird وthree
  • tao وway
  • orange وyellow وjuice

ما هي ملاحظاتك عن هذه النتائج؟

يُرجى النقر هنا للاطّلاع على إجابتنا

رغم التشابه الدلالي بين iii وthird وthree، فهي تظهر في سياقات مختلفة في النص ولا تبدو أنّها قريبة من بعضها في مساحة التضمين هذه. في word2vec، تكون iii أقرب إلى iv عن third.

وبالمثل، بينما تُعدّ way ترجمة مباشرة لـ tao، فإن هذه الكلمات تظهر في أغلب الأحيان مع مجموعات مختلفة تمامًا من الكلمات في مجموعة البيانات المستخدَمة، وبالتالي فإن المتّجهَين بعيدان جدًا عن بعضهما بعضًا.

أول عدة نقاط مجاورة لـ orange هي ألوان، لكن juice وpeel، المرتبطتَين بمعنى orange كفاكهة، تظهران كأقرب نقطتَين مجاورتَين ترتيبهما الـ 14 والـ 18، في حين أنّ prince، كما في "أمير أورانيا"، ترتيبها الـ 17. في الإسقاط، تكون الكلمات الأقرب إلى orange هي yellow والألوان الأخرى، في حين أنّ الكلمات الأقرب إلى juice لا تتضمّن orange.

المَهمّة 2

عليك محاولة التعرّف على بعض خصائص بيانات التدريب. على سبيل المثال، عليك محاولة العثور على أقرب 100 نقطة مجاورة لما يلي، ومعرفة مكان وجود المجموعات في السحابة الإلكترونية:

  • boston وparis وtokyo وdelhi وmoscow وseoul (هذا سؤال خادع)
  • jane وsarah وjohn وpeter وrosa وjuan

يُرجى النقر هنا للاطّلاع على إجابتنا

العديد من أقرب النقاط المجاورة لـ boston هي مدن أخرى في الولايات المتحدة. العديد من أقرب النقاط المجاورة لـ paris هي مدن أخرى في أوروبا. لا يبدو أنّ tokyo وdelhi لهما نتائج متشابهة: إحداهما مرتبطة بمدن حول العالم تُعتبر مراكز للسفر، بينما ترتبط الأخرى بـ india والكلمات ذات الصلة. لا تظهر seoul في هذه المجموعة المختصرة من متّجهات الكلمات على الإطلاق.

يبدو أنّ مجموعة البيانات هذه تحتوي على العديد من المستندات المتعلّقة بالجغرافيا الوطنية للولايات المتحدة، وبعض المستندات تتعلّق بالجغرافيا الإقليمية الأوروبية، ولكنّها لا تشمل تغطية تفصيلية كبيرة للدول أو المناطق الأخرى.

بالمثل، يبدو أنّ مجموعة البيانات هذه تحتوي على العديد من الأسماء الإنجليزية المذكرة، وبعض الأسماء الإنجليزية المؤنثة، وعدد أقل بكثير من الأسماء الواردة من لغات أخرى. تجدُر الإشارة إلى أنّ "دون روزا" كتب ورسم قصص "سكروج ماك داك" المصوّرة لشركة Disney، وهو السبب المحتمَل لكون "سكروج" و"ماك داك" من أقرب النقاط المجاورة لـ "روزا".

في الواقع، تم تدريب متّجهات الكلمات المدربة مسبقًا التي يقدّمها النموذج word2vec على مقالات "أخبار Google" حتى عام 2013.

المَهمّة 3

لا تقتصر التضمينات على الكلمات، فيمكن أيضًا تضمين الصور والصوت والبيانات الأخرى. في هذه المَهمّة، عليك إجراء ما يلي:

  1. فتح أداة عرض التضمينات في TensorFlow
  2. اختيار قاعدة بيانات Mnist بصور في الشريط الجانبي الأيمن بعنوان البيانات، ما يؤدي إلى عرض التضمينات في قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد
  3. النقر هنا لإيقاف الدوران واختيار صورة واحدة، مع التصغير والتكبير حسب الحاجة
  4. البحث في الشريط الجانبي الأيمن عن أقرب النقاط المجاورة لرصد أي علاقات غير متوقعة
  • لماذا تظهر بعض أرقام 7 أقرب إلى أرقام 1؟ لماذا تظهر بعض أرقام 8 أقرب إلى 9؟
  • هل هناك أي وجه اختلاف في الصور الموجودة على حواف مساحة الإسقاط عن تلك الموجودة في مركزها؟

تجدُر الإشارة إلى أنّ النموذج الذي أنشأ هذه التضمينات يستقبل بيانات الصورة، أي وحدات البكسل، ويختار تمثيل متّجه رقمي لكل صورة. لا ينشئ النموذج ارتباطًا ذهنيًا تلقائيًا بين صورة الرقم المكتوب بخط اليد والرقم العددي نفسه.

يُرجى النقر هنا للاطّلاع على إجابتنا

بسبب التشابه في الشكل، فإنّ تمثيلات المتّجهات لبعض أعداد الـ 7 الأقل في الحجم وعدد وحدات البكسل يتم وضعها أقرب إلى المتّجهات الخاصة بأعداد الـ 1 المكتوبة بخط اليد، كما هو الحال مع بعض أعداد الـ 8 والـ 9 وحتى بعض أعداد الـ 5 والـ 3.

تبدو الأرقام المكتوبة بخط اليد خارج مساحة الإسقاط أكثر قابلية للتعريف كواحد من الأرقام التسعة ومتميزة بشكل كبير عن الأرقام المحتمَلة الأخرى.