يعمل التطبيق المصغّر التالي المستنِد إلى
أداة عرض التضمينات في TensorFlow على إسقاط 10,000
متّجه word2vec
ثابت في مساحة ثلاثية الأبعاد. قد يكون هذا الاختزال في الأبعاد مضللاً، لأنّ النقاط الأقرب إلى بعضها البعض في المساحة الأصلية العالية الأبعاد قد تظهر أبعد عن بعضها البعض في الإسقاط الثلاثي الأبعاد. يتم
تمييز أقرب n من النقاط باللون الأرجواني، ويحدد المستخدم قيمة n من النقاط
من خلال خيار Isolate __ points (عزل النقاط). يُحدد الشريط الجانبي الموجود على اليمين أقرب النقاط المجاورة.
في هذه التجارب، سيتم استكشاف تضمينات word2vec
الموجودة في التطبيق المصغّر أعلاه.
المَهمّة 1
عليك محاولة العثور على أقرب 20 نقطة مجاورة لما يلي، والنظر إلى مواضع توزيع المجموعات في الشكل السحابي.
iii
وthird
وthree
tao
وway
orange
وyellow
وjuice
ما هي ملاحظاتك عن هذه النتائج؟
يُرجى النقر هنا للاطّلاع على إجابتنا
رغم التشابه الدلالي بين iii
وthird
وthree
، فهي تظهر في سياقات مختلفة في النص ولا تبدو أنّها قريبة من بعضها في مساحة التضمين هذه. في
word2vec
، تكون iii
أقرب إلى iv
عن
third
.
وبالمثل، بينما تُعدّ way
ترجمة مباشرة لـ tao
،
فإن هذه الكلمات تظهر في أغلب الأحيان مع مجموعات مختلفة تمامًا من الكلمات في مجموعة البيانات المستخدَمة، وبالتالي فإن المتّجهَين بعيدان جدًا عن بعضهما بعضًا.
أول عدة نقاط مجاورة لـ orange
هي ألوان، لكن
juice
وpeel
، المرتبطتَين بمعنى
orange
كفاكهة، تظهران كأقرب نقطتَين مجاورتَين ترتيبهما الـ 14 والـ 18، في حين أنّ prince
، كما في
"أمير أورانيا"، ترتيبها الـ 17. في الإسقاط، تكون الكلمات الأقرب إلى
orange
هي yellow
والألوان الأخرى، في حين أنّ الكلمات الأقرب إلى juice
لا تتضمّن
orange
.
المَهمّة 2
عليك محاولة التعرّف على بعض خصائص بيانات التدريب. على سبيل المثال، عليك محاولة العثور على أقرب 100 نقطة مجاورة لما يلي، ومعرفة مكان وجود المجموعات في السحابة الإلكترونية:
boston
وparis
وtokyo
وdelhi
وmoscow
وseoul
(هذا سؤال خادع)jane
وsarah
وjohn
وpeter
وrosa
وjuan
يُرجى النقر هنا للاطّلاع على إجابتنا
العديد من أقرب النقاط المجاورة لـ boston
هي
مدن أخرى في الولايات المتحدة. العديد من أقرب النقاط المجاورة لـ paris
هي مدن أخرى
في أوروبا. لا يبدو أنّ tokyo
وdelhi
لهما
نتائج متشابهة: إحداهما مرتبطة بمدن حول العالم
تُعتبر مراكز للسفر، بينما ترتبط الأخرى بـ india
والكلمات
ذات الصلة. لا تظهر seoul
في هذه المجموعة المختصرة من
متّجهات الكلمات على الإطلاق.
يبدو أنّ مجموعة البيانات هذه تحتوي على العديد من المستندات المتعلّقة بالجغرافيا الوطنية للولايات المتحدة، وبعض المستندات تتعلّق بالجغرافيا الإقليمية الأوروبية، ولكنّها لا تشمل تغطية تفصيلية كبيرة للدول أو المناطق الأخرى.
بالمثل، يبدو أنّ مجموعة البيانات هذه تحتوي على العديد من الأسماء الإنجليزية المذكرة، وبعض الأسماء الإنجليزية المؤنثة، وعدد أقل بكثير من الأسماء الواردة من لغات أخرى. تجدُر الإشارة إلى أنّ "دون روزا" كتب ورسم قصص "سكروج ماك داك" المصوّرة لشركة Disney، وهو السبب المحتمَل لكون "سكروج" و"ماك داك" من أقرب النقاط المجاورة لـ "روزا".
في الواقع، تم تدريب متّجهات الكلمات المدربة مسبقًا التي يقدّمها النموذج word2vec
على
مقالات "أخبار Google" حتى عام 2013.
المَهمّة 3
لا تقتصر التضمينات على الكلمات، فيمكن أيضًا تضمين الصور والصوت والبيانات الأخرى. في هذه المَهمّة، عليك إجراء ما يلي:
- فتح أداة عرض التضمينات في TensorFlow
- اختيار قاعدة بيانات Mnist بصور في الشريط الجانبي الأيمن بعنوان البيانات، ما يؤدي إلى عرض التضمينات في قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد
- النقر هنا لإيقاف الدوران واختيار صورة واحدة، مع التصغير والتكبير حسب الحاجة
- البحث في الشريط الجانبي الأيمن عن أقرب النقاط المجاورة لرصد أي علاقات غير متوقعة
- لماذا تظهر بعض أرقام
7
أقرب إلى أرقام1
؟ لماذا تظهر بعض أرقام8
أقرب إلى9
؟ - هل هناك أي وجه اختلاف في الصور الموجودة على حواف مساحة الإسقاط عن تلك الموجودة في مركزها؟
تجدُر الإشارة إلى أنّ النموذج الذي أنشأ هذه التضمينات يستقبل بيانات الصورة، أي وحدات البكسل، ويختار تمثيل متّجه رقمي لكل صورة. لا ينشئ النموذج ارتباطًا ذهنيًا تلقائيًا بين صورة الرقم المكتوب بخط اليد والرقم العددي نفسه.
يُرجى النقر هنا للاطّلاع على إجابتنا
بسبب التشابه في الشكل، فإنّ تمثيلات المتّجهات لبعض
أعداد الـ 7
الأقل في الحجم وعدد وحدات البكسل يتم وضعها أقرب إلى المتّجهات
الخاصة بأعداد الـ 1
المكتوبة بخط اليد، كما هو الحال مع بعض أعداد الـ 8
والـ 9
وحتى بعض أعداد الـ 5
والـ 3
.
تبدو الأرقام المكتوبة بخط اليد خارج مساحة الإسقاط أكثر قابلية للتعريف كواحد من الأرقام التسعة ومتميزة بشكل كبير عن الأرقام المحتمَلة الأخرى.