نظرة عامة على إنشاء المرشّحين

إنشاء المرشّحين هو المرحلة الأولى من الاقتراح. وباستخدام طلب بحث، ينشئ النظام مجموعة من العناصر المرشحة ذات الصلة. يعرض الجدول التالي منهجين شائعين لإنشاء المرشّحين:

النوعالتعريفمثال
الفلترة المستندة إلى المحتوى يتم استخدام التشابه بين العناصر لاقتراح عناصر مشابهة لما يحبه المستخدم. إذا شاهد المستخدم (أ) فيديوهين ظريفين للقطط، يمكن أن يقترح النظام فيديوهات ظريفة على الحيوانات لهذا المستخدم.
الفلترة التعاونية يستخدم أوجه التشابه بين طلبات البحث والعناصر في آنٍ واحد لتقديم اقتراحات. إذا كان المستخدم "أ" مشابهًا للمستخدم "ب" وكان المستخدم "ب" يحب الفيديو 1، حينئذٍ يمكن أن يقترح النظام الفيديو "1" للمستخدم "أ" (حتى إذا لم يشاهد المستخدم "أ" أي فيديوهات مشابهة للفيديو 1).

مساحة التضمين

تربط كل من الفلترة المستندة إلى المحتوى والفلترة التعاونية كل عنصر وكل طلب بحث (أو سياق) بالمتّجه المضمّن في مساحة تضمين مشتركة \(E = \mathbb R^d\). تكون مساحة التضمين عادةً بأبعاد منخفضة (أي \(d\) أصغر بكثير من حجم النص)، وتلتقط بعض البنية المتأخرة للعنصر أو مجموعة طلبات البحث. إنّ العناصر المشابهة، مثل الفيديوهات على YouTube التي يشاهدها المستخدم نفسه عادةً، تظهر في النهاية عن كثب في مساحة التضمين. يتم تعريف مفهوم &##;closeness" من خلال مقياس تشابه.

مقاييس التشابه

مقياس التشابه هو وظيفة \(s : E \times E \to \mathbb R\) تحصل على زوج من عمليات التضمين وتعرض عددًا قياسيًا من قياس التشابه. يمكن استخدام التضمينات لإنشاء المرشح على النحو التالي: وفقًا لتضمين طلب البحث \(q \in E\)، يبحث النظام عن عمليات تضمين العناصر \(x \in E\) التي تكون قريبة من \(q\)، أي عمليات التضمين ذات التشابه المرتفع \(s(q, x)\).

لتحديد درجة التشابه، تعتمد معظم أنظمة الاقتراحات على واحد أو أكثر من العوامل التالية:

  • جيب التمام
  • منتَج للنقاط
  • المسافة الإقليدية

جيب التمام

هذا هو جيب التمام للزاوية بين المتّجهَين، \(s(q, x) = \cos(q, x)\)

منتَج للنقاط

ناتج النقطة المتّجهَين هو \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\). ويتم تقديمه أيضًا عن طريق \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (جيب التمام للزاوية مضروبًا في حاصل ضرب المعايير). وبالتالي، إذا تم تضمين العناصر المضمّنة، حينئذٍ يتم ربط المنتج بنقطة النهاية وجيب التمام.

المسافة الإقليدية

هذه هي المسافة المعتادة في الفضاء الإقليدي، \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). ويشير المسافة الصغيرة إلى تشابه أكبر. تجدر الإشارة إلى أنه عند تسوية الضمائر، تتزامن المسافة الإقليدية المربّعة مع قيمة النقطة (نقطة) المنتج (وجيب التمام) بشكل ثابت، لأنّ الحالة هي في هذه الحالة \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

صورة تعرض مساحة تضمين ثنائية الأبعاد، تحتوي على طلب بحث وثلاثة عناصر مرشحة.

مقارنة مقاييس التشابه

انظر إلى المثال في الشكل على اليسار. ويوضّح الموجّه الأسود عملية تضمين طلب البحث. استخدِم متّجهات التضمين الثلاثة الأخرى (العنصر "أ" و"العنصر ب" و"العنصر ج") العناصر المرشحة. اعتمادًا على مقياس التشابه المستخدَم، يمكن أن يختلف ترتيب السلع.

استخدِم الصورة لتحديد ترتيب السلعة باستخدام مقاييس التشابه الثلاثة: جيب التمام ومنتج النقطة والمسافة الإقليدية.

ما هو مقياس التشابه الذي يجب اختياره؟

مقارنةً بجيب التمام، يكون تشابه منتج النقاط حساسًا لمعيار التضمين. ويعني ذلك أنه كلما زاد حجم القاعدة المضمَّنة، زاد التشابه (مع العناصر ذات الزاوية الحادة) وكلما زاد اقتراح العنصر. ويمكن أن يؤثر ذلك في الاقتراحات على النحو التالي:

  • غالبًا ما تتضمّن العناصر التي تظهر بوتيرة كبيرة في مجموعة التدريب (على سبيل المثال، فيديوهات YouTube الرائجة) مواد عرض ذات معايير كبيرة. إذا كان من المطلوب الحصول على معلومات عن مدى الرواج، عليك اختيار المنتج المفضّل. ولكن إذا لم تكن حذرًا، فقد تهيمن العناصر الشائعة على الاقتراحات. من الناحية العملية، يمكنك استخدام صيغ أخرى من مقاييس التشابه التي تركّز بشكل أقل على معيار العنصر. على سبيل المثال، حدِّد \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) لبعض المعلومات. \(\alpha \in (0, 1)\).

  • قد لا يتمّ تعديل السلع التي تظهر نادرًا جدًا بشكلٍ متكرّر. وبالتالي، في حال إعداد قاعدة كبيرة على هذا النحو، قد يقترح النظام عناصر نادرة على عناصر أكثر صلة. لتجنّب هذه المشكلة، يجب الحرص على تضمين عملية الإعداد واستخدام التنظيم المناسب. سنوضّح هذه المشكلة بالتفصيل في التمرين الأول.