نمای کلی نسل نامزد

ایجاد نامزد اولین مرحله توصیه است. با توجه به یک پرس و جو، سیستم مجموعه ای از نامزدهای مرتبط را تولید می کند. جدول زیر دو رویکرد رایج تولید نامزد را نشان می دهد:

تایپ کنید تعریف مثال
فیلترینگ مبتنی بر محتوا از شباهت بین آیتم ها برای توصیه مواردی مشابه آنچه کاربر دوست دارد استفاده می کند. اگر کاربر A دو ویدیو از گربه های بامزه تماشا کند، سیستم می تواند ویدیوهای حیوانات بامزه را به آن کاربر توصیه کند.
فیلتر مشارکتی از شباهت های بین پرس و جو و موارد به طور همزمان برای ارائه توصیه ها استفاده می کند. اگر کاربر A مشابه کاربر B باشد و کاربر B ویدیو 1 را دوست داشته باشد، سیستم می تواند ویدیوی 1 را به کاربر A توصیه کند (حتی اگر کاربر A هیچ ویدئویی مشابه ویدیو 1 ندیده باشد).

فضای جاسازی

هر دو فیلتر مبتنی بر محتوا و مشارکتی، هر مورد و هر پرس و جو (یا زمینه) را به یک بردار جاسازی در یک فضای جاسازی مشترک\(E = \mathbb R^d\)کنند. به طور معمول، فضای جاسازی ابعاد پایینی دارد (یعنی \(d\) بسیار کوچکتر از اندازه بدنه است)، و برخی از ساختارهای پنهان مورد یا مجموعه پرس و جو را به تصویر می کشد. موارد مشابه، مانند ویدیوهای یوتیوب که معمولاً توسط یک کاربر تماشا می شود، در نهایت در فضای تعبیه شده به هم نزدیک می شوند. مفهوم "نزدیک" با معیار تشابه تعریف می شود.

اقدامات شباهت

معیار تشابه یک تابع \(s : E \times E \to \mathbb R\) است که یک جفت جاسازی را می گیرد و یک اسکالر برای اندازه گیری شباهت آنها برمی گرداند. جاسازی‌ها را می‌توان برای تولید نامزد به صورت زیر استفاده کرد: با توجه به پرس‌وجوی \(q \in E\)، سیستم به دنبال جاسازی‌های آیتم\(x \in E\) نزدیک به \(q\)، یعنی جاسازی‌هایی با شباهت زیاد \(s(q, x)\).

برای تعیین درجه شباهت، اکثر سیستم های توصیه بر یک یا چند مورد زیر تکیه می کنند:

  • کسینوس
  • محصول نقطه ای
  • فاصله ی اقلیدسی

کسینوس

این به سادگی کسینوس زاویه بین دو بردار، \(s(q, x) = \cos(q, x)\)

محصول نقطه ای

حاصل ضرب نقطه ای دو بردار\(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\)است. همچنین توسط \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (کسینوس زاویه ضرب در حاصلضرب هنجارها) داده می شود. بنابراین، اگر تعبیه‌ها نرمال شوند، محصول نقطه و کسینوس بر هم منطبق می‌شوند.

فاصله ی اقلیدسی

این فاصله معمولی در فضای اقلیدسی است، \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). فاصله کمتر به معنای شباهت بیشتر است. توجه داشته باشید که وقتی تعبیه‌ها نرمال می‌شوند، فاصله اقلیدسی مجذور با حاصلضرب نقطه (و کسینوس) تا یک ثابت منطبق است، زیرا در آن حالت \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

تصویری که یک فضای تعبیه دو بعدی را نشان می دهد که شامل یک پرس و جو و سه مورد نامزد است.

مقایسه معیارهای تشابه

به مثال شکل سمت راست توجه کنید. بردار سیاه رنگ جاسازی پرس و جو را نشان می دهد. سه بردار تعبیه شده دیگر (مورد A، آیتم B، آیتم ج) آیتم های کاندید را نشان می دهند. بسته به معیار تشابه مورد استفاده، رتبه بندی اقلام می تواند متفاوت باشد.

با استفاده از تصویر، سعی کنید رتبه بندی مورد را با استفاده از هر سه معیار تشابه تعیین کنید: کسینوس، حاصلضرب نقطه، و فاصله اقلیدسی.

کدام معیار تشابه را انتخاب کنیم؟

در مقایسه با کسینوس، شباهت محصول نقطه ای به هنجار تعبیه حساس است. یعنی هر چه هنجار تعبیه بزرگتر باشد، شباهت بیشتر (برای موارد با زاویه تند) بیشتر می شود و احتمال بیشتری وجود دارد که مورد توصیه شود. این می تواند بر توصیه های زیر تأثیر بگذارد:

  • مواردی که اغلب در مجموعه آموزشی ظاهر می شوند (به عنوان مثال، ویدیوهای محبوب YouTube) معمولاً دارای تعبیه هایی با هنجارهای بزرگ هستند. اگر گرفتن اطلاعات محبوبیت مطلوب است، پس باید محصول نقطه ای را ترجیح دهید. با این حال، اگر مراقب نباشید، موارد محبوب ممکن است در نهایت بر توصیه‌ها غالب شوند. در عمل، می‌توانید از انواع دیگر معیارهای تشابه استفاده کنید که تأکید کمتری بر هنجار مورد دارد. به عنوان مثال،\(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) را برای برخی \(\alpha \in (0, 1)\)تعریف کنید.

  • مواردی که بسیار به ندرت ظاهر می شوند ممکن است به طور مکرر در طول آموزش به روز نشوند. در نتیجه، اگر آنها با یک هنجار بزرگ مقداردهی اولیه شوند، سیستم ممکن است موارد کمیاب را نسبت به موارد مرتبط تر توصیه کند. برای جلوگیری از این مشکل، مراقب تعبیه مقداردهی اولیه باشید و از تنظیم مناسب استفاده کنید. این مشکل را در تمرین اول به تفصیل بیان خواهیم کرد.