סקירה כללית של יצירת מועמדים

יצירת מועמדים היא השלב הראשון של ההמלצה. בהתאם לשאילתה, המערכת יוצרת קבוצה של מועמדים רלוונטיים. בטבלה הבאה מוצגות שתי גישות נפוצות של יצירת מועמד:

סוגהגדרהדוגמה
סינון תוכן נעשה שימוש בדמיון בין פריטים כדי להמליץ על פריטים שדומים למה שהמשתמש אוהב. אם משתמש א' צופה בשני סרטונים של חתולים חמודים, המערכת תוכל להמליץ למשתמש הזה על סרטונים של בעלי חיים חמודים.
סינון שיתופי פעולה עושה שימוש בדמיון בין שאילתות ופריטים בו-זמנית כדי לספק המלצות. אם משתמש א' דומה למשתמש ב', ומשתמש ב' אוהב את סרטון 1, המערכת תוכל להמליץ על סרטון א' למשתמש א' (גם אם משתמש א' לא ראה סרטונים הדומים לסרטון 1).

הטמעת מרחב

גם סינון מבוסס-תוכן וגם סינון תוכן שיתופי ממפים כל פריט וכל שאילתה (או הקשר) לווקטור הטמעה באזור הטמעה משותף \(E = \mathbb R^d\). בדרך כלל, השטח להטמעה הוא בעל מימד קטן (כלומר, \(d\) קטן יותר מהגודל של גוף הגוף), והוא כולל מבנה נסתר כלשהו של הפריט או קבוצת השאילתות. פריטים דומים, כגון סרטונים ב-YouTube שבדרך כלל נצפים על ידי אותו משתמש, קרובים מאוד זה לזה לאזור ההטמעה. התפיסה של "closeness" מוגדרת לפי מדד דמיון.

אמצעים דומים

מדד דמיון הוא פונקציה \(s : E \times E \to \mathbb R\) שמשתמשת בצמד הטמעות ומחזירה סקאל שמודד את הדמיון ביניהם. ניתן להשתמש בהטמעות ליצירת מועמדים באופן הבא: בהתאם להטמעה של שאילתה \(q \in E\), המערכת מחפשת הטמעות של פריטים שקרובים ל- \(q\), כלומר הטמעות עם דמיון גבוה \(s(q, x)\).

כדי לקבוע את מידת הדמיון, רוב מערכות ההמלצות מסתמכות על אחת או יותר מהאפשרויות הבאות:

  • קוסינוס
  • מוצר עם נקודה
  • אוקלידית

קוסינוס

זהו פשוט הקוסינוס של הזווית בין שני הוקטורים, \(s(q, x) = \cos(q, x)\)

מוצר נקודה

מכפלת הנקודות של שני וקטורים היא \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\). הוא מקבל גם את \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (הקוסינוס של הזווית כפול המכפלה של נורמות). כך, אם ההטמעות מנורמלות, הנקודה עם המוצר-הנקודה וקוסינוס היא חפיפה.

אוקלידית

זהו המרחק הרגיל באוקלידית, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). מרחק קטן יותר מצביע על דמיון גבוה יותר. שימו לב שכשההטמעות מנורמלות, המרחק בין האקלאדיים המרובעים תואם למוצרי-נקודה (והקוסינוס) עד קבוע, מאחר שבמקרה הזה \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

תמונה המציגה שטח הטמעה דו-מימדי, המכיל הטמעה של שאילתה ושלושה פריטים מועמדים.

השוואת מדדי דמיון

ניקח לדוגמה את הדוגמה שמשמאל. הוקטור השחור ממחיש את הטמעת השאילתה. שלושת הוקטורים האחרים להטמעה (פריט א', פריט ב', פריט ג') מייצגים פריטים שהם מועמדים. בהתאם למידת הדמיון בין מילות המפתח, דירוג הפריטים עשוי להיות שונה.

באמצעות התמונה, מנסים לקבוע את דירוג הפריט באמצעות שלושת אמצעי הדמיון: קוסינוס, מוצר נקודה ומרחק אוקלידית.

איזה מידת דמיון לבחור?

בהשוואה לקוסינוס, הדמיון בין מוצרים דומים הוא רגיש לנורמות של ההטמעה. כלומר, ככל שהנורמה של הטמעה היא גדולה יותר, כך הדמיון בין הפריטים (עם פריטים בזווית חדה) גבוה יותר ויש סיכוי גבוה יותר שהפריט יומלץ. תוכלו ליישם את ההמלצות הבאות:

  • בפריטים שמופיעים לעיתים קרובות בקבוצת האימון (לדוגמה, סרטוני YouTube פופולריים) יש בדרך כלל הטמעות עם נורמות גדולות. אם רוצים לקבל מידע על פופולריות, עדיף להשתמש במוצר של נקודה. עם זאת, אם לא תקפידו על זהירות, הפריטים הפופולריים עשויים להוביל את ההמלצות. בפועל, תוכלו להשתמש בווריאציות אחרות של מדדים דומים, שמדגישים פחות את הנורמות של הפריט. לדוגמה, תוכלו להגדיר\(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) חלק מהמשתמשים \(\alpha \in (0, 1)\).

  • יכול להיות שפריטים שמופיעים לעתים רחוקות מאוד לא יעודכנו לעיתים קרובות במהלך האימון. לכן, אם המערכת מתחילה להשתמש בנורמה גדולה, ייתכן שהמערכת תמליץ על פריטים נדירים במקום פריטים רלוונטיים יותר. כדי להימנע מבעיה זו, יש להפעיל שיקול דעת בהטמעה. נפרט את הבעיה בתרגיל הראשון.