מדידת דמיון מהטמעות

עכשיו אתם מטמיעים צמדים לדוגמה. מדד דמיון מקבל את ההטמעות האלה ומחזיר מספר שמודד את הדמיון ביניהן. חשוב לזכור שההטמעה היא פשוט וקטור של מספרים. כדי למצוא את הדמיון בין שני וקטורים \(A = [a_1,a_2,...,a_n]\) ו- \(B = [b_1,b_2,...,b_n]\), תוכלו לבחור מבין שלושה מדדי דמיון, כפי שמתואר בטבלה שבהמשך.

מדידותמשמעותנוסחהקשר לדמיון דומה
אוקלידיתהמרחק בין וקטורים \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) ירידה
קוסינוסקוסינוס זווית \(\theta\) בין וקטורים \(\frac{a^T b}{|a| \cdot |b|}\) עליות
מוצר נקודהקוסינוס כפול אורכה של שני הוקטורים \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) בעלייה. עולה גם האורך של וקטורים.

בחירת מדד דמיון

בניגוד לקוסינוס, מוצר הנקודה הוא פרופורציונלי לאורך הוקטור. זה חשוב כי דוגמאות שמופיעות לעיתים קרובות בקבוצת האימון (למשל, סרטוני YouTube פופולריים) נוטות לכלול וקטורים מוטמעים עם אורך ארוך. אם אתם רוצים למשוך פופולריות, בחרו באפשרות של מאפיין הנקודה. עם זאת, הסיכון הוא שהדוגמאות הפופולריות ישפיעו לרעה על מדד הדמיון. כדי לאזן את ההטיה, אפשר להעלות את האורך למעריך \(\alpha\ < 1\) כדי לחשב את המכפלה כ- \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

כדי להבין טוב יותר איך אורך הוקטור משנה את מידת הדמיון, יש לנרמל את אורך הוקטור ל-1 ולשים לב ששלושת הקווים הופכים ליחסים יחסיים זה לזה.

הוכחה: יחס של יחסי דמיון
אחרי שמנרמלים את א' ו-ב' כך ש \(||a||=1\) ו- \(||b||=1\), שלושת האמצעים האלה קשורים כך:
  • המרחק מהאוקלייד = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • מוצר נקודה = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • קוסינוס = \(\cos(\theta_{ab})\).
לכן, כל שלושת מדדי הדמיון זהים כי הם יחסיים ביחס ל- \(cos(\theta_{ab})\).