עכשיו אתם מטמיעים צמדים לדוגמה. מדד דמיון מקבל את ההטמעות האלה ומחזיר מספר שמודד את הדמיון ביניהן. חשוב לזכור שההטמעה היא פשוט וקטור של מספרים. כדי למצוא את הדמיון בין שני וקטורים \(A = [a_1,a_2,...,a_n]\) ו- \(B = [b_1,b_2,...,b_n]\), תוכלו לבחור מבין שלושה מדדי דמיון, כפי שמתואר בטבלה שבהמשך.
מדידות | משמעות | נוסחה | קשר לדמיון דומה |
---|---|---|---|
אוקלידית | המרחק בין וקטורים | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | ירידה |
קוסינוס | קוסינוס זווית \(\theta\) בין וקטורים | \(\frac{a^T b}{|a| \cdot |b|}\) | עליות |
מוצר נקודה | קוסינוס כפול אורכה של שני הוקטורים | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | בעלייה. עולה גם האורך של וקטורים. |
בחירת מדד דמיון
בניגוד לקוסינוס, מוצר הנקודה הוא פרופורציונלי לאורך הוקטור. זה חשוב כי דוגמאות שמופיעות לעיתים קרובות בקבוצת האימון (למשל, סרטוני YouTube פופולריים) נוטות לכלול וקטורים מוטמעים עם אורך ארוך. אם אתם רוצים למשוך פופולריות, בחרו באפשרות של מאפיין הנקודה. עם זאת, הסיכון הוא שהדוגמאות הפופולריות ישפיעו לרעה על מדד הדמיון. כדי לאזן את ההטיה, אפשר להעלות את האורך למעריך \(\alpha\ < 1\) כדי לחשב את המכפלה כ- \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
כדי להבין טוב יותר איך אורך הוקטור משנה את מידת הדמיון, יש לנרמל את אורך הוקטור ל-1 ולשים לב ששלושת הקווים הופכים ליחסים יחסיים זה לזה.
- המרחק מהאוקלייד = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- מוצר נקודה = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- קוסינוס = \(\cos(\theta_{ab})\).