從嵌入功能評估相似度

現在您能夠使用任何一組範例的嵌入功能。相似度測量時會接收這些嵌入項目,並傳回測量其相似度的數字。請注意,嵌入只是數字的向量。如要尋找兩個向量 \(A = [a_1,a_2,...,a_n]\) 與 \(B = [b_1,b_2,...,b_n]\)之間的相似度,您有三種相似性可以選擇,如下表所示。

數據評估意義公式提升相似度的關係
歐裡得美景向量結尾之間的距離 \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) 減少
餘弦向量 \(\theta\) 的角度 \(\frac{a^T b}{|a| \cdot |b|}\) 增加
點線產品餘邊乘以兩個向量的長度 \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) 增加。也會隨著向量長度增加。

選擇相似度評估方式

相較於餘弦,圓點產品與向量長度成正比。 這點非常重要,因為訓練集中經常出現的範例 (例如熱門 YouTube 影片) 往往含有長度較長的嵌入向量。 如果想爭取熱門程度,請選擇圓點產品。然而,風險是常見範例可能會使相似度偏差。為了平衡偏差,您可以將長度增加至指數 \(\alpha\ < 1\) ,以將點產品計算為 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)。

如要進一步瞭解向量長度如何變更相似度度,請將向量長度正規化為 1,並留意這三種度會成比例。

證明:相似性措施的比例
將 a 和 b 正規化為 \(||a||=1\) 和 \(||b||=1\)後,這三項評估標準如下:
  • 歐元距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
  • 點產品 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
  • 餘弦 = \(\cos(\theta_{ab})\)。
因此,這三大相似度測量結果都是同等的,因為兩者的比率是 \(cos(\theta_{ab})\)。