相似度衡量:检查您的理解情况

显示与中心点相关的点 a、b 和 c 的图表。
在上图中,如果您希望“b”与“a”更接近“b”与“c”,应该选择哪种衡量方式?
点产品
正确!点积与余弦和向量的长度成比例。因此,即使“b”和“c”的余弦值较高,“a”的长度也会使“a”和“b”比“b”和“c”更相似。
余弦
余弦仅取决于向量之间的角度,角度越小, \(\theta_{bc}\) 使 \(\cos(\theta_{bc})\) 大于 \(\cos(\theta_{ab})\)。
欧几里得距离
此距离 \(\vec{bc}\) 小于 \(\vec{ab}\) “b”与“c”的相似度高于“a”。
您正在计算音乐视频的相似度。音乐视频的嵌入向量的长度与其热门程度成正比。您现在选择点积而不是余弦来计算相似度。音乐视频之间的相似度有何变化?
热门视频一般都更接近所有视频。
由于点积受两个矢量的长度的影响,因此热门视频矢量长较大会使它们与所有视频更相似。
热门视频与其他热门视频的相似度更高
前面已经提到,点积的计算方式为 \(|a||b|\cos(\theta)\)。假设“a”是一个流行音乐视频,我们知道其嵌入时长 \(|a|\)大于非热门视频的时长。无论 \(|b|\)的值为何,较大的长度都会增加点积。因此,热门视频与其他所有视频更相似,而不仅仅是其他热门视频。
热门视频与不太热门的视频不太相似
由于点积随着矢量长度的增加而增加,并且热门视频的矢量长度较高,因此相似度指标会提高,而不是减小。
没有变化。
点积受矢量长度影响,热门视频矢量长度高将改变相似度度量。
在与上一个问题相同的场景中,假设您从点积切换到余弦。音乐视频之间的相似度会如何变化?
热门视频与不太热门的视频不太相似
由于余弦不受向量长度的影响,因此嵌入热门视频后的向量长不会影响相似度。因此,从点积切换到余弦会降低热门视频的相似度。
热门视频与不太热门的视频更相似
余弦不受矢量长度的影响,因此从点积切换到所有热门视频的相似度会降低。
没有变化。
由于余弦不受矢量长度的影响,因此使用余弦将产生不同的相似之处。