類似性の措置: 理解度チェック

中心点に対する点 a、b、c のグラフ。
上の画像で、「b」が「b」よりも「a」に似ているようにしたい場合、どの尺度を選択すればよいですか。
内積
そのとおりです。ドット積は、コサインとベクトルの長さの両方に比例します。したがって、「b」と「c」のコサインは高くなりますが、「a」の長さが長いほど、「a」と「b」は「b」や「c」と似たものになります。
コサイン
コサインはベクトル間の角度にのみ依存し、角度が小さいほど \(\cos(\theta_{bc})\) は \(\cos(\theta_{ab})\)より大きくなります。 \(\theta_{bc}\)
ユークリッド距離
距離は \(\vec{bc}\) 「 \(\vec{ab}\) 」よりも小さいため、「b」は「a」よりも「c」に近づきます。
ミュージック ビデオの類似度を計算しています。ミュージック ビデオのエンベディング ベクトルの長さは人気度に比例します。類似度を計算するために、コサインの代わりにドット積を選択するようになりました。ミュージック ビデオの類似度はどのように変化しますか。
人気の動画はすべての動画と類似したものになります。
ドット積は両方のベクトルの長さの影響を受けるため、人気の動画のベクトル長が大きいと、すべての動画に類似してしまいます。
人気の動画は、他の人気動画と類似しているだけです。
ドット積は \(|a||b|\cos(\theta)\)として計算されます。「a」が人気のミュージック ビデオであると仮定すると、Google ではその埋め込みの長さ \(|a|\)が、人気がない動画よりも大きいことを認識しています。長さが長いほど、 \(|b|\)の値に関係なくドット積が増加します。その結果、人気の動画は他の人気の動画だけでなく、他のすべての動画と同様のものになります。
人気の動画は、人気が下がっている動画と比べてあまり類似していない
ドット積はベクトル長とともに増加し、人気のある動画はベクトル長が高いため、類似度の測定値は大きくなり、減少はしません。
変更なし。
ドットプロダクトはベクトル長の影響を受けます。人気の動画のベクトル長が高いと、類似度が変化します。
前の質問と同じシナリオで、ドット積からコサインに切り替えるとします。ミュージック ビデオの類似度はどのように変化しますか。
人気の動画は、人気が下がっている動画と比べてあまり類似していない
コサインはベクトル長の影響を受けないため、人気の動画のエンベディングの大きいベクトル長は類似性には寄与しません。そのため、ドット積からコサインに切り替えると、人気のある動画の類似性が低下します。
人気の高い動画は、人気が下がっている動画より人気が高くなります
コサインはベクトル長の影響を受けないため、ドット商品から切り替えると、すべての人気動画の類似性が低下します。
変更なし。
コサインはベクトル長の影響を受けないため、コサインを使用すると異なる類似点が生じます。