これで、任意のサンプルのペアにエンベディングを作成できました。類似度メジャーは、これらのエンベディングを受け取って、その類似性を測定する数値を返します。エンベディングは単なる数値のベクトルであることに注意してください。2 つのベクトル \(A = [a_1,a_2,...,a_n]\) と \(B = [b_1,b_2,...,b_n]\)の類似度を調べるには、次の表に示す 3 つの類似度メジャーから選択します。
測定 | 意味 | 数式 | 類似性の増大との関係 |
---|---|---|---|
ユークリッド距離 | ベクトルの両端の距離 | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | 減少 |
コサイン | ベクトル間の角度のコサイン \(\theta\) | \(\frac{a^T b}{|a| \cdot |b|}\) | 増加する |
ドット商品 | コサインに両方のベクトルの長さを掛けたもの | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | 増加する。また、ベクトルの長さとともに増加します。 |
類似性メジャーを選択する
コサインとは対照的に、ドット積はベクトル長に比例します。トレーニング セットで頻繁に出現するサンプル(人気の YouTube 動画など)には、長さの大きい埋め込みベクトルが含まれる傾向があるため、これは重要です。 人気度を把握するには、ドット商品を選択します。ただし、人気のサンプルによって類似性指標が不正確になるリスクもあります。このスキューのバランスを取るには、長さを指数に上げて、ドット積を \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)として計算します。 \(\alpha\ < 1\)
ベクトル長が類似度メジャーにどのように影響するかをより深く理解するには、ベクトル長を 1 に正規化し、3 つのメジャーが互いに比例することを確認します。
証明: 類似性対策の比例配分
\(||a||=1\) と \(||b||=1\)となるように a と b を正規化すると、これら 3 つの尺度は次のようになります。
- ユークリッド距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
- ドット商品 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
- コサイン = \(\cos(\theta_{ab})\)。