임베딩의 유사성 측정

이제 모든 예시 쌍에 대한 임베딩이 생겼습니다. 유사성 측정은 이러한 임베딩을 취하고 유사성을 측정하는 숫자를 반환합니다. 임베딩은 숫자의 벡터입니다. 두 벡터 \(A = [a_1,a_2,...,a_n]\) 및 \(B = [b_1,b_2,...,b_n]\)의 유사성을 찾으려면 아래 표에 나열된 세 가지 유사성 측정을 사용합니다.

Measure의미수식유사성 증가와의 관계
유클리드 거리벡터의 끝 사이의 거리 \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) 감소
코사인벡터 간의 \(\theta\) 각각 코사인 \(\frac{a^T b}{|a| \cdot |b|}\) 증가
점 제품두 벡터의 길이를 곱하는 코사인 \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) 증가합니다. 또한 벡터 길이에 따라 증가합니다.

유사성 측정 선택

내적은 내적은 벡터 길이에 비례합니다. 이는 학습 세트에 매우 자주 나타나는 예 (예: 인기 YouTube 동영상)가 긴 길이의 임베딩 벡터를 갖는 경향이 있기 때문에 중요합니다. 인기를 포착하려면 내적을 선택하세요. 하지만 인기 있는 예시는 유사성 측정항목을 왜곡할 수 있습니다. 이 편향을 분산하려면 길이를 지수로 늘려 \(\alpha\ < 1\) 내적을 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)로 계산합니다.

벡터 길이가 유사성 측정을 어떻게 변경하는지 더 잘 이해하려면 벡터 길이를 1로 정규화하고 세 측정값이 서로에 비례하는 것을 확인합니다.

증거: 유사성 척도의 비율
\(||a||=1\) 및 \(||b||=1\)가 되도록 a와 b를 정규화한 후 이 세 가지 측정값은 다음과 같습니다.
  • 유클리드 거리는 \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)입니다.
  • 점 제품 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • 코사인 = \(\cos(\theta_{ab})\).
따라서 세 가지 유사성 측정 모두 \(cos(\theta_{ab})\)에 비례하므로 동등합니다.