이제 임베딩이 생성되었습니다. 감독 유사성 측정값은 이러한 임베딩을 사용하여 유사성을 측정하는 숫자를 반환합니다.
임베딩은 숫자 벡터입니다. 두 벡터 \(A = [a_1,a_2,...,a_n]\) 와 \(B = [b_1,b_2,...,b_n]\)의 유사성을 찾으려면 다음 세 가지 유사성 측정 중 하나를 선택합니다.
코사인과 달리 내적은 벡터 길이에 비례합니다.
이는 학습 세트에 매우 자주 등장하는 예시 (예: 인기 YouTube 동영상)에는 길이가 긴 임베딩 벡터가 있는 경향이 있기 때문에 중요합니다.
인기를 파악하려면 내적을 선택합니다. 하지만 인기 있는 예시가 유사성 측정항목을 왜곡할 수 있다는 위험이 있습니다. 이 왜곡을 보정하려면 길이를 지수 \(\alpha\ < 1\) 로 올려 내적을 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)로 계산할 수 있습니다.
벡터 길이가 유사성 측정값을 어떻게 변경하는지 더 잘 이해하려면 벡터 길이를 1로 정규화하고 세 측정값이 서로 비례하는 것을 확인합니다.
증명: 유사도 측정의 비례성
a와 b를 \(||a||=1\) 와 \(||b||=1\)로 정규화하면 다음 세 측정항목은 다음과 같이 관련이 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-02-25(UTC)"],[[["Supervised similarity measures leverage embeddings to quantify the similarity between data examples using Euclidean distance, cosine, or dot product."],["Dot product incorporates vector length, reflecting popularity, while cosine similarity focuses solely on the angle between vectors, ignoring popularity."],["Normalizing vector lengths makes Euclidean distance, cosine, and dot product proportional, essentially measuring the same thing."],["Supervised similarity, using embeddings and a distance metric, is suitable for large, complex datasets, while manual similarity, relying on feature combinations, is better for small, straightforward datasets."]]],[]]