Bạn hiện có thể nhúng cho bất kỳ cặp ví dụ nào. Đo lường mức độ tương đồng lấy các lượt nhúng này và trả về một số đo lường mức độ tương đồng. Hãy nhớ rằng nhúng nội dung chỉ đơn giản là vectơ số. Để tìm ra sự tương đồng giữa hai vectơ \(A = [a_1,a_2,...,a_n]\) và \(B = [b_1,b_2,...,b_n]\), bạn có ba biện pháp tương tự để lựa chọn, như liệt kê trong bảng dưới đây.
Đo lường | Ý nghĩa | Công thức | Mối quan hệ với việc tăng mức độ tương đồng |
---|---|---|---|
Khoảng cách Euclide | Khoảng cách giữa các đầu vectơ | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Giảm |
Cosin | Cosin của góc \(\theta\) giữa các vectơ | \(\frac{a^T b}{|a| \cdot |b|}\) | Tăng |
Sản phẩm chấm | Cosin nhân với độ dài của cả hai vectơ | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Tăng. Đồng thời tăng độ dài của vectơ. |
Chọn một số đo tương tự
Trái ngược với cosin, tích của tích tỉ lệ với độ dài vectơ. Điều này quan trọng vì các ví dụ xuất hiện rất thường xuyên trong tập huấn (ví dụ: các video phổ biến trên YouTube) có xu hướng có các vectơ nhúng với độ dài lớn. Nếu bạn muốn nắm bắt mức độ phổ biến, hãy chọn sản phẩm có dấu chấm. Tuy nhiên, rủi ro là các ví dụ phổ biến có thể làm sai lệch chỉ số tương tự. Để cân bằng độ lệch này, bạn có thể tăng độ dài lên số mũ \(\alpha\ < 1\) để tính tích sản phẩm là \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Để hiểu rõ hơn về độ dài vectơ thay đổi số đo tương tự, hãy chuẩn hoá độ dài vectơ thành 1 và lưu ý rằng ba số đo này tỷ lệ với nhau.
- Quãng đường Euclidean = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Sản phẩm chấm = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Cosine = \(\cos(\theta_{ab})\).