Đo lường sự tương đồng từ video nhúng

Bạn hiện có thể nhúng cho bất kỳ cặp ví dụ nào. Đo lường mức độ tương đồng lấy các lượt nhúng này và trả về một số đo lường mức độ tương đồng. Hãy nhớ rằng nhúng nội dung chỉ đơn giản là vectơ số. Để tìm ra sự tương đồng giữa hai vectơ \(A = [a_1,a_2,...,a_n]\) và \(B = [b_1,b_2,...,b_n]\), bạn có ba biện pháp tương tự để lựa chọn, như liệt kê trong bảng dưới đây.

Đo lườngÝ nghĩaCông thứcMối quan hệ với việc tăng mức độ tương đồng
Khoảng cách EuclideKhoảng cách giữa các đầu vectơ \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Giảm
CosinCosin của góc \(\theta\) giữa các vectơ \(\frac{a^T b}{|a| \cdot |b|}\) Tăng
Sản phẩm chấmCosin nhân với độ dài của cả hai vectơ \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Tăng. Đồng thời tăng độ dài của vectơ.

Chọn một số đo tương tự

Trái ngược với cosin, tích của tích tỉ lệ với độ dài vectơ. Điều này quan trọng vì các ví dụ xuất hiện rất thường xuyên trong tập huấn (ví dụ: các video phổ biến trên YouTube) có xu hướng có các vectơ nhúng với độ dài lớn. Nếu bạn muốn nắm bắt mức độ phổ biến, hãy chọn sản phẩm có dấu chấm. Tuy nhiên, rủi ro là các ví dụ phổ biến có thể làm sai lệch chỉ số tương tự. Để cân bằng độ lệch này, bạn có thể tăng độ dài lên số mũ \(\alpha\ < 1\) để tính tích sản phẩm là \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Để hiểu rõ hơn về độ dài vectơ thay đổi số đo tương tự, hãy chuẩn hoá độ dài vectơ thành 1 và lưu ý rằng ba số đo này tỷ lệ với nhau.

Bằng chứng: Tỷ lệ các biện pháp tương tự
Sau khi chuẩn hóa a và b sao cho \(||a||=1\) và \(||b||=1\), ba biện pháp này có liên quan như sau:
  • Quãng đường Euclidean = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Sản phẩm chấm = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Cosine = \(\cos(\theta_{ab})\).
Do đó, cả 3 biện pháp tương tự đều tương đương nhau vì chúng tương ứng với \(cos(\theta_{ab})\).