Yerleştirmelerden Benzerliği Ölçme

Artık herhangi bir örnek çifti için yerleştirmeleriniz var. Bir benzerlik ölçüsü, bu yerleştirmeleri alır ve benzerliklerini ölçen bir sayı döndürür. Yerleştirmelerin, sadece sayıların vektörleri olduğunu unutmayın. İki vektör arasındaki benzerliği bulmak için \(A = [a_1,a_2,...,a_n]\) ve \(B = [b_1,b_2,...,b_n]\), aşağıdaki tabloda listelenen üç benzerlik önlemi arasından seçim yapabilirsiniz.

ÖlçümAnlamıFormülArtan benzerlikle ilişki
Öklid uzaklığıVektörlerin uçları arasındaki mesafe \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Azalma
KosinüsVektörler arasındaki \(\theta\) açı kosinüsü \(\frac{a^T b}{|a| \cdot |b|}\) Artışlar
Nokta ÜrünKosinüs ile her iki vektörün uzunlukları çarpılır \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Artırılır. Ayrıca, vektörlerin uzunluğu artar.

Benzerlik Ölçümü Seçme

Kosinüsün tersine, nokta ürünü, vektör uzunluğuyla orantılıdır. Eğitim kümesinde çok sık görünen örneklerin (örneğin, popüler YouTube videoları) yüksek uzunlukta vektörler yerleştirme eğiliminde olması nedeniyle bu önemlidir. Popülerliği elde etmek istiyorsanız nokta içeren ürünü seçin. Bununla birlikte, popüler örneklerin benzerlik metriğini saptırma riski vardır. Bu sapmayı dengelemek için uzunluğu bir üsye tutarak \(\alpha\ < 1\) nokta ürününü aşağıdaki gibi hesaplayabilirsiniz \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Vektör uzunluğunun benzerlik ölçüsünü nasıl değiştirdiğini daha iyi anlamak için vektör uzunluğunu 1 olarak normalleştirin ve üç ölçümün birbiriyle orantılı olduğunu fark edin.

Kanıt: Benzerlik Önlemlerinin Alaka Oranı
a ve b'yi normalleştirdikten sonra, \(||a||=1\) ve \(||b||=1\)şu üç önlemle alakalıdır:
  • Öklid mesafesi = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Nokta ürün = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Kosinüs = \(\cos(\theta_{ab})\).
Bu nedenle, \(cos(\theta_{ab})\)ile orantılı oldukları için üç benzerlik önlemlerinin üçü de eşdeğerdir.