Mesurer la similarité à partir de représentations vectorielles continues

Vous disposez maintenant de représentations vectorielles continues pour n'importe quel exemple. Une mesure de similarité prend ces représentations vectorielles continues et renvoie un nombre qui mesure leur similarité. N'oubliez pas que les représentations vectorielles continues sont simplement des vecteurs de nombres. Pour trouver la similarité entre deux vecteurs \(A = [a_1,a_2,...,a_n]\) et \(B = [b_1,b_2,...,b_n]\), vous avez le choix entre trois mesures de similarité, comme indiqué dans le tableau ci-dessous.

MesureSignificationFormuleRelation avec les similitudes croissantes
Distance euclidienneDistance entre les extrémités des vecteurs \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Diminue
CosinusCosinus d'angle \(\theta\) entre les vecteurs \(\frac{a^T b}{|a| \cdot |b|}\) Augmentations
Produit pointCosinus multiplié par la longueur des deux vecteurs \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Augmentation. Augmente également avec la longueur des vecteurs.

Choisir une mesure de similarité

Contrairement au cosinus, le produit scalaire est proportionnel à la longueur du vecteur. C'est important, car les exemples qui apparaissent très fréquemment dans l'ensemble d'entraînement (par exemple, les vidéos YouTube populaires) ont tendance à comporter des vecteurs de représentation vectorielle continue de longue durée. Si vous souhaitez capturer la popularité, choisissez un produit scalaire. Toutefois, il est possible que des exemples populaires faussent la métrique de similarité. Pour équilibrer ce décalage, vous pouvez augmenter la longueur jusqu'à un exposant \(\alpha\ < 1\) pour calculer le produit scalaire sous la forme \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Pour mieux comprendre comment la longueur du vecteur modifie la mesure de similarité, normalisez les longueurs des vecteurs à 1 et notez que les trois mesures deviennent proportionnelles.

Preuve: Proportionnalité des mesures de similarité
Après normalisation a et b de sorte que \(||a||=1\) et \(||b||=1\), ces trois mesures sont liées comme suit :
  • Distance euclidienne = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Point = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Cosinus = \(\cos(\theta_{ab})\).
Les trois mesures de similarité sont donc équivalentes, car elles sont proportionnelles à \(cos(\theta_{ab})\).