اندازه گیری شباهت از جاسازی ها

اکنون برای هر جفت نمونه جاسازی دارید. یک اندازه گیری شباهت این جاسازی ها را می گیرد و عددی را با اندازه گیری شباهت آنها برمی گرداند. به یاد داشته باشید که جاسازی ها صرفاً بردار اعداد هستند. برای یافتن شباهت بین دو بردار \(A = [a_1,a_2,...,a_n]\) و \(B = [b_1,b_2,...,b_n]\)، باید سه معیار تشابه را انتخاب کنید، همانطور که در جدول زیر فهرست شده است.

اندازه گرفتن معنی فرمول رابطه با افزایش تشابه
فاصله ی اقلیدسی فاصله بین انتهای بردارها\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) کاهش می دهد
کسینوس کسینوس زاویه \(\theta\) بین بردارها\(\frac{a^T b}{|a| \cdot |b|}\) افزایش
محصول نقطه ای کسینوس ضرب در طول هر دو بردار\(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) افزایش. همچنین با طول بردارها افزایش می یابد.

انتخاب یک معیار تشابه

بر خلاف کسینوس، حاصل ضرب نقطه ای متناسب با طول برداری است. این مهم است زیرا نمونه‌هایی که اغلب در مجموعه آموزشی ظاهر می‌شوند (مثلاً ویدیوهای محبوب YouTube) معمولاً دارای بردارهای جاسازی شده با طول زیاد هستند.اگر می‌خواهید محبوبیت کسب کنید، محصول نقطه‌ای را انتخاب کنید. با این حال، خطر این است که نمونه های رایج ممکن است معیار تشابه را منحرف کنند. برای متعادل کردن این انحراف، می‌توانید طول را تا یک توان \(\alpha\ < 1\) افزایش دهید تا حاصل ضرب نقطه‌ای را به عنوان \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)محاسبه کنید.

برای درک بهتر اینکه چگونه طول بردار معیار تشابه را تغییر می دهد، طول بردارها را به 1 نرمال کنید و توجه کنید که این سه اندازه با یکدیگر متناسب می شوند.

اثبات: تناسب معیارهای تشابه
پس از عادی سازی a و b به گونه ای که \(||a||=1\) و \(||b||=1\)، این سه معیار به صورت زیر مرتبط می شوند:
  • فاصله اقلیدسی = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • محصول نقطه = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • کسینوس = \(\cos(\theta_{ab})\).
بنابراین، هر سه معیار شباهت معادل هستند زیرا با \(cos(\theta_{ab})\)متناسب هستند.