إنشاء مقياس يدوي للتشابه

لحساب التشابه بين مثالين، عليك دمج جميع بيانات الميزات لهذين المثالين في قيمة رقمية واحدة.

على سبيل المثال، جرّب مجموعة بيانات الأحذية مع ميزة واحدة فقط: حجم الحذاء. يمكنك تحديد مدى تشابه الأحذيةتين من خلال حساب الفرق بين أحجامهما. وكلما كان الفرق الرقمي بين الحجم أكبر، زاد التشابه بين الأحذية. ويُطلق على مقياس التشابه هذا المصنوع يدويًا اسم مقياس التشابه اليدوي.

ماذا لو كنت تريد العثور على أوجه التشابه بين الأحذية باستخدام كلٍّ من "المقاس" و"اللون"؟ اللون هو بيانات تصنيفيّة، ويصعب دمجه مع بيانات الحجم الرقمي. وسنلاحظ أنّ البيانات أصبحت أكثر تعقيدًا، لذلك يصبح إنشاء مقياس تشابه يدوي أكثر صعوبة. عندما تصبح بياناتك معقّدة بما يكفي، لن تتمكّن من إنشاء إجراء يدوي. وذلك عند التبديل إلى مقياس التشابه الخاضع للإشراف، حيث يحسب نموذج تعلُّم الآلة الخاضع للإشراف التشابه.

ونترك مقياس التشابه الخاضع للإشراف لاحقًا ونركّز على المقياس اليدوي هنا. في الوقت الحالي، تذكّر أنّه سيتم التبديل إلى مقياس تشابه خاضع للإشراف عندما تواجه مشكلة في إنشاء مقياس تشابه يدوي.

لفهم آلية عمل مقياس التشابه اليدوي، لنلقِ نظرة على مثالنا للأحذية. لنفترض أن الطراز يشتمل على ميزتين، هما: حجم الأحذية وبيانات أسعار الأحذية. بما أنّ الميزتين رقميتان، يمكنك دمجهما في رقم واحد يمثّل التشابه على النحو التالي.

  • الحجم (المقاسات): من المحتمل أن يشكّل حجم الحذاء توزيعًا غاوسي. أكِّد ذلك. بعد ذلك، عليك تسوية البيانات.
  • السعر (p): من المحتمل أن تكون البيانات مرتبطة بتوزيع بواسون. أكِّد ذلك. وإذا كانت لديك بيانات كافية، حوِّل البيانات إلى مقدارين كثُم قياسًا للكميات \([0,1]\).
  • ادمج البيانات باستخدام الخطأ التربيعي المتوسّط لجذر. وإليك التشابه: \(\sqrt{\frac{s^2+p^2}{2}}\).

على سبيل المثال، لنحسب التشابه في الأحذية مع المقاسات الأمريكية 8 و11، والأسعار 120 و150. نظرًا لعدم توفّر بيانات كافية لدينا لفهم التوزيع، سنعدّل ببساطة البيانات بدون تسوية أو استخدام الكميات.

الإجراءالطريقة
تغيير الحجم لنفترض أن الحد الأقصى المسموح به لحجم الحذاء هو 20. قسمة 8 و11 على الحد الأقصى للحجم 20 للحصول على 0.4 و0.55.
تغيير السعر قسمة 120 على 150 على الحد الأقصى للسعر 150 للحصول على 0.8 و1.
ابحث عن الفرق في الحجم. \(0.55 - 0.4 = 0.15\)
ابحث عن الفرق في السعر. \(1 - 0.8 = 0.2\)
ابحث عن RMSE. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

من الناحية البسيطة، يجب أن يزداد التشابه الذي يتم قياسه مع التشابه عندما تصبح بيانات الميزات متشابهة. وبدلاً من ذلك، ينخفض التشابه الذي يتم قياسه بشكل فعلي. اجعل التشابه الذي يتم قياسه يتبع حدسك من خلال طرحه من 1.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

بشكل عام، يمكنك إعداد بيانات رقمية كما هو موضّح في تحضير البيانات، ثم دمج البيانات باستخدام المسافة الإقلدية.

ماذا لو كانت لديك بيانات فئوية؟ يمكن أن تكون البيانات الفئوية:

  • قيمة واحدة (أحادية)، مثل لون السيارة ("أبيض" أو "أزرق"، ولكن لا يتم استخدامهما أبدًا)
  • متعدِّدة القيم (متعددة القيم)، مثل نوع الفيلم (يمكن أن يكون "حركة" و"كوميديا" في الوقت نفسه، أو "حركة")

إذا تطابقت البيانات المعادلة، يكون التشابه هو 1، وبخلاف ذلك، تكون القيمة 0. ومن الصعب معالجة البيانات المتعددة الأنواع. على سبيل المثال، قد يصعب استخدام أنواع الأفلام. لحل هذه المشكلة، لنفترض أنّ الأفلام يتم تخصيصها لأنواع من مجموعة ثابتة من الأنواع. احسب التشابه باستخدام نسبة القيم الشائعة، والمعروفة باسم Jaccard والتشابه.

أمثلة:

  • ["كوميديا"" و"حركة"] و["كوميديا""]" = 1
  • ["كوميديا"" و"action"] و["action"] = 1 ونصف
  • ["كوميديا"" و"حركة"] و["حركة" و"دراما"] = 1العرض الثالث
  • ["كوميديا"" و"حركة""] و["غير خيالية""سيرة ذاتية"] = 0

يقدم الجدول التالي بعض الأمثلة الإضافية حول كيفية التعامل مع البيانات الفئوية.

أمثلة
رمز بريدي يجب أن يتشابه استخدام الرموز البريدية التي تمثل المناطق القريبة من بعضها بعضًا. ولترميز المعلومات المطلوبة لاحتساب هذا التشابه بدقة، يمكنك تحويل الرموز البريدية إلى خطوط الطول والعرض. بالنسبة إلى زوج من الرموز البريدية، عليك احتساب الفرق بين خط العرض وخط الطول بشكل منفصل. بعد ذلك، أضِف الاختلافات للحصول على قيمة رقمية واحدة.
اللون افترض أنّ لديك بيانات اللون كنص. حوِّل القيم النصية إلى قيم RGB رقمية. يمكنك الآن معرفة الفرق باللونَين الأحمر والأخضر والأزرق بلونَين، ودمج الاختلافات في قيمة رقمية باستخدام المسافة الإقلدية.

وبوجهٍ عام، يجب أن يتطابق مقياس التشابه بشكلٍ مباشر مع التشابه الفعلي. إذا لم يكن المقياس مخصّصًا، هذا يعني أنه لا يرمز إلى المعلومات اللازمة. قدّم المثال السابق رموزًا بريدية إلى خطوط الطول والعرض لأنّ الرموز البريدية بحدّ ذاتها لم تعمل على ترميز المعلومات الضرورية.

قبل إنشاء مقياس التشابه، يجب معالجة بياناتك بعناية. على الرغم من أن الأمثلة الواردة في هذه الصفحة كانت تعتمد على مجموعة بيانات صغيرة وبسيطة، فإن معظم مجموعات البيانات الواقعية أكبر بكثير وأكثر تعقيدًا بكثير. تذكّر أنّ كميات الأرقام هي خيار تلقائي مناسب لمعالجة البيانات الرقمية.