تمرين قياس التشابه اليدوي

سيرشدك التمرين التالي خلال عملية إنشاء مقياس تشابه يدويًا.

لنفترض أنّ لديك مجموعة بيانات بسيطة في المنازل على النحو التالي:

الميزةالنوع
السعرعدد صحيح موجب
حجم الملف قيمة النقطة العائمة الموجبة بوحدات الأمتار المربّعة
رمز بريديعدد صحيح
عدد غرف النومعدد صحيح
نوع المنزلقيمة نصية من "single_family" و"متعددة العائلة" و"شقة" و"شقة"
مرآب0/1 لـ/لا
الألوانتصنيف متعدد الفئات: قيمة واحدة أو أكثر من الألوان العادية "أبيض" و"أصفر" و"أخضر"، وما إلى ذلك.

المعالجة المُسبَقة

تتمثّل الخطوة الأولى في معالجة الميزات الرقمية: السعر والحجم وعدد غرف النوم والرمز البريدي. وبالنسبة إلى كل واحدة من هذه الميزات، سيكون عليك تنفيذ عملية مختلفة. على سبيل المثال، في هذه الحالة، لنفترض أنّ بيانات الأسعار تتّبع توزيعًا ثنائي الاتجاه. الإجراءات التي يجب اتّخاذها

ما هو الإجراء الذي يجب اتخاذه إذا كانت بياناتك تتبّع توزيعًا ثنائي الاتجاه؟
أنشئ كميات من البيانات واحسب القياس إلى [0,1].
هذه هي الخطوة الصحيحة التي يجب اتّخاذها عندما تتّبع البيانات توزيعًا ثنائي الاتجاه.
تسجيل التحويل وتحويله إلى [0,1].
هذه هي الخطوة التي يجب اتّخاذها في حال تتبّع البيانات لتوزيع قانون الطاقة.
يجب قياس القيمة على الشكل التالي وتكبيرها على [0,1].
هذه هي الخطوة التي ستتّخذها عندما تتّبع البيانات توزيع غاوسي.

في الحقل أدناه، جرِّب توضيح طريقة معالجة بيانات المقاس.

في الحقل أدناه، جرِّب توضيح الطريقة التي ستتّبعها لمعالجة البيانات حول عدد غرف النوم.

كيف يجب أن تمثّل الرموز البريدية؟ تحويل الرموز البريدية إلى خط الطول وخط العرض بعد ذلك، عالج تلك القيم مثلما تعالج القيم الرقمية الأخرى.

حساب التشابه لكل ميزة

حان الوقت الآن لحساب التشابه لكل ميزة. بالنسبة إلى الميزات الرقمية، يمكنك ببساطة معرفة الفرق. بالنسبة إلى الميزات الثنائية، مثلاً إذا كان هناك منزل مرآب، يمكنك أيضًا العثور على الفرق للحصول على 0 أو 1. ولكن ماذا عن الميزات الفئوية؟ أجب عن الأسئلة التالية لمعرفة ذلك.

أي من هذه الميزات متعددة الحدود (يمكن أن تحتوي على قيم متعددة)؟
اللون
يمكن أن يكون مكان الإقامة أكثر من لون واحد، على سبيل المثال، أزرق اللون مع تقليم أبيض. وبالتالي، اللون هو ميزة متعددة التشابه.
رمز بريدي
يمكن أن يحتوي أي مسكن على رمز بريدي واحد فقط. وهذه الميزة غير شاملة.
النوع
من الممكن أن يكون منزلك من نوعًا واحدًا أو منزلاً أو شقةً أو شققًا، وما إلى ذلك، ما يعني أنه ميزة مختلفة.
ما نوع مقياس التشابه الذي يجب استخدامه لاحتساب التشابه مع ميزة متعددة الحدود؟
تشابه بطاقة Jaccard
لنفترض أن المنازل تحتوي على ألوان من مجموعة ثابتة من الألوان. بعد ذلك، احسب التشابه باستخدام نسبة القيم الشائعة (تشابه بطاقة JavaScript).
المسافة الإقليدية
بالنسبة إلى الميزتين "الرمز البريدي" و"النوع" اللذان لهما قيمة واحدة فقط (الميزات المتكافئة)، في حال تطابق الميزة، يكون مقياس التشابه هو 0. بخلاف ذلك، يكون مقياس التشابه هو 1.

حساب التشابه العام

تم حساب التشابه لكل ميزة رقميًا. وتتطلّب خوارزمية التجميع التشابه العام بين منازل المجموعات. احسب التشابه الإجمالي بين منزلين من خلال الجمع بين التشابه لكل ميزة باستخدام متوسط الجذر التربيعي (RMSE). وهذا يعني\(s_1,s_2,\ldots,s_N\) أنّه يتم تمثيل التشابه بين الميزات \(N\) :

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

حدود مقياس التشابه اليدوي

وكما يتّضح في هذا التمرين، عندما تصبح البيانات معقدة، يصبح من الصعب بشكل متزايد معالجة البيانات ودمجها لقياس التشابه بدقة بطريقة دلالية. يجب مراعاة بيانات الألوان. هل يجب أن يكون اللون في فئة معينة؟ أم هل يجب أن نعيّن ألوانًا مثل الأحمر والماروني أن تكون أعلى تشابهًا مع الأبيض والأسود؟ وفي ما يتعلّق بدمج البيانات، لم ننتهِ سوى عملية ترجيح ميزة المرآب بالتساوي مع سعر المنزل. إنّ سعر المنزل هو أكثر أهمية من استخدام المرآب. هل من المنطقي أن تقيّمهما بالتساوي؟

إذا أنشأت مقياسًا للتشابه لا يعكس فعليًا التشابه بين الأمثلة، لن تكون المجموعات المشتقة مفيدة. وغالبًا ما يكون ذلك مع البيانات الفئوية، وتنقلنا إلى إجراء خاضع للإشراف.