سيرشدك التمرين التالي خلال عملية إنشاء مقياس تشابه يدويًا.
لنفترض أنّ لديك مجموعة بيانات بسيطة في المنازل على النحو التالي:
الميزة | النوع |
---|---|
السعر | عدد صحيح موجب |
حجم الملف | قيمة النقطة العائمة الموجبة بوحدات الأمتار المربّعة |
رمز بريدي | عدد صحيح |
عدد غرف النوم | عدد صحيح |
نوع المنزل | قيمة نصية من "single_family" و"متعددة العائلة" و"شقة" و"شقة" |
مرآب | 0/1 لـ/لا |
الألوان | تصنيف متعدد الفئات: قيمة واحدة أو أكثر من الألوان العادية "أبيض" و"أصفر" و"أخضر"، وما إلى ذلك. |
المعالجة المُسبَقة
تتمثّل الخطوة الأولى في معالجة الميزات الرقمية: السعر والحجم وعدد غرف النوم والرمز البريدي. وبالنسبة إلى كل واحدة من هذه الميزات، سيكون عليك تنفيذ عملية مختلفة. على سبيل المثال، في هذه الحالة، لنفترض أنّ بيانات الأسعار تتّبع توزيعًا ثنائي الاتجاه. الإجراءات التي يجب اتّخاذها
في الحقل أدناه، جرِّب توضيح طريقة معالجة بيانات المقاس.
في الحقل أدناه، جرِّب توضيح الطريقة التي ستتّبعها لمعالجة البيانات حول عدد غرف النوم.
كيف يجب أن تمثّل الرموز البريدية؟ تحويل الرموز البريدية إلى خط الطول وخط العرض بعد ذلك، عالج تلك القيم مثلما تعالج القيم الرقمية الأخرى.
حساب التشابه لكل ميزة
حان الوقت الآن لحساب التشابه لكل ميزة. بالنسبة إلى الميزات الرقمية، يمكنك ببساطة معرفة الفرق. بالنسبة إلى الميزات الثنائية، مثلاً إذا كان هناك منزل مرآب، يمكنك أيضًا العثور على الفرق للحصول على 0 أو 1. ولكن ماذا عن الميزات الفئوية؟ أجب عن الأسئلة التالية لمعرفة ذلك.
حساب التشابه العام
تم حساب التشابه لكل ميزة رقميًا. وتتطلّب خوارزمية التجميع التشابه العام بين منازل المجموعات. احسب التشابه الإجمالي بين منزلين من خلال الجمع بين التشابه لكل ميزة باستخدام متوسط الجذر التربيعي (RMSE). وهذا يعني\(s_1,s_2,\ldots,s_N\) أنّه يتم تمثيل التشابه بين الميزات \(N\) :
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
حدود مقياس التشابه اليدوي
وكما يتّضح في هذا التمرين، عندما تصبح البيانات معقدة، يصبح من الصعب بشكل متزايد معالجة البيانات ودمجها لقياس التشابه بدقة بطريقة دلالية. يجب مراعاة بيانات الألوان. هل يجب أن يكون اللون في فئة معينة؟ أم هل يجب أن نعيّن ألوانًا مثل الأحمر والماروني أن تكون أعلى تشابهًا مع الأبيض والأسود؟ وفي ما يتعلّق بدمج البيانات، لم ننتهِ سوى عملية ترجيح ميزة المرآب بالتساوي مع سعر المنزل. إنّ سعر المنزل هو أكثر أهمية من استخدام المرآب. هل من المنطقي أن تقيّمهما بالتساوي؟
إذا أنشأت مقياسًا للتشابه لا يعكس فعليًا التشابه بين الأمثلة، لن تكون المجموعات المشتقة مفيدة. وغالبًا ما يكون ذلك مع البيانات الفئوية، وتنقلنا إلى إجراء خاضع للإشراف.