تمرین اندازه گیری تشابه دستی

تمرین زیر شما را در فرآیند ایجاد دستی معیار تشابه راهنمایی می کند.

تصور کنید یک مجموعه داده ساده در خانه ها به شرح زیر دارید:

ویژگی تایپ کنید
قیمت عدد صحیح مثبت
اندازه مقدار ممیز شناور مثبت بر حسب واحد متر مربع
کد پستی عدد صحیح
تعداد اتاق خواب عدد صحیح
نوع خانه یک مقدار نوشتاری از "single_family"، "multi-family"، "apartment"، "condo"
گاراژ 0/1 برای خیر/بله
رنگ ها دسته بندی چند ظرفیتی: یک یا چند مقدار از رنگ های استاندارد "سفید"، "زرد"، "سبز" و غیره.

پیش پردازش

اولین مرحله پیش پردازش ویژگی های عددی است: قیمت، اندازه، تعداد اتاق خواب ها و کد پستی. برای هر یک از این ویژگی ها باید عملیات متفاوتی را انجام دهید. به عنوان مثال، در این مورد، فرض کنید که داده های قیمت گذاری از یک توزیع دووجهی پیروی می کنند. سپس باید چه بکنی؟

اگر داده های شما از توزیع دووجهی پیروی می کنند، چه اقدامی باید انجام دهید؟
چندک ها را از داده ها ایجاد کنید و در مقیاس [0،1] قرار دهید.
زمانی که داده ها از توزیع دووجهی پیروی می کنند، این گام صحیح است.
تبدیل ثبت و مقیاس آن به [0،1].
زمانی که داده ها از توزیع Power-Law پیروی می کنند، این در واقع مرحله ای است که باید برداشته شود.
نرمال کنید و تا [0،1] مقیاس کنید.
این مرحله ای است که وقتی داده ها از توزیع گاوسی پیروی می کنند، بردارید.

در فیلد زیر، نحوه پردازش داده‌های اندازه را توضیح دهید.

در فیلد زیر، سعی کنید نحوه پردازش داده ها در مورد تعداد اتاق خواب ها را توضیح دهید.

چگونه باید کدهای پستی را نشان دهید؟ تبدیل کدهای پستی به طول و عرض جغرافیایی سپس آن مقادیر را همانند سایر مقادیر عددی پردازش کنید.

محاسبه شباهت در هر ویژگی

اکنون زمان محاسبه شباهت در هر ویژگی است. برای ویژگی های عددی، شما به سادگی تفاوت را پیدا می کنید. برای ویژگی‌های باینری، مثلاً اگر خانه‌ای دارای گاراژ باشد، می‌توانید تفاوت را برای گرفتن 0 یا 1 پیدا کنید. اما ویژگی‌های طبقه‌بندی چطور؟ به سوالات زیر پاسخ دهید تا متوجه شوید.

کدام یک از این ویژگی ها چند ظرفیتی است (می تواند چندین مقدار داشته باشد)؟
رنگ
یک محل سکونت داده شده می تواند بیش از یک رنگ باشد، به عنوان مثال، آبی با تزئینات سفید. بنابراین رنگ یک ویژگی چند ظرفیتی است.
کد پستی
هر خانه ای فقط می تواند یک کد پستی داشته باشد. این یک ویژگی تک ظرفیتی است.
تایپ کنید
خانه شما فقط می تواند یک نوع باشد، خانه، آپارتمان، کاندو و غیره، به این معنی که یک ویژگی یک ظرفیتی است.
برای محاسبه شباهت برای یک ویژگی چند ظرفیتی باید از کدام نوع معیار تشابه استفاده کنید؟
شباهت ژاکارد
فرض کنید به خانه‌ها رنگ‌هایی از یک مجموعه ثابت رنگ اختصاص داده شده است. سپس شباهت را با استفاده از نسبت مقادیر مشترک (شباهت ژاکارد) محاسبه کنید.
فاصله ی اقلیدسی
برای ویژگی‌های «کد پستی» و «نوع» که فقط یک مقدار دارند (ویژگی‌های تک ظرفیتی)، اگر ویژگی مطابقت داشته باشد، اندازه شباهت 0 است. در غیر این صورت، معیار شباهت 1 است.

محاسبه شباهت کلی

شما شباهت هر ویژگی را به صورت عددی محاسبه کرده اید. اما الگوریتم خوشه بندی نیاز به شباهت کلی به خانه های خوشه ای دارد. شباهت کلی بین یک جفت خانه را با ترکیب شباهت هر ویژگی با استفاده از ریشه میانگین مربعات خطا (RMSE) محاسبه کنید. یعنی جایی که\(s_1,s_2,\ldots,s_N\) شباهت های ویژگی های \(N\) را نشان می دهد:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

محدودیت های اندازه گیری تشابه دستی

همانطور که این تمرین نشان داد، وقتی داده‌ها پیچیده می‌شوند، پردازش و ترکیب داده‌ها برای اندازه‌گیری دقیق شباهت به روش معنایی معنی‌دار سخت‌تر می‌شود. داده های رنگ را در نظر بگیرید. آیا رنگ واقعا باید دسته بندی باشد؟ یا باید رنگ هایی مثل قرمز و مایل به قهوه ای را نسبت به سیاه و سفید اختصاص دهیم؟ و با توجه به ترکیب داده ها، ما فقط ویژگی گاراژ را به طور مساوی با قیمت خانه وزن کردیم. با این حال، قیمت خانه بسیار مهمتر از داشتن یک گاراژ است. آیا واقعاً منطقی است که آنها را به یک اندازه وزن کنیم؟

اگر یک معیار تشابه ایجاد کنید که واقعاً شباهت بین مثال‌ها را منعکس نکند، خوشه‌های مشتق شده شما معنی‌دار نخواهند بود. این اغلب در مورد داده های طبقه بندی شده است و ما را به یک معیار نظارتی می رساند.