تمرین زیر شما را در فرآیند ایجاد دستی معیار تشابه راهنمایی می کند.
تصور کنید یک مجموعه داده ساده در خانه ها به شرح زیر دارید:
ویژگی | تایپ کنید |
---|---|
قیمت | عدد صحیح مثبت |
اندازه | مقدار ممیز شناور مثبت بر حسب واحد متر مربع |
کد پستی | عدد صحیح |
تعداد اتاق خواب | عدد صحیح |
نوع خانه | یک مقدار نوشتاری از "single_family"، "multi-family"، "apartment"، "condo" |
گاراژ | 0/1 برای خیر/بله |
رنگ ها | دسته بندی چند ظرفیتی: یک یا چند مقدار از رنگ های استاندارد "سفید"، "زرد"، "سبز" و غیره. |
پیش پردازش
اولین مرحله پیش پردازش ویژگی های عددی است: قیمت، اندازه، تعداد اتاق خواب ها و کد پستی. برای هر یک از این ویژگی ها باید عملیات متفاوتی را انجام دهید. به عنوان مثال، در این مورد، فرض کنید که داده های قیمت گذاری از یک توزیع دووجهی پیروی می کنند. سپس باید چه بکنی؟
در فیلد زیر، نحوه پردازش دادههای اندازه را توضیح دهید.
در فیلد زیر، سعی کنید نحوه پردازش داده ها در مورد تعداد اتاق خواب ها را توضیح دهید.
چگونه باید کدهای پستی را نشان دهید؟ تبدیل کدهای پستی به طول و عرض جغرافیایی سپس آن مقادیر را همانند سایر مقادیر عددی پردازش کنید.
محاسبه شباهت در هر ویژگی
اکنون زمان محاسبه شباهت در هر ویژگی است. برای ویژگی های عددی، شما به سادگی تفاوت را پیدا می کنید. برای ویژگیهای باینری، مثلاً اگر خانهای دارای گاراژ باشد، میتوانید تفاوت را برای گرفتن 0 یا 1 پیدا کنید. اما ویژگیهای طبقهبندی چطور؟ به سوالات زیر پاسخ دهید تا متوجه شوید.
محاسبه شباهت کلی
شما شباهت هر ویژگی را به صورت عددی محاسبه کرده اید. اما الگوریتم خوشه بندی نیاز به شباهت کلی به خانه های خوشه ای دارد. شباهت کلی بین یک جفت خانه را با ترکیب شباهت هر ویژگی با استفاده از ریشه میانگین مربعات خطا (RMSE) محاسبه کنید. یعنی جایی که\(s_1,s_2,\ldots,s_N\) شباهت های ویژگی های \(N\) را نشان می دهد:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
محدودیت های اندازه گیری تشابه دستی
همانطور که این تمرین نشان داد، وقتی دادهها پیچیده میشوند، پردازش و ترکیب دادهها برای اندازهگیری دقیق شباهت به روش معنایی معنیدار سختتر میشود. داده های رنگ را در نظر بگیرید. آیا رنگ واقعا باید دسته بندی باشد؟ یا باید رنگ هایی مثل قرمز و مایل به قهوه ای را نسبت به سیاه و سفید اختصاص دهیم؟ و با توجه به ترکیب داده ها، ما فقط ویژگی گاراژ را به طور مساوی با قیمت خانه وزن کردیم. با این حال، قیمت خانه بسیار مهمتر از داشتن یک گاراژ است. آیا واقعاً منطقی است که آنها را به یک اندازه وزن کنیم؟
اگر یک معیار تشابه ایجاد کنید که واقعاً شباهت بین مثالها را منعکس نکند، خوشههای مشتق شده شما معنیدار نخواهند بود. این اغلب در مورد داده های طبقه بندی شده است و ما را به یک معیار نظارتی می رساند.