下列練習會逐步引導您手動建立相似度測量結果。
假設您有如下的資料集:
功能 | 類型 |
---|---|
價格 | 正整數 |
大小 | 正浮點值 (單位為平方公尺) |
郵遞區號 | 整數 |
臥室數量 | 整數 |
房屋類型 | 「value_family」、「多戶」、「公寓」或「公寓」的文字值 |
車庫 | 0/1 沒有/是 |
顏色 | 多值類別:從「白色」、「黃色」、「綠色」等標準顏色中的一或多個值。 |
預先處理
第一步是預先處理數值特徵,包括價格、尺寸、臥室數量和郵遞區號。您必須為這些功能分別執行不同的作業。例如,在本例中,假設價格資料採用雙視窗分配。接下來該怎麼做?
在下列欄位中,試著處理大小資料。
在下列欄位中,嘗試說明您在臥室人數的處理方式。
應該如何呈現郵遞區號?將郵遞區號轉換為經度和緯度。並像處理其他數值一樣處理這些值。
計算各項特徵的相似度
現在請計算各項特徵的相似度。對於數字特徵,您只需找出差異。以二元特徵來說 (例如房屋有車庫),你還可以找出要與 0 或 1 的差異。但是類別功能呢?請回答以下問題找出解答。
計算整體相似度
系統已按照特徵計算各項特徵的相似性。但是分群演算法需要與叢集房屋的整體相似性。使用根平均平方平方錯誤 (RMSE) 結合各項特徵相似度,即可計算一對房子之間的整體相似度。也就是說,\(s_1,s_2,\ldots,s_N\) 代表 \(N\) 功能的相似處:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
手動相似度評估的限制
如同本練習所示,當資料變得複雜時,處理及組合資料變得越來越不容易按語意化的方式評估相似度。請參考色彩資料。顏色應該是類別嗎?或者,我們要指派紅色和馬拉松等顏色,看似高於黑白的相似度嗎?在合併資料時,我們只對車庫功能進行加權,與房價相等。不過,房價比車庫那麼重要。以同等的權重衡量比例是否合理?
如果您建立的相似度無法準確反映範例之間的相似度,衍生叢集就沒有意義。這通常是類別分類的資料,因此我們會採用監督方式。