手動相似度測量運動

下列練習會逐步引導您手動建立相似度測量結果。

假設您有如下的資料集:

功能類型
價格正整數
大小正浮點值 (單位為平方公尺)
郵遞區號整數
臥室數量整數
房屋類型「value_family」、「多戶」、「公寓」或「公寓」的文字值
車庫0/1 沒有/是
顏色多值類別:從「白色」、「黃色」、「綠色」等標準顏色中的一或多個值。

預先處理

第一步是預先處理數值特徵,包括價格、尺寸、臥室數量和郵遞區號。您必須為這些功能分別執行不同的作業。例如,在本例中,假設價格資料採用雙視窗分配。接下來該怎麼做?

如果資料採用雙重分配,您應採取什麼行動?
從資料中建立分位數並縮放至 [0,1]。
這是資料遵循雙模組分佈情形時應採取的正確步驟。
記錄轉換並調整為 [0,1]。
這實際上是資料採用 Power-law 發布時採取的步驟。
正規化及縮放至 [0,1]。
這是資料遵循高斯分佈情況後的步驟。

在下列欄位中,試著處理大小資料。

在下列欄位中,嘗試說明您在臥室人數的處理方式。

應該如何呈現郵遞區號?將郵遞區號轉換為經度和緯度。並像處理其他數值一樣處理這些值。

計算各項特徵的相似度

現在請計算各項特徵的相似度。對於數字特徵,您只需找出差異。以二元特徵來說 (例如房屋有車庫),你還可以找出要與 0 或 1 的差異。但是類別功能呢?請回答以下問題找出解答。

下列哪些是多值 (可以有多個值)?
顏色
特定住宅區可以有多種顏色,例如標有白色裝飾的藍色。因此,顏色是多值的功能。
郵遞區號
所有居所只能有一個郵遞區號。這項功能是一項無意間的功能。
類型
住家只能設為一種類型、房屋、公寓、公寓等,這表示這是獨一無二的功能。
您應該使用何種類型的相似度計算計算多值特徵的相似度?
Jaccard 相似度
假設住家是透過固定的顏色組合指派顏色。接著,使用一般值的比率 (Jaccard 相似度) 來計算相似度。
歐裡得美景
如果特徵是「郵遞區號」和「類型」,只有一個值 (不相同的特徵),當特徵相符時,相似度指標為 0;否則,相似度測量為 1。

計算整體相似度

系統已按照特徵計算各項特徵的相似性。但是分群演算法需要與叢集房屋的整體相似性。使用根平均平方平方錯誤 (RMSE) 結合各項特徵相似度,即可計算一對房子之間的整體相似度。也就是說,\(s_1,s_2,\ldots,s_N\) 代表 \(N\) 功能的相似處:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

手動相似度評估的限制

如同本練習所示,當資料變得複雜時,處理及組合資料變得越來越不容易按語意化的方式評估相似度。請參考色彩資料。顏色應該是類別嗎?或者,我們要指派紅色和馬拉松等顏色,看似高於黑白的相似度嗎?在合併資料時,我們只對車庫功能進行加權,與房價相等。不過,房價比車庫那麼重要。以同等的權重衡量比例是否合理?

如果您建立的相似度無法準確反映範例之間的相似度,衍生叢集就沒有意義。這通常是類別分類的資料,因此我們會採用監督方式。