本頁面由 Cloud Translation API 翻譯而成。

手動相似度測量運動

下列練習會逐步引導您手動建立相似度測量結果。

假設您有如下的資料集：

預先處理

第一步是預先處理數值特徵，包括價格、尺寸、臥室數量和郵遞區號。您必須為這些功能分別執行不同的作業。例如，在本例中，假設價格資料採用雙視窗分配。接下來該怎麼做？

如果資料採用雙重分配，您應採取什麼行動？

從資料中建立分位數並縮放至 [0,1]。

這是資料遵循雙模組分佈情形時應採取的正確步驟。

記錄轉換並調整為 [0,1]。

這實際上是資料採用 Power-law 發布時採取的步驟。

正規化及縮放至 [0,1]。

這是資料遵循高斯分佈情況後的步驟。

在下列欄位中，試著處理大小資料。

我要透過以下方式預先處理大小資料：

按一下加號圖示即可查看答案

檢查大小是否遵循 Power-law、Poisson 或高斯分佈。

在下列欄位中，嘗試說明您在臥室人數的處理方式。

我可以透過以下方式預先處理臥室數量：

按一下加號圖示即可查看答案

查看臥室的分佈情形。很可能，剪輯離群值並縮放至 [0,1] 即可，但如果找到權力分佈，則可能需要記錄轉換。

應該如何呈現郵遞區號？將郵遞區號轉換為經度和緯度。並像處理其他數值一樣處理這些值。

現在請計算各項特徵的相似度。對於數字特徵，您只需找出差異。以二元特徵來說 (例如房屋有車庫)，你還可以找出要與 0 或 1 的差異。但是類別功能呢？請回答以下問題找出解答。

下列哪些是多值 (可以有多個值)？

顏色

特定住宅區可以有多種顏色，例如標有白色裝飾的藍色。因此，顏色是多值的功能。

郵遞區號

所有居所只能有一個郵遞區號。這項功能是一項無意間的功能。

類型

住家只能設為一種類型、房屋、公寓、公寓等，這表示這是獨一無二的功能。

您應該使用何種類型的相似度計算計算多值特徵的相似度？

Jaccard 相似度

假設住家是透過固定的顏色組合指派顏色。接著，使用一般值的比率 (Jaccard 相似度) 來計算相似度。

歐裡得美景

如果特徵是「郵遞區號」和「類型」，只有一個值 (不相同的特徵)，當特徵相符時，相似度指標為 0；否則，相似度測量為 1。

系統已按照特徵計算各項特徵的相似性。但是分群演算法需要與叢集房屋的整體相似性。使用根平均平方平方錯誤 (RMSE) 結合各項特徵相似度，即可計算一對房子之間的整體相似度。也就是說，\(s_1,s_2,\ldots,s_N\) 代表 \(N\) 功能的相似處：

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

如同本練習所示，當資料變得複雜時，處理及組合資料變得越來越不容易按語意化的方式評估相似度。請參考色彩資料。顏色應該是類別嗎？或者，我們要指派紅色和馬拉松等顏色，看似高於黑白的相似度嗎？在合併資料時，我們只對車庫功能進行加權，與房價相等。不過，房價比車庫那麼重要。以同等的權重衡量比例是否合理？

如果您建立的相似度無法準確反映範例之間的相似度，衍生叢集就沒有意義。這通常是類別分類的資料，因此我們會採用監督方式。