次の演習では、類似度メジャーを手動で作成するプロセスについて説明します。
たとえば、次のような家にシンプルなデータセットがあるとします。
機能 | タイプ |
---|---|
Price | 正の整数 |
サイズ | 正の浮動小数点値(平方メートル単位) |
郵便番号 | Integer |
寝室の数 | Integer |
家のタイプ | 「single_family」、「multi-family」、「apartment」、「condo」というテキスト値 |
ガレージ | 「いいえ」または「はい」の場合は 0/1 |
色 | 多価カテゴリ: 標準色「white」、「yellow」、「green」などの 1 つ以上の値。 |
Preprocessing
最初のステップは、数値特徴(価格、サイズ、寝室の数、郵便番号)を前処理することです。これらの機能ごとに、異なるオペレーションを行う必要があります。たとえば、この例では、料金データが二モーダル分布に従うとします。次に何をすればよいですか。
下のフィールドで、サイズデータの処理方法について説明してください。
次のフィールドで、寝室の数に関するデータの処理方法を説明してみてください。
郵便番号をどのような表記で表すか郵便番号を経度と緯度に変換します。これらの値は他の数値と同じように処理します。
特徴ごとの類似度の計算
特徴ごとの類似度を計算してみましょう。数値特徴の場合は、違いだけがわかります。家にガレージがある場合など、バイナリ特徴については、差を 0 または 1 にすることもできます。しかしカテゴリ特徴はどうでしょうか。以下の質問にお答えください。
全体的な類似性の計算
すべての特徴の類似度を数値で計算しました。ただし、クラスタリング アルゴリズムには、クラスタハウスとの全体的な類似性が必要です。二乗平均平方根誤差(RMSE)を使用して、特徴ごとの類似度を組み合わせて、家のペア間の全体的な類似度を計算します。つまり、\(s_1,s_2,\ldots,s_N\) 特徴の類似点 \(N\) は、
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
手動類似性測定の制限事項
この演習で示したように、データが複雑になると、データを処理して組み合わせ、意味的に有意な類似性を正確に測定することがますます難しくなります。色データを考慮します。実際に色を使用するべきか、あるいは、モノクロよりも近い色を黒と白よりも割り当てるべきですか?データを組み合わせる際は、ガレージの特徴を住宅価格と均等に重み付けしました。ただし、ガレージがあるよりも、家の料金の方がはるかに重要です。体重を均等に比較するのは本当に理にかなっていますか?
類似度メジャーを作成しても、サンプル間の類似性を正確に反映していない場合、派生クラスタは意味がありません。これはカテゴリデータの場合が多く、教師ありメジャーになります。