手動類似度メジャーの演習

次の演習では、類似度メジャーを手動で作成するプロセスについて説明します。

たとえば、次のような家にシンプルなデータセットがあるとします。

機能タイプ
Price正の整数
サイズ正の浮動小数点値(平方メートル単位)
郵便番号Integer
寝室の数Integer
家のタイプ「single_family」、「multi-family」、「apartment」、「condo」というテキスト値
ガレージ「いいえ」または「はい」の場合は 0/1
多価カテゴリ: 標準色「white」、「yellow」、「green」などの 1 つ以上の値。

Preprocessing

最初のステップは、数値特徴(価格、サイズ、寝室の数、郵便番号)を前処理することです。これらの機能ごとに、異なるオペレーションを行う必要があります。たとえば、この例では、料金データが二モーダル分布に従うとします。次に何をすればよいですか。

データがバイモーダルな分布に従っている場合、どうすればよいですか。
データから分位値を作成し、[0,1] にスケーリングします。
これは、データがバイモーダル分布に従う正しい手順です。
ログの変換と [0,1] へのスケーリングを行います。
これは実際に、データがべき乗法の分布に従うときに取るべきステップです。
正規化し、[0,1] にスケーリングします。
これは、データがガウス分布に従うときに実行するステップです。

下のフィールドで、サイズデータの処理方法について説明してください。

次のフィールドで、寝室の数に関するデータの処理方法を説明してみてください。

郵便番号をどのような表記で表すか郵便番号を経度と緯度に変換します。これらの値は他の数値と同じように処理します。

特徴ごとの類似度の計算

特徴ごとの類似度を計算してみましょう。数値特徴の場合は、違いだけがわかります。家にガレージがある場合など、バイナリ特徴については、差を 0 または 1 にすることもできます。しかしカテゴリ特徴はどうでしょうか。以下の質問にお答えください。

次のうち、多価である(複数の値を持つ)特徴はどれですか。
カラー
1 つの家に複数の色を設定(例: 青と白の装飾)することも可能です。そのため、色は多価の特徴となります。
郵便番号
住居に指定できる郵便番号は 1 つだけです。これは一機能です。
タイプ
家は 1 種類、家、アパート、マンションなど 1 つのみに指定できるので、一見してそうならないものです。
多価特徴の類似度を計算するには、どのタイプの類似性メジャーを使用する必要がありますか?
ジャッカリーの類似性
家に一定の色から色が割り当てられているとします。次に、共通の値の比率(Jaccard の類似性)を使用して類似度を計算します。
ユークリッド距離
値が 1 つのみ(同等の特徴)の特徴の「郵便番号」と「タイプ」の場合、特徴が一致する場合、類似度は 0、そうでない場合は 1 となります。

全体的な類似性の計算

すべての特徴の類似度を数値で計算しました。ただし、クラスタリング アルゴリズムには、クラスタハウスとの全体的な類似性が必要です。二乗平均平方根誤差(RMSE)を使用して、特徴ごとの類似度を組み合わせて、家のペア間の全体的な類似度を計算します。つまり、\(s_1,s_2,\ldots,s_N\) 特徴の類似点 \(N\) は、

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

手動類似性測定の制限事項

この演習で示したように、データが複雑になると、データを処理して組み合わせ、意味的に有意な類似性を正確に測定することがますます難しくなります。色データを考慮します。実際に色を使用するべきか、あるいは、モノクロよりも近い色を黒と白よりも割り当てるべきですか?データを組み合わせる際は、ガレージの特徴を住宅価格と均等に重み付けしました。ただし、ガレージがあるよりも、家の料金の方がはるかに重要です。体重を均等に比較するのは本当に理にかなっていますか?

類似度メジャーを作成しても、サンプル間の類似性を正確に反映していない場合、派生クラスタは意味がありません。これはカテゴリデータの場合が多く、教師ありメジャーになります。