ML 用語集: クラスタリング

このページでは、クラスタリング用語集の用語について説明します。用語集のすべての用語については、こちらをクリックしてください。

A

集約型クラスタリング

#clustering

階層的クラスタリングをご覧ください。

C

centroid

#clustering

K 平均法または K 中央値アルゴリズムによって決定されるクラスタの中心。たとえば、k が 3 の場合、K 平均法または k 中央値アルゴリズムは 3 つのセントロイドを検出します。

セントロイド ベースのクラスタリング

#clustering

データを非階層クラスタに整理するクラスタリング アルゴリズムのカテゴリ。K 平均法は、最も広く使用されているセントロイド ベースのクラスタリング アルゴリズムです。

階層的クラスタリング アルゴリズムとは対照的です。

クラスタリング

#clustering

特に教師なし学習の際に、関連するをグループ化する。すべての例をグループ化すると、人間は必要に応じて各クラスタに意味を提供できます。

多くのクラスタリング アルゴリズムが存在します。たとえば、次の図のように、セントロイドへの近さに基づく K 平均法アルゴリズム クラスタの例があります。

X 軸に「ツリーの幅」、Y 軸に「ツリーの高さ」というラベルの付いた 2 次元グラフ。グラフには 2 つのセントロイドと数十個のデータポイントが含まれています。データポイントは近接度に基づいて分類されます。つまり、1 つのセントロイドに最も近いデータポイントはクラスタ 1 に分類され、他のセントロイドに最も近いデータポイントはクラスタ 2 に分類されます。

人間の研究者がクラスタを確認し、たとえばクラスタ 1 に「準木」、クラスタ 2 に「フルサイズの木」というラベルを付けます。

別の例として、中心点からの距離に基づくクラスタリング アルゴリズムについて考えてみましょう。次のような場合です。

多くのデータポイントが、ダーツボードの中心を囲む穴のように、同心円状に配置されています。データポイントの最も内側のリングはクラスタ 1、中央のリングはクラスタ 2、最も外側のリングはクラスタ 3 に分類されます。

D

分割クラスタリング

#clustering

階層的クラスタリングをご覧ください。

H

階層的クラスタリング

#clustering

クラスタのツリーを作成するクラスタリング アルゴリズムのカテゴリ。階層クラスタリングは、植物の分類などの階層データに適しています。階層型クラスタリング アルゴリズムには次の 2 種類があります。

  • 集約型クラスタリングでは、まずすべてのサンプルを独自のクラスタに割り当て、最も近いクラスタを繰り返しマージして階層ツリーを作成します。
  • 分割クラスタリングでは、まずすべての例を 1 つのクラスタにグループ化し、次にクラスタを階層ツリーに繰り返し分割します。

セントロイド ベースのクラスタリングと対比します。

K

K 平均法

#clustering

教師なし学習でサンプルをグループ化する一般的なクラスタリング アルゴリズム。K 平均法アルゴリズムは基本的に次の処理を行います。

  • 最適な k 中心点(セントロイド)を繰り返し決定します。
  • 各サンプルを最も近いセントロイドに割り当てます。同じセントロイドに最も近い例は 同じグループに属します

K 平均法アルゴリズムは、セントロイドの位置を選択して、各サンプルから最も近いセントロイドまでの距離の累積二乗を最小化します。

たとえば、犬の高さと犬の幅の次のプロットについて考えてみましょう。

数十個のデータポイントがあるデカルト図。

k=3 の場合、K 平均法アルゴリズムは 3 つのセントロイドを決定します。各サンプルは最も近いセントロイドに割り当てられ、次の 3 つのグループが生成されます。

3 つのセントロイドを追加した以外は、前の図と同じデカルト プロット。前のデータポイントは 3 つの異なるグループにクラスタ化され、各グループは特定のセントロイドに最も近いデータポイントを表します。

あるメーカーが犬用の S、M、L のセーターの最適なサイズを決めようとしているとします。3 つのセントロイドにより、クラスタ内の各犬の平均身長と平均幅が特定されます。そのため、メーカーはおそらく、この 3 つのセントロイドに基づいてセーターのサイズの基準にする必要があります。通常、クラスタのセントロイドはクラスタ内の例ではありません

上の図は、2 つの特徴(高さと幅)のみを持つ例の K 平均法を示しています。K 平均法は多くの特徴で例をグループ化できることに注意してください

K 中央値

#clustering

K 平均法に密接に関連するクラスタリング アルゴリズム。この 2 つの実際の違いは次のとおりです。

  • K 平均法では、セントロイドは、セントロイド候補とその各サンプルとの間の距離の二乗の和を最小化することによって決定されます。
  • k 中央値では、セントロイド候補とその各サンプルとの間の距離の合計を最小化することで、セントロイドが決定されます。

なお、距離の定義も異なります。

  • K 平均法は、セントロイドからサンプルまでのユークリッド距離に依存します。(2 次元におけるユークリッド距離は、ピタゴラスの定理を使用して斜辺を計算することを意味します)。たとえば、(2,2) と (5,-2) の間の K 平均法距離は次のようになります。
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-media は、セントロイドからサンプルまでの マンハッタン距離に依存しています。この距離は、各次元の絶対差分の合計です。たとえば、(2,2) と (5,-2) の間の k の中央値距離は次のようになります。
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

類似性尺度

#clustering

クラスタリング アルゴリズムで、2 つの例の類似度(どの程度類似しているか)を判断するために使用される指標。

スケッチ

#clustering

教師なし ML では、サンプルに対して予備的な類似度分析を行うアルゴリズムのカテゴリです。スケッチ アルゴリズムでは、 局所性重視のハッシュ関数を使用して、類似している可能性が高いポイントを特定し、バケットにグループ化します。

スケッチにより、大規模なデータセットでの類似度の計算に必要な計算量が削減されます。データセット内のサンプルのペアごとに類似度を計算するのではなく、各バケット内のポイントのペアごとに類似度を計算します。

T

時系列分析

#clustering

時間データを分析する ML と統計のサブフィールド。分類、クラスタリング、予測、異常検出など、さまざまな種類の ML の問題には時系列分析が必要です。たとえば、時系列分析を使用して、過去の販売データに基づいて冬用コートの将来の売上を月別に予測できます。

U

教師なし ML

#clustering
#fundamentals

モデルmodelをトレーニングして、データセット(通常はラベルのないデータセット)内のパターンを見つけます。

教師なし ML の最も一般的な用途は、データを類似したサンプルのグループにクラスタ化することです。たとえば、教師なし機械学習アルゴリズムでは、音楽のさまざまな特性に基づいて曲をクラスタ化できます。生成されたクラスタは、他の ML アルゴリズム(音楽レコメンデーション サービスなど)への入力として使用できます。クラスタリングは、有用なラベルが不足している場合、または存在しない場合に役立ちます。たとえば、不正使用対策や不正行為などのドメインでは、クラスタが人間によるデータの理解を深めるのに役立ちます。

教師あり ML と対比します。