機器學習詞彙表:分群法

這個頁麵包含叢集詞彙表。如需所有詞彙詞彙,請按這裡

A

匯總叢集

#clustering

請參閱階層分群法

C

centroid

#clustering

k-meansk-median 演算法決定的叢集中心。舉例來說,如果 k 為 3,那麼 k-means 或 k-median 演算法就會找到 3 個美分 ID。

以黃葉為基礎的分群法

#clustering

分群演算法會將資料整理成非階層式的叢集。k-means 是最常用的分類類分群演算法演算法。

階層分群法的演算法相反。

分群

#clustering

將相關的範例分組,尤其是非監督式學習期間。所有範例都分組後,使用者可選擇為各個叢集提供意義。

許多分群演算法存在。例如,k-means 演算法範例會根據它們與 centroid 的距離,來顯示其範例,如下圖所示:

2 軸的圖表會標示為「樹木寬度」,而 Y 軸則標示為「樹木高度」。這張圖表包含兩個 2 個黃體和幾十個資料點。資料點會根據鄰近區域加以分類。也就是說,最接近 1 個頂點的資料點會歸類為「叢集 1」,而最接近其他集體 ID 的資料點會歸類為「叢集 2」。

接著,人工研究員會審查叢集,並將叢集 1 標示為「dwarf 樹木」,叢集 2 則設為「原尺寸樹木」。

另一個例子是,根據範例與中心點的距離,建立分群演算法,如下所示:

「圓環」會有數十種資料點,並以類似圓環的方式排列,就像是板球中央的孔洞。資料點的最外層分為「叢集 1」、中間環分為「叢集 2」,而最外環為「叢集 3」。

D

分群分群

#clustering

請參閱階層分群法

H

階層分群

#clustering

建立叢集樹狀結構的叢集演算法類別。階層式叢集非常適合採用階層式資料,例如機器人分類。階層式演算法分為兩種類型:

  • 「Agglomerative clustering」會將每個範例指派給其叢集,並反覆合併最近的叢集,建立階層式樹狀結構。
  • 「分離法分群」會將所有範例分組為一個叢集,然後反覆將叢集分割為階層式樹狀結構。

以 centroid 為基礎的分群法的對比。

K

k-means

#clustering

一種熱門分群演算法,可將非監督式學習範例分組。k-means 演算法基本上會執行下列動作:

  • 反覆疊代最佳 k Center 點 (也稱為 centroids)。
  • 將每個範例指派給最接近的 centroid。這些範例最接近的兩個集體屬於同一個群組。

k-means 演算法會挑選頂部位置的距離,將每個範例的累計正方形距離降至最接近的頂點。

例如,請參考以下犬隻寬度與犬隻寬度的分佈圖:

擁有數個十個資料點的笛卡兒圖。

k=3 時,k-means 演算法會判斷三個卵子。每個範例都會指派給最接近的 centroid,進而產生三個群組:

與上圖相同,再次新增相同的笛卡兒狀態圖,但已新增三個月球。系統會將上一個資料點分到三個不同的群組,每個群組都代表最接近特定集點的資料點。

假設某個製造商想為狗狗,選擇尺寸適中的小型、中型和大型毛衣。這三個卵子用於識別叢集中每隻狗狗的平均高度和平均寬度。因此,製造商應將這三塊子宮的尺寸清除起來。請注意,叢集的群狀「通常」並非叢集中的範例。

上圖中以 k-means 為例,其中只有兩個特徵 (高度和寬度)。請注意,k-means 可以運用多項功能將範例分組。

千焦耳中位數

#clustering

k-means 密切相關的叢集演算法。兩者之間的主要差異如下:

  • 在 k-means 中,每兩個卵子之間的距離「平方」總和之間會相差的總和,則該黃體的數目是最小的。
  • 在 k 中位數時,最小化了甲狀腺候選劑與每次範例之間的相加總和。

請注意,距離的定義也不同:

  • k-means 需要將右上角的 Euclidean 距離到範例。(在兩個維度中,Euclidean 距離是指使用畢氏定理算出斜邊)。例如,(2,2) 和 (5,-2) 之間的 k-means 距離如下:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 需要將人體距離的 manhattan 距離。這個距離是每個維度的絕對差異總和。例如,(2,2) 和 (5,-2) 之間的 k 中位數為:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

相似度衡量指標

#clustering

「分群」演算法中,用來判斷兩個範例相近程度的指標 (類似程度)。

素描

#clustering

非監督式機器學習中,對演算法進行初步相似度分析的演算法類別。繪製演算法會使用 位置敏感雜湊函式來識別可能類似的點,並將這些點分組為值區。

素描功能可降低大型資料集進行相似計算所需的運算。我們不會計算資料集內每對一組樣本的相似度,而是只計算每個值區每一點的相似度。

時間序列分析

#clustering

機器學習和統計資料的子欄位,用於分析暫時資料。許多類型的機器學習問題都需要時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據歷來銷售資料預測每月的冬季外套銷售量。

U

非監督式機器學習

#clustering
#fundamentals

訓練模型找出資料集中的模式,通常是未加上標籤的資料集。

非監督式機器學習的常見用途,是將叢集叢集分組為類似的範例群組。例如,非監督式機器學習演算法可根據音樂的不同屬性將歌曲分組。產生的叢集可以成為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當實用標籤的不足或缺漏時,分群可協助您。舉例來說,在反濫用和詐欺等領域中,叢集可協助叢集進一步瞭解資料。

監督式機器學習相反。