機器學習詞彙表:分群

這個頁面含有叢集詞彙表字詞。如需所有詞彙表字詞,請按這裡

A

聚合式分群法

#clustering

請參閱階層分群相關說明。

C

群集中心

#clustering

k-meansk-median 演算法判定的叢集中心。舉例來說,如果 k 是 3,則 k-means 或 k-median 演算法會尋找 3 個中心數。

群集型分群法

#clustering

這是一種分群法演算法,能將資料整理成非階層式叢集。k-means 是最廣泛使用的群子型分群演算法。

階層分群演算法相比。

分群法

#clustering

將相關範例分組,特別是在非監督式學習期間。將所有範例分組後,人類可以選擇為每個叢集提供意義。

有許多分群演算法存在。以 k-means 演算法叢集為例,這些叢集範例將其與 centroid 的距離相近,如下圖所示:

一張二維圖表,X 軸代表樹狀結構寬度,Y 軸代表樹狀結構高度。圖表包含兩個群集和數十個資料點。系統會依據資料點的鄰近程度分類資料點。也就是說,最接近一個群集中心的資料點會歸類為叢集 1,最靠近其他群集中心的資料點則歸類為叢集 2。

接著,真人研究人員可以審查叢集,將叢集 1 標示為「矮樹」,叢集 2 則設為「原尺寸樹木」。

再舉一個例子,根據範例與中心點的距離建立叢集演算法,如下所示:

數十個資料點都放在同心圓中,幾乎像是飛盤中央的小洞。資料點最內層的環狀分類為叢集 1,中間環則歸類為叢集 2,最外環為叢集 3。

D

多樣化分群法

#clustering

請參閱階層分群相關說明。

H

階層分群

#clustering

建立叢集樹狀結構的「分群」演算法類別。階層分群非常適合用於階層資料,例如植物分類。階層分群演算法有兩種:

  • 匯總分群會先將每個範例指派給自己的叢集,然後反覆地合併最近的叢集來建立階層樹狀結構。
  • 多元化分群會先將所有範例分為一個叢集,然後再逐步將叢集分為階層式樹狀結構。

這是與以群集為基礎的分群法之間的對比。

K

k-means

#clustering

熱門的「分群法」演算法,將非監督式學習中的範例分組。k-means 演算法基本上會執行以下作業:

  • 疊代判斷最佳的 k 中心點 (又稱為「質心」)。
  • 將每個範例指派給最近的中心集。最靠近相同群集中心的範例屬於同一群組。

k-means 演算法會挑選群集中心位置,盡量減少從每個樣本到其最近群集的累積平方

舉例來說,假設下圖顯示犬隻高度到狗的寬度:

包含幾十個資料點的笛卡兒圖。

如果 k=3,k-means 演算法就會判斷三個質量。每個範例都會指派至最接近的中心點,進而產生三個群組:

與上例相同的笛卡兒圖,但新增了三個質心。先前的資料點會分成三個不同的群組,每個群組都代表最接近特定群集的資料點。

假設製造商想判斷適用於狗的理想尺寸,例如中小、中、大毛衣。三個中心點可識別該叢集中每隻狗狗的平均高度和平均寬度。所以製造商應該使用這 3 個中心基調來生產毛衣請注意,叢集的質心通常「不是」叢集中的範例。

上圖顯示只有兩個地圖項目 (高度和寬度) 的範例 k-means。請注意,k-means 可將許多特徵中的範例分組。

k 中位數

#clustering

叢集演算法與 k-means 密切相關,兩者的實際差異如下:

  • 在 k-means 中,群集中心是透過盡量降低質心候選項目與每個範例之間距離的「平方」總和。
  • 在 k-median 中,中心會透過盡量減少質心候選候選項目與每個樣本之間的距離總和來決定。

請注意,距離的定義也不同:

  • k-means 的計算依據是從質心到範例的歐幾里德距離。(在兩個維度中,歐幾裡度距離是指使用畢氏定理來計算斜邊)。例如,(2,2) 和 (5,-2) 之間的 k-means 距離會是:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 的評估依據是來自中心點的 Manhattan 距離。這個距離是各維度絕對差異值的總和。例如,(2,2) 和 (5,-2) 之間的 k-中位數距離為:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

相似度度量

#clustering

在「分群演算法中,用來判斷兩個範例是否相似 (程度) 的指標。

素描

#clustering

非監督式機器學習中,這是對範例執行初步相似度分析的演算法類別。草圖演算法使用 區域敏感雜湊函式找出可能相似的點,然後將這些點分組為值區。

草圖會降低大型資料集相似度計算所需的運算。我們只會計算每個值區中每組資料點的相似性,而不會計算資料集中每組範例的相似性。

T

時間序列分析

#clustering

分析臨時資料的機器學習和統計資料子欄位。許多類型的機器學習問題都需要時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據歷來銷售資料,預測每個月的冬季外套的未來銷售量。

U

非監督式機器學習

#clustering
#fundamentals

訓練model找出資料集中模式 (通常是未加上標籤的資料集)。

非監督式機器學習最常見的用途是將資料分群為相似的範例群組。舉例來說,非監督式機器學習演算法可以根據音樂的各種屬性建立歌曲叢集。產生的叢集可以成為其他機器學習演算法的輸入內容 (例如音樂推薦服務)。稀缺或缺少有用的標籤時,分群就能派上用場。舉例來說,在反濫用和詐欺等領域,叢集可協助人類進一步瞭解資料。

對比監督式機器學習技術