本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：分群法

這個頁麵包含叢集詞彙表。如需所有詞彙詞彙，請按這裡。

A

匯總叢集

#clustering

請參閱階層分群法。

C

centroid

#clustering

由 k-means 或 k-median 演算法決定的叢集中心。舉例來說，如果 k 為 3，那麼 k-means 或 k-median 演算法就會找到 3 個美分 ID。

以黃葉為基礎的分群法

#clustering

「分群」演算法會將資料整理成非階層式的叢集。k-means 是最常用的分類類分群演算法演算法。

與階層分群法的演算法相反。

分群

#clustering

將相關的範例分組，尤其是非監督式學習期間。所有範例都分組後，使用者可選擇為各個叢集提供意義。

許多分群演算法存在。例如，k-means 演算法範例會根據它們與 centroid 的距離，來顯示其範例，如下圖所示：

2 軸的圖表會標示為「樹木寬度」，而 Y 軸則標示為「樹木高度」。這張圖表包含兩個 2 個黃體和幾十個資料點。資料點會根據鄰近區域加以分類。也就是說，最接近 1 個頂點的資料點會歸類為「叢集 1」，而最接近其他集體 ID 的資料點會歸類為「叢集 2」。

接著，人工研究員會審查叢集，並將叢集 1 標示為「dwarf 樹木」，叢集 2 則設為「原尺寸樹木」。

另一個例子是，根據範例與中心點的距離，建立分群演算法，如下所示：

「圓環」會有數十種資料點，並以類似圓環的方式排列，就像是板球中央的孔洞。資料點的最外層分為「叢集 1」、中間環分為「叢集 2」，而最外環為「叢集 3」。

D

分群分群

#clustering

請參閱階層分群法。

H

階層分群

#clustering

建立叢集樹狀結構的叢集演算法類別。階層式叢集非常適合採用階層式資料，例如機器人分類。階層式演算法分為兩種類型：

「Agglomerative clustering」會將每個範例指派給其叢集，並反覆合併最近的叢集，建立階層式樹狀結構。
「分離法分群」會將所有範例分組為一個叢集，然後反覆將叢集分割為階層式樹狀結構。

與以 centroid 為基礎的分群法的對比。

K

k-means

#clustering

一種熱門分群演算法，可將非監督式學習範例分組。k-means 演算法基本上會執行下列動作：

反覆疊代最佳 k Center 點 (也稱為 centroids)。
將每個範例指派給最接近的 centroid。這些範例最接近的兩個集體屬於同一個群組。

k-means 演算法會挑選頂部位置的距離，將每個範例的累計正方形距離降至最接近的頂點。

例如，請參考以下犬隻寬度與犬隻寬度的分佈圖：

擁有數個十個資料點的笛卡兒圖。

k=3 時，k-means 演算法會判斷三個卵子。每個範例都會指派給最接近的 centroid，進而產生三個群組：

與上圖相同，再次新增相同的笛卡兒狀態圖，但已新增三個月球。系統會將上一個資料點分到三個不同的群組，每個群組都代表最接近特定集點的資料點。

假設某個製造商想為狗狗，選擇尺寸適中的小型、中型和大型毛衣。這三個卵子用於識別叢集中每隻狗狗的平均高度和平均寬度。因此，製造商應將這三塊子宮的尺寸清除起來。請注意，叢集的群狀「通常」並非叢集中的範例。

上圖中以 k-means 為例，其中只有兩個特徵 (高度和寬度)。請注意，k-means 可以運用多項功能將範例分組。

千焦耳中位數

#clustering

與 k-means 密切相關的叢集演算法。兩者之間的主要差異如下：

在 k-means 中，每兩個卵子之間的距離「平方」總和之間會相差的總和，則該黃體的數目是最小的。
在 k 中位數時，最小化了甲狀腺候選劑與每次範例之間的相加總和。

請注意，距離的定義也不同：

k-means 需要將右上角的 Euclidean 距離到範例。(在兩個維度中，Euclidean 距離是指使用畢氏定理算出斜邊)。例如，(2,2) 和 (5,-2) 之間的 k-means 距離如下：

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median 需要將人體距離的 manhattan 距離。這個距離是每個維度的絕對差異總和。例如，(2,2) 和 (5,-2) 之間的 k 中位數為：

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

六

相似度衡量指標

#clustering

在「分群」演算法中，用來判斷兩個範例相近程度的指標 (類似程度)。

素描

#clustering

在非監督式機器學習中，對演算法進行初步相似度分析的演算法類別。繪製演算法會使用位置敏感雜湊函式來識別可能類似的點，並將這些點分組為值區。

素描功能可降低大型資料集進行相似計算所需的運算。我們不會計算資料集內每對一組樣本的相似度，而是只計算每個值區每一點的相似度。

二

時間序列分析

#clustering

機器學習和統計資料的子欄位，用於分析暫時資料。許多類型的機器學習問題都需要時間序列分析，包括分類、分群、預測和異常偵測。舉例來說，您可以使用時間序列分析，根據歷來銷售資料預測每月的冬季外套銷售量。

U

非監督式機器學習

#clustering

#fundamentals

訓練模型找出資料集中的模式，通常是未加上標籤的資料集。

非監督式機器學習的常見用途，是將叢集叢集分組為類似的範例群組。例如，非監督式機器學習演算法可根據音樂的不同屬性將歌曲分組。產生的叢集可以成為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當實用標籤的不足或缺漏時，分群可協助您。舉例來說，在反濫用和詐欺等領域中，叢集可協助叢集進一步瞭解資料。

與監督式機器學習相反。

如需額外附註，請按一下圖示。

非監督式機器學習的另一個例子是主要元件分析 (PCA)。舉例來說，在含有數百萬個購物車內容的資料集上套用 PCA 時，可能會發現包含檸檬的購物車通常也會包含同義詞。