머신러닝 용어집: 클러스터링

컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

이 페이지에는 클러스터링 용어집 용어가 포함되어 있습니다. 모든 용어집을 보려면 여기를 클릭하세요.

A

집계 클러스터링

#clustering

계층적 클러스터링을 참조하세요.

C

centroid

#clustering

k-평균 또는 k-median 알고리즘에 의해 결정되는 클러스터의 중심. 예를 들어 k가 3이라면 k-평균 또는 k-중앙값 알고리즘이 3개의 중심을 찾아내는 것입니다.

중심 기반 클러스터링

#clustering

데이터를 비계층적 클러스터로 구성하는 클러스터링 알고리즘의 카테고리입니다. k-평균은 가장 널리 사용되는 중심 기반 클러스터링 알고리즘입니다.

계층적 클러스터링 알고리즘과 대비되는 개념입니다.

클러스터링

#clustering

특히 비지도 학습에서 관련 그룹화 모든 예가 그룹화되면 사람이 선택적으로 각 클러스터에 의미를 제공할 수 있습니다.

많은 클러스터링 알고리즘이 있습니다. 예를 들어 k-평균 알고리즘은 다음 다이어그램과 같이 중점과의 거리를 기준으로 예를 클러스터링합니다.

x축에는 '트리 너비'가, y축에는 '트리 높이'가 지정된 2차원 그래프입니다.  그래프에는 2개의 중심과 여러 개의 데이터 포인트가 포함됩니다. 데이터 포인트는 근접도를 기준으로 분류됩니다. 즉, 한 중심에 가장 가까운 데이터 포인트는 '클러스터 1&#39'로 분류되고, 다른 중심에 가장 가까운 데이터 포인트는 '클러스터 2''로 분류됩니다.

그러면 연구자가 클러스터를 검토하고 예를 들어 클러스터 1을 '난쟁이 나무'로, 클러스터 2를 '전체 크기 트리'로 라벨을 지정할 수 있습니다.

또 다른 예로, 다음과 같이 중심점에서의 예를 기준으로 거리가 주어지는 클러스터링 알고리즘이 있습니다.

수십 개의 데이터 포인트가 다트 보드 중앙 주변의 구멍과 같은 동심원 안에 배열됩니다. 데이터 포인트의 가장 바깥쪽 링은 '클러스터 1'으로, 가운데 링은 '클러스터 2', 가장 바깥쪽 링은 '클러스터 3.'으로 분류됩니다.

D

분할 클러스터링

#clustering

계층적 클러스터링을 참조하세요.

H

계층적 클러스터링

#clustering

클러스터 트리를 만드는 클러스터링 알고리즘의 카테고리입니다. 계층적 클러스터링은 식물 분류와 같은 계층적 데이터에 매우 적합합니다. 계층적 클러스터링 알고리즘에는 두 가지 유형이 있습니다.

  • 집계 클러스터링은 먼저 모든 예를 자체 클러스터에 할당하고 가장 가까운 클러스터를 반복적으로 병합하여 계층적 트리를 만듭니다.
  • 분리형 클러스터링은 먼저 모든 예를 하나의 클러스터로 그룹화한 후 클러스터를 반복적으로 계층적 트리로 분할합니다.

중심 기반 클러스터링과 대비되는 개념입니다.

K

k-평균

#clustering

널리 사용되는 클러스터링 알고리즘으로, 비지도 학습에서 예를 그룹화합니다. k-평균 알고리즘은 기본적으로 다음을 수행합니다.

  • 최고의 중심점 (중심이라고 함)을 반복적으로 결정합니다.
  • 각 예시를 가장 가까운 중심에 할당합니다. 같은 중심에 가장 가까운 예는 동일한 그룹에 속합니다.

k-평균 알고리즘은 각 예시에서 가장 가까운 중심까지 거리의 누적 제곱을 최소화하기 위해 중심 위치를 선택합니다.

예를 들어 다음과 같은 반려견 키와 강아지 너비의 플롯을 살펴보겠습니다.

데이터 포인트가 여러 개 있는 데카르트 그래프

k=3인 경우 k-평균 알고리즘이 3개의 중심을 결정합니다. 각 예는 가장 가까운 중심에 할당되어 세 개의 그룹을 생성합니다.

세 개의 중심이 추가된 것을 제외하고 이전 그림과 동일한 카티전 플롯입니다.
          이전 데이터 포인트는 세 개의 개별 그룹으로 클러스터링되며, 각 그룹은 특정 중심에 가장 가까운 데이터 포인트를 나타냅니다.

한 제조업체에서 강아지에게 적합한 S 사이즈, M 사이즈, L 사이즈 스웨터에 이상적인 사이즈를 결정하고 싶다고 가정해 보겠습니다. 3개의 중심은 해당 클러스터에 있는 각 개의 평균 높이와 평균 너비를 나타냅니다. 따라서 제조업체는 이 세 개의 중심을 기준으로 스웨터 크기를 만들어야 할 수 있습니다. 클러스터의 중심은 일반적으로 클러스터의 예가 아닙니다.

위 그림은 두 개의 특성 (높이 및 너비)만 있는 예의 k-평균을 보여줍니다. k-평균은 여러 특성 간에 예시를 그룹화할 수 있습니다.

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘 둘의 실질적인 차이점은 다음과 같습니다.

  • k-평균 센터에서 중심은 각 후보 예의 위치 간 거리의 제곱의 합을 최소화하는 방식으로 결정됩니다.
  • k-중앙값에서 중심은 중심 후보와 각 예의 거리의 합계를 최소화하여 결정됩니다.

거리의 정의도 다릅니다.

  • k-평균은 중심에서 예시까지 유클리드 거리를 사용합니다. (2차원에서 유클리드 거리는 피타고라스의 정리를 사용하여 빗변을 계산하는 것을 의미합니다.) 예를 들어 (2,2)와 (5, -2) 사이의 k-평균 거리는 다음과 같습니다.
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-중앙값은 중심에서 예까지 맨해튼 거리를 사용합니다. 이 거리는 각 차원의 절대 델타의 합계입니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-중앙값 거리는 다음과 같습니다.
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

유사성 측정

#clustering

클러스터링 알고리즘에서 두 예의 유사성을 결정하는 데 사용되는 측정항목입니다.

스케치

#clustering

비지도 머신러닝에서 예시에 대한 예비 유사성 분석을 실행하는 알고리즘 카테고리입니다. 스케치 알고리즘은 지역 구분 해시 함수를 사용하여 유사한 포인트를 식별한 다음 버킷으로 그룹화합니다.

스케치를 사용하면 대규모 데이터 세트의 유사성 계산에 필요한 계산이 줄어듭니다. 데이터 세트의 모든 예시 쌍에 대한 유사성을 계산하는 대신 각 버킷 내의 포인트 쌍마다 유사성을 계산합니다.

T

시계열 분석

#clustering

시간적 데이터를 분석하는 머신러닝 및 통계의 하위 필드. 분류, 클러스터링, 예측, 이상 감지를 비롯한 많은 유형의 머신러닝 문제에 시계열 분석이 필요합니다. 예를 들어 시계열 분석을 사용하여 이전 판매 데이터를 기반으로 겨울 코트의 향후 판매를 예측할 수 있습니다.

U

비지도 머신러닝

#clustering

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 유사한 예시의 그룹으로 데이터를 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 이렇게 얻은 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)에 대한 입력이 될 수 있습니다. 클러스터링은 진정한 라벨을 얻기 어려운 도메인에서 유용합니다. 예를 들어 악용 방지 및 사기와 같은 분야에서 클러스터는 사람이 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.

비지도 머신러닝의 또 다른 예는 주 구성원 구성요소 분석 (PCA)입니다. 예를 들어 수백만 개의 장바구니 콘텐츠가 포함된 데이터 세트에 PCA를 적용하면 레몬이 포함된 장바구니에 제산제도 자주 포함된다는 사실을 알 수 있습니다.

지도 머신러닝과 비교해 보세요.