K-평균 장단점

k-평균의 장점

상대적으로 간단하게 구현할 수 있습니다.

대규모 데이터 세트로 확장합니다.

수렴 보장.

중심의 위치를 웜 스타트할 수 있음.

새로운 예시에 쉽게 적응합니다.

타원형 클러스터와 같이 다양한 모양과 크기의 클러스터로 일반화

k-평균 일반화

클러스터의 밀도와 크기가 다르면 어떻게 되나요? 그림 1을 참고하세요. 왼쪽의 직관적인 클러스터를 오른쪽 오른쪽의 k-평균으로 찾은 클러스터와 비교합니다. k-평균이 특정 데이터 세트에서 우연히 나타나는 문제를 비교합니다.

나란히 표시된 그래프 2개 첫 번째는 다소 명확한 클러스터가 있는 데이터 세트를 보여줍니다. 두 번째는 k-평균을 실행한 후의 이상한 예 그룹을 보여줍니다.
그림 1: 일반화되지 않은 k-평균 예시

그림 1과 같이 자연 불균형 클러스터를 클러스터링하려면 k-평균을 조정 (일반화)하면 됩니다. 그림 2에서 선은 k-평균을 다음과 같이 일반화한 후 클러스터 경계를 보여줍니다.

  • 왼쪽 그래프: 일반화가 없는 경우 직관적이지 않은 클러스터 경계가 됨
  • 중심 도표: 여러 클러스터 너비를 허용하여 서로 다른 크기의 클러스터가 더 직관적으로 표시되도록 합니다.
  • 오른쪽 도표: 다양한 클러스터 너비 외에도 차원별로 다른 너비를 허용하여 구형 클러스터 대신 일립티컬로 만들어 결과를 개선합니다.
나란히 표시된 그래프 2개 첫 번째는 구형 클러스터 예시이고 두 번째는 비구형 클러스터 예시입니다.
그림 2: 구형 클러스터 예 및 비구형 클러스터 예

이 과정에서는 k-평균을 일반화하는 방법을 자세히 다루지 않지만 k-평균을 수정하는 것이 강력하다는 또 하나의 이유라는 점을 기억하세요. k-평균화에 대한 자세한 내용은 카네기 멜런 대학교의 카를로스 게스트린의 클러스터링 – K-평균 가우스 혼합 모델을 참조하세요.

k-평균의 단점

\(k\) 수동으로 선택하기

결과 해석에 설명된 대로 '손실과 클러스터 비교' 도표를 사용하여 최적의 (k)를 찾습니다.

초기 값에 의존하기.

\(k\)이 낮은 경우 k-평균을 여러 번 초깃값으로 실행하고 최상의 결과를 선택하여 이 종속 항목을 완화할 수 있습니다. \(k\)가 증가하면 초기 중심 (k-평균 시드라고 함)의 더 나은 값을 선택하려면 k-평균의 고급 버전이 필요합니다. k-평균 시드에 대한 자세한 내용은 M. 엠레 셀레비, 하산 A. 킹라비, 파트리시오 A. 벨라

다양한 크기와 밀도의 클러스터링 데이터

k-평균은 클러스터가 다양한 크기와 밀도인 데이터를 클러스터링하는 데 문제가 있습니다. 이러한 데이터를 클러스터링하려면 장점 섹션에 설명된 대로 k-평균을 일반화해야 합니다.

클러스터링 이상점.

이상점에 중심을 드래그하거나 이상점을 무시하지 않고 자체 클러스터를 가져올 수 있습니다. 클러스터링하기 전에 이상점을 제거하거나 자르는 것이 좋습니다.

차원의 수에 따라 확장

차원 수가 증가하면 거리 기반 유사성 측정값은 특정 예시 간의 상수 값으로 수렴합니다. 차원을 줄입니다. 특성 데이터에 PCA를 사용하거나 '스펙트럼 클러스터링'을 사용하여 아래 설명과 같이 클러스터링 알고리즘을 수정합니다.

차원 및 스펙트럼 클러스터링의 곡선

이 도표는 차원 수가 증가할수록 예시 간 거리의 평균에 대한 표준 편차의 비율이 어떻게 감소하는지 보여줍니다. 이 수렴 방식은 k-평균이 예시 간 차이를 줄이는 데 효과적이지 않음을 의미합니다. 고차원 데이터의 이러한 부정적인 결과를 차원의 저주라고 합니다.

예시 간 거리의 표준 편차가 차원 수 증가에 따른 감소를 보여주는 3가지 도표
그림 3: 차원의 저항 데모 각 플롯은 200개의 무작위 지점 간의 쌍별 거리를 보여줍니다.

스펙트럼 클러스터링은 알고리즘에 사전 클러스터링 단계를 추가하여 차원의 곡선을 피합니다.

  1. PCA를 사용하여 특성 데이터의 차원을 줄입니다.
  2. 모든 데이터 포인트를 하위 차원의 하위 공간으로 투영합니다.
  3. 선택한 알고리즘을 사용하여 이 하위 공간의 데이터를 클러스터링합니다.

따라서 스펙트럼 클러스터링은 별도의 클러스터링 알고리즘이 아니라 모든 클러스터링 알고리즘과 함께 사용할 수 있는 사전 클러스터링 단계입니다. 스펙트럼 클러스터링의 세부정보는 복잡합니다. Ulrike von Luxberg의 스펙트럼 클러스터링에 대한 튜토리얼을 참고하세요.