머신러닝 데이터 세트에는 수백만 개의
모든 클러스터링 알고리즘이 효율적으로 확장되는 것은 아닙니다. 많은 클러스터링
알고리즘이 모든 예 쌍 간의 유사성을 계산하며,
예시 개수의 제곱으로 런타임이 증가한다는 의미입니다. \(n\)
복잡도 표기법으로 \(O(n^2)\) 표시됩니다. \(O(n^2)\) 알고리즘은
훨씬 더 실용적이라고 할 수 있습니다.
k-평균 알고리즘에는
\(O(n)\)의 복잡도입니다. 즉, 알고리즘이 \(n\)에 따라 선형적으로 확장됩니다.
이 알고리즘은 이 과정의 핵심 내용입니다.
클러스터링의 유형
다양한 클러스터링 접근 방식의 전체 목록은 다음을 참조하세요.
클러스터링 알고리즘에 대한 종합적 설문조사
수, D. & 톈, Y. 앤. 데이터. 과학 (2015) 2: 165. 각 접근 방식은
특정 데이터 분포를 얻습니다. 이 과정에서는 4가지 일반적인
접근합니다
중심 기반 클러스터링
클러스터의 중심은
모든 점의 산술 평균입니다.
kube-APIserver입니다 센트로이드 기반 군집화는 데이터를 비계층적 구조로 구성
kube-APIserver로 전송합니다 중심 기반 클러스터링 알고리즘은 효율적이지만
모델을 학습시킬 수 있습니다 이 중 k-평균이
널리 사용됩니다. 이를 위해서는 사용자가 중심(k), 그리고
거의 동일한 크기의 클러스터에서 잘 작동합니다.
<ph type="x-smartling-placeholder"></ph>
그림 1: 중심 기반 클러스터링의 예
밀도 기반 클러스터링
밀도 기반 클러스터링은 예시 밀도가 높은 인접한 영역을
kube-APIserver로 전송합니다 따라서 모든 형태의 클러스터를 원하는 만큼 발견할 수 있습니다.
이상점은 클러스터에 할당되지 않습니다. 이러한 알고리즘은
고차원으로 된 다양한 밀도의 데이터
<ph type="x-smartling-placeholder"></ph>
그림 2: 밀도 기반 클러스터링의 예
분산 기반 클러스터링
이 클러스터링 접근 방식은 데이터가 확률론적 데이터로 구성되어 있다고 가정합니다.
배포(예:
가우시안 분포. 포함
그림 3. 분포 기반 알고리즘은 데이터를 3개의 가우시안으로 클러스터링
있습니다. 분포 중심에서 거리가 멀어지면
포인트가 분포에 속할 확률이 감소합니다. 밴드 쇼
가능성이 낮아집니다 특정한 상황을 가정하는 것이 불편할 때
다른 알고리즘을 사용해야 합니다.
<ph type="x-smartling-placeholder"></ph>
그림 3: 분포 기반 클러스터링의 예
계층적 군집화
계층적 클러스터링은 클러스터 트리를 만듭니다. 계층적 군집화,
당연히 분류와 같은 계층적 데이터에 적합합니다. 자세한 내용은
61개의 서열 대장균 게놈 비교
Oksana Lukjancenko, Trudy Wassenaar 및 Dave Ussery를 예로 들겠습니다.
트리를 적절한 수준으로 자르면 클러스터를 원하는 만큼 선택할 수 있습니다.
<ph type="x-smartling-placeholder"></ph>
그림 4: 동물을 군집화한 계층적 트리의 예.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-07-22(UTC)"],[[["Many clustering algorithms have a complexity of O(n^2), making them impractical for large datasets, while the k-means algorithm scales linearly with a complexity of O(n)."],["Clustering approaches include centroid-based, density-based, distribution-based, and hierarchical clustering, each suited for different data distributions and structures."],["Centroid-based clustering, particularly k-means, is efficient for grouping data into non-hierarchical clusters based on the mean of data points, but is sensitive to initial conditions and outliers."],["Density-based clustering connects areas of high data density, effectively discovering clusters of varying shapes, but struggles with clusters of differing densities and high-dimensional data."],["Distribution-based clustering assumes data follows specific distributions (e.g., Gaussian), assigning points based on probability, while hierarchical clustering creates a tree of clusters, suitable for hierarchical data."]]],[]]