k-평균 알고리즘을 사용하여 데이터를 클러스터링합니다. 유클리드 거리 (기본값) 또는 맨해튼 거리를 사용할 수 있습니다. 맨해튼 거리를 사용하는 경우 중심점은 평균이 아닌 구성요소별 중앙값으로 계산됩니다. 자세한 내용은 다음을 참조하세요.
D. Arthur, S. Vassilvitskii: k-means++: 신중한 시딩의 장점. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.
사용할 초기화 메서드입니다. 0 = 무작위, 1 = k-평균++, 2 = canopy, 3 = farthest first
canopies
불리언, 기본값: false
캐노피를 사용하여 거리 계산 수를 줄입니다.
maxCandidates
정수, 기본값: 100
캐노피 클러스터링을 사용할 때 한 번에 메모리에 유지할 수 있는 최대 후보 캐노피 수입니다. T2 거리와 데이터 특성에 따라 주기적 가지치기 및 최종 가지치기를 수행하기 전에 형성되는 후보 캐노피 수가 결정되며, 이로 인해 메모리 소비가 과도해질 수 있습니다. 이 설정을 사용하면 메모리를 소비하는 후보 캐노피가 많아지는 것을 방지할 수 있습니다.
periodicPruning
정수, 기본값: 10000
캐노피 클러스터링을 사용할 때 밀도가 낮은 캐노피를 정리하는 빈도입니다.
minDensity
정수, 기본값: 2
주기적 가지치기 중에 수관이 잘리는 수관 클러스터링 사용 시 최소 수관 밀도입니다.
t1
부동 소수점 수, 기본값: -1.5
캐노피 클러스터링을 사용할 때 사용할 T1 거리입니다. 0 미만의 값은 T2의 양수 승수로 간주됩니다.
t2
부동 소수점 수, 기본값: -1
캐노피 클러스터링을 사용할 때 사용할 T2 거리입니다. 값이 0보다 작으면 속성 표준 편차를 기반으로 하는 휴리스틱이 사용됩니다.
distanceFunction
문자열, 기본값: 'Euclidean'
사용할 거리 함수입니다. 옵션은 Euclidean과 Manhattan입니다.
maxIterations
정수, 기본값: null
최대 반복 횟수
preserveOrder
불리언, 기본값: false
인스턴스 순서를 유지합니다.
fast
불리언, 기본값: false
차단 값을 사용하여 더 빠른 거리 계산을 지원합니다. 제곱 오차/거리의 계산/출력을 사용 중지합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-26(UTC)"],[],["The k-means algorithm clusters data using either Euclidean or Manhattan distance. Manhattan distance uses component-wise median for centroids, while Euclidean uses the mean. Initialization methods include random, k-means++, canopy, and farthest first. Canopies can be used to optimize distance calculations. Parameters control the number of clusters, pruning frequency, density thresholds, and distance settings. Additional options include limiting iterations, preserving data order, and using a fast distance calculation mode.\n"]]