ee.Clusterer.wekaKMeans

Nhóm dữ liệu bằng thuật toán k-means. Có thể sử dụng khoảng cách Euclidean (mặc định) hoặc khoảng cách Manhattan. Nếu khoảng cách Manhattan được sử dụng, thì các tâm sẽ được tính là trung vị theo thành phần chứ không phải giá trị trung bình. Để biết thêm thông tin, hãy xem:

D. Arthur, S. Vassilvitskii: k-means++: ưu điểm của việc gieo hạt cẩn thận. Trong: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

Cách sử dụngGiá trị trả về
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
Đối sốLoạiThông tin chi tiết
nClustersSố nguyênSố lượng cụm.
initSố nguyên, mặc định: 0Phương thức khởi tạo để sử dụng. 0 = ngẫu nhiên, 1 = k-means++, 2 = canopy, 3 = xa nhất trước.
canopiesBoolean, mặc định: falseSử dụng tán cây để giảm số lượng phép tính khoảng cách.
maxCandidatesSố nguyên, mặc định: 100Số lượng tối đa các tán cây ứng cử viên cần giữ lại trong bộ nhớ tại một thời điểm bất kỳ khi sử dụng tính năng phân cụm tán cây. Khoảng cách T2 cộng với đặc điểm dữ liệu sẽ xác định số lượng tán cây đề xuất được hình thành trước khi thực hiện việc cắt tỉa định kỳ và cuối cùng, điều này có thể dẫn đến mức tiêu thụ bộ nhớ quá mức. Chế độ cài đặt này giúp tránh trường hợp có quá nhiều tán cây đề xuất tiêu tốn bộ nhớ.
periodicPruningSố nguyên, mặc định: 10000Tần suất tỉa tán lá có mật độ thấp khi sử dụng phương pháp phân cụm tán lá.
minDensitySố nguyên, mặc định: 2Mật độ tán cây tối thiểu, khi sử dụng tính năng phân cụm tán cây, dưới mức này, tán cây sẽ bị cắt tỉa trong quá trình cắt tỉa định kỳ.
t1Độ chính xác đơn, mặc định: -1,5Khoảng cách T1 cần sử dụng khi dùng phương pháp phân cụm theo tán. Giá trị < 0 được coi là hệ số nhân dương cho T2.
t2Độ chính xác đơn, mặc định: -1Khoảng cách T2 cần sử dụng khi sử dụng phương pháp phân cụm tán cây. Các giá trị < 0 sẽ khiến một phương pháp phỏng đoán dựa trên độ lệch chuẩn của thuộc tính được sử dụng.
distanceFunctionChuỗi, mặc định: "Euclidean"Hàm khoảng cách cần sử dụng. Các lựa chọn là: Euclidean và Manhattan.
maxIterationsSố nguyên, mặc định: nullSố lần lặp lại tối đa.
preserveOrderBoolean, mặc định: falseDuy trì thứ tự của các thực thể.
fastBoolean, mặc định: falseCho phép tính toán khoảng cách nhanh hơn bằng cách sử dụng các giá trị ngưỡng. Tắt tính năng tính toán/xuất các lỗi/khoảng cách bình phương.
seedSố nguyên, mặc định: 10Số ngẫu nhiên để sắp xếp ngẫu nhiên.