ee.Clusterer.wekaKMeans

Mengelompokkan data menggunakan algoritma k-means. Dapat menggunakan jarak Euclidean (default) atau jarak Manhattan. Jika jarak Manhattan digunakan, sentroid dihitung sebagai median per komponen, bukan rata-rata. Untuk mengetahui informasi selengkapnya, lihat:

D. Arthur, S. Vassilvitskii: k-means++: the advantages of careful seeding. Dalam: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

PenggunaanHasil
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Pengelompok
ArgumenJenisDetail
nClustersBilangan BulatJumlah cluster.
initBilangan bulat, default: 0Metode inisialisasi yang akan digunakan. 0 = acak, 1 = k-means++, 2 = kanopi, 3 = terjauh terlebih dahulu.
canopiesBoolean, default: falseGunakan kanopi untuk mengurangi jumlah penghitungan jarak.
maxCandidatesBilangan bulat, default: 100Jumlah maksimum kanopi kandidat yang akan dipertahankan dalam memori setiap saat saat menggunakan pengelompokan kanopi. Jarak T2 plus, karakteristik data, akan menentukan jumlah kanopi kandidat yang terbentuk sebelum pemangkasan berkala dan akhir dilakukan, yang dapat menyebabkan konsumsi memori berlebih. Setelan ini menghindari sejumlah besar kanopi kandidat yang menggunakan memori.
periodicPruningBilangan bulat, default: 10000Seberapa sering harus memangkas kanopi dengan kepadatan rendah saat menggunakan pengelompokan kanopi.
minDensityBilangan bulat, default: 2Kepadatan kanopi minimum, saat menggunakan pengelompokan kanopi, di bawahnya kanopi akan dipangkas selama pemangkasan berkala.
t1Float, default: -1,5Jarak T1 yang akan digunakan saat menggunakan pengelompokan kanopi. Nilai < 0 dianggap sebagai pengganda positif untuk T2.
t2Float, default: -1Jarak T2 yang akan digunakan saat menggunakan pengelompokan kanopi. Nilai < 0 menyebabkan penggunaan heuristik berdasarkan standar deviasi atribut.
distanceFunctionString, default: "Euclidean"Fungsi jarak yang akan digunakan. Opsinya adalah: Euclidean dan Manhattan.
maxIterationsBilangan bulat, default: nullJumlah maksimum iterasi.
preserveOrderBoolean, default: falseMempertahankan urutan instance.
fastBoolean, default: falseMemungkinkan penghitungan jarak yang lebih cepat, menggunakan nilai batas. Menonaktifkan penghitungan/output kesalahan/jarak kuadrat.
seedBilangan bulat, default: 10Seed pengacakan.