ee.Clusterer.wekaKMeans

Regroupez les données en clusters à l'aide de l'algorithme k-moyennes. Vous pouvez utiliser la distance euclidienne (par défaut) ou la distance de Manhattan. Si la distance de Manhattan est utilisée, les centroïdes sont calculés comme la médiane par composante plutôt que comme la moyenne. Pour en savoir plus, consultez cette page :

D. Arthur, S. Vassilvitskii : k-means++ : les avantages d'un seeding soigné. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

UtilisationRenvoie
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
ArgumentTypeDétails
nClustersNombre entierNombre de clusters.
initEntier, valeur par défaut : 0Méthode d'initialisation à utiliser. 0 = aléatoire, 1 = k-means++, 2 = canopy, 3 = farthest first.
canopiesBooléen, valeur par défaut : falseUtilisez des canopies pour réduire le nombre de calculs de distance.
maxCandidatesEntier, valeur par défaut : 100Nombre maximal de canopées candidates à conserver en mémoire à tout moment lors de l'utilisation du clustering de canopées. La distance T2 et les caractéristiques des données détermineront le nombre de canopies candidates formées avant l'élagage périodique et final, ce qui peut entraîner une consommation excessive de mémoire. Ce paramètre permet d'éviter qu'un grand nombre de canopies candidates ne consomment de la mémoire.
periodicPruningEntier, par défaut : 10 000Fréquence d'élagage des canopées à faible densité lorsque vous utilisez le clustering de canopées.
minDensityEntier, valeur par défaut : 2Densité de canopée minimale en dessous de laquelle une canopée sera supprimée lors de l'élagage périodique, lorsque le clustering de canopées est utilisé.
t1Flottant, valeur par défaut : -1,5Distance T1 à utiliser avec le clustering par canopée. Une valeur inférieure à 0 est considérée comme un multiplicateur positif pour T2.
t2Float, valeur par défaut : -1Distance T2 à utiliser lors du clustering par canopée. Les valeurs inférieures à 0 entraînent l'utilisation d'une heuristique basée sur l'écart-type de l'attribut.
distanceFunctionChaîne, valeur par défaut : "Euclidean"Fonction de distance à utiliser. Les options sont "Euclidienne" et "Manhattan".
maxIterationsEntier, valeur par défaut : nullNombre maximal d'itérations.
preserveOrderBooléen, valeur par défaut : falseConservez l'ordre des instances.
fastBooléen, valeur par défaut : falsePermet de calculer plus rapidement les distances à l'aide de valeurs limites. Désactive le calcul/la sortie des erreurs/distances au carré.
seedEntier, par défaut : 10Graine de randomisation.