ee.Clusterer.wekaKMeans

Daten mit dem k-Means-Algorithmus in Clustern gruppieren. Sie können entweder die euklidische Distanz (Standard) oder die Manhattan-Distanz verwenden. Wenn die Manhattan-Distanz verwendet wird, werden die Schwerpunkte als komponentenweiser Median und nicht als Mittelwert berechnet. Weitere Informationen erhalten Sie hier:

D. Arthur, S. Vassilvitskii: k-means++: the advantages of careful seeding. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

NutzungAusgabe
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
ArgumentTypDetails
nClustersGanzzahlAnzahl der Cluster.
initGanzzahl, Standardwert: 0Zu verwendende Initialisierungsmethode. 0 = zufällig, 1 = k-means++, 2 = Canopy, 3 = Farthest First.
canopiesBoolescher Wert, Standard: „false“Verwenden Sie Canopies, um die Anzahl der Distanzberechnungen zu reduzieren.
maxCandidatesGanzzahl, Standard: 100Maximale Anzahl von Kandidaten-Canopies, die bei der Verwendung von Canopy-Clustering gleichzeitig im Arbeitsspeicher behalten werden sollen. Der T2-Abstand plus die Datenmerkmale bestimmen, wie viele Kandidaten-Canopies gebildet werden, bevor das regelmäßige und das endgültige Bereinigen durchgeführt werden. Dies kann zu einem übermäßigen Speicherverbrauch führen. Diese Einstellung verhindert, dass eine große Anzahl von Kandidaten-Canopies Speicherplatz belegt.
periodicPruningGanzzahl, Standard: 10.000Wie oft sollten dünne Baumkronen bei Verwendung von Canopy-Clustering beschnitten werden?
minDensityGanzzahl, Standard: 2Die Mindestdichte des Baldachs, unter der ein Baldach beim regelmäßigen Bereinigen entfernt wird, wenn das Baldach-Clustering verwendet wird.
t1Gleitkommazahl, Standardwert: -1,5Der T1-Abstand, der beim Canopy-Clustering verwendet werden soll. Ein Wert < 0 wird als positiver Multiplikator für T2 verwendet.
t2Gleitkommazahl, Standardwert: -1Der T2-Abstand, der beim Canopy-Clustering verwendet werden soll. Bei Werten < 0 wird eine Heuristik basierend auf der Standardabweichung des Attributs verwendet.
distanceFunctionString, Standard: „Euclidean“Zu verwendende Distanzfunktion. Folgende Optionen sind verfügbar: „Euklidisch“ und „Manhattan“.
maxIterationsGanzzahl, Standard: nullMaximale Anzahl an Iterationen.
preserveOrderBoolescher Wert, Standard: „false“Reihenfolge der Instanzen beibehalten.
fastBoolescher Wert, Standard: „false“Ermöglicht schnellere Distanzberechnungen mithilfe von Grenzwerten. Deaktiviert die Berechnung/Ausgabe von quadratischen Fehlern/Distanzen.
seedGanzzahl, Standard: 10Der Randomisierungs-Seed.