ee.Clusterer.wekaKMeans

Grupuj dane za pomocą algorytmu k-średnich. Możesz użyć odległości euklidesowej (domyślnej) lub odległości Manhattan. Jeśli używana jest odległość Manhattan, centroidy są obliczane jako mediana poszczególnych komponentów, a nie średnia. Więcej informacji:

D. Arthur, S. Vassilvitskii: k-means++: the advantages of careful seeding. W: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

WykorzystanieZwroty
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Klasteryzator
ArgumentTypSzczegóły
nClustersLiczba całkowitaLiczba klastrów.
initLiczba całkowita, domyślnie: 0Metoda inicjowania do użycia. 0 = losowe, 1 = k-średnich++, 2 = baldachim, 3 = najdalsze pierwsze.
canopiesWartość logiczna, domyślnie: falseUżywaj baldachimów, aby zmniejszyć liczbę obliczeń odległości.
maxCandidatesLiczba całkowita, domyślnie: 100Maksymalna liczba potencjalnych baldachimów, które mają być przechowywane w pamięci w danym momencie podczas korzystania z klastrowania baldachimowego. Odległość T2 plus charakterystyka danych określają, ile potencjalnych grup zostanie utworzonych przed okresowym i ostatecznym przycinaniem, co może spowodować nadmierne zużycie pamięci. To ustawienie zapobiega zużywaniu pamięci przez dużą liczbę potencjalnych baldachimów.
periodicPruningLiczba całkowita, domyślnie: 10000Jak często przycinać korony o niskiej gęstości, gdy używasz klastrowania koron.
minDensityLiczba całkowita, domyślnie: 2Minimalna gęstość klastra, poniżej której klaster zostanie usunięty podczas okresowego usuwania.
t1Float, default: -1.5Odległość T1 do użycia podczas klastrowania z użyciem metody canopy. Wartość < 0 jest traktowana jako dodatni mnożnik dla T2.
t2Liczba zmiennoprzecinkowa, domyślnie: -1Odległość T2 do użycia podczas klastrowania za pomocą algorytmu Canopy. Wartości < 0 powodują użycie heurystyki opartej na odchyleniu standardowym atrybutu.
distanceFunctionCiąg znaków, domyślnie: „Euclidean”Funkcja odległości do użycia. Dostępne opcje to: Euclidean i Manhattan.
maxIterationsLiczba całkowita, domyślnie: nullMaksymalna liczba iteracji.
preserveOrderWartość logiczna, domyślnie: falseZachowaj kolejność instancji.
fastWartość logiczna, domyślnie: falseUmożliwia szybsze obliczanie odległości za pomocą wartości odcięcia. Wyłącza obliczanie i wyświetlanie błędów/odległości w postaci kwadratów.
seedLiczba całkowita, domyślnie: 10Wartość początkowa randomizacji.