ee.Clusterer.wekaKMeans

के-मीन्स एल्गोरिदम का इस्तेमाल करके डेटा को क्लस्टर करें. यूक्लिडियन दूरी (डिफ़ॉल्ट) या मैनहैटन दूरी का इस्तेमाल किया जा सकता है. अगर मैनहैटन दूरी का इस्तेमाल किया जाता है, तो सेंट्रॉइड का हिसाब माध्य के बजाय कॉम्पोनेंट के हिसाब से मीडियन के तौर पर लगाया जाता है. ज़्यादा जानकारी के लिए, यह लेख पढ़ें:

डी॰ आर्थर, एस. Vassilvitskii: k-means++: the advantages of careful seeding. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

इस्तेमालरिटर्न
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)क्लस्टरर
आर्ग्यूमेंटटाइपविवरण
nClustersपूर्णांकक्लस्टर की संख्या.
initपूर्णांक, डिफ़ॉल्ट: 0इस्तेमाल करने के लिए, इनिशियलाइज़ेशन का तरीका. 0 = रैंडम, 1 = k-means++, 2 = कैनोपी, 3 = फ़ार्देस्ट फ़र्स्ट.
canopiesबूलियन, डिफ़ॉल्ट वैल्यू: falseदूरी के हिसाब लगाने की संख्या कम करने के लिए, कैनोपी का इस्तेमाल करें.
maxCandidatesपूर्णांक, डिफ़ॉल्ट: 100कैनोपी क्लस्टरिंग का इस्तेमाल करते समय, किसी भी समय मेमोरी में सेव रखने के लिए, ज़्यादा से ज़्यादा कैनोपी की संख्या. टी2 दूरी और डेटा की विशेषताओं के आधार पर यह तय किया जाएगा कि समय-समय पर और आखिर में छंटाई करने से पहले, कितनी कैनोपी बनाई जाएंगी. इससे मेमोरी का ज़्यादा इस्तेमाल हो सकता है. इस सेटिंग से, बड़ी संख्या में कैंडिडेट कैनोपी के मेमोरी इस्तेमाल करने से बचा जा सकता है.
periodicPruningपूर्णांक, डिफ़ॉल्ट: 10000कैनोपी क्लस्टरिंग का इस्तेमाल करते समय, कम घनत्व वाली कैनोपी को कितनी बार काटा जाए.
minDensityपूर्णांक, डिफ़ॉल्ट: 2कैनोपी क्लस्टरिंग का इस्तेमाल करते समय, कैनोपी की कम से कम डेंसिटी. इससे कम डेंसिटी होने पर, समय-समय पर कैनोपी को काटा जाएगा.
t1फ़्लोट, डिफ़ॉल्ट: -1.5कैनोपी क्लस्टरिंग का इस्तेमाल करते समय, T1 दूरी का इस्तेमाल किया जाता है. वैल्यू < 0 को T2 के लिए पॉज़िटिव मल्टीप्लायर के तौर पर लिया जाता है.
t2फ़्लोट, डिफ़ॉल्ट: -1कैनोपी क्लस्टरिंग का इस्तेमाल करते समय, T2 दूरी का इस्तेमाल किया जाता है. वैल्यू < 0 होने पर, एट्रिब्यूट के स्टैंडर्ड डेविएशन के आधार पर अनुमानित वैल्यू का इस्तेमाल किया जाता है.
distanceFunctionस्ट्रिंग, डिफ़ॉल्ट: "Euclidean"इस्तेमाल किया जाने वाला दूरी फ़ंक्शन. इसके विकल्प ये हैं: यूक्लिडियन और मैनहैटन.
maxIterationsपूर्णांक, डिफ़ॉल्ट: nullज़्यादा से ज़्यादा पुनरावृत्तियां.
preserveOrderबूलियन, डिफ़ॉल्ट वैल्यू: falseउदाहरणों का क्रम बनाए रखना.
fastबूलियन, डिफ़ॉल्ट वैल्यू: falseकट-ऑफ़ वैल्यू का इस्तेमाल करके, दूरी की गणना तेज़ी से करता है. इससे स्क्वेयर्ड गड़बड़ियों/दूरी की गिनती/आउटपुट बंद हो जाता है.
seedपूर्णांक, डिफ़ॉल्ट: 10रैंडमाइज़ेशन सीड.