इस पेज में क्लस्टरिंग ग्लॉसरी के शब्द हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
A
कुल मिलाकर क्लस्टर बनाने की प्रक्रिया
हैरारकी क्लस्टरिंग देखें.
C
सेंटरॉयड
क्लस्टर का केंद्र, जैसा कि k-mean या k-median एल्गोरिदम से तय किया गया है. उदाहरण के लिए, अगर k 3 है, तो k-mean या k-मीडियन एल्गोरिदम को 3 सेंटरॉयड मिलते हैं.
सेंट्रॉइड-आधारित क्लस्टरिंग
क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो डेटा को बिना क्रम वाले क्लस्टर में व्यवस्थित करती है. k-mean सबसे ज़्यादा इस्तेमाल किया जाने वाला सेंट्रोइड-आधारित क्लस्टरिंग एल्गोरिदम है.
हैरारिकल क्लस्टरिंग के एल्गोरिदम से उलटा.
क्लस्टरिंग
मिलते-जुलते उदाहरण. इन्हें खास तौर पर, बिना निगरानी वाली लर्निंग के दौरान ग्रुप करना. सभी उदाहरणों को एक ग्रुप में रखने के बाद, एक व्यक्ति हर क्लस्टर का मतलब बता सकता है.
क्लस्टरिंग एल्गोरिदम के कई मॉडल मौजूद हैं. उदाहरण के लिए, k-mean एल्गोरिदम, सेंट्रॉइड से नज़दीक के आधार पर क्लस्टर के उदाहरण बनाता है, जैसा कि इस डायग्राम में दिया गया है:
फिर मानव शोधकर्ता इन क्लस्टर की समीक्षा कर सकता है. उदाहरण के लिए, क्लस्टर 1 को "बौने पेड़" के तौर पर और "2 को पूरे आकार के पेड़" के तौर पर लेबल करें.
दूसरे उदाहरण में, सेंटर पॉइंट से उदाहरण के तौर पर दूरी के आधार पर, क्लस्टरिंग एल्गोरिदम का इस्तेमाल किया जा सकता है. इसकी जानकारी यहां दी गई है:
D
डिवाइडिंग क्लस्टरिंग
हैरारकी क्लस्टरिंग देखें.
H
हैरारकील क्लस्टरिंग
क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो क्लस्टर का एक ट्री बनाते हैं. हैरारकी क्लस्टर में पदानुक्रमिक डेटा शामिल किया जा सकता है, जैसे कि वनस्पति विज्ञान. हैरारकी क्लस्टरिंग एल्गोरिदम के दो टाइप होते हैं:
- एग्रीगेटर क्लस्टरिंग में सबसे पहले हर उदाहरण को उसके क्लस्टर में शामिल किया जाता है. साथ ही, क्रम के हिसाब से क्रम में लगाने के लिए, सबसे पास के क्लस्टर को मर्ज किया जाता है.
- डिवाइडिंग क्लस्टरिंग में पहले सभी उदाहरणों को एक क्लस्टर में बांटा जाता है. इसके बाद, क्लस्टर को हैरारकी ट्री में बांटा जाता है.
centroid-आधारित क्लस्टरिंग के साथ उलटा करें.
K
k-मीस
लोकप्रिय क्लस्टरिंग एल्गोरिदम, जो उदाहरणों को बिना निगरानी वाले लर्निंग के ग्रुप में रखता है. k-means एल्गोरिदम मूल रूप से ये काम करता है:
- बार-बार जानने पर, सबसे अच्छे k center पॉइंट (जिन्हें centroids कहा जाता है) तय होता है.
- हर उदाहरण को सबसे नज़दीकी सेंट्रोइड पर असाइन करता है. एक ही केंद्र के सबसे नज़दीकी उदाहरण एक ही समूह से जुड़े हैं.
k-means एल्गोरिदम, हर उदाहरण से दूरी के कुल स्क्वेयर को कम से कम करने के लिए सेंट्रोड जगहों को चुनता है.
उदाहरण के लिए, कुत्तों की चौड़ाई के बारे में नीचे दी गई जानकारी देखें:
अगर k=3 है, तो k-me मतलब एल्गोरिदम तीन सेंत्रॉइड तय करेगा. हर उदाहरण अपने सबसे नज़दीकी सेंटरॉयड को असाइन किया जाता है, जिससे तीन ग्रुप बनते हैं:
मान लें कि कोई निर्माता, छोटे, मध्यम, और बड़े स्वेटर वाले कुत्तों के लिए, सही साइज़ तय करना चाहता है. तीन सेंट्रोइड, क्लस्टर में हर कुत्ते की औसत ऊंचाई और औसत चौड़ाई की पहचान करते हैं. इसलिए, मैन्युफ़ैक्चरर को उन स्वेटर के हिसाब से साइज़ का साइज़ तय करना चाहिए. ध्यान दें कि आम तौर पर, क्लस्टर का सेंटरॉयड, क्लस्टर में नहीं होता है.
पिछले उदाहरण में सिर्फ़ दो सुविधाओं (ऊंचाई और चौड़ाई) वाले उदाहरणों के लिए k-मीन दिखाया गया है. ध्यान रखें कि k-mean, कई सुविधाओं के उदाहरण ग्रुप कर सकता है.
मीडियन
क्लस्टरिंग एल्गोरिदम, k-mean से मिलता-जुलता है. दोनों के बीच असल अंतर यह है कि:
- k-मीन में, सेंटरॉयड किसी सेंट्रोड उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के स्क्वेयर को कम करके तय किए जाते हैं.
- k-मीडियन में, सेंट्रोइड को सेंट्रोड उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के योग को कम करके तय किया जाता है.
ध्यान रखें कि दूरी की परिभाषाएं भी अलग-अलग हैं:
- k-मीन का मतलब है, सेंटरॉइड से उदाहरण के तौर पर यूक्लिडियन दूरी पर निर्भर करता है. (दो डाइमेंशन में, यूकलिडियन की दूरी का मतलब, हाइपॉटेन्यूस का हिसाब लगाने के लिए पाइथागोरियन थ्योरम का इस्तेमाल करना है.) उदाहरण के लिए, k-मीन की दूरी (2,2) और (5,-2) के बीच होगी:
- k-मीडियन का मतलब सेंट्रॉइड से लेकर उदाहरण तक मैनहैटन की दूरी पर होता है. यह दूरी हर डाइमेंशन में मौजूद सभी डेल्टा का योग है. उदाहरण के लिए, k-मीडियन (2,2) और (5,-2) के बीच की दूरी:
रवि
समानता का माप
क्लस्टरिंग एल्गोरिदम में, इस मेट्रिक से यह तय होता है कि नीचे दिए गए दो उदाहरण एक जैसे हैं या उनसे मिलते-जुलते हैं.
स्केचिंग
बिना निगरानी वाली मशीन लर्निंग, एल्गोरिदम की एक कैटगरी, जो उदाहरणों में शुरुआती समानता का विश्लेषण करती है. स्केच बनाने के एल्गोरिदम, जगह के हिसाब से संवेदनशील हैश फ़ंक्शन का इस्तेमाल करके एक जैसे पॉइंट की पहचान करते हैं और फिर उन्हें बकेट में बकेट में बांट देते हैं.
स्केचिंग, बड़े डेटासेट पर समानता की गणनाओं के लिए ज़रूरी कंप्यूटेशन को कम कर देती है. डेटासेट में दिए गए उदाहरणों की हर एक जोड़ी में समानता का हिसाब लगाने के बजाय, हम सिर्फ़ हर बकेट में पॉइंट की हर जोड़ी के लिए समानता की गणना करते हैं.
गुरु
टाइम सीरीज़ का विश्लेषण
कुछ समय के लिए इकट्ठा किए गए डेटा का विश्लेषण करने वाले, मशीन लर्निंग और आंकड़ों के सबफ़ील्ड. मशीन लर्निंग से जुड़ी कई तरह की समस्याओं के लिए टाइम सीरीज़ का विश्लेषण करना पड़ता है. इनमें वर्गीकरण, क्लस्टरिंग, पूर्वानुमान, और गड़बड़ी की पहचान शामिल है. उदाहरण के लिए, बिक्री के पुराने डेटा के आधार पर, सर्दियों के कोट की बिक्री का अनुमान लगाने के लिए, टाइम सीरीज़ विश्लेषण का इस्तेमाल किया जा सकता है.
U
बिना निगरानी वाली मशीन लर्निंग
किसी डेटासेट में पैटर्न ढूंढने के लिए मॉडल को ट्रेनिंग देना, जो आम तौर पर बिना लेबल वाला डेटासेट होता है.
बिना निगरानी वाली मशीन लर्निंग का सबसे आम इस्तेमाल, क्लस्टर डेटा को मिलते-जुलते उदाहरणों के ग्रुप में करना है. उदाहरण के लिए, बिना निगरानी वाली मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गानों को इकट्ठा कर सकती है. इन क्लस्टर की मदद से, मशीन लर्निंग के दूसरे एल्गोरिदम का इस्तेमाल किया जा सकता है. जैसे, संगीत के सुझाव देने वाली सेवा में. उपयोगी लेबल बहुत कम होने या उपलब्ध न होने पर, क्लस्टर बनाने में मदद मिल सकती है. उदाहरण के लिए, क्लस्टर में कई तरह के गलत इस्तेमाल और धोखाधड़ी जैसी चीज़ों से बने डेटा की मदद से, हम लोगों को डेटा को बेहतर तरीके से समझने में मदद कर सकते हैं.
निगरानी में रखे गए मशीन लर्निंग से उलट.