मशीन लर्निंग ग्लॉसरी: क्लस्टर बनाने की सेवा

इस पेज में क्लस्टरिंग ग्लॉसरी के शब्द हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

A

कुल मिलाकर क्लस्टर बनाने की प्रक्रिया

#clustering

हैरारकी क्लस्टरिंग देखें.

C

सेंटरॉयड

#clustering

क्लस्टर का केंद्र, जैसा कि k-mean या k-median एल्गोरिदम से तय किया गया है. उदाहरण के लिए, अगर k 3 है, तो k-mean या k-मीडियन एल्गोरिदम को 3 सेंटरॉयड मिलते हैं.

सेंट्रॉइड-आधारित क्लस्टरिंग

#clustering

क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो डेटा को बिना क्रम वाले क्लस्टर में व्यवस्थित करती है. k-mean सबसे ज़्यादा इस्तेमाल किया जाने वाला सेंट्रोइड-आधारित क्लस्टरिंग एल्गोरिदम है.

हैरारिकल क्लस्टरिंग के एल्गोरिदम से उलटा.

क्लस्टरिंग

#clustering

मिलते-जुलते उदाहरण. इन्हें खास तौर पर, बिना निगरानी वाली लर्निंग के दौरान ग्रुप करना. सभी उदाहरणों को एक ग्रुप में रखने के बाद, एक व्यक्ति हर क्लस्टर का मतलब बता सकता है.

क्लस्टरिंग एल्गोरिदम के कई मॉडल मौजूद हैं. उदाहरण के लिए, k-mean एल्गोरिदम, सेंट्रॉइड से नज़दीक के आधार पर क्लस्टर के उदाहरण बनाता है, जैसा कि इस डायग्राम में दिया गया है:

दो-डाइमेंशन वाला ग्राफ़, जिसमें x-ऐक्सिस को 'पेड़ की चौड़ाई' के तौर पर और y-ऐक्सिस को 'पेड़ की ऊंचाई' के तौर पर लेबल किया गया है. ग्राफ़ में दो
          सेंट्रोइड और कई दर्ज़न डेटा पॉइंट हैं. डेटा पॉइंट को
 उनकी निकटता के आधार पर बांटा जाता है. इसका मतलब है कि एक सेंट्रोड के सबसे करीब के डेटा पॉइंट को 'क्लस्टर 1' की कैटगरी में रखा जाता है.
 हालांकि, दूसरे सेंट्रल के सबसे करीब मौजूद डेटा को, 'क्लस्टर 2' की कैटगरी में रखा जाता है.

फिर मानव शोधकर्ता इन क्लस्टर की समीक्षा कर सकता है. उदाहरण के लिए, क्लस्टर 1 को "बौने पेड़" के तौर पर और "2 को पूरे आकार के पेड़" के तौर पर लेबल करें.

दूसरे उदाहरण में, सेंटर पॉइंट से उदाहरण के तौर पर दूरी के आधार पर, क्लस्टरिंग एल्गोरिदम का इस्तेमाल किया जा सकता है. इसकी जानकारी यहां दी गई है:

डार्ट बोर्ड के बीच में छेदों की तरह, दर्जनों डेटा पॉइंट एक घुमावदार सर्कल में व्यवस्थित किए जाते हैं. डेटा पॉइंट के सबसे अंदरूनी हिस्से
 को 'क्लस्टर 1' की कैटगरी में रखा जाता है. बीच की रिंग को 'क्लस्टर 2' और सबसे बाहरी रिंग को 'क्लस्टर 3' की कैटगरी में रखा जाता है.

D

डिवाइडिंग क्लस्टरिंग

#clustering

हैरारकी क्लस्टरिंग देखें.

H

हैरारकील क्लस्टरिंग

#clustering

क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो क्लस्टर का एक ट्री बनाते हैं. हैरारकी क्लस्टर में पदानुक्रमिक डेटा शामिल किया जा सकता है, जैसे कि वनस्पति विज्ञान. हैरारकी क्लस्टरिंग एल्गोरिदम के दो टाइप होते हैं:

  • एग्रीगेटर क्लस्टरिंग में सबसे पहले हर उदाहरण को उसके क्लस्टर में शामिल किया जाता है. साथ ही, क्रम के हिसाब से क्रम में लगाने के लिए, सबसे पास के क्लस्टर को मर्ज किया जाता है.
  • डिवाइडिंग क्लस्टरिंग में पहले सभी उदाहरणों को एक क्लस्टर में बांटा जाता है. इसके बाद, क्लस्टर को हैरारकी ट्री में बांटा जाता है.

centroid-आधारित क्लस्टरिंग के साथ उलटा करें.

K

k-मीस

#clustering

लोकप्रिय क्लस्टरिंग एल्गोरिदम, जो उदाहरणों को बिना निगरानी वाले लर्निंग के ग्रुप में रखता है. k-means एल्गोरिदम मूल रूप से ये काम करता है:

  • बार-बार जानने पर, सबसे अच्छे k center पॉइंट (जिन्हें centroids कहा जाता है) तय होता है.
  • हर उदाहरण को सबसे नज़दीकी सेंट्रोइड पर असाइन करता है. एक ही केंद्र के सबसे नज़दीकी उदाहरण एक ही समूह से जुड़े हैं.

k-means एल्गोरिदम, हर उदाहरण से दूरी के कुल स्क्वेयर को कम से कम करने के लिए सेंट्रोड जगहों को चुनता है.

उदाहरण के लिए, कुत्तों की चौड़ाई के बारे में नीचे दी गई जानकारी देखें:

कई दर्जन डेटा पॉइंट वाला कार्टेशियन प्लॉट.

अगर k=3 है, तो k-me मतलब एल्गोरिदम तीन सेंत्रॉइड तय करेगा. हर उदाहरण अपने सबसे नज़दीकी सेंटरॉयड को असाइन किया जाता है, जिससे तीन ग्रुप बनते हैं:

पहले के उदाहरण में बताए गए कार्टेशियन प्लॉट, जिसमें तीन सेंट्रलॉइड को शामिल करके बनाया गया है.
          पिछले डेटा पॉइंट को तीन अलग-अलग ग्रुप में बांटा जाता है. हर ग्रुप में किसी खास सेंटरॉइड के सबसे करीब वाले डेटा पॉइंट होते हैं.

मान लें कि कोई निर्माता, छोटे, मध्यम, और बड़े स्वेटर वाले कुत्तों के लिए, सही साइज़ तय करना चाहता है. तीन सेंट्रोइड, क्लस्टर में हर कुत्ते की औसत ऊंचाई और औसत चौड़ाई की पहचान करते हैं. इसलिए, मैन्युफ़ैक्चरर को उन स्वेटर के हिसाब से साइज़ का साइज़ तय करना चाहिए. ध्यान दें कि आम तौर पर, क्लस्टर का सेंटरॉयड, क्लस्टर में नहीं होता है.

पिछले उदाहरण में सिर्फ़ दो सुविधाओं (ऊंचाई और चौड़ाई) वाले उदाहरणों के लिए k-मीन दिखाया गया है. ध्यान रखें कि k-mean, कई सुविधाओं के उदाहरण ग्रुप कर सकता है.

मीडियन

#clustering

क्लस्टरिंग एल्गोरिदम, k-mean से मिलता-जुलता है. दोनों के बीच असल अंतर यह है कि:

  • k-मीन में, सेंटरॉयड किसी सेंट्रोड उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के स्क्वेयर को कम करके तय किए जाते हैं.
  • k-मीडियन में, सेंट्रोइड को सेंट्रोड उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के योग को कम करके तय किया जाता है.

ध्यान रखें कि दूरी की परिभाषाएं भी अलग-अलग हैं:

  • k-मीन का मतलब है, सेंटरॉइड से उदाहरण के तौर पर यूक्लिडियन दूरी पर निर्भर करता है. (दो डाइमेंशन में, यूकलिडियन की दूरी का मतलब, हाइपॉटेन्यूस का हिसाब लगाने के लिए पाइथागोरियन थ्योरम का इस्तेमाल करना है.) उदाहरण के लिए, k-मीन की दूरी (2,2) और (5,-2) के बीच होगी:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-मीडियन का मतलब सेंट्रॉइड से लेकर उदाहरण तक मैनहैटन की दूरी पर होता है. यह दूरी हर डाइमेंशन में मौजूद सभी डेल्टा का योग है. उदाहरण के लिए, k-मीडियन (2,2) और (5,-2) के बीच की दूरी:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

रवि

समानता का माप

#clustering

क्लस्टरिंग एल्गोरिदम में, इस मेट्रिक से यह तय होता है कि नीचे दिए गए दो उदाहरण एक जैसे हैं या उनसे मिलते-जुलते हैं.

स्केचिंग

#clustering

बिना निगरानी वाली मशीन लर्निंग, एल्गोरिदम की एक कैटगरी, जो उदाहरणों में शुरुआती समानता का विश्लेषण करती है. स्केच बनाने के एल्गोरिदम, जगह के हिसाब से संवेदनशील हैश फ़ंक्शन का इस्तेमाल करके एक जैसे पॉइंट की पहचान करते हैं और फिर उन्हें बकेट में बकेट में बांट देते हैं.

स्केचिंग, बड़े डेटासेट पर समानता की गणनाओं के लिए ज़रूरी कंप्यूटेशन को कम कर देती है. डेटासेट में दिए गए उदाहरणों की हर एक जोड़ी में समानता का हिसाब लगाने के बजाय, हम सिर्फ़ हर बकेट में पॉइंट की हर जोड़ी के लिए समानता की गणना करते हैं.

गुरु

टाइम सीरीज़ का विश्लेषण

#clustering

कुछ समय के लिए इकट्ठा किए गए डेटा का विश्लेषण करने वाले, मशीन लर्निंग और आंकड़ों के सबफ़ील्ड. मशीन लर्निंग से जुड़ी कई तरह की समस्याओं के लिए टाइम सीरीज़ का विश्लेषण करना पड़ता है. इनमें वर्गीकरण, क्लस्टरिंग, पूर्वानुमान, और गड़बड़ी की पहचान शामिल है. उदाहरण के लिए, बिक्री के पुराने डेटा के आधार पर, सर्दियों के कोट की बिक्री का अनुमान लगाने के लिए, टाइम सीरीज़ विश्लेषण का इस्तेमाल किया जा सकता है.

U

बिना निगरानी वाली मशीन लर्निंग

#clustering
#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए मॉडल को ट्रेनिंग देना, जो आम तौर पर बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का सबसे आम इस्तेमाल, क्लस्टर डेटा को मिलते-जुलते उदाहरणों के ग्रुप में करना है. उदाहरण के लिए, बिना निगरानी वाली मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गानों को इकट्ठा कर सकती है. इन क्लस्टर की मदद से, मशीन लर्निंग के दूसरे एल्गोरिदम का इस्तेमाल किया जा सकता है. जैसे, संगीत के सुझाव देने वाली सेवा में. उपयोगी लेबल बहुत कम होने या उपलब्ध न होने पर, क्लस्टर बनाने में मदद मिल सकती है. उदाहरण के लिए, क्लस्टर में कई तरह के गलत इस्तेमाल और धोखाधड़ी जैसी चीज़ों से बने डेटा की मदद से, हम लोगों को डेटा को बेहतर तरीके से समझने में मदद कर सकते हैं.

निगरानी में रखे गए मशीन लर्निंग से उलट.