k-मींस के फ़ायदे और नुकसान

k-मीन के फ़ायदे

लागू करने में आसान.

बड़े डेटा सेट तक बढ़ता है.

ग्वारंटीज़ कन्वर्जेंस.

सेंट्रेड की पोज़िशन को वॉर्म-स्टार्ट कर सकता है.

नए उदाहरणों के हिसाब से आसानी से ढल जाते हैं.

यह अलग-अलग साइज़ और साइज़ के क्लस्टर के लिए सामान्य है, जैसे कि एलिप्टिकल क्लस्टर.

k-means सामान्यीकरण

क्लस्टर, अलग-अलग डेंसिटी और साइज़ के होने पर क्या होता है? पहली इमेज देखें. बाईं ओर मौजूद आसान क्लस्टर की तुलना, क्लस्टर के साथ करें. दाईं ओर मौजूद k-means वाले क्लस्टर से तुलना करें. तुलना करके पता चलता है कि कुछ डेटासेट के लिए k-means किस तरह गड़बड़ी कर सकते हैं.

एक-साथ दो ग्राफ़. पहला, डेटासेट को कुछ हद तक क्लस्टर वाला डेटासेट दिखा रहा है. दूसरा, k-मीन चलाने के बाद उदाहरणों का एक अनोखा ग्रुप दिखा रहा है.
पहली इमेज: के-मीन का एक सामान्य उदाहरण.

सामान्य तरीके से असंतुलित होने वाले क्लस्टर जैसे कि इमेज 1 में दिखाए गए ग्रुप को क्लस्टर करने के लिए, आप k-mean को सामान्य बना सकते हैं. इमेज 2 में, लाइनें k-mean को सामान्य बनाने के बाद क्लस्टर की सीमाएं दिखाती हैं:

  • बायां प्लॉट: कोई सामान्य ग्रुप नहीं है, जिसकी वजह से अनजाने क्लस्टर में बॉर्डर नहीं बनाया जा सकता.
  • बीच के हिस्से की तस्वीर: अलग-अलग क्लस्टर की चौड़ाई की अनुमति दें. इससे, अलग-अलग साइज़ के कई क्लस्टर बन जाएंगे.
  • दाईं ओर का प्लॉट: अलग-अलग क्लस्टर की चौड़ाई के अलावा, हर डाइमेंशन के लिए अलग-अलग चौड़ाई की अनुमति दें. इससे, सर्कुलर क्लस्टर के बजाय इलिप्टिकल का इस्तेमाल होगा, जिससे नतीजे में सुधार होगा.
एक-साथ दो ग्राफ़. पहला गोलाकार क्लस्टर का उदाहरण और दूसरा गैर-स्फ़ेरिकल क्लस्टर का उदाहरण.
दूसरी इमेज: गोलाकार क्लस्टर का उदाहरण और गैर-स्फ़ेरिकल क्लस्टर का उदाहरण.

हालांकि, इस कोर्स में आप k-mean को सामान्य बनाने के बारे में नहीं जान पाएंगे, लेकिन याद रखें कि k-means में बदलाव करना आपके लिए बहुत आसान है. k-means को सामान्य बनाने के बारे में जानकारी के लिए, कार्नेगी मेलन यूनिवर्सिटी के कार्लोस गेस्टिन की क्लस्टरिंग – के-मींस गॉसियन मिक्स मॉडल देखें.

k-means के नुकसान

मैन्युअल तरीके से \(k\) चुनना.

जैसा कि अनुवाद के नतीजों में मौजूद जानकारी में बताया गया है, सबसे सही (k) पेजों को ढूंढने के लिए, “लॉस बनाम क्लस्टर” प्लॉट का इस्तेमाल करें.

शुरुआत की वैल्यू पर निर्भर रहना.

कम \(k\)के लिए, आप अलग-अलग शुरुआती वैल्यू वाले k-mean कई बार चलाकर इस निर्भरता को कम कर सकते हैं और सबसे बेहतर नतीजा चुन सकते हैं. जैसे-जैसे \(k\)बढ़ता है, आपको k-mean के बेहतर वर्शन की ज़रूरत होती है, ताकि शुरुआती सेंट्रॉइड (जिन्हें k-mean sings कहा जाता है) के बेहतर मान चुनने के लिए. k- मीन के बीजों के बारे में पूरी चर्चा के लिए, K-Means Clustering के लिए लागू करने वाले बेहतर तरीकों के बारे में तुलना से M. एमर सेलेबी, हसन ए. किंगरावी, पैट्रिशियो ए. वेला.

अलग-अलग साइज़ और डेंसिटी से जुड़ा डेटा.

k-mean में डेटा को क्लस्टर करने में समस्या होती है, जहां क्लस्टर अलग-अलग साइज़ और डेंसिटी होते हैं. इस तरह के डेटा को इकट्ठा करने के लिए, आपको k-means को सामान्य बनाना होगा, जैसा कि फ़ायदे सेक्शन में बताया गया है.

अलग हटके चीज़ें करना.

सेंट्रोड को बाहरी एलिमेंट की मदद से खींचकर छोड़ा जा सकता है या अलग रखने वाले लोगों को नज़रअंदाज़ करने के बजाय, उनका अपना क्लस्टर मिल सकता है. क्लस्टरिंग से पहले आउटलायर हटाने या क्लिप करने पर विचार करें.

डाइमेंशन की संख्या बढ़ाना.

जैसे-जैसे डाइमेंशन की संख्या बढ़ती है, दूरी के आधार पर समानता का मेज़रमेंट, दिए गए उदाहरणों के बीच स्थायी वैल्यू के बराबर होता है. डाइमेंशन डेटा कम करने के लिए, सुविधा के डेटा पर पीसीए का इस्तेमाल करें या नीचे बताए गए तरीके से क्लस्टरिंग में बदलाव करने के लिए, “स्पेक्ट्रल क्लस्टरिंग” का इस्तेमाल करें.

डाइमेंशन और स्पेक्ट्रल क्लस्टरिंग का कर्स

ये प्लॉट दिखाते हैं कि डाइमेंशन की संख्या बढ़ने पर, उदाहरण के बीच तय की गई दूरी के औसत स्टैंडर्ड अनुपात का अनुपात कैसे कम होता है. इस कन्वर्ज़न का मतलब है कि अलग-अलग उदाहरणों के बीच के अंतर की वजह से k-means कम असरदार हो जाता है. हाई-डाइमेंशन वाले डेटा का यह नेगेटिव नतीजा, डाइमेंशन का कर्स कहा जाता है.

तीन प्लॉट जो दिखाते हैं कि उदाहरणों के बीच की दूरी का स्टैंडर्ड डिवीज़न किस तरह डाइमेंशन की संख्या बढ़ने के साथ कम होता है
तीसरी इमेज: डाइमेंशन के कर्सर को दिखाने की जानकारी. हर प्लॉट, 200 रैंडम पॉइंट के बीच की जोड़ी की जोड़ी की दूरी दिखाता है.

स्पेक्ट्रल क्लस्टरिंग एल्गोरिदम में पहले से क्लस्टर बनाने का चरण जोड़कर, डाइमेंशन के दायरे में आने से बचा जाता है:

  1. पीसीए का इस्तेमाल करके, फ़ीचर डेटा के डाइमेंशन कम करें.
  2. सभी डेटा पॉइंट को लो-डाइमेंशन वाले सबस्पेस में प्रोजेक्ट करें.
  3. अपने चुने गए एल्गोरिदम का इस्तेमाल करके, इस सबस्पेस में डेटा को शामिल करें.

इसलिए, स्पेक्ट्रल क्लस्टरिंग एक अलग क्लस्टरिंग एल्गोरिदम नहीं है, बल्कि यह पहले से मौजूद क्लस्टरिंग चरण है. इसे आप किसी भी क्लस्टरिंग एल्गोरिदम के साथ इस्तेमाल कर सकते हैं. स्पेक्ट्रल क्लस्टरिंग की जानकारी मुश्किल है. Ultroick von Luxberg का कोई ट्यूटोरियल देखें.