k-मीन के फ़ायदे
लागू करने में आसान.
बड़े डेटा सेट तक बढ़ता है.
ग्वारंटीज़ कन्वर्जेंस.
सेंट्रेड की पोज़िशन को वॉर्म-स्टार्ट कर सकता है.
नए उदाहरणों के हिसाब से आसानी से ढल जाते हैं.
यह अलग-अलग साइज़ और साइज़ के क्लस्टर के लिए सामान्य है, जैसे कि एलिप्टिकल क्लस्टर.
k-means सामान्यीकरण
क्लस्टर, अलग-अलग डेंसिटी और साइज़ के होने पर क्या होता है? पहली इमेज देखें. बाईं ओर मौजूद आसान क्लस्टर की तुलना, क्लस्टर के साथ करें. दाईं ओर मौजूद k-means वाले क्लस्टर से तुलना करें. तुलना करके पता चलता है कि कुछ डेटासेट के लिए k-means किस तरह गड़बड़ी कर सकते हैं.
सामान्य तरीके से असंतुलित होने वाले क्लस्टर जैसे कि इमेज 1 में दिखाए गए ग्रुप को क्लस्टर करने के लिए, आप k-mean को सामान्य बना सकते हैं. इमेज 2 में, लाइनें k-mean को सामान्य बनाने के बाद क्लस्टर की सीमाएं दिखाती हैं:
- बायां प्लॉट: कोई सामान्य ग्रुप नहीं है, जिसकी वजह से अनजाने क्लस्टर में बॉर्डर नहीं बनाया जा सकता.
- बीच के हिस्से की तस्वीर: अलग-अलग क्लस्टर की चौड़ाई की अनुमति दें. इससे, अलग-अलग साइज़ के कई क्लस्टर बन जाएंगे.
- दाईं ओर का प्लॉट: अलग-अलग क्लस्टर की चौड़ाई के अलावा, हर डाइमेंशन के लिए अलग-अलग चौड़ाई की अनुमति दें. इससे, सर्कुलर क्लस्टर के बजाय इलिप्टिकल का इस्तेमाल होगा, जिससे नतीजे में सुधार होगा.
हालांकि, इस कोर्स में आप k-mean को सामान्य बनाने के बारे में नहीं जान पाएंगे, लेकिन याद रखें कि k-means में बदलाव करना आपके लिए बहुत आसान है. k-means को सामान्य बनाने के बारे में जानकारी के लिए, कार्नेगी मेलन यूनिवर्सिटी के कार्लोस गेस्टिन की क्लस्टरिंग – के-मींस गॉसियन मिक्स मॉडल देखें.
k-means के नुकसान
मैन्युअल तरीके से \(k\) चुनना.
जैसा कि अनुवाद के नतीजों में मौजूद जानकारी में बताया गया है, सबसे सही (k) पेजों को ढूंढने के लिए, “लॉस बनाम क्लस्टर” प्लॉट का इस्तेमाल करें.
शुरुआत की वैल्यू पर निर्भर रहना.
कम \(k\)के लिए, आप अलग-अलग शुरुआती वैल्यू वाले k-mean कई बार चलाकर इस निर्भरता को कम कर सकते हैं और सबसे बेहतर नतीजा चुन सकते हैं. जैसे-जैसे \(k\)बढ़ता है, आपको k-mean के बेहतर वर्शन की ज़रूरत होती है, ताकि शुरुआती सेंट्रॉइड (जिन्हें k-mean sings कहा जाता है) के बेहतर मान चुनने के लिए. k- मीन के बीजों के बारे में पूरी चर्चा के लिए, K-Means Clustering के लिए लागू करने वाले बेहतर तरीकों के बारे में तुलना से M. एमर सेलेबी, हसन ए. किंगरावी, पैट्रिशियो ए. वेला.
अलग-अलग साइज़ और डेंसिटी से जुड़ा डेटा.
k-mean में डेटा को क्लस्टर करने में समस्या होती है, जहां क्लस्टर अलग-अलग साइज़ और डेंसिटी होते हैं. इस तरह के डेटा को इकट्ठा करने के लिए, आपको k-means को सामान्य बनाना होगा, जैसा कि फ़ायदे सेक्शन में बताया गया है.
अलग हटके चीज़ें करना.
सेंट्रोड को बाहरी एलिमेंट की मदद से खींचकर छोड़ा जा सकता है या अलग रखने वाले लोगों को नज़रअंदाज़ करने के बजाय, उनका अपना क्लस्टर मिल सकता है. क्लस्टरिंग से पहले आउटलायर हटाने या क्लिप करने पर विचार करें.
डाइमेंशन की संख्या बढ़ाना.
जैसे-जैसे डाइमेंशन की संख्या बढ़ती है, दूरी के आधार पर समानता का मेज़रमेंट, दिए गए उदाहरणों के बीच स्थायी वैल्यू के बराबर होता है. डाइमेंशन डेटा कम करने के लिए, सुविधा के डेटा पर पीसीए का इस्तेमाल करें या नीचे बताए गए तरीके से क्लस्टरिंग में बदलाव करने के लिए, “स्पेक्ट्रल क्लस्टरिंग” का इस्तेमाल करें.
डाइमेंशन और स्पेक्ट्रल क्लस्टरिंग का कर्स
ये प्लॉट दिखाते हैं कि डाइमेंशन की संख्या बढ़ने पर, उदाहरण के बीच तय की गई दूरी के औसत स्टैंडर्ड अनुपात का अनुपात कैसे कम होता है. इस कन्वर्ज़न का मतलब है कि अलग-अलग उदाहरणों के बीच के अंतर की वजह से k-means कम असरदार हो जाता है. हाई-डाइमेंशन वाले डेटा का यह नेगेटिव नतीजा, डाइमेंशन का कर्स कहा जाता है.
स्पेक्ट्रल क्लस्टरिंग एल्गोरिदम में पहले से क्लस्टर बनाने का चरण जोड़कर, डाइमेंशन के दायरे में आने से बचा जाता है:
- पीसीए का इस्तेमाल करके, फ़ीचर डेटा के डाइमेंशन कम करें.
- सभी डेटा पॉइंट को लो-डाइमेंशन वाले सबस्पेस में प्रोजेक्ट करें.
- अपने चुने गए एल्गोरिदम का इस्तेमाल करके, इस सबस्पेस में डेटा को शामिल करें.
इसलिए, स्पेक्ट्रल क्लस्टरिंग एक अलग क्लस्टरिंग एल्गोरिदम नहीं है, बल्कि यह पहले से मौजूद क्लस्टरिंग चरण है. इसे आप किसी भी क्लस्टरिंग एल्गोरिदम के साथ इस्तेमाल कर सकते हैं. स्पेक्ट्रल क्लस्टरिंग की जानकारी मुश्किल है. Ultroick von Luxberg का कोई ट्यूटोरियल देखें.