k- মানে সুবিধা এবং অসুবিধা

k-এর সুবিধা

বাস্তবায়ন করা তুলনামূলকভাবে সহজ।

বড় ডেটা সেটে স্কেল।

কনভারজেন্স গ্যারান্টি দেয়।

সেন্ট্রোয়েডের অবস্থান উষ্ণ-শুরু করতে পারে।

সহজে নতুন উদাহরণ মানিয়ে যায়.

উপবৃত্তাকার ক্লাস্টারের মতো বিভিন্ন আকার এবং আকারের ক্লাস্টারগুলিতে সাধারণীকরণ করে।

k- মানে সাধারণীকরণ

যখন ক্লাস্টারগুলি বিভিন্ন ঘনত্ব এবং আকারের হয় তখন কী ঘটে? চিত্র 1 দেখুন। বাম দিকের স্বজ্ঞাত ক্লাস্টারগুলিকে ডানদিকে k-মানে পাওয়া ক্লাস্টারগুলির সাথে তুলনা করুন। তুলনাটি দেখায় কিভাবে k-মান নির্দিষ্ট ডেটাসেটে হোঁচট খেতে পারে।

পাশাপাশি দুটি গ্রাফ। প্রথমটি কিছুটা সুস্পষ্ট ক্লাস্টার সহ একটি ডেটাসেট দেখাচ্ছে৷ দ্বিতীয়টি কে-মানে চালানোর পরে উদাহরণগুলির একটি বিজোড় গ্রুপিং দেখাচ্ছে৷
চিত্র 1: সাধারণহীন k- মানে উদাহরণ।

চিত্র 1-এ দেখানোর মতো প্রাকৃতিকভাবে ভারসাম্যহীন ক্লাস্টারগুলিকে ক্লাস্টার করতে, আপনি k-মানগুলিকে মানিয়ে নিতে পারেন (সাধারণ করতে)। চিত্র 2-এ, রেখাগুলি k-এর মানে সাধারণীকরণের পরে ক্লাস্টার সীমানা দেখায়:

  • বাম প্লট: কোন সাধারণীকরণ নেই, ফলে একটি অ-স্বজ্ঞাত ক্লাস্টার সীমানা।
  • কেন্দ্র প্লট: বিভিন্ন ক্লাস্টার প্রস্থের অনুমতি দিন, যার ফলে বিভিন্ন আকারের আরও স্বজ্ঞাত ক্লাস্টার হয়।
  • ডান প্লট: বিভিন্ন ক্লাস্টার প্রস্থের পাশাপাশি, প্রতি মাত্রায় বিভিন্ন প্রস্থের অনুমতি দিন, ফলস্বরূপ গোলাকার ক্লাস্টারের পরিবর্তে উপবৃত্তাকার হয়, ফলাফলের উন্নতি হয়।
পাশাপাশি দুটি গ্রাফ। প্রথমটি একটি গোলাকার ক্লাস্টার উদাহরণ এবং দ্বিতীয়টি একটি অ-গোলাকার ক্লাস্টার উদাহরণ।
চিত্র 2: একটি গোলাকার ক্লাস্টার উদাহরণ এবং একটি অ-গোলাকার ক্লাস্টার উদাহরণ।

যদিও এই কোর্সটি কীভাবে কে-মিন্সকে সাধারণীকরণ করতে হয় সে সম্পর্কে ঝাঁপিয়ে পড়ে না, তবে মনে রাখবেন যে কে-মান পরিবর্তন করার সহজতা এটি শক্তিশালী হওয়ার আরেকটি কারণ। কে-অর্থের সাধারণীকরণ সম্পর্কে তথ্যের জন্য, কার্নেগি মেলন ইউনিভার্সিটির কার্লোস গেস্ট্রিনের ক্লাস্টারিং – কে-মানে গাউসিয়ান মিশ্রণের মডেলগুলি দেখুন।

k-অর্থের অসুবিধা

\(k\) ম্যানুয়ালি নির্বাচন করা হচ্ছে।

"ক্ষতি বনাম ক্লাস্টার" প্লটটি ব্যবহার করুন সর্বোত্তম (k) খুঁজে পেতে, যেমনটি ব্যাখ্যা ফলাফলে আলোচনা করা হয়েছে।

প্রাথমিক মানগুলির উপর নির্ভরশীল হওয়া।

একটি কম \(k\)এর জন্য, আপনি বিভিন্ন প্রাথমিক মান সহ k-means চালিয়ে এবং সর্বোত্তম ফলাফল বাছাই করে এই নির্ভরতা কমাতে পারেন। \(k\)বাড়ার সাথে সাথে প্রাথমিক সেন্ট্রোয়েডগুলির আরও ভাল মান বাছাই করার জন্য আপনার k-means-এর উন্নত সংস্করণ প্রয়োজন (যাকে বলা হয় k-মানে সিডিং )। কে- মানে বীজের সম্পূর্ণ আলোচনার জন্য দেখুন, এম. এমরে সেলেবি, হাসান এ. কিংরাভি, প্যাট্রিসিও এ. ভেলা -এর কে-মিনস ক্লাস্টারিং অ্যালগরিদমের জন্য দক্ষ প্রাথমিক পদ্ধতির তুলনামূলক গবেষণা

বিভিন্ন আকার এবং ঘনত্বের ক্লাস্টারিং ডেটা।

k-মানে ডেটা ক্লাস্টার করতে সমস্যা হয় যেখানে ক্লাস্টারগুলি বিভিন্ন আকার এবং ঘনত্বের হয়। এই ধরনের ডেটা ক্লাস্টার করার জন্য, আপনাকে সুবিধা বিভাগে বর্ণিত k-মানগুলিকে সাধারণীকরণ করতে হবে।

ক্লাস্টারিং outliers.

সেন্ট্রোয়েডগুলি আউটলায়ারদের দ্বারা টেনে আনা যেতে পারে, বা আউটলায়াররা উপেক্ষা করার পরিবর্তে তাদের নিজস্ব ক্লাস্টার পেতে পারে। ক্লাস্টার করার আগে আউটলিয়ার অপসারণ বা ক্লিপ করার কথা বিবেচনা করুন।

মাত্রার সংখ্যা সহ স্কেলিং।

মাত্রার সংখ্যা বাড়ার সাথে সাথে, একটি দূরত্ব-ভিত্তিক সাদৃশ্য পরিমাপ যে কোনো প্রদত্ত উদাহরণের মধ্যে একটি ধ্রুবক মানকে রূপান্তরিত করে। বৈশিষ্ট্য ডেটাতে পিসিএ ব্যবহার করে, অথবা নীচে ব্যাখ্যা করা ক্লাস্টারিং অ্যালগরিদম সংশোধন করতে "বর্ণালী ক্লাস্টারিং" ব্যবহার করে মাত্রিকতা হ্রাস করুন।

মাত্রিকতা এবং বর্ণালী ক্লাস্টারিংয়ের অভিশাপ

এই প্লটগুলি দেখায় কিভাবে উদাহরণগুলির মধ্যে দূরত্বের গড় এবং মাত্রার সংখ্যা বৃদ্ধির সাথে সাথে আদর্শ বিচ্যুতির অনুপাত হ্রাস পায়। এই কনভারজেন্স মানে উদাহরণগুলির মধ্যে পার্থক্য করার ক্ষেত্রে k- মানে কম কার্যকর হয়। উচ্চ-মাত্রিক ডেটার এই নেতিবাচক পরিণতিকে বলা হয় মাত্রিকতার অভিশাপ।

তিনটি প্লট যা দেখায় কিভাবে উদাহরণগুলির মধ্যে দূরত্বের মানক বিচ্যুতি মাত্রার সংখ্যা বাড়ার সাথে সাথে হ্রাস পায়
চিত্র 3: মাত্রিকতার অভিশাপের একটি প্রদর্শন। প্রতিটি প্লট 200 র্যান্ডম পয়েন্টের মধ্যে জোড়ার মতো দূরত্ব দেখায়।

স্পেকট্রাল ক্লাস্টারিং আপনার অ্যালগরিদমে একটি প্রাক-ক্লাস্টারিং ধাপ যুক্ত করে মাত্রিকতার অভিশাপ এড়ায়:

  1. PCA ব্যবহার করে ফিচার ডেটার মাত্রা কমিয়ে দিন।
  2. নিম্ন-মাত্রিক সাবস্পেসে সমস্ত ডেটা পয়েন্ট প্রজেক্ট করুন।
  3. আপনার নির্বাচিত অ্যালগরিদম ব্যবহার করে এই সাবস্পেসে ডেটা ক্লাস্টার করুন।

অতএব, বর্ণালী ক্লাস্টারিং একটি পৃথক ক্লাস্টারিং অ্যালগরিদম নয় বরং একটি প্রাক-ক্লাস্টারিং পদক্ষেপ যা আপনি যেকোনো ক্লাস্টারিং অ্যালগরিদমের সাথে ব্যবহার করতে পারেন। বর্ণালী ক্লাস্টারিংয়ের বিবরণ জটিল। উলরিক ভন লাক্সবার্গের স্পেকট্রাল ক্লাস্টারিং-এর উপর একটি টিউটোরিয়াল দেখুন।