ফলাফল ব্যাখ্যা করুন এবং ক্লাস্টারিং সামঞ্জস্য করুন

যেহেতু ক্লাস্টারিং তত্ত্বাবধানহীন, ফলাফল যাচাই করার জন্য কোন "সত্য" উপলব্ধ নেই। সত্যের অনুপস্থিতি গুণমানের মূল্যায়নকে জটিল করে তোলে। আরও, বাস্তব-বিশ্বের ডেটাসেটগুলি সাধারণত চিত্র 1-এ দেখানো ডেটাসেটের মতো উদাহরণগুলির সুস্পষ্ট ক্লাস্টারে পড়ে না।

ডেটা পয়েন্টের তিনটি পরিষ্কার গ্রুপ দেখানো একটি গ্রাফ
চিত্র 1: একটি আদর্শ ডেটা প্লট; বাস্তব বিশ্বের তথ্য খুব কমই এই মত দেখায়.

দুঃখজনকভাবে, বাস্তব-বিশ্বের ডেটা চিত্র 2-এর মতো দেখায়, এটি ক্লাস্টারিংয়ের গুণমানকে দৃশ্যত মূল্যায়ন করা কঠিন করে তোলে।

র্যান্ডম ডেটা পয়েন্ট সহ একটি গ্রাফ
চিত্র 2: একটি সত্য-টু-লাইফ ডেটা প্লট

নীচের ফ্লোচার্টটি আপনার ক্লাস্টারিংয়ের গুণমান কীভাবে পরীক্ষা করবেন তা সংক্ষিপ্ত করে। আমরা নিম্নলিখিত বিভাগে সারাংশের উপর প্রসারিত করব।

যাচাইকরণ প্রক্রিয়ার ফ্লোচার্ট ভিজ্যুয়াল
এই চার্টের একটি বড় সংস্করণ দেখতে এখানে ক্লিক করুন.

প্রথম ধাপ: ক্লাস্টারিংয়ের গুণমান

ক্লাস্টারিংয়ের গুণমান পরীক্ষা করা একটি কঠোর প্রক্রিয়া নয় কারণ ক্লাস্টারিংয়ের "সত্য" নেই। এখানে নির্দেশিকা রয়েছে যা আপনি আপনার ক্লাস্টারিংয়ের গুণমান উন্নত করতে পুনরাবৃত্তিমূলকভাবে প্রয়োগ করতে পারেন।

প্রথমে, একটি ভিজ্যুয়াল চেক করুন যে ক্লাস্টারগুলি প্রত্যাশিত হিসাবে দেখায় এবং যে উদাহরণগুলিকে আপনি অনুরূপ বিবেচনা করেন একই ক্লাস্টারে উপস্থিত হয়৷ তারপর নিম্নলিখিত বিভাগগুলিতে বর্ণিত এই সাধারণভাবে ব্যবহৃত মেট্রিকগুলি পরীক্ষা করুন:

  • ক্লাস্টার কার্ডিনালিটি
  • ক্লাস্টার মাত্রা
  • ডাউনস্ট্রিম সিস্টেমের কর্মক্ষমতা
একটি বারচার্ট বেশ কয়েকটি ক্লাস্টারের মূলত্ব দেখাচ্ছে৷ কয়েকটি ক্লাস্টারে বড় পার্থক্য রয়েছে।
চিত্র 2: বেশ কয়েকটি ক্লাস্টারের মূলত্ব।

ক্লাস্টার কার্ডিনালিটি

ক্লাস্টার কার্ডিনালিটি হল প্রতি ক্লাস্টারে উদাহরণের সংখ্যা। সমস্ত ক্লাস্টারের জন্য ক্লাস্টার কার্ডিনালিটি প্লট করুন এবং ক্লাস্টারগুলি তদন্ত করুন যেগুলি প্রধান বহিরাগত। উদাহরণস্বরূপ, চিত্র 2-এ, ক্লাস্টার নম্বর 5 তদন্ত করুন।

একটি বারচার্ট বিভিন্ন ক্লাস্টারের মাত্রা দেখাচ্ছে৷ একটি ক্লাস্টারে অন্যান্য ক্লাস্টারের তুলনায় উল্লেখযোগ্যভাবে উচ্চ মাত্রা রয়েছে।
চিত্র 3: বেশ কয়েকটি ক্লাস্টারের মাত্রা।

ক্লাস্টার মাত্রা

ক্লাস্টার ম্যাগনিটিউড হল সমস্ত উদাহরণ থেকে ক্লাস্টারের সেন্ট্রয়েড পর্যন্ত দূরত্বের সমষ্টি। কার্ডিনালিটির অনুরূপ, ক্লাস্টার জুড়ে পরিমান কীভাবে পরিবর্তিত হয় তা পরীক্ষা করুন এবং অসঙ্গতিগুলি তদন্ত করুন। উদাহরণস্বরূপ, চিত্র 3-এ, ক্লাস্টার নম্বর 0 তদন্ত করুন।

একটি স্ক্যাটার প্লট যা বিভিন্ন ক্লাস্টারের জন্য মূলত্ব বনাম মাত্রা দেখাচ্ছে। একটি ক্লাস্টার হল প্লটের একটি আউটলায়ার।
চিত্র 4: কার্ডিনালিটি বনাম বিভিন্ন ক্লাস্টারের মাত্রা।

ম্যাগনিটিউড বনাম কার্ডিনালিটি

লক্ষ্য করুন যে একটি উচ্চ ক্লাস্টার কার্ডিনালিটি একটি উচ্চতর ক্লাস্টার পরিমানে পরিণত হয়, যা স্বজ্ঞাতভাবে বোঝা যায়। ক্লাস্টারগুলি অস্বাভাবিক হয় যখন কার্ডিনালিটি অন্যান্য ক্লাস্টারের সাথে আপেক্ষিক মাত্রার সাথে সম্পর্কযুক্ত হয় না। কার্ডিনালিটির বিরুদ্ধে মাত্রার প্লট করে অস্বাভাবিক ক্লাস্টার খুঁজুন। উদাহরণস্বরূপ, চিত্র 4-এ, ক্লাস্টার মেট্রিক্সে একটি লাইন ফিট করা দেখায় যে ক্লাস্টার নম্বর 0 অস্বাভাবিক।

ডাউনস্ট্রিম সিস্টেমের কর্মক্ষমতা

যেহেতু ক্লাস্টারিং আউটপুট প্রায়শই ডাউনস্ট্রিম ML সিস্টেমে ব্যবহৃত হয়, আপনার ক্লাস্টারিং প্রক্রিয়া পরিবর্তন হলে ডাউনস্ট্রিম সিস্টেমের কর্মক্ষমতা উন্নত হয় কিনা তা পরীক্ষা করুন। আপনার ডাউনস্ট্রিম পারফরম্যান্সের উপর প্রভাব আপনার ক্লাস্টারিংয়ের গুণমানের জন্য একটি বাস্তব-বিশ্বের পরীক্ষা প্রদান করে। অসুবিধা হল যে এই চেকটি সম্পাদন করা জটিল।

সমস্যা পাওয়া গেলে তদন্ত করার জন্য প্রশ্ন

আপনি যদি সমস্যা খুঁজে পান, তাহলে নিজেকে নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করে আপনার ডেটা প্রস্তুতি এবং সাদৃশ্য পরিমাপ পরীক্ষা করুন:

  • আপনার ডেটা স্কেল করা হয়?
  • আপনার মিল পরিমাপ সঠিক?
  • আপনার অ্যালগরিদম কি ডেটাতে অর্থপূর্ণ অর্থপূর্ণ ক্রিয়াকলাপ সম্পাদন করছে?
  • আপনার অ্যালগরিদমের অনুমান কি ডেটার সাথে মেলে?

ধাপ দুই: সাদৃশ্য পরিমাপের কর্মক্ষমতা

আপনার ক্লাস্টারিং অ্যালগরিদম আপনার সাদৃশ্য পরিমাপের মতোই ভাল। নিশ্চিত করুন যে আপনার মিল পরিমাপ বুদ্ধিমান ফলাফল প্রদান করে। সবচেয়ে সহজ চেক হল উদাহরণগুলির জোড়া সনাক্ত করা যা অন্যান্য জোড়ার তুলনায় কম বা বেশি অনুরূপ বলে পরিচিত। তারপর, প্রতিটি জোড়া উদাহরণের জন্য সাদৃশ্য পরিমাপ গণনা করুন। আরও অনুরূপ উদাহরণের জন্য সাদৃশ্য পরিমাপ কম অনুরূপ উদাহরণের জন্য মিল পরিমাপের চেয়ে বেশি তা নিশ্চিত করুন।

আপনার সাদৃশ্য পরিমাপ পরীক্ষা করার জন্য আপনি যে উদাহরণগুলি ব্যবহার করেন তা ডেটা সেটের প্রতিনিধি হওয়া উচিত। নিশ্চিত করুন যে আপনার সমস্ত উদাহরণের জন্য আপনার মিলের পরিমাপ রয়েছে। সতর্কতামূলক যাচাই নিশ্চিত করে যে আপনার মিলের পরিমাপ, ম্যানুয়াল বা তত্ত্বাবধানে, আপনার ডেটাসেট জুড়ে সামঞ্জস্যপূর্ণ। যদি আপনার সাদৃশ্য পরিমাপ কিছু উদাহরণের জন্য বেমানান হয়, তাহলে সেই উদাহরণগুলি অনুরূপ উদাহরণগুলির সাথে ক্লাস্টার করা হবে না।

আপনি যদি ভুল মিল সহ উদাহরণ খুঁজে পান, তাহলে আপনার মিলের পরিমাপ সম্ভবত সেই বৈশিষ্ট্যের ডেটা ক্যাপচার করে না যা সেই উদাহরণগুলিকে আলাদা করে। আপনার সাদৃশ্য পরিমাপের সাথে পরীক্ষা করুন এবং আপনি আরও সঠিক মিল পান কিনা তা নির্ধারণ করুন।

ধাপ তিন: ক্লাস্টারের সর্বোত্তম সংখ্যা

k-অর্থের জন্য আপনাকে আগে থেকেই \(k\) ক্লাস্টারের সংখ্যা নির্ধারণ করতে হবে। আপনি কিভাবে \(k\)এর সর্বোত্তম মান নির্ধারণ করবেন? \(k\) বাড়ানোর জন্য অ্যালগরিদম চালানোর চেষ্টা করুন এবং ক্লাস্টার মাত্রার যোগফল নোট করুন। \(k\)বাড়ার সাথে সাথে ক্লাস্টারগুলি ছোট হয়ে যায় এবং মোট দূরত্ব হ্রাস পায়। ক্লাস্টার সংখ্যার বিপরীতে এই দূরত্ব প্লট করুন।

চিত্র 4-এ যেমন দেখানো হয়েছে, একটি নির্দিষ্ট \(k\)এ, ক্ষতি হ্রাস \(k\)বৃদ্ধির সাথে প্রান্তিক হয়ে যায়। গাণিতিকভাবে, এটি মোটামুটি \(k\)যেখানে ঢাল -1 (\(\theta > 135^{\circ}\)) এর উপরে অতিক্রম করে। এই নির্দেশিকাটি সর্বোত্তম \(k\) এর জন্য একটি সঠিক মান নির্দেশ করে না তবে শুধুমাত্র একটি আনুমানিক মান। দেখানো প্লটের জন্য, সর্বোত্তম \(k\) হল আনুমানিক 11। আপনি যদি আরও দানাদার ক্লাস্টার পছন্দ করেন, তাহলে এই প্লটটিকে নির্দেশিকা হিসাবে ব্যবহার করে আপনি একটি উচ্চতর \(k\) বেছে নিতে পারেন।

ব্যবহৃত ক্লাস্টার বনাম ক্ষতি দেখানো একটি গ্রাফ। 10 টি ক্লাস্টারের কাছাকাছি না হওয়া পর্যন্ত ক্লাস্টারের সংখ্যা বৃদ্ধির সাথে সাথে ক্ষতি হ্রাস পায়
চিত্র 4: ক্ষতি বনাম ক্লাস্টার সংখ্যা