ক্লাস্টারিং কি?

আপনি যখন কিছু সম্পর্কে শেখার চেষ্টা করছেন, সঙ্গীত বলুন, একটি পদ্ধতি হতে পারে অর্থপূর্ণ গোষ্ঠী বা সংগ্রহগুলি সন্ধান করা। আপনি শৈলী অনুসারে সঙ্গীত সংগঠিত করতে পারেন, যখন আপনার বন্ধু দশকের মধ্যে সঙ্গীত সংগঠিত করতে পারে। আপনি কীভাবে আইটেমগুলিকে গোষ্ঠীবদ্ধ করতে চান তা আপনাকে সঙ্গীতের পৃথক অংশ হিসাবে সেগুলি সম্পর্কে আরও বুঝতে সহায়তা করে। আপনি খুঁজে পেতে পারেন যে আপনার পাঙ্ক রকের সাথে গভীর সখ্যতা রয়েছে এবং বিভিন্ন অবস্থান থেকে বিভিন্ন পদ্ধতি বা সঙ্গীতে জেনারটিকে আরও ভেঙে ফেলুন। অন্যদিকে, আপনার বন্ধু 1980-এর দশকের সঙ্গীতের দিকে তাকাতে পারে এবং বুঝতে সক্ষম হতে পারে যে সেই সময়ে বিভিন্ন ধারার সঙ্গীত কীভাবে আর্থ-রাজনৈতিক জলবায়ু দ্বারা প্রভাবিত হয়েছিল। উভয় ক্ষেত্রেই, আপনি এবং আপনার বন্ধু সঙ্গীত সম্পর্কে আকর্ষণীয় কিছু শিখেছেন, যদিও আপনি বিভিন্ন পদ্ধতি গ্রহণ করেছেন।

মেশিন লার্নিংয়েও, আমরা প্রায়শই একটি মেশিন লার্নিং সিস্টেমে একটি বিষয় (ডেটা সেট) বোঝার প্রথম ধাপ হিসাবে উদাহরণগুলিকে গোষ্ঠীভুক্ত করি। লেবেলবিহীন উদাহরণগুলিকে গোষ্ঠীবদ্ধ করাকে ক্লাস্টারিং বলা হয়।

উদাহরণগুলি লেবেলবিহীন থাকায়, ক্লাস্টারিং তত্ত্বাবধানহীন মেশিন লার্নিংয়ের উপর নির্ভর করে। যদি উদাহরণগুলি লেবেল করা হয়, তাহলে ক্লাস্টারিং শ্রেণীবিভাগ হয়ে যায়। তত্ত্বাবধানে থাকা এবং তত্ত্বাবধানহীন পদ্ধতিগুলির আরও বিশদ আলোচনার জন্য মেশিন লার্নিং সমস্যা ফ্রেমিংয়ের ভূমিকা দেখুন।

তিনটি ক্লাস্টার প্রদর্শন করা একটি গ্রাফ
চিত্র 1: লেবেলবিহীন উদাহরণ তিনটি ক্লাস্টারে বিভক্ত।

আপনি অনুরূপ উদাহরণ গোষ্ঠীভুক্ত করার আগে, আপনাকে প্রথমে অনুরূপ উদাহরণগুলি খুঁজে বের করতে হবে। আপনি উদাহরণগুলির বৈশিষ্ট্য ডেটাকে একটি মেট্রিকে একত্রিত করে উদাহরণগুলির মধ্যে সাদৃশ্য পরিমাপ করতে পারেন, যাকে বলা হয় মিলের পরিমাপ ৷ যখন প্রতিটি উদাহরণ এক বা দুটি বৈশিষ্ট্য দ্বারা সংজ্ঞায়িত করা হয়, তখন সাদৃশ্য পরিমাপ করা সহজ। উদাহরণস্বরূপ, আপনি তাদের লেখকদের অনুরূপ বই খুঁজে পেতে পারেন। বৈশিষ্ট্যের সংখ্যা বাড়ার সাথে সাথে একটি সাদৃশ্য পরিমাপ তৈরি করা আরও জটিল হয়ে ওঠে। আমরা পরে দেখব কিভাবে বিভিন্ন পরিস্থিতিতে একটি সাদৃশ্য পরিমাপ তৈরি করা যায়।

ক্লাস্টারিং এর ব্যবহার কি কি?

বিভিন্ন শিল্পে ক্লাস্টারিংয়ের অগণিত ব্যবহার রয়েছে। ক্লাস্টারিংয়ের জন্য কিছু সাধারণ অ্যাপ্লিকেশনগুলির মধ্যে নিম্নলিখিতগুলি অন্তর্ভুক্ত রয়েছে:

  • বাজার বিভাজন
  • সামাজিক নেটওয়ার্ক বিশ্লেষণ
  • অনুসন্ধান ফলাফল গ্রুপিং
  • মেডিকেল ইমেজিং
  • ইমেজ বিভাজন
  • অসঙ্গতি সনাক্তকরণ

ক্লাস্টার করার পরে, প্রতিটি ক্লাস্টারকে একটি নম্বর বরাদ্দ করা হয় যাকে ক্লাস্টার আইডি বলা হয়। এখন, আপনি একটি উদাহরণের জন্য সেট করা সম্পূর্ণ বৈশিষ্ট্যটিকে এর ক্লাস্টার আইডিতে ঘনীভূত করতে পারেন। একটি সাধারণ ক্লাস্টার আইডি দ্বারা একটি জটিল উদাহরণ উপস্থাপন করা ক্লাস্টারিংকে শক্তিশালী করে তোলে। ধারণাটি প্রসারিত করে, ক্লাস্টারিং ডেটা বড় ডেটাসেটগুলিকে সহজ করতে পারে।

উদাহরণস্বরূপ, আপনি নিম্নলিখিত উদাহরণগুলিতে প্রদর্শিত বিভিন্ন বৈশিষ্ট্য দ্বারা আইটেমগুলিকে গোষ্ঠীভুক্ত করতে পারেন:

উদাহরণ
  • উজ্জ্বলতা দ্বারা দল তারা.
  • একটি শ্রেণীবিন্যাস মধ্যে জেনেটিক তথ্য দ্বারা গোষ্ঠী জীব.
  • বিষয় অনুযায়ী দলিল দলিল.

মেশিন লার্নিং সিস্টেমগুলি তখন বড় ডেটাসেটগুলির প্রক্রিয়াকরণ সহজ করতে ক্লাস্টার আইডি ব্যবহার করতে পারে। সুতরাং, ক্লাস্টারিংয়ের আউটপুট ডাউনস্ট্রিম এমএল সিস্টেমের বৈশিষ্ট্য ডেটা হিসাবে কাজ করে।

Google-এ, ইউটিউব ভিডিও, প্লে অ্যাপস এবং মিউজিক ট্র্যাকের মতো পণ্যগুলিতে সাধারণীকরণ, ডেটা কম্প্রেশন এবং গোপনীয়তা সংরক্ষণের জন্য ক্লাস্টারিং ব্যবহার করা হয়।

সাধারণীকরণ

যখন একটি ক্লাস্টারের কিছু উদাহরণে বৈশিষ্ট্য ডেটা অনুপস্থিত থাকে, আপনি ক্লাস্টারের অন্যান্য উদাহরণ থেকে অনুপস্থিত ডেটা অনুমান করতে পারেন।

উদাহরণ
ভিডিও সুপারিশ উন্নত করতে কম জনপ্রিয় ভিডিও আরও জনপ্রিয় ভিডিওর সাথে ক্লাস্টার করা যেতে পারে।

তথ্য সংকোচন

যেমন আলোচনা করা হয়েছে, একটি ক্লাস্টারের সমস্ত উদাহরণের বৈশিষ্ট্য ডেটা প্রাসঙ্গিক ক্লাস্টার আইডি দ্বারা প্রতিস্থাপিত হতে পারে। এই প্রতিস্থাপন বৈশিষ্ট্য ডেটা সহজ করে এবং স্টোরেজ সংরক্ষণ করে। বড় ডেটাসেটে স্কেল করা হলে এই সুবিধাগুলি তাৎপর্যপূর্ণ হয়ে ওঠে। আরও, মেশিন লার্নিং সিস্টেমগুলি সম্পূর্ণ বৈশিষ্ট্য ডেটাসেটের পরিবর্তে ক্লাস্টার আইডিকে ইনপুট হিসাবে ব্যবহার করতে পারে। ইনপুট ডেটার জটিলতা কমিয়ে ML মডেলকে সহজ এবং দ্রুত প্রশিক্ষণ দেয়।

উদাহরণ
একটি একক YouTube ভিডিওর বৈশিষ্ট্য ডেটা অন্তর্ভুক্ত করতে পারে:
  • অবস্থান, সময় এবং জনসংখ্যার উপর দর্শকের ডেটা
  • টাইমস্ট্যাম্প, পাঠ্য এবং ব্যবহারকারী আইডি সহ মন্তব্য ডেটা
  • ভিডিও ট্যাগ
ইউটিউব ভিডিওগুলি ক্লাস্টার করা আপনাকে এই বৈশিষ্ট্যগুলির সেটটিকে একটি একক ক্লাস্টার আইডি দিয়ে প্রতিস্থাপন করতে দেয়, এইভাবে আপনার ডেটা সংকুচিত হয়৷

গোপনীয়তা সংরক্ষণ

আপনি গুচ্ছ ব্যবহারকারীদের গোপনীয়তা সংরক্ষণ করতে পারেন, এবং নির্দিষ্ট ব্যবহারকারীদের পরিবর্তে ক্লাস্টার আইডির সাথে ব্যবহারকারীর ডেটা সংযুক্ত করে। আপনি একটি নির্দিষ্ট ব্যবহারকারীর সাথে ব্যবহারকারীর ডেটা সংযুক্ত করতে পারবেন না তা নিশ্চিত করার জন্য, ক্লাস্টারটিকে অবশ্যই পর্যাপ্ত সংখ্যক ব্যবহারকারীদের গ্রুপ করতে হবে।

উদাহরণ
বলুন আপনি আপনার মডেলে YouTube ব্যবহারকারীদের জন্য ভিডিও ইতিহাস যোগ করতে চান। ব্যবহারকারী আইডির উপর নির্ভর করার পরিবর্তে, আপনি ব্যবহারকারীদের ক্লাস্টার করতে পারেন এবং পরিবর্তে ক্লাস্টার আইডির উপর নির্ভর করতে পারেন। এখন, আপনার মডেল ভিডিও ইতিহাসকে একটি নির্দিষ্ট ব্যবহারকারীর সাথে সংযুক্ত করতে পারে না কিন্তু শুধুমাত্র একটি ক্লাস্টার আইডির সাথে যা ব্যবহারকারীদের একটি বড় গোষ্ঠীর প্রতিনিধিত্ব করে৷