একটি ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করুন

দুটি উদাহরণের মধ্যে সাদৃশ্য গণনা করার জন্য, আপনাকে সেই দুটি উদাহরণের জন্য সমস্ত বৈশিষ্ট্য ডেটা একক সংখ্যাসূচক মানের মধ্যে একত্রিত করতে হবে।

উদাহরণস্বরূপ, শুধুমাত্র একটি বৈশিষ্ট্য সহ একটি জুতার ডেটা সেট বিবেচনা করুন: জুতার আকার। আপনি তাদের আকারের মধ্যে পার্থক্য গণনা করে দুটি জুতা কতটা অনুরূপ তা পরিমাপ করতে পারেন। আকারের মধ্যে সংখ্যাগত পার্থক্য যত কম, জুতার মধ্যে মিল তত বেশি। এই ধরনের একটি হস্তশিল্পিত সাদৃশ্য পরিমাপকে ম্যানুয়াল সাদৃশ্য পরিমাপ বলা হয়।

আপনি যদি আকার এবং রঙ উভয় ব্যবহার করে জুতা মধ্যে মিল খুঁজে পেতে চান? রঙ হল শ্রেণীবদ্ধ ডেটা , এবং সংখ্যাসূচক আকারের ডেটার সাথে একত্রিত করা কঠিন। আমরা দেখব যে ডেটা আরও জটিল হয়ে উঠলে, একটি ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করা কঠিন হয়ে যায়। আপনার ডেটা যথেষ্ট জটিল হয়ে গেলে, আপনি একটি ম্যানুয়াল পরিমাপ তৈরি করতে পারবেন না। তখনই আপনি একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপে স্যুইচ করেন, যেখানে একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং মডেল মিলটি গণনা করে।

আমরা পরের জন্য তত্ত্বাবধানে থাকা মিল পরিমাপ ছেড়ে দেব এবং এখানে ম্যানুয়াল পরিমাপের উপর ফোকাস করব। আপাতত, মনে রাখবেন যে ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করতে আপনার সমস্যা হলে আপনি একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপে স্যুইচ করুন৷

একটি ম্যানুয়াল সাদৃশ্য পরিমাপ কিভাবে কাজ করে তা বোঝার জন্য, আসুন আমাদের জুতার উদাহরণটি দেখি। ধরুন মডেলটিতে দুটি বৈশিষ্ট্য রয়েছে: জুতার আকার এবং জুতার দামের ডেটা। যেহেতু উভয় বৈশিষ্ট্যই সাংখ্যিক, আপনি সেগুলিকে একটি একক সংখ্যায় একত্রিত করতে পারেন যা নিম্নরূপ সাদৃশ্য উপস্থাপন করে।

  • আকার (গুলি): জুতার আকার সম্ভবত একটি গাউসিয়ান বিতরণ গঠন করে। এটি নিশ্চিত করুন। তারপর ডেটা স্বাভাবিক করুন।
  • মূল্য (পি): ডেটা সম্ভবত একটি পয়সন বিতরণ। এটি নিশ্চিত করুন। আপনার কাছে পর্যাপ্ত ডেটা থাকলে, ডেটাকে কোয়ান্টাইলে রূপান্তর করুন এবং \([0,1]\)এ স্কেল করুন।
  • রুট গড় স্কোয়ারড এরর (RMSE) ব্যবহার করে ডেটা একত্রিত করুন। এখানে, মিল হল \(\sqrt{\frac{s^2+p^2}{2}}\)।

একটি সরলীকৃত উদাহরণের জন্য, ইউএস সাইজ 8 এবং 11, এবং দাম 120 এবং 150 এর সাথে দুটি জুতার মিল গণনা করা যাক। যেহেতু আমাদের কাছে বিতরণ বোঝার জন্য পর্যাপ্ত ডেটা নেই, তাই আমরা স্বাভাবিককরণ বা কোয়ান্টাইল ব্যবহার না করেই ডেটা স্কেল করব।

কর্ম পদ্ধতি
আকার স্কেল. সর্বাধিক সম্ভাব্য জুতার আকার 20 অনুমান করুন। 0.4 এবং 0.55 পেতে 8 এবং 11 কে সর্বাধিক আকার 20 দ্বারা ভাগ করুন।
দাম স্কেল করুন। 0.8 এবং 1 পেতে 120 এবং 150 কে সর্বোচ্চ মূল্য 150 দ্বারা ভাগ করুন।
আকার পার্থক্য খুঁজুন.\(0.55 - 0.4 = 0.15\)
দামের পার্থক্য খুঁজুন।\(1 - 0.8 = 0.2\)
RMSE খুঁজুন।\(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

স্বজ্ঞাতভাবে, বৈশিষ্ট্য ডেটা একই হয়ে গেলে আপনার পরিমাপ করা সাদৃশ্য বাড়তে হবে। পরিবর্তে, আপনার পরিমাপকৃত মিল আসলে হ্রাস পায়। 1 থেকে বিয়োগ করে আপনার পরিমাপিত সাদৃশ্যকে আপনার অন্তর্দৃষ্টি অনুসরণ করুন।

\[\text{Similarity} = 1 - 0.17 = 0.83\]

সাধারণভাবে, আপনি প্রিপেয়ার ডাটা এ বর্ণিত সাংখ্যিক তথ্য প্রস্তুত করতে পারেন এবং তারপর ইউক্লিডীয় দূরত্ব ব্যবহার করে ডেটা একত্রিত করতে পারেন।

যদি আপনার শ্রেণীবদ্ধ তথ্য থাকে? শ্রেণীবদ্ধ ডেটা হতে পারে:

  • একক মূল্যবান (একজন সমতুল্য), যেমন একটি গাড়ির রঙ ("সাদা" বা "নীল" কিন্তু উভয়ই নয়)
  • বহু-মূল্যবান (মাল্টিভালেন্ট), যেমন একটি সিনেমার জেনার (একসাথে "অ্যাকশন" এবং "কমেডি" হতে পারে, বা শুধু "অ্যাকশন" হতে পারে)

যদি ইউনিভ্যালেন্ট ডেটা মেলে, মিল হল 1; অন্যথায়, এটি 0। মাল্টিভ্যালেন্ট ডেটা মোকাবেলা করা কঠিন। উদাহরণস্বরূপ, সিনেমার ধরনগুলির সাথে কাজ করা একটি চ্যালেঞ্জ হতে পারে। এই সমস্যাটি পরিচালনা করার জন্য, ধরুন সিনেমাগুলিকে নির্দিষ্ট জেনারের সেট থেকে জেনার বরাদ্দ করা হয়েছে। সাধারণ মানের অনুপাত ব্যবহার করে সাদৃশ্য গণনা করুন, যাকে বলা হয় জ্যাকার্ড সাদৃশ্য

উদাহরণ:

  • [“কমেডি”,”অ্যাকশন”] এবং [“কমেডি”,”অ্যাকশন”] = 1
  • [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”] = ½
  • [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”, “ড্রামা”] = ⅓
  • [“কমেডি”,”অ্যাকশন”] এবং [“নন-ফিকশন”,”জীবনীমূলক”] = ০

নিম্নলিখিত সারণীটি আরও কয়েকটি উদাহরণ প্রদান করে যে কীভাবে শ্রেণীবদ্ধ ডেটা মোকাবেলা করতে হয়।

উদাহরণ
পোস্ট অফিসের নাম্বার একে অপরের কাছাকাছি অবস্থিত অঞ্চলগুলিকে প্রতিনিধিত্বকারী ডাক কোডগুলির একটি উচ্চতর মিল থাকা উচিত। এই মিলটি সঠিকভাবে গণনা করার জন্য প্রয়োজনীয় তথ্য এনকোড করতে, আপনি পোস্টাল কোডগুলিকে অক্ষাংশ এবং দ্রাঘিমাংশে রূপান্তর করতে পারেন। এক জোড়া পোস্টাল কোডের জন্য, আলাদাভাবে তাদের অক্ষাংশ এবং তাদের দ্রাঘিমাংশের মধ্যে পার্থক্য গণনা করুন। তারপর একটি একক সংখ্যাসূচক মান পেতে পার্থক্য যোগ করুন।
রঙ ধরুন আপনার কাছে পাঠ্য হিসাবে রঙের ডেটা রয়েছে। পাঠ্য মানগুলিকে সংখ্যাসূচক RGB মানগুলিতে রূপান্তর করুন। এখন আপনি দুটি রঙের জন্য লাল, সবুজ এবং নীল মানের পার্থক্য খুঁজে পেতে পারেন এবং ইউক্লিডীয় দূরত্ব ব্যবহার করে পার্থক্যগুলিকে একটি সাংখ্যিক মানের মধ্যে একত্রিত করতে পারেন।

সাধারণভাবে, আপনার সাদৃশ্য পরিমাপ সরাসরি প্রকৃত মিলের সাথে মিলিত হতে হবে। যদি আপনার মেট্রিক না করে, তাহলে এটি প্রয়োজনীয় তথ্য এনকোড করছে না। পূর্বের উদাহরণটি পোস্টাল কোডগুলিকে অক্ষাংশ এবং দ্রাঘিমাংশে রূপান্তরিত করেছে কারণ পোস্টাল কোডগুলি নিজেরাই প্রয়োজনীয় তথ্য এনকোড করেনি।

আপনার সাদৃশ্য পরিমাপ তৈরি করার আগে, সাবধানে আপনার ডেটা প্রক্রিয়া করুন। যদিও এই পৃষ্ঠার উদাহরণগুলি একটি ছোট, সাধারণ ডেটা সেটের উপর নির্ভর করে, বেশিরভাগ বাস্তব-বিশ্বের ডেটা সেটগুলি অনেক বড় এবং অনেক বেশি জটিল। মনে রাখবেন যে সংখ্যাসূচক ডেটা প্রক্রিয়াকরণের জন্য কোয়ান্টাইল একটি ভাল ডিফল্ট পছন্দ।