ম্যানুয়াল সাদৃশ্য পরিমাপ ব্যায়াম

নিম্নলিখিত অনুশীলনটি আপনাকে ম্যানুয়ালি একটি সাদৃশ্য পরিমাপ তৈরি করার প্রক্রিয়ার মধ্য দিয়ে নিয়ে যায়।

কল্পনা করুন যে আপনার বাড়িতে নিম্নরূপ একটি সাধারণ ডেটাসেট রয়েছে:

বৈশিষ্ট্য টাইপ
দাম ধনাত্নক পূর্ণসংখ্যা
আকার বর্গ মিটারের এককে ধনাত্মক ফ্লোটিং-পয়েন্ট মান
পোস্ট অফিসের নাম্বার পূর্ণসংখ্যা
বেডরুমের সংখ্যা পূর্ণসংখ্যা
বাড়ির টাইপ "একক_পরিবার," "মাল্টি-ফ্যামিলি," "অ্যাপার্টমেন্ট," "কন্ডো" থেকে একটি পাঠ্য মান
গ্যারেজ না/হ্যাঁর জন্য 0/1
রং মাল্টিভ্যালেন্ট ক্যাটাগরিকাল: স্ট্যান্ডার্ড রং থেকে এক বা একাধিক মান “সাদা,” “হলুদ,” “সবুজ” ইত্যাদি।

প্রিপ্রসেসিং

প্রথম ধাপ হল সংখ্যাসূচক বৈশিষ্ট্যগুলিকে প্রিপ্রসেস করা: দাম, আকার, বেডরুমের সংখ্যা এবং পোস্টাল কোড। এই বৈশিষ্ট্যগুলির প্রতিটির জন্য আপনাকে একটি ভিন্ন অপারেশন করতে হবে। উদাহরণস্বরূপ, এই ক্ষেত্রে, অনুমান করুন যে মূল্যের ডেটা একটি বিমোডাল বন্টন অনুসরণ করে। আপনি পরবর্তী কি করা উচিত?

যদি আপনার ডেটা একটি বিমোডাল বিতরণ অনুসরণ করে তবে আপনার কোন পদক্ষেপ নেওয়া উচিত?
ডেটা থেকে কোয়ান্টাইল তৈরি করুন এবং স্কেল করুন [0,1]।
যখন ডেটা একটি বিমোডাল বন্টন অনুসরণ করে তখন এটি নেওয়ার সঠিক পদক্ষেপ।
লগ ট্রান্সফর্ম করুন এবং স্কেল করুন [0,1]।
ডেটা পাওয়ার-ল ডিস্ট্রিবিউশন অনুসরণ করার সময় এটি আসলে নেওয়ার পদক্ষেপ।
স্বাভাবিক করুন এবং স্কেল করুন [0,1]।
যখন ডেটা গাউসিয়ান ডিস্ট্রিবিউশন অনুসরণ করে তখন আপনি এই পদক্ষেপটি গ্রহণ করবেন।

নীচের ক্ষেত্রটিতে, আপনি কীভাবে আকারের ডেটা প্রক্রিয়া করবেন তা ব্যাখ্যা করার চেষ্টা করুন৷

নীচের ক্ষেত্রটিতে, বেডরুমের সংখ্যার উপর আপনি কীভাবে ডেটা প্রক্রিয়া করবেন তা ব্যাখ্যা করার চেষ্টা করুন।

আপনি কিভাবে পোস্টাল কোড প্রতিনিধিত্ব করা উচিত? পোস্টাল কোডগুলিকে দ্রাঘিমাংশ এবং অক্ষাংশে রূপান্তর করুন। তারপর সেই মানগুলিকে প্রক্রিয়া করুন যেমন আপনি অন্যান্য সংখ্যাসূচক মানগুলিকে প্রক্রিয়া করবেন।

ফিচার প্রতি সাদৃশ্য গণনা করা হচ্ছে

এখন এটি বৈশিষ্ট্য প্রতি সাদৃশ্য গণনা করার সময়. সাংখ্যিক বৈশিষ্ট্যগুলির জন্য, আপনি কেবল পার্থক্যটি খুঁজে পাবেন। বাইনারি বৈশিষ্ট্যগুলির জন্য, যেমন একটি বাড়িতে যদি একটি গ্যারেজ থাকে, আপনি 0 বা 1 পাওয়ার পার্থক্যটিও খুঁজে পেতে পারেন। কিন্তু শ্রেণীগত বৈশিষ্ট্যগুলির কী হবে? জানতে নিচের প্রশ্নের উত্তর দিন।

এই বৈশিষ্ট্যগুলির মধ্যে কোনটি মাল্টিভ্যালেন্ট (একাধিক মান থাকতে পারে)?
রঙ
একটি প্রদত্ত বাসস্থান একাধিক রং হতে পারে, উদাহরণস্বরূপ, সাদা ট্রিম সঙ্গে নীল। অতএব, রঙ একটি multivalent বৈশিষ্ট্য.
পোস্ট অফিসের নাম্বার
যেকোনো বাসস্থানে শুধুমাত্র একটি পোস্টাল কোড থাকতে পারে। এটি একটি অতুলনীয় বৈশিষ্ট্য।
টাইপ
আপনার বাড়ি শুধুমাত্র এক ধরনের হতে পারে, বাড়ি, অ্যাপার্টমেন্ট, কনডো, ইত্যাদি, যার মানে এটি একটি অতুলনীয় বৈশিষ্ট্য।
একটি মাল্টিভ্যালেন্ট বৈশিষ্ট্যের জন্য সাদৃশ্য গণনা করার জন্য আপনার কোন ধরনের সাদৃশ্য পরিমাপ ব্যবহার করা উচিত?
জ্যাকার্ডের মিল
ধরুন বাড়িগুলোকে নির্দিষ্ট রঙের সেট থেকে রং বরাদ্দ করা হয়েছে। তারপর, সাধারণ মানের অনুপাত ব্যবহার করে সাদৃশ্য গণনা করুন (জ্যাকার্ড সাদৃশ্য)।
ইউক্লিডীয় দূরত্ব
"পোস্টাল কোড" এবং "টাইপ" বৈশিষ্ট্যগুলির জন্য যেগুলির শুধুমাত্র একটি মান রয়েছে (একজন বৈশিষ্ট), যদি বৈশিষ্ট্যটি মেলে, তাহলে সাদৃশ্য পরিমাপ 0 হয়; অন্যথায়, সাদৃশ্য পরিমাপ হল 1।

সামগ্রিক সাদৃশ্য গণনা করা হচ্ছে

আপনি সংখ্যাগতভাবে প্রতিটি বৈশিষ্ট্যের জন্য সাদৃশ্য গণনা করেছেন। কিন্তু ক্লাস্টারিং অ্যালগরিদমের জন্য ক্লাস্টার হাউসের সামগ্রিক মিল প্রয়োজন। রুট গড় স্কোয়ারড এরর (RMSE) ব্যবহার করে পার-ফিচারের সাদৃশ্য একত্রিত করে ঘরগুলির একটি জোড়ার মধ্যে সামগ্রিক মিল গণনা করুন। অর্থাৎ, যেখানে\(s_1,s_2,\ldots,s_N\) \(N\) বৈশিষ্ট্যের মিলের প্রতিনিধিত্ব করে:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

ম্যানুয়াল সাদৃশ্য পরিমাপের সীমাবদ্ধতা

এই অনুশীলনটি যেমন দেখায়, ডেটা জটিল হয়ে গেলে, শব্দার্থগতভাবে অর্থপূর্ণ উপায়ে সঠিকভাবে সাদৃশ্য পরিমাপ করার জন্য ডেটা প্রক্রিয়া করা এবং একত্রিত করা ক্রমবর্ধমান কঠিন। রঙের তথ্য বিবেচনা করুন। রঙ সত্যিই সুনির্দিষ্ট হওয়া উচিত? নাকি আমাদের লাল এবং মেরুন রঙের মতো রঙগুলিকে কালো এবং সাদার চেয়ে বেশি মিল রাখতে হবে? এবং ডেটা একত্রিত করার বিষয়ে, আমরা শুধু গ্যারেজ বৈশিষ্ট্যটিকে বাড়ির দামের সাথে সমানভাবে ওজন করেছি। যাইহোক, বাড়ির দাম গ্যারেজ থাকার চেয়ে অনেক বেশি গুরুত্বপূর্ণ। এটা কি সত্যিই তাদের সমানভাবে ওজন করার কোন মানে হয়?

আপনি যদি একটি সাদৃশ্য পরিমাপ তৈরি করেন যা সত্যই উদাহরণগুলির মধ্যে মিল প্রতিফলিত করে না, আপনার উদ্ভূত ক্লাস্টারগুলি অর্থবহ হবে না। এটি প্রায়শই শ্রেণীবদ্ধ ডেটার ক্ষেত্রে হয় এবং আমাদের একটি তত্ত্বাবধানে পরিমাপ করে।