নিম্নলিখিত অনুশীলনটি আপনাকে ম্যানুয়ালি একটি সাদৃশ্য পরিমাপ তৈরি করার প্রক্রিয়ার মধ্য দিয়ে নিয়ে যায়।
কল্পনা করুন যে আপনার বাড়িতে নিম্নরূপ একটি সাধারণ ডেটাসেট রয়েছে:
বৈশিষ্ট্য | টাইপ |
---|---|
দাম | ধনাত্নক পূর্ণসংখ্যা |
আকার | বর্গ মিটারের এককে ধনাত্মক ফ্লোটিং-পয়েন্ট মান |
পোস্ট অফিসের নাম্বার | পূর্ণসংখ্যা |
বেডরুমের সংখ্যা | পূর্ণসংখ্যা |
বাড়ির টাইপ | "একক_পরিবার," "মাল্টি-ফ্যামিলি," "অ্যাপার্টমেন্ট," "কন্ডো" থেকে একটি পাঠ্য মান |
গ্যারেজ | না/হ্যাঁর জন্য 0/1 |
রং | মাল্টিভ্যালেন্ট ক্যাটাগরিকাল: স্ট্যান্ডার্ড রং থেকে এক বা একাধিক মান “সাদা,” “হলুদ,” “সবুজ” ইত্যাদি। |
প্রিপ্রসেসিং
প্রথম ধাপ হল সংখ্যাসূচক বৈশিষ্ট্যগুলিকে প্রিপ্রসেস করা: দাম, আকার, বেডরুমের সংখ্যা এবং পোস্টাল কোড। এই বৈশিষ্ট্যগুলির প্রতিটির জন্য আপনাকে একটি ভিন্ন অপারেশন করতে হবে। উদাহরণস্বরূপ, এই ক্ষেত্রে, অনুমান করুন যে মূল্যের ডেটা একটি বিমোডাল বন্টন অনুসরণ করে। আপনি পরবর্তী কি করা উচিত?
নীচের ক্ষেত্রটিতে, আপনি কীভাবে আকারের ডেটা প্রক্রিয়া করবেন তা ব্যাখ্যা করার চেষ্টা করুন৷
নীচের ক্ষেত্রটিতে, বেডরুমের সংখ্যার উপর আপনি কীভাবে ডেটা প্রক্রিয়া করবেন তা ব্যাখ্যা করার চেষ্টা করুন।
আপনি কিভাবে পোস্টাল কোড প্রতিনিধিত্ব করা উচিত? পোস্টাল কোডগুলিকে দ্রাঘিমাংশ এবং অক্ষাংশে রূপান্তর করুন। তারপর সেই মানগুলিকে প্রক্রিয়া করুন যেমন আপনি অন্যান্য সংখ্যাসূচক মানগুলিকে প্রক্রিয়া করবেন।
ফিচার প্রতি সাদৃশ্য গণনা করা হচ্ছে
এখন এটি বৈশিষ্ট্য প্রতি সাদৃশ্য গণনা করার সময়. সাংখ্যিক বৈশিষ্ট্যগুলির জন্য, আপনি কেবল পার্থক্যটি খুঁজে পাবেন। বাইনারি বৈশিষ্ট্যগুলির জন্য, যেমন একটি বাড়িতে যদি একটি গ্যারেজ থাকে, আপনি 0 বা 1 পাওয়ার পার্থক্যটিও খুঁজে পেতে পারেন। কিন্তু শ্রেণীগত বৈশিষ্ট্যগুলির কী হবে? জানতে নিচের প্রশ্নের উত্তর দিন।
সামগ্রিক সাদৃশ্য গণনা করা হচ্ছে
আপনি সংখ্যাগতভাবে প্রতিটি বৈশিষ্ট্যের জন্য সাদৃশ্য গণনা করেছেন। কিন্তু ক্লাস্টারিং অ্যালগরিদমের জন্য ক্লাস্টার হাউসের সামগ্রিক মিল প্রয়োজন। রুট গড় স্কোয়ারড এরর (RMSE) ব্যবহার করে পার-ফিচারের সাদৃশ্য একত্রিত করে ঘরগুলির একটি জোড়ার মধ্যে সামগ্রিক মিল গণনা করুন। অর্থাৎ, যেখানে\(s_1,s_2,\ldots,s_N\) \(N\) বৈশিষ্ট্যের মিলের প্রতিনিধিত্ব করে:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
ম্যানুয়াল সাদৃশ্য পরিমাপের সীমাবদ্ধতা
এই অনুশীলনটি যেমন দেখায়, ডেটা জটিল হয়ে গেলে, শব্দার্থগতভাবে অর্থপূর্ণ উপায়ে সঠিকভাবে সাদৃশ্য পরিমাপ করার জন্য ডেটা প্রক্রিয়া করা এবং একত্রিত করা ক্রমবর্ধমান কঠিন। রঙের তথ্য বিবেচনা করুন। রঙ সত্যিই সুনির্দিষ্ট হওয়া উচিত? নাকি আমাদের লাল এবং মেরুন রঙের মতো রঙগুলিকে কালো এবং সাদার চেয়ে বেশি মিল রাখতে হবে? এবং ডেটা একত্রিত করার বিষয়ে, আমরা শুধু গ্যারেজ বৈশিষ্ট্যটিকে বাড়ির দামের সাথে সমানভাবে ওজন করেছি। যাইহোক, বাড়ির দাম গ্যারেজ থাকার চেয়ে অনেক বেশি গুরুত্বপূর্ণ। এটা কি সত্যিই তাদের সমানভাবে ওজন করার কোন মানে হয়?
আপনি যদি একটি সাদৃশ্য পরিমাপ তৈরি করেন যা সত্যই উদাহরণগুলির মধ্যে মিল প্রতিফলিত করে না, আপনার উদ্ভূত ক্লাস্টারগুলি অর্থবহ হবে না। এটি প্রায়শই শ্রেণীবদ্ধ ডেটার ক্ষেত্রে হয় এবং আমাদের একটি তত্ত্বাবধানে পরিমাপ করে।