ফিচার ক্রস: এক-হট ভেক্টর ক্রসিং

এখনও অবধি, আমরা দুটি পৃথক ফ্লোটিং-পয়েন্ট বৈশিষ্ট্যকে বৈশিষ্ট্য-ক্রসিং এর উপর ফোকাস করেছি। অনুশীলনে, মেশিন লার্নিং মডেল কদাচিৎ একটানা বৈশিষ্ট্য অতিক্রম করে। যাইহোক, মেশিন লার্নিং মডেলগুলি প্রায়শই এক-হট বৈশিষ্ট্য ভেক্টর অতিক্রম করে। যৌক্তিক সংযোগ হিসাবে এক-হট বৈশিষ্ট্য ভেক্টরের বৈশিষ্ট্য ক্রস সম্পর্কে চিন্তা করুন। উদাহরণস্বরূপ, ধরুন আমাদের দুটি বৈশিষ্ট্য রয়েছে: দেশ এবং ভাষা। প্রতিটির একটি ওয়ান-হট এনকোডিং বাইনারি বৈশিষ্ট্য সহ ভেক্টর তৈরি করে যা country=USA, country=France বা language=English, language=Spanish হিসাবে ব্যাখ্যা করা যেতে পারে। তারপর, আপনি যদি এই এক-হট এনকোডিংগুলির একটি বৈশিষ্ট্য ক্রস করেন, আপনি বাইনারি বৈশিষ্ট্যগুলি পাবেন যা যৌক্তিক সংযোগ হিসাবে ব্যাখ্যা করা যেতে পারে, যেমন:

  country:usa AND language:spanish

অন্য একটি উদাহরণ হিসাবে, ধরুন আপনি অক্ষাংশ এবং দ্রাঘিমাংশে আলাদা আলাদা এক-গরম পাঁচ-উপাদান বৈশিষ্ট্য ভেক্টর তৈরি করছেন। উদাহরণস্বরূপ, একটি প্রদত্ত অক্ষাংশ এবং দ্রাঘিমাংশকে নিম্নরূপ উপস্থাপন করা যেতে পারে:

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

ধরুন আপনি এই দুটি বৈশিষ্ট্য ভেক্টরের একটি বৈশিষ্ট্য ক্রস তৈরি করেছেন:

  binned_latitude X binned_longitude

এই বৈশিষ্ট্য ক্রস একটি 25-উপাদান এক-হট ভেক্টর (24 শূন্য এবং 1 এক)। ক্রসের একক 1 অক্ষাংশ এবং দ্রাঘিমাংশের একটি নির্দিষ্ট সংযোগকে চিহ্নিত করে। আপনার মডেল তখন সেই সংযোগ সম্পর্কে বিশেষ সংস্থানগুলি শিখতে পারে।

ধরুন আমরা অক্ষাংশ এবং দ্রাঘিমাংশকে আরও মোটামুটিভাবে বিন্যাস করি, নিম্নরূপ:

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

এই মোটা বিনগুলির একটি বৈশিষ্ট্য ক্রস তৈরি করা সিন্থেটিক বৈশিষ্ট্যের দিকে নিয়ে যায় যার নিম্নলিখিত অর্থ রয়েছে:

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

এখন ধরুন আমাদের মডেলকে ভবিষ্যদ্বাণী করতে হবে যে কুকুরের মালিকরা দুটি বৈশিষ্ট্যের উপর ভিত্তি করে কুকুরের সাথে কতটা সন্তুষ্ট হবেন:

  • আচরণের ধরন (ঘেউ ঘেউ করা, কান্নাকাটি করা, ছটফট করা ইত্যাদি)
  • দিনের সময়

যদি আমরা এই উভয় বৈশিষ্ট্য থেকে একটি বৈশিষ্ট্য ক্রস তৈরি করি:

  [behavior type X time of day]

তারপরে আমরা তার নিজস্ব বৈশিষ্ট্যগুলির চেয়ে অনেক বেশি ভবিষ্যদ্বাণী করার ক্ষমতা নিয়ে শেষ করব। উদাহরণস্বরূপ, যদি একটি কুকুর বিকাল 5:00 টায় কাঁদে (আনন্দে) যখন মালিক কাজ থেকে ফিরে আসে তখন সম্ভবত মালিকের সন্তুষ্টির একটি দুর্দান্ত ইতিবাচক ভবিষ্যদ্বাণী হবে। কান্নাকাটি (দুঃখজনকভাবে, সম্ভবত) সকাল 3:00 টায় যখন মালিক ভালভাবে ঘুমাচ্ছিল তখন সম্ভবত মালিকের সন্তুষ্টির একটি শক্তিশালী নেতিবাচক ভবিষ্যদ্বাণী হবে।

লিনিয়ার লার্নাররা বিশাল ডেটাতে ভালোভাবে স্কেল করে। বিশাল ডেটা সেটে ফিচার ক্রস ব্যবহার করা অত্যন্ত জটিল মডেল শেখার জন্য একটি দক্ষ কৌশল। নিউরাল নেটওয়ার্ক অন্য কৌশল প্রদান করে।