صلیب های ویژگی: عبور از بردارهای یک داغ

تا کنون، ما بر روی عبور از دو ویژگی ممیز شناور مجزا تمرکز کرده‌ایم. در عمل، مدل های یادگیری ماشین به ندرت از ویژگی های پیوسته عبور می کنند. با این حال، مدل‌های یادگیری ماشینی اغلب از بردارهای ویژگی تک داغ عبور می‌کنند. تلاقی ویژگی بردارهای ویژگی یک داغ را به عنوان پیوندهای منطقی در نظر بگیرید. برای مثال، فرض کنید دو ویژگی داریم: کشور و زبان. کدگذاری یک‌باره هر کدام بردارهایی با ویژگی‌های باینری تولید می‌کند که می‌توان آن‌ها را به صورت country=USA, country=France یا language=English, language=Spanish تفسیر کرد. سپس، اگر یک تلاقی ویژگی از این رمزگذاری‌های تک داغ انجام دهید، ویژگی‌های باینری دریافت می‌کنید که می‌توانند به عنوان پیوندهای منطقی تفسیر شوند، مانند:

  country:usa AND language:spanish

به عنوان مثالی دیگر، فرض کنید که شما طول و عرض جغرافیایی را انتخاب کرده اید، و بردارهای ویژگی پنج عنصری یک داغ جداگانه را تولید می کنید. به عنوان مثال، طول و عرض جغرافیایی معین را می توان به صورت زیر نشان داد:

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

فرض کنید یک تلاقی ویژگی از این دو بردار ویژگی ایجاد می کنید:

  binned_latitude X binned_longitude

این متقاطع ویژگی یک بردار 25 عنصری یک داغ (24 صفر و 1 یک) است. تک 1 در صلیب، ترکیب خاصی از طول و عرض جغرافیایی را مشخص می کند. سپس مدل شما می تواند تداعی های خاصی را در مورد آن رابطه یاد بگیرد.

فرض کنید ما طول و عرض جغرافیایی را بسیار درشت تر می کنیم، به صورت زیر:

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

ایجاد یک تلاقی ویژگی از آن سطل های درشت منجر به ویژگی مصنوعی با معانی زیر می شود:

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

حال فرض کنید مدل ما نیاز دارد که بر اساس دو ویژگی، میزان رضایت صاحبان سگ از سگ‌ها را پیش‌بینی کند:

  • نوع رفتار ( پارس کردن، گریه کردن، بغل کردن و ...)
  • زمان روز

اگر از هر دو ویژگی متقاطع ویژگی بسازیم:

  [behavior type X time of day]

سپس ما به توانایی پیش بینی بسیار بیشتری نسبت به هر یک از ویژگی ها به تنهایی دست خواهیم یافت. به عنوان مثال، اگر سگی در ساعت 5 بعدازظهر که صاحبش از محل کار برمی‌گردد (با خوشحالی) گریه کند، احتمالاً پیش‌بینی‌کننده مثبتی برای رضایت مالک خواهد بود. گریه کردن (شاید بدبختانه) در ساعت 3:00 بامداد زمانی که صاحبش آرام خوابیده بود احتمالاً یک پیش بینی منفی قوی برای رضایت مالک خواهد بود.

فراگیران خطی به خوبی به داده های عظیم مقیاس می دهند. استفاده از تلاقی ویژگی ها در مجموعه داده های عظیم، یک استراتژی کارآمد برای یادگیری مدل های بسیار پیچیده است. شبکه های عصبی استراتژی دیگری ارائه می دهند.