تا کنون، ما بر روی عبور از دو ویژگی ممیز شناور مجزا تمرکز کردهایم. در عمل، مدل های یادگیری ماشین به ندرت از ویژگی های پیوسته عبور می کنند. با این حال، مدلهای یادگیری ماشینی اغلب از بردارهای ویژگی تک داغ عبور میکنند. تلاقی ویژگی بردارهای ویژگی یک داغ را به عنوان پیوندهای منطقی در نظر بگیرید. برای مثال، فرض کنید دو ویژگی داریم: کشور و زبان. کدگذاری یکباره هر کدام بردارهایی با ویژگیهای باینری تولید میکند که میتوان آنها را به صورت country=USA, country=France
یا language=English, language=Spanish
تفسیر کرد. سپس، اگر یک تلاقی ویژگی از این رمزگذاریهای تک داغ انجام دهید، ویژگیهای باینری دریافت میکنید که میتوانند به عنوان پیوندهای منطقی تفسیر شوند، مانند:
country:usa AND language:spanish
به عنوان مثالی دیگر، فرض کنید که شما طول و عرض جغرافیایی را انتخاب کرده اید، و بردارهای ویژگی پنج عنصری یک داغ جداگانه را تولید می کنید. به عنوان مثال، طول و عرض جغرافیایی معین را می توان به صورت زیر نشان داد:
binned_latitude = [0, 0, 0, 1, 0] binned_longitude = [0, 1, 0, 0, 0]
فرض کنید یک تلاقی ویژگی از این دو بردار ویژگی ایجاد می کنید:
binned_latitude X binned_longitude
این متقاطع ویژگی یک بردار 25 عنصری یک داغ (24 صفر و 1 یک) است. تک 1
در صلیب، ترکیب خاصی از طول و عرض جغرافیایی را مشخص می کند. سپس مدل شما می تواند تداعی های خاصی را در مورد آن رابطه یاد بگیرد.
فرض کنید ما طول و عرض جغرافیایی را بسیار درشت تر می کنیم، به صورت زیر:
binned_latitude(lat) = [ 0 < lat <= 10 10 < lat <= 20 20 < lat <= 30 ] binned_longitude(lon) = [ 0 < lon <= 15 15 < lon <= 30 ]
ایجاد یک تلاقی ویژگی از آن سطل های درشت منجر به ویژگی مصنوعی با معانی زیر می شود:
binned_latitude_X_longitude(lat, lon) = [ 0 < lat <= 10 AND 0 < lon <= 15 0 < lat <= 10 AND 15 < lon <= 30 10 < lat <= 20 AND 0 < lon <= 15 10 < lat <= 20 AND 15 < lon <= 30 20 < lat <= 30 AND 0 < lon <= 15 20 < lat <= 30 AND 15 < lon <= 30 ]
حال فرض کنید مدل ما نیاز دارد که بر اساس دو ویژگی، میزان رضایت صاحبان سگ از سگها را پیشبینی کند:
- نوع رفتار ( پارس کردن، گریه کردن، بغل کردن و ...)
- زمان روز
اگر از هر دو ویژگی متقاطع ویژگی بسازیم:
[behavior type X time of day]
سپس ما به توانایی پیش بینی بسیار بیشتری نسبت به هر یک از ویژگی ها به تنهایی دست خواهیم یافت. به عنوان مثال، اگر سگی در ساعت 5 بعدازظهر که صاحبش از محل کار برمیگردد (با خوشحالی) گریه کند، احتمالاً پیشبینیکننده مثبتی برای رضایت مالک خواهد بود. گریه کردن (شاید بدبختانه) در ساعت 3:00 بامداد زمانی که صاحبش آرام خوابیده بود احتمالاً یک پیش بینی منفی قوی برای رضایت مالک خواهد بود.
فراگیران خطی به خوبی به داده های عظیم مقیاس می دهند. استفاده از تلاقی ویژگی ها در مجموعه داده های عظیم، یک استراتژی کارآمد برای یادگیری مدل های بسیار پیچیده است. شبکه های عصبی استراتژی دیگری ارائه می دهند.