گزینه های زیر را بررسی کنید.
شهرهای مختلف کالیفرنیا قیمت مسکن متفاوتی دارند. فرض کنید باید مدلی برای پیش بینی قیمت مسکن ایجاد کنید. کدام یک از مجموعههای ویژگیها یا تلاقیهای ویژگیهای زیر میتواند روابط خاص شهر را بین
roomsPerPerson
برای فرد و قیمت مسکن بیاموزد؟ سه ویژگی مخزنشده جداگانه: [عرض جغرافیایی مخزنشده]، [طول جغرافیایی مخزنشده]، [دومهای مخفیشده برای فرد]
Binning خوب است زیرا مدل را قادر می سازد تا روابط غیرخطی را در یک ویژگی واحد یاد بگیرد. با این حال، یک شهر در بیش از یک بعد وجود دارد، بنابراین یادگیری روابط خاص شهر مستلزم عبور از عرض و طول جغرافیایی است.
یک متقاطع ویژگی: [طول جغرافیایی X طول جغرافیایی X اتاق برای فرد]
در این مثال، عبور از ویژگیهای با ارزش واقعی ایده خوبی نیست. عبور از مقدار واقعی، مثلاً، عرض جغرافیایی با RoomPerPerson، تغییر 10 درصدی در یک ویژگی (مثلاً عرض جغرافیایی) را قادر میسازد تا معادل 10 درصد تغییر در ویژگی دیگر (مثلاً RoomPerPerson) باشد.
یک متقاطع ویژگی: [عرض جغرافیایی مخزن X طول جغرافیایی مخزن X اتاقهای مخزن شده برای فرد]
عبور از عرض جغرافیایی مخزن شده با طول جغرافیایی مخزن شده، مدل را قادر می سازد تا جلوه های خاص شهر را از RoomPerPerson یاد بگیرد. Binning از تغییر در عرض جغرافیایی جلوگیری می کند که نتیجه ای مشابه با تغییر در طول جغرافیایی ایجاد می کند. بسته به دانه بندی سطل ها، این ویژگی متقاطع می تواند اثرات خاص شهر یا محله یا حتی بلوک خاص را بیاموزد.
دو تلاقی ویژگی: [عرض جغرافیایی مخزن X binned roomPerPerson] و [طول جغرافیایی مخزن X binned roomPerPerson]
بنینگ ایده خوبی است. با این حال، یک شهر ترکیبی از طول و عرض جغرافیایی است، بنابراین تلاقی های مشخصه جداگانه مانع از یادگیری قیمت های خاص شهر توسط مدل می شود.