Pelajari opsi di bawah ini.

Kota yang berbeda di California memiliki perbedaan nyata harga perumahan. Misalkan Anda harus membuat model untuk memprediksi harga perumahan. Manakah dari serangkaian fitur atau persilangan fitur berikut dapat mempelajari hubungan khusus kota antara roomsPerPerson dan harga perumahan?
Tiga fitur yang dikelompokkan terpisah: [binned latitude], [binned longitude], [binned roomPerPerson]
Pengelompokan bagus karena memungkinkan model untuk mempelajari relasional dalam satu fitur. Namun, sebuah kota ada di lebih dari satu dimensi, jadi mempelajari hubungan antar-kota membutuhkan perlintasan lintang dan bujur.
Satu persilangan fitur: [lintang X bujur X roomsPerPerson]
Dalam contoh ini, menyilangkan fitur yang bernilai nyata bukanlah ide yang bagus. Melintasi nilai riil, katakanlah, garis lintang dengan roomPerPerson memungkinkan perubahan sebesar 10% pada satu fitur (misalnya, garis lintang) setara dengan 10% perubahan pada fitur lain (misalnya, roomPerPerson).
Satu persilangan fitur: [garis lintang terbined X garis bujur X binned X binned roomsPerPerson]
Persilangan garis lintang binned dengan binned bujur memungkinkan model ini untuk mempelajari efek spesifik per kota dari roomPerPerson. Pengelompokan mencegah perubahan garis lintang yang memberikan hasil yang sama sebagai perubahan pada garis bujur. Tergantung pada tingkat perincian tempat sampah, persilangan fitur ini bisa mempelajari kebutuhan yang terkait dengan lingkungan atau bahkan efek spesifik blok.
Dua persilangan fitur: [binned latitude X binned roomPerPerson] dan [binned longitude X binned roomPerPerson]
Pengelompokan adalah ide yang bagus; namun, kota adalah korelasi dari lintang dan bujur, sehingga persilangan fitur yang terpisah mencegah dari mempelajari harga khusus kota.