Pelajari opsi di bawah ini.
Kota yang berbeda di California memiliki perbedaan nyata
harga perumahan.
Misalkan Anda harus membuat model untuk memprediksi harga perumahan. Manakah dari
serangkaian fitur atau persilangan fitur berikut dapat mempelajari
hubungan khusus kota antara
roomsPerPerson dan
harga perumahan?
Tiga fitur yang dikelompokkan terpisah: [binned latitude],
[binned longitude], [binned roomPerPerson]
Pengelompokan bagus karena memungkinkan model untuk mempelajari
relasional dalam
satu fitur. Namun, sebuah kota ada di
lebih dari satu dimensi, jadi mempelajari hubungan antar-kota
membutuhkan perlintasan lintang dan bujur.
Satu persilangan fitur: [lintang X bujur X
roomsPerPerson]
Dalam contoh ini, menyilangkan fitur yang bernilai nyata bukanlah ide yang bagus.
Melintasi nilai riil, katakanlah, garis lintang dengan
roomPerPerson memungkinkan perubahan sebesar 10% pada satu fitur (misalnya, garis lintang)
setara dengan 10% perubahan pada fitur lain (misalnya,
roomPerPerson).
Satu persilangan fitur: [garis lintang terbined X garis bujur X binned X binned
roomsPerPerson]
Persilangan garis lintang binned dengan binned bujur memungkinkan
model ini untuk mempelajari efek spesifik per kota dari roomPerPerson.
Pengelompokan mencegah perubahan garis lintang yang memberikan hasil yang sama
sebagai perubahan pada garis bujur. Tergantung pada tingkat perincian
tempat sampah, persilangan fitur ini bisa
mempelajari kebutuhan
yang terkait dengan lingkungan atau
bahkan efek spesifik blok.
Dua persilangan fitur: [binned latitude X binned roomPerPerson]
dan [binned longitude X binned roomPerPerson]
Pengelompokan adalah ide yang bagus; namun, kota adalah
korelasi dari
lintang dan bujur, sehingga persilangan fitur yang terpisah mencegah
dari mempelajari harga khusus kota.