Pelajari opsi-opsi di bawah.
Kota yang berbeda di California memiliki perbedaan
harga perumahan yang mencolok.
Misalnya Anda harus membuat model untuk memprediksi harga perumahan. Manakah dari
kumpulan fitur atau persilangan fitur berikut yang dapat mempelajari
hubungan khusus kota antara
roomsPerPerson
dan
harga perumahan?
Tiga fitur yang dikelompokkan terpisah: [binned Lintang], [binned longitude], [binned roomPerPerson]
Pengelompokan baik karena memungkinkan model untuk mempelajari hubungan nonlinear dalam satu fitur. Namun, kota ada di
lebih dari satu dimensi, sehingga mempelajari hubungan khusus kota
memerlukan garis lintang dan bujur.
Satu persilangan fitur: [Lintang X Bujur X KamarPerOrang]
Dalam contoh ini, menyilangkan fitur yang bernilai nyata bukanlah ide yang bagus.
Menyilang nilai nyata, misalnya, lintang dengan
roomPerPerson memungkinkan perubahan 10% dalam satu fitur (misalnya, lintang)
menjadi setara dengan perubahan 10% di fitur lainnya (misalnya,
roomPerPerson).
Satu persilangan fitur: [binned longitude X binned longitude X binned roomsPerPerson]
Melakukan persilangan garis lintang bertingkat dengan garis bujur yang dikelompokkan memungkinkan model untuk mempelajari efek khusus kota roomPerPerson.
Pengelompokan mencegah perubahan pada lintang yang menghasilkan hasil yang sama seperti perubahan pada bujur. Bergantung pada perincian kelompok, persilangan fitur ini dapat mempelajari kota tertentu atau lingkungan tertentu atau bahkan blok tertentu.
Dua persilangan fitur: [binned Lintang X binned roomPerPerson] dan [binned longitude X binned roomsPerPerson]
Pengelompokan adalah ide yang bagus; namun, kota merupakan gabungan dari garis lintang dan bujur, sehingga persilangan fitur yang terpisah mencegah model mempelajari harga khusus kota.