Persilangan Fitur: Periksa Pemahaman Anda

Pelajari opsi di bawah.

Kota yang berbeda di California memiliki perbedaan harga perumahan yang mencolok. Misalkan Anda harus membuat model untuk memprediksi harga perumahan. Manakah dari set fitur atau persilangan fitur berikut yang dapat mempelajari hubungan kota tertentu antara roomsPerPerson dan harga perumahan?
Tiga fitur yang dikelompokkan terpisah: [binned latitude], [binned longitude], [binned roomsPerPerson]
Pengelompokan bagus karena memungkinkan model mempelajari hubungan tidak linier dalam satu fitur. Namun, kota berada di lebih dari satu dimensi, sehingga mempelajari hubungan kota tertentu memerlukan persilangan garis lintang dan garis bujur.
Satu persilangan fitur: [latitude X longitude X roomsPerPerson]
Dalam contoh ini, menyilangkan fitur yang bernilai nyata bukan ide bagus. Menyilang nilai nyata, misalnya, garis lintang dengan roomsPerPerson memungkinkan perubahan 10% dalam satu fitur (misalnya, garis lintang) menjadi setara dengan perubahan 10% dalam fitur lainnya (misalnya, roomsPerPerson).
Satu persilangan fitur: [binned latitude X binned longitude X binned roomsPerPerson]
Menyilangkan garis lintang yang dikelompokkan dengan garis bujur yang dikelompokkan memungkinkan model mempelajari efek kota tertentu dari roomsPerPerson. Pengelompokan mencegah perubahan pada garis lintang yang menghasilkan hasil yang sama sebagai perubahan dalam garis bujur. Bergantung pada perincian kelompok, persilangan fitur ini dapat mempelajari kota tertentu atau lingkungan tertentu atau bahkan blok tertentu.
Dua persilangan fitur: [binned latitude X binned roomsPerPerson] dan [binned longitude X binned roomsPerPerson]
Pengelompokan adalah ide yang bagus; namun, kota merupakan gabungan dari garis lintang dan garis bujur, sehingga persilangan fitur terpisah mencegah model dari mempelajari harga kota tertentu.