Croisements de caractéristiques : vérification des connaissances

Examinez les options suivantes.

Les prix des logements en Californie varient sensiblement en fonction de la ville de Californie dans laquelle vous vous trouvez. Supposons que vous deviez créer un modèle prédictif pour les prix des logements. Quels ensembles ou croisements de caractéristiques pourraient apprendre les relations propres à une ville entre la variable roomsPerPerson et le prix d'un logement ?
Trois caractéristiques binaires distinctes : [binned latitude], [binned longitude] et [binned roomsPerPerson]
Le binning est une bonne chose, car il permet au modèle d'apprendre des relations non linéaires au sein d'une seule caractéristique. Cependant, comme une ville existe dans plus d'une dimension, l'apprentissage des relations propres à une ville requiert le croisement de la latitude et de la longitude.
Un croisement de caractéristiques : [latitude X longitude X roomsPerPerson]
Dans cet exemple, croiser les caractéristiques continues n'est pas une bonne idée. Le fait de croiser la valeur continue de la latitude avec roomsPerPerson, par exemple, permettrait d'obtenir qu'une variation de 10 % dans une caractéristique (la latitude, par exemple) soit équivalente à une variation de 10 % dans l'autre caractéristique (roomsPerPerson, dans ce cas).
Un croisement de caractéristiques : [binned latitude X binned longitude X binned roomsPerPerson]
Le croisement de la latitude avec la longitude permet au modèle d'apprendre les effets de la variable roomsPerPerson pour une ville donnée. Le binning empêche qu'un changement de latitude ne produise le même résultat qu'un changement de longitude. Selon la précision des classes, ce croisement de caractéristiques pourra apprendre les effets propres à une ville, à un quartier, voire à un bloc de maisons.
Deux croisements de caractéristiques : [binned latitude X binned roomsPerPerson] et [binned longitude X binned roomsPerPerson]
Le binning est une bonne idée. Cependant, comme une ville est une conjonction de latitude et de longitude, des croisements de caractéristiques distincts peuvent empêcher le modèle d'apprendre les prix propres à une ville.