Découvrez les options ci-dessous.
Les villes de Californie sont très différentes
prix des logements.
Supposons que vous deviez créer un modèle prédictif pour les prix des logements. Lequel des
de caractéristiques ou de croisements de caractéristiques pourraient apprendre
des relations propres à une ville entre
roomsPerPerson et
le prix d'un logement ?
Trois caractéristiques binaires distinctes: [binned latitude],
[binned longitude] et [binned roomsPerPerson]
Le binning est efficace, car il permet au modèle d'apprendre des données non linéaires
des relations au sein d'une même caractéristique. Cependant, une ville existe dans
plusieurs dimensions. L'apprentissage des relations propres à chaque ville
nécessite de croiser la latitude et la longitude.
Un croisement de caractéristiques: [latitude X longitude X]
roomsPerPerson]
Dans cet exemple, le croisement des caractéristiques à valeur réelle n'est pas une bonne idée.
Croiser la valeur réelle de la latitude avec
roomsPerPerson permet de modifier de 10% une caractéristique (la latitude, par exemple)
équivaut à une variation de 10% de l'autre caractéristique (par exemple,
sallesPerPerson).
Un croisement de caractéristiques: [binned latitude X binned longitude X binned
roomsPerPerson]
Le croisement de la latitude et de la longitude permet
pour apprendre les effets de roomsPerPerson pour une ville.
Le binning empêche qu'un changement de latitude ne produise le même résultat
comme un changement de longitude. Selon le niveau de précision
ce croisement de caractéristiques peut apprendre des classes
des effets propres à un quartier, voire à un bloc.
Deux croisements de caractéristiques: [binned latitude X binned roomsPerPerson]
et [binned longitude X binned roomsPerPerson]
Le binning est
une bonne idée ; Cependant, une ville est la conjonction
la latitude et la longitude. Ainsi, des croisements de caractéristiques distincts empêchent
en apprenant les prix spécifiques à une ville.