Description de l'ensemble de données sur l'immobilier en Californie
De nombreux exercices de programmation dans le cours d'initiation au Machine Learning exploitent l'ensemble de données sur l'immobilier en Californie, qui contient des données issues du recensement de 1990 aux États-Unis. Le tableau suivant indique la description, la plage de données et le type de données de chaque caractéristique appartenant à cet ensemble.
Titre de la colonne | Description | Plage* | Type de données |
---|---|---|---|
longitude |
Mesure de la longitude d'un logement ; plus la valeur est élevée, plus le logement se trouve à l'Ouest |
|
float64 |
latitude |
Mesure de la latitude d'un logement ; plus la valeur est élevée, plus le logement se trouve au Nord |
|
float64 |
housingMedianAge |
Ancienneté moyenne d'un logement dans un bloc ; un nombre peu élevé indique un bâtiment récent |
|
float64 |
totalRooms |
Nombre total de pièces dans un bloc |
|
float64 |
totalBedrooms |
Nombre total de chambres dans un bloc |
|
float64 |
population |
Nombre total de résidents dans un bloc |
|
float64 |
households |
Nombre total de foyers (groupe de personnes habitant dans la même unité résidentielle) dans un bloc |
|
float64 |
medianIncome |
Revenu moyen des foyers dans un bloc (en dizaines de milliers de dollars américains) |
|
float64 |
medianHouseValue |
Valeur moyenne d'un logement pour les foyers d'un bloc (en dollars américains) |
|
float64 |
* Les valeurs minimales et maximales du tableau ci-dessous proviennent des notebooks d'exercice et ont été obtenues en appliquant pandas.DataFrame.describe()
à l'ensemble de données sur l'immobilier en Californie.
Référence
Pace, R. Kelley et Ronald Barry, "Sparse Spatial Autoregressions", Statistics and Probability Letters, Volume 33, Numéro 3, 5 mai 1997, p. 291-297.
La méthodologie de données décrite dans ce document est la suivante :
Nous avons collecté des informations sur les variables en nous basant sur tous les groupes de blocs de Californie issus du recensement de 1990. Dans cet échantillon, un groupe de blocs contient en moyenne 1 425,5 individus regroupés dans une zone géographique compacte. Naturellement, plus la taille de cette zone géographique est élevée, plus la densité de population est faible. Nous avons calculé les distances au sein des centroïdes de chaque groupe de blocs à l'aide de leurs mesures de latitude et de longitude. Nous avons exclu tous les groupes de blocs n'ayant aucune entrée pour les variables indépendantes et dépendantes. Les données finales contenaient 20 640 observations portant sur neuf caractéristiques.