Description de l'ensemble de données sur l'immobilier en Californie

De nombreux exercices de programmation dans le cours d'initiation au Machine Learning exploitent l'ensemble de données sur l'immobilier en Californie, qui contient des données issues du recensement de 1990 aux États-Unis. Le tableau suivant indique la description, la plage de données et le type de données de chaque caractéristique appartenant à cet ensemble.

Titre de la colonne Description Plage* Type de données
longitude Mesure de la longitude d'un logement ; plus la valeur est élevée, plus le logement se trouve à l'Ouest
  • La longitude varie de -180 à +180
  • Valeur minimale de l'ensemble de données : -124,3
  • Valeur maximale de l'ensemble de données : -114,3
float64
latitude Mesure de la latitude d'un logement ; plus la valeur est élevée, plus le logement se trouve au Nord
  • La latitude varie de -90 à +90
  • Valeur minimale de l'ensemble de données : 32,5
  • Valeur maximale de l'ensemble de données : 42,5
float64
housingMedianAge Ancienneté moyenne d'un logement dans un bloc ; un nombre peu élevé indique un bâtiment récent
  • Valeur minimale de l'ensemble de données : 1,0
  • Valeur maximale de l'ensemble de données : 52,0
float64
totalRooms Nombre total de pièces dans un bloc
  • Valeur minimale de l'ensemble de données : 2,0
  • Valeur maximale de l'ensemble de données : 37 937,0
float64
totalBedrooms Nombre total de chambres dans un bloc
  • Valeur minimale de l'ensemble de données : 1,0
  • Valeur maximale de l'ensemble de données : 6 445,0
float64
population Nombre total de résidents dans un bloc
  • Valeur minimale de l'ensemble de données : 3,0
  • Valeur maximale de l'ensemble de données : 35 682,0
float64
households Nombre total de foyers (groupe de personnes habitant dans la même unité résidentielle) dans un bloc
  • Valeur minimale de l'ensemble de données : 1,0
  • Valeur maximale de l'ensemble de données : 6 082,0
float64
medianIncome Revenu moyen des foyers dans un bloc (en dizaines de milliers de dollars américains)
  • Valeur minimale de l'ensemble de données : 0,5
  • Valeur maximale de l'ensemble de données : 15,0
float64
medianHouseValue Valeur moyenne d'un logement pour les foyers d'un bloc (en dollars américains)
  • Valeur minimale de l'ensemble de données : 14 999,0
  • Valeur maximale de l'ensemble de données : 500 001,0
float64

* Les valeurs minimales et maximales du tableau ci-dessous proviennent des notebooks d'exercice et ont été obtenues en appliquant pandas.DataFrame.describe() à l'ensemble de données sur l'immobilier en Californie.

Référence

Pace, R. Kelley et Ronald Barry, "Sparse Spatial Autoregressions", Statistics and Probability Letters, Volume 33, Numéro 3, 5 mai 1997, p. 291-297.

La méthodologie de données décrite dans ce document est la suivante :

Nous avons collecté des informations sur les variables en nous basant sur tous les groupes de blocs de Californie issus du recensement de 1990. Dans cet échantillon, un groupe de blocs contient en moyenne 1 425,5 individus regroupés dans une zone géographique compacte. Naturellement, plus la taille de cette zone géographique est élevée, plus la densité de population est faible. Nous avons calculé les distances au sein des centroïdes de chaque groupe de blocs à l'aide de leurs mesures de latitude et de longitude. Nous avons exclu tous les groupes de blocs n'ayant aucune entrée pour les variables indépendantes et dépendantes. Les données finales contenaient 20 640 observations portant sur neuf caractéristiques.