Description de l'ensemble de données sur l'immobilier en Californie

De nombreux exercices de programmation du cours d'initiation au machine learning utilisent l'ensemble de données sur l'immobilier en Californie, qui contient des données extraites du recensement américain de 1990. Le tableau suivant fournit des descriptions, des plages de données et des types de données pour chaque caractéristique de l'ensemble de données.

Titre de la colonne Description Plage* Type de données
longitude Mesure de la distance à l'ouest d'une maison. Une valeur plus négative se trouve plus loin.
  • Les valeurs de longitude sont comprises entre -180 et +180.
  • Valeur minimale de l'ensemble de données: -124,3
  • Valeur maximale de l'ensemble de données: -114,3
float64
latitude Mesure de la distance nord d'une maison. Plus la valeur est élevée, plus la valeur est éloignée du nord.
  • Les valeurs de latitude sont comprises entre -90 et +90.
  • Valeur minimale de l'ensemble de données: 32,5
  • Valeur maximale de l'ensemble de données: 42,5
float64
housingMedianAge Âge médian d'une maison dans un pâté de maisons. Un nombre inférieur est un bâtiment plus récent.
  • Valeur minimale de l'ensemble de données: 1,0
  • Valeur maximale de l'ensemble de données: 52,0
float64
totalRooms Nombre total de salles dans un bloc
  • Valeur minimale de l'ensemble de données: 2,0
  • Valeur maximale de l'ensemble de données: 37 937,0
float64
totalBedrooms Nombre total de chambres dans un bloc
  • Valeur minimale de l'ensemble de données: 1,0
  • Valeur maximale de l'ensemble de données: 6 445,0
float64
population Nombre total de personnes qui résident dans un bloc
  • Valeur minimale de l'ensemble de données: 3,0
  • Valeur maximale de l'ensemble de données: 35 682,0
float64
households Nombre total de foyers, groupe de personnes résidant dans une maison
  • Valeur minimale de l'ensemble de données: 1,0
  • Valeur maximale de l'ensemble de données: 6 082,0
float64
medianIncome Revenus médians des foyers dans un bloc de logements (mesurés par des dizaines de milliers de dollars américains)
  • Valeur minimale de l'ensemble de données: 0,5
  • Valeur maximale de l'ensemble de données: 15,0
float64
medianHouseValue Valeur médiane des logements pour les foyers d'un bloc (en dollars américains)
  • Valeur minimale de l'ensemble de données: 14 999,0
  • Valeur maximale de l'ensemble de données: 500 001,0
float64

* Les valeurs minimale et maximale du tableau ci-dessous ont été obtenues en utilisant les notebooks d'exercice à l'aide de pandas.DataFrame.describe() sur l'ensemble de données sur l'immobilier en Californie.

Reference

Pace, R. Kelley et Ronald Barry, "Sparse Spatial Autoregressions", statistiques et lettres de probabilité, volume 33, numéro 3, 5 mai 1997, p. 291-297.

Voici la méthodologie appliquée aux données dans cet article:

Nous avons collecté des informations sur les variables en utilisant tous les groupes de blocs de Californie du recensement 1990. Dans cet exemple, un groupe de blocs comprend en moyenne 1 425,5 personnes vivant dans une zone géographique compacte. Naturellement, la zone géographique incluse diffère de la densité de la population. Nous avons calculé les distances entre les centroïdes de chaque groupe de blocs, telles que mesurées en latitude et en longitude. Nous avons exclu tous les groupes de blocs qui ne comportaient aucune entrée pour les variables indépendantes et dépendantes. Les données finales contiennent 20 640 observations sur 9 caractéristiques.