Datensatz für den Wohnraum in Kalifornien

Viele Programmierübungen zum Crashkurs für maschinelles Lernen verwenden das kalifornische Immobilien-Dataset, das Daten aus der US-Volkszählung von 1990 enthält. Die folgende Tabelle enthält Beschreibungen, Datenbereiche und Datentypen für jedes Merkmal im Datensatz.

Spaltentitel Beschreibung Reichweite* Datentyp
longitude Ein Maß für die Entfernung nach Westen eines Hauses. Ein negativer Wert liegt weiter nach Westen.
  • Längengradwerte liegen zwischen -180 und +180.
  • Mindestmenge an Datensätzen: -124,3
  • Datensatz max.: -114,3
Gleitkommazahl 64
latitude Ein Maß dafür, wie weit Norden ein Haus ist; ein höherer Wert liegt weiter nördlich
  • Breitengradwerte reichen von -90 bis +90
  • Mindestmenge an Datensätzen: 32,5
  • Max.Datensatz: 42,5
Gleitkommazahl 64
housingMedianAge Medianwert des Alters eines Hauses innerhalb eines Häuserblocks; eine niedrigere Zahl ist ein neueres Gebäude
  • Mindestmenge an Datensätzen: 1,0
  • Datensatz max.: 52,0
Gleitkommazahl 64
totalRooms Gesamtzahl der Zimmer in einem Block
  • Mindestmenge an Datensätzen: 2,0
  • Max. Datensatz: 37937.0
Gleitkommazahl 64
totalBedrooms Gesamtzahl der Schlafzimmer in einem Häuserblock
  • Mindestmenge an Datensätzen: 1,0
  • Datensatz max.: 6445,0
Gleitkommazahl 64
population Gesamtzahl der Personen, die innerhalb eines Blocks wohnen
  • Mindestmenge an Datensätzen: 3,0
  • Datensatz max.: 35682,0
Gleitkommazahl 64
households Gesamtzahl der Haushalte, eine Gruppe von Personen in einer Wohneinheit, für einen Block
  • Mindestmenge an Datensätzen: 1,0
  • Datensatz max.: 6082,0
Gleitkommazahl 64
medianIncome Mittleres Einkommen für Haushalte in einem Häuserblock (gemessen in Zehntausenden US-Dollar)
  • Mindestmenge an Datensätzen: 0,5
  • Datensatz max.: 15,0
Gleitkommazahl 64
medianHouseValue Der durchschnittliche Hauswert für Haushalte in einem Block (in US-Dollar gemessen)
  • Mindestmenge des Datensatzes: 14.999,0
  • Max. Datensatz: 500.001,0
Gleitkommazahl 64

* Die Mindest- und Höchstwerte in der folgenden Tabelle stammen aus den Trainings-Notebooks mit pandas.DataFrame.describe() für das Dataset von Kalifornien

Referenz

Pac, R. Kelley und Ronald Barry, u. a. Sparse Spatial Auto Regressions, Statistics and Probability Letters, Volume 33, Number 3, 5. Mai 1997, S. 291-297.

Im Folgenden wird die in diesem Artikel beschriebene Datenmethodik beschrieben:

Wir haben mit den Blockgruppen in Kalifornien aus der Zensu von 1990 Informationen über die Variablen gesammelt. In diesem Beispiel umfasst eine Blockgruppe durchschnittlich 1.425,5 Personen, die in einer geografisch kompakten Region leben. Natürlich unterscheidet sich das geografische Gebiet umgekehrt je nach der Bevölkerungsdichte. Wir haben die Entfernungen zwischen den Schwerpunkten jeder Blockgruppe als Breiten- und Längengrad berechnet. Wir haben alle Blockgruppen ausgeschlossen, die für die unabhängigen und abhängigen Variablen null Einträge melden. Die endgültigen Daten enthielten 20.640 Beobachtungen zu 9 Merkmalen.