Viele Programmierübungen zum Crashkurs für maschinelles Lernen verwenden das kalifornische Immobilien-Dataset, das Daten aus der US-Volkszählung von 1990 enthält. Die folgende Tabelle enthält Beschreibungen, Datenbereiche und Datentypen für jedes Merkmal im Datensatz.
Spaltentitel | Beschreibung | Reichweite* | Datentyp |
---|---|---|---|
longitude |
Ein Maß für die Entfernung nach Westen eines Hauses. Ein negativer Wert liegt weiter nach Westen. |
|
Gleitkommazahl 64 |
latitude |
Ein Maß dafür, wie weit Norden ein Haus ist; ein höherer Wert liegt weiter nördlich |
|
Gleitkommazahl 64 |
housingMedianAge |
Medianwert des Alters eines Hauses innerhalb eines Häuserblocks; eine niedrigere Zahl ist ein neueres Gebäude |
|
Gleitkommazahl 64 |
totalRooms |
Gesamtzahl der Zimmer in einem Block |
|
Gleitkommazahl 64 |
totalBedrooms |
Gesamtzahl der Schlafzimmer in einem Häuserblock |
|
Gleitkommazahl 64 |
population |
Gesamtzahl der Personen, die innerhalb eines Blocks wohnen |
|
Gleitkommazahl 64 |
households |
Gesamtzahl der Haushalte, eine Gruppe von Personen in einer Wohneinheit, für einen Block |
|
Gleitkommazahl 64 |
medianIncome |
Mittleres Einkommen für Haushalte in einem Häuserblock (gemessen in Zehntausenden US-Dollar) |
|
Gleitkommazahl 64 |
medianHouseValue |
Der durchschnittliche Hauswert für Haushalte in einem Block (in US-Dollar gemessen) |
|
Gleitkommazahl 64 |
* Die Mindest- und Höchstwerte in der folgenden Tabelle stammen aus den Trainings-Notebooks mit pandas.DataFrame.describe()
für das Dataset von Kalifornien
Referenz
Pac, R. Kelley und Ronald Barry, u. a. Sparse Spatial Auto Regressions, Statistics and Probability Letters, Volume 33, Number 3, 5. Mai 1997, S. 291-297.
Im Folgenden wird die in diesem Artikel beschriebene Datenmethodik beschrieben:
Wir haben mit den Blockgruppen in Kalifornien aus der Zensu von 1990 Informationen über die Variablen gesammelt. In diesem Beispiel umfasst eine Blockgruppe durchschnittlich 1.425,5 Personen, die in einer geografisch kompakten Region leben. Natürlich unterscheidet sich das geografische Gebiet umgekehrt je nach der Bevölkerungsdichte. Wir haben die Entfernungen zwischen den Schwerpunkten jeder Blockgruppe als Breiten- und Längengrad berechnet. Wir haben alle Blockgruppen ausgeschlossen, die für die unabhängigen und abhängigen Variablen null Einträge melden. Die endgültigen Daten enthielten 20.640 Beobachtungen zu 9 Merkmalen.