Diese Seite wurde von der Cloud Translation API übersetzt.

Datensatz für den Wohnraum in Kalifornien

Viele Programmierübungen zum Crashkurs für maschinelles Lernen verwenden das kalifornische Immobilien-Dataset, das Daten aus der US-Volkszählung von 1990 enthält. Die folgende Tabelle enthält Beschreibungen, Datenbereiche und Datentypen für jedes Merkmal im Datensatz.

Spaltentitel	Beschreibung	Reichweite*	Datentyp
`longitude`	Ein Maß für die Entfernung nach Westen eines Hauses. Ein negativer Wert liegt weiter nach Westen.	Längengradwerte liegen zwischen -180 und +180. Mindestmenge an Datensätzen: -124,3 Datensatz max.: -114,3	Gleitkommazahl 64
`latitude`	Ein Maß dafür, wie weit Norden ein Haus ist; ein höherer Wert liegt weiter nördlich	Breitengradwerte reichen von -90 bis +90 Mindestmenge an Datensätzen: 32,5 Max.Datensatz: 42,5	Gleitkommazahl 64
`housingMedianAge`	Medianwert des Alters eines Hauses innerhalb eines Häuserblocks; eine niedrigere Zahl ist ein neueres Gebäude	Mindestmenge an Datensätzen: 1,0 Datensatz max.: 52,0	Gleitkommazahl 64
`totalRooms`	Gesamtzahl der Zimmer in einem Block	Mindestmenge an Datensätzen: 2,0 Max. Datensatz: 37937.0	Gleitkommazahl 64
`totalBedrooms`	Gesamtzahl der Schlafzimmer in einem Häuserblock	Mindestmenge an Datensätzen: 1,0 Datensatz max.: 6445,0	Gleitkommazahl 64
`population`	Gesamtzahl der Personen, die innerhalb eines Blocks wohnen	Mindestmenge an Datensätzen: 3,0 Datensatz max.: 35682,0	Gleitkommazahl 64
`households`	Gesamtzahl der Haushalte, eine Gruppe von Personen in einer Wohneinheit, für einen Block	Mindestmenge an Datensätzen: 1,0 Datensatz max.: 6082,0	Gleitkommazahl 64
`medianIncome`	Mittleres Einkommen für Haushalte in einem Häuserblock (gemessen in Zehntausenden US-Dollar)	Mindestmenge an Datensätzen: 0,5 Datensatz max.: 15,0	Gleitkommazahl 64
`medianHouseValue`	Der durchschnittliche Hauswert für Haushalte in einem Block (in US-Dollar gemessen)	Mindestmenge des Datensatzes: 14.999,0 Max. Datensatz: 500.001,0	Gleitkommazahl 64

* Die Mindest- und Höchstwerte in der folgenden Tabelle stammen aus den Trainings-Notebooks mit pandas.DataFrame.describe() für das Dataset von Kalifornien

Referenz

Pac, R. Kelley und Ronald Barry, u. a. Sparse Spatial Auto Regressions, Statistics and Probability Letters, Volume 33, Number 3, 5. Mai 1997, S. 291-297.

Im Folgenden wird die in diesem Artikel beschriebene Datenmethodik beschrieben:

Wir haben mit den Blockgruppen in Kalifornien aus der Zensu von 1990 Informationen über die Variablen gesammelt. In diesem Beispiel umfasst eine Blockgruppe durchschnittlich 1.425,5 Personen, die in einer geografisch kompakten Region leben. Natürlich unterscheidet sich das geografische Gebiet umgekehrt je nach der Bevölkerungsdichte. Wir haben die Entfernungen zwischen den Schwerpunkten jeder Blockgruppe als Breiten- und Längengrad berechnet. Wir haben alle Blockgruppen ausgeschlossen, die für die unabhängigen und abhängigen Variablen null Einträge melden. Die endgültigen Daten enthielten 20.640 Beobachtungen zu 9 Merkmalen.