Descripción del conjunto de datos de viviendas de California
Muchos de los ejercicios del Curso intensivo de aprendizaje automático utilizan el conjunto de datos de viviendas de California, el cual contiene datos extraídos del censo de nacional de 1990. La siguiente tabla proporciona descripciones, rangos de datos y tipos de datos para cada atributo del conjunto de datos.
Título de la columna | Descripción | Rango* | Tipo de dato |
---|---|---|---|
longitude |
Una medida de cuán al oeste se encuentra una casa, una valor mayor significa más al oeste |
|
float64 |
latitude |
Una medida de cuán al norte se encuentra una casa, una valor mayor significa más al norte |
|
float64 |
housingMedianAge |
Antigüedad mediana de una casa en una manzana, una cifra menor significa una construcción más nueva |
|
float64 |
totalRooms |
Cantidad total de habitaciones en una manzana |
|
float64 |
totalBedrooms |
Cantidad total de camas en una manzana |
|
float64 |
population |
Cantidad total de residentes en una manzana |
|
float64 |
households |
Cantidad total de grupos familiares (conjunto de personas que reside en una misma casa) en una manzana |
|
float64 |
medianIncome |
Ingreso mediano de los grupos familiares de una manzana (medido en decenas de miles de dólares estadounidenses) |
|
float64 |
medianHouseValue |
Valor mediano de una casa para grupos familiares en una misma manzana (medido en dólares estadounidenses) |
|
float64 |
* Los valores mínimos y máximos de la tabla siguiente se obtuvieron de los blocs de notas de ejercicio mediante pandas.DataFrame.describe()
del conjunto de datos de viviendas de California.
Referencia
Pace, R. Kelley, y Ronald Barry, "Sparse Spatial Autoregressions," Statistics and Probability Letters, volumen 33, número 3, 5 de mayo de 1997, pp. 291-297.
A continuación, la metodología de datos descrita en el artículo:
Recolectamos información para las variables utilizando todos los grupos de manzanas en California del censo de 1990. En este universo, un grupo de manzanas incluye en promedio 1425.5 individuos que viven en un área geográfica compacta. Naturalmente, el área geográfica incluida varía de forma inversa a la densidad poblacional. Computamos las distancias entre los centroides de cada grupo de manzanas según latitud y longitud. Se excluyeron todos los grupos de manzanas que no incluían ninguna entrada para las variables dependientes e independientes. Los datos finales contenían 20,640 observaciones sobre 9 características.