Descripción del conjunto de datos de viviendas de California

Muchos de los ejercicios del Curso intensivo de aprendizaje automático utilizan el conjunto de datos de viviendas de California, el cual contiene datos extraídos del censo de nacional de 1990. La siguiente tabla proporciona descripciones, rangos de datos y tipos de datos para cada atributo del conjunto de datos.

Título de la columna Descripción Rango* Tipo de dato
longitude Una medida de cuán al oeste se encuentra una casa, una valor mayor significa más al oeste
  • Valores de longitud desde -180 hasta +180
  • Mínimo del conjunto de datos: -124.3
  • Máximo del conjunto de datos: -114.3
float64
latitude Una medida de cuán al norte se encuentra una casa, una valor mayor significa más al norte
  • Valores de latitud desde -90 hasta +90
  • Mínimo del conjunto de datos: 32.5
  • Máximo del conjunto de datos: 42.5
float64
housingMedianAge Antigüedad mediana de una casa en una manzana, una cifra menor significa una construcción más nueva
  • Mínimo del conjunto de datos: 1.0
  • Máximo del conjunto de datos: 52.0
float64
totalRooms Cantidad total de habitaciones en una manzana
  • Mínimo del conjunto de datos: 2.0
  • Máximo del conjunto de datos: 37937.0
float64
totalBedrooms Cantidad total de camas en una manzana
  • Mínimo del conjunto de datos: 1.0
  • Máximo del conjunto de datos: 6445.0
float64
population Cantidad total de residentes en una manzana
  • Mínimo del conjunto de datos: 3.0
  • Máximo del conjunto de datos: 35682.0
float64
households Cantidad total de grupos familiares (conjunto de personas que reside en una misma casa) en una manzana
  • Mínimo del conjunto de datos: 1.0
  • Máximo del conjunto de datos: 6082.0
float64
medianIncome Ingreso mediano de los grupos familiares de una manzana (medido en decenas de miles de dólares estadounidenses)
  • Mínimo del conjunto de datos: 0.5
  • Máximo del conjunto de datos: 15.0
float64
medianHouseValue Valor mediano de una casa para grupos familiares en una misma manzana (medido en dólares estadounidenses)
  • Mínimo del conjunto de datos: 14999.0
  • Máximo del conjunto de datos: 500001.0
float64

* Los valores mínimos y máximos de la tabla siguiente se obtuvieron de los blocs de notas de ejercicio mediante pandas.DataFrame.describe() del conjunto de datos de viviendas de California.

Referencia

Pace, R. Kelley, y Ronald Barry, "Sparse Spatial Autoregressions," Statistics and Probability Letters, volumen 33, número 3, 5 de mayo de 1997, pp. 291-297.

A continuación, la metodología de datos descrita en el artículo:

Recolectamos información para las variables utilizando todos los grupos de manzanas en California del censo de 1990. En este universo, un grupo de manzanas incluye en promedio 1425.5 individuos que viven en un área geográfica compacta. Naturalmente, el área geográfica incluida varía de forma inversa a la densidad poblacional. Computamos las distancias entre los centroides de cada grupo de manzanas según latitud y longitud. Se excluyeron todos los grupos de manzanas que no incluían ninguna entrada para las variables dependientes e independientes. Los datos finales contenían 20,640 observaciones sobre 9 características.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático