Descripción del conjunto de datos de viviendas de California

Muchos de los ejercicios del Curso intensivo de aprendizaje automático usan el conjunto de datos de viviendas de California, que contiene datos extraídos del censo de EE.UU. de 1990. En la siguiente tabla, se proporcionan descripciones, rangos de datos y tipos de datos para cada atributo del conjunto de datos.

Título de la columna Descripción Intervalo* Tipo de datos
longitude Una medida de qué tan al oeste se encuentra una casa; un valor más negativo es más al oeste
  • Los valores de longitud varían entre -180 y +180
  • Mínimo del conjunto de datos: -124.3
  • Máximo del conjunto de datos: -114.3
float64
latitude Una medida de qué tan al norte se encuentra una casa; un valor más alto está más al norte
  • Los valores de latitud varían entre -90 y +90.
  • Mínimo del conjunto de datos: 32.5
  • Máximo del conjunto de datos: 42.5
float64
housingMedianAge Antigüedad mediana de una casa a una cuadra; un número más bajo corresponde a un edificio más nuevo
  • Mínimo del conjunto de datos: 1.0
  • Máximo del conjunto de datos: 52.0
float64
totalRooms Cantidad total de habitaciones en un bloque
  • Mínimo del conjunto de datos: 2.0
  • Máximo del conjunto de datos: 37937.0
float64
totalBedrooms Cantidad total de habitaciones en una manzana
  • Mínimo del conjunto de datos: 1.0
  • Máximo del conjunto de datos: 6445.0
float64
population Cantidad total de personas que residen en una manzana
  • Mínimo del conjunto de datos: 3.0
  • Máximo del conjunto de datos: 35682.0
float64
households Cantidad total de hogares, un grupo de personas que residen en una unidad, para una manzana
  • Mínimo del conjunto de datos: 1.0
  • Máximo del conjunto de datos: 6082.0
float64
medianIncome Mediana de ingresos para grupos familiares en una manzana (medido en decenas de miles de dólares estadounidenses)
  • Mínimo del conjunto de datos: 0.5
  • Máximo del conjunto de datos: 15.0
float64
medianHouseValue Mediana de viviendas para familias en una manzana (medido en dólares estadounidenses)
  • Mínimo del conjunto de datos: 14999.0
  • Máximo del conjunto de datos: 500001.0
float64

* Los valores mínimos y máximos de la siguiente tabla se obtuvieron de los notebooks de ejercicios con pandas.DataFrame.describe() en el conjunto de datos de Viviendas de California.

Reference

Ritmo, R. Kelley, y Ronald Barry, "Sparse Spatial Autoregressions," Statistics and Probability Letters, volumen 33, número 3, 5 de mayo de 1997, p. 291-297.

A continuación, se describe la metodología de los datos que se describe en el documento:

Recopilamos información sobre las variables con todos los grupos de bloques en California del censo de 1990. En este ejemplo, un grupo de bloques en promedio incluye a 1,425.5 personas que viven en un área geográfica compacta. Naturalmente, el área geográfica incluida varía de forma inversa a la densidad poblacional. Calculamos las distancias entre los centroides de cada grupo de bloques, según las medidas de latitud y longitud. Excluimos todos los grupos de bloques que informan cero entradas para las variables independientes y dependientes. Los datos finales contenían 20,640 observaciones sobre 9 características.