Descrição do conjunto de dados de imóveis da Califórnia

Muitos dos exercícios de programação de cursos de falhas de machine learning usam o conjunto de dados de imóveis da Califórnia, que contém dados extraídos do censo de 1990 dos EUA. A tabela a seguir fornece descrições, intervalos de dados e tipos de dados para cada recurso no conjunto de dados.

Título da coluna Descrição Intervalo* Tipo de dados
longitude Uma medida do oeste de uma casa. Um valor mais negativo está mais a oeste
  • Os valores de longitude variam de -180 a +180
  • Conjunto de dados mínimo: -124,3
  • Conjunto de dados máximo: -114,3
ponto flutuante 64
latitude Uma medida do norte mais alto de uma casa; um valor maior é mais ao norte
  • Os valores de latitude variam de -90 a +90
  • Conjunto de dados mínimo: 32,5
  • Conjunto de dados máximo: 42,5
ponto flutuante 64
housingMedianAge Idade mediana de uma casa em um bloco. Um número menor é um edifício mais recente
  • Conjunto de dados mínimo: 1,0
  • Conjunto de dados máximo: 52,0
ponto flutuante 64
totalRooms Número total de salas em um bloco
  • Conjunto de dados mínimo: 2,0
  • Conjunto de dados máximo: 37937,0
ponto flutuante 64
totalBedrooms Número total de quartos em um bloco
  • Conjunto de dados mínimo: 1,0
  • Conjunto de dados máximo: 6445,0
ponto flutuante 64
population Número total de pessoas que residem em um bloco
  • Conjunto de dados mínimo: 3
  • Conjunto de dados máximo: 35682,0
ponto flutuante 64
households Número total de residências, um grupo de pessoas que moram em uma unidade residencial, para um bloco
  • Conjunto de dados mínimo: 1,0
  • Conjunto de dados máximo: 6082,0
ponto flutuante 64
medianIncome Renda mediana para famílias em um bloco de casas (medida em dezenas de milhares de dólares americanos)
  • Conjunto de dados mínimo: 0,5
  • Conjunto de dados máximo: 15,0
ponto flutuante 64
medianHouseValue Valor mediano da casa para casas em um bloco (medido em dólares americanos)
  • Conjunto de dados mínimo: 14999,0
  • Conjunto de dados máximo: 500001,0
ponto flutuante 64

* Os valores mínimo e máximo da tabela abaixo foram obtidos dos notebooks de Exercícios usando pandas.DataFrame.describe() no conjunto de dados de imóveis da Califórnia.

Referência

Ritmo, R. Kelley and Ronald Barry, "Sparse Spatial Autoregressions," Statistics and probability letters, Volume 33, Number 3, May 5 1997, pág. 291-297.

Veja a seguir a metodologia de dados descrita no documento:

Coletamos informações sobre as variáveis usando todos os grupos bloqueados na Califórnia a partir do censo de 1990. Nesta amostra, um grupo de blocos, em média, inclui 1.425,5 indivíduos que vivem em uma área geograficamente compacta. Naturalmente, a área geográfica incluída varia de maneira inversa à densidade da população. Calculamos as distâncias entre os centroides de cada grupo de blocos, conforme medido em latitude e longitude. Excluímos todos os grupos de blocos que não registram entradas para as variáveis independentes e dependentes. Os dados finais contêm 20.640 observações sobre nove características.