Muitos dos exercícios de programação de cursos de falhas de machine learning usam o conjunto de dados de imóveis da Califórnia, que contém dados extraídos do censo de 1990 dos EUA. A tabela a seguir fornece descrições, intervalos de dados e tipos de dados para cada recurso no conjunto de dados.
Título da coluna | Descrição | Intervalo* | Tipo de dados |
---|---|---|---|
longitude |
Uma medida do oeste de uma casa. Um valor mais negativo está mais a oeste |
|
ponto flutuante 64 |
latitude |
Uma medida do norte mais alto de uma casa; um valor maior é mais ao norte |
|
ponto flutuante 64 |
housingMedianAge |
Idade mediana de uma casa em um bloco. Um número menor é um edifício mais recente |
|
ponto flutuante 64 |
totalRooms |
Número total de salas em um bloco |
|
ponto flutuante 64 |
totalBedrooms |
Número total de quartos em um bloco |
|
ponto flutuante 64 |
population |
Número total de pessoas que residem em um bloco |
|
ponto flutuante 64 |
households |
Número total de residências, um grupo de pessoas que moram em uma unidade residencial, para um bloco |
|
ponto flutuante 64 |
medianIncome |
Renda mediana para famílias em um bloco de casas (medida em dezenas de milhares de dólares americanos) |
|
ponto flutuante 64 |
medianHouseValue |
Valor mediano da casa para casas em um bloco (medido em dólares americanos) |
|
ponto flutuante 64 |
* Os valores mínimo e máximo da tabela abaixo foram obtidos dos notebooks de Exercícios usando pandas.DataFrame.describe()
no conjunto de dados de imóveis da Califórnia.
Referência
Ritmo, R. Kelley and Ronald Barry, "Sparse Spatial Autoregressions," Statistics and probability letters, Volume 33, Number 3, May 5 1997, pág. 291-297.
Veja a seguir a metodologia de dados descrita no documento:
Coletamos informações sobre as variáveis usando todos os grupos bloqueados na Califórnia a partir do censo de 1990. Nesta amostra, um grupo de blocos, em média, inclui 1.425,5 indivíduos que vivem em uma área geograficamente compacta. Naturalmente, a área geográfica incluída varia de maneira inversa à densidade da população. Calculamos as distâncias entre os centroides de cada grupo de blocos, conforme medido em latitude e longitude. Excluímos todos os grupos de blocos que não registram entradas para as variáveis independentes e dependentes. Os dados finais contêm 20.640 observações sobre nove características.