Описание набора данных о жилье в Калифорнии

Во многих упражнениях по программированию ускоренного курса по машинному обучению используется набор данных о жилье в Калифорнии, который содержит данные, взятые из переписи населения США 1990 года. В следующей таблице приведены описания, диапазоны данных и типы данных для каждой функции в наборе данных.

Название столбца Описание Диапазон* Тип данных
longitude Мера того, как далеко на запад находится дом; более отрицательное значение дальше на запад
  • Диапазон значений долготы от -180 до +180
  • Минимальный набор данных: -124,3
  • Максимальный набор данных: -114,3
поплавок64
latitude Мера того, как далеко на севере находится дом; более высокое значение находится дальше на север
  • Диапазон значений широты от -90 до +90
  • Минимальный набор данных: 32,5
  • Максимальный набор данных: 42,5
поплавок64
housingMedianAge Средний возраст дома в квартале; меньшее число - более новое здание
  • Минимальный набор данных: 1,0
  • Максимальный набор данных: 52,0
поплавок64
totalRooms Общее количество комнат в блоке
  • Минимальный набор данных: 2,0
  • Максимальный набор данных: 37937,0
поплавок64
totalBedrooms Общее количество спален в блоке
  • Минимальный набор данных: 1,0
  • Максимальный набор данных: 6445,0
поплавок64
population Общее количество людей, проживающих в блоке
  • Минимальный набор данных: 3,0
  • Максимальный набор данных: 35682,0
поплавок64
households Общее количество домохозяйств, группа людей, проживающих в жилой единице, для квартала
  • Минимальный набор данных: 1,0
  • Максимальный набор данных: 6082,0
поплавок64
medianIncome Средний доход домохозяйств в многоквартирном доме (измеряется в десятках тысяч долларов США)
  • Минимальный набор данных: 0,5
  • Максимальный набор данных: 15,0
поплавок64
medianHouseValue Средняя стоимость дома для домохозяйств в квартале (измеряется в долларах США)
  • Минимальный набор данных: 14999,0
  • Максимальный набор данных: 500001,0
поплавок64

* Минимальные и максимальные значения в таблице ниже были получены из тетрадей с упражнениями с использованием pandas.DataFrame.describe() в наборе данных California Housing.

Ссылка

Пейс, Р. Келли и Рональд Барри, «Разреженные пространственные авторегрессии», Письма о статистике и вероятностях, том 33, номер 3, 5 мая 1997 г., с. 291-297.

Ниже приводится методология данных, описанная в документе:

Мы собрали информацию о переменных, используя все квартальные группы в Калифорнии из переписи 1990 года. Блоковая группа в этой выборке в среднем включает 1425,5 особей, проживающих на территориально компактной территории. Естественно, включенная географическая область изменяется обратно пропорционально плотности населения. Мы вычислили расстояния между центроидами каждой группы блоков, измеренные по широте и долготе. Мы исключили все группы блоков, сообщающие нулевые записи для независимых и зависимых переменных. Окончательные данные содержали 20 640 наблюдений по 9 характеристикам.