캘리포니아 주택 데이터 세트 설명

대부분의 머신러닝 단기집중과정 프로그래밍 실습은 1990년 미국 인구조사국 자료를 바탕으로 한 캘리포니아 주택 데이터 세트를 사용합니다. 다음 표는 이 데이터 세트의 각 기능에 대한 설명, 데이터 범위 및 데이터 유형을 보여줍니다.

열 제목 설명 범위* 데이터 유형
longitude 주택이 서쪽으로 얼마나 가야 있는지 측정한 값(값이 높을수록 더 서쪽에 있음)
  • 경도 값의 범위는 -180에서 +180 사이
  • 데이터 세트 최솟값: -124.3
  • 데이터 세트 최댓값: -114.3
float64
latitude 주택이 북쪽으로 얼마나 가야 있는지 측정한 값(값이 높을수록 더 북쪽에 있음)
  • 위도 값의 범위는 -90에서 +90 사이
  • 데이터 세트 최솟값: 32.5
  • 데이터 세트 최댓값: 42.5
float64
housingMedianAge 블록 내 주택의 연령 중앙값(값이 낮을 수록 새 건물임)
  • 데이터 세트 최솟값: 1.0
  • 데이터 세트 최댓값: 52.0
float64
totalRooms 블록 내 주택의 총 방 개수
  • 데이터 세트 최솟값: 2.0
  • 데이터 세트 최댓값: 37937.0
float64
totalBedrooms 블록 내 주택의 총 침실 수
  • 데이터 세트 최솟값: 1.0
  • 데이터 세트 최댓값: 6445.0
float64
population 블록 내 거주 중인 총 주민 수
  • 데이터 세트 최솟값: 3.0
  • 데이터 세트 최댓값: 35682.0
float64
households 블록 내 총가구(한 세대에 거주하는 그룹) 수
  • 데이터 세트 최솟값: 1.0
  • 데이터 세트 최댓값: 6082.0
float64
medianIncome 블록 내 가구의 소득 중앙값(단위: 미화 10,000달러)
  • 데이터 세트 최솟값: 0.5
  • 데이터 세트 최댓값: 15.0
float64
medianHouseValue 블록 내 가구의 주택 매매가 중앙값(단위: 미국 달러)
  • 데이터 세트 최솟값: 14999.0
  • 데이터 세트 최댓값: 500001.0
float64

* 아래 표의 최솟값과 최댓값은 캘리포니아 주택 데이터 세트의 pandas.DataFrame.describe()를 사용하여 실습 노트에서 가져온 것입니다.

참조

Pace, R. Kelley와 Ronald Barry의 "Sparse Spatial Autoregressions," Statistics and Probability Letters, 33(3), 1997년 5월 5일, p. 291-297.

다음은 이 논문에 기술된 데이터 방법론입니다.

1990 인구조사국 자료에서 캘리포니아 내 모든 블록 그룹을 사용하여 변수에 대한 정보를 얻었습니다. 이 샘플에서 하나의 블록 그룹에는 지리적으로 넓지 않은 지역에 살고 있는 평균 1425.5명의 주민이 포함되었습니다. 그룹에 포함된 지리적인 영역은 당연히 인구 밀도에 반비례합니다. 각 블록 그룹의 중심 간 거리를 위도와 경도로 측정하여 계산했습니다. 독립변수와 종속변수가 전혀 없다고 보고된 블록 그룹은 모두 제외했습니다. 최종 데이터에는 9가지 특성에 대한 20,640개의 관찰 항목이 포함되었습니다.