캘리포니아 주택 데이터 세트 설명

머신러닝 단기집중과정 프로그래밍 실습의 대부분은 1990년 미국 인구조사에서 가져온 데이터를 포함하는 캘리포니아 주택 데이터 세트를 사용합니다. 다음 표에서는 데이터 세트의 각 특성에 대한 설명, 데이터 범위, 데이터 유형을 제공합니다.

항목 이름 설명 범위* DataType
longitude 주택이 서쪽으로 얼마나 가야 하는지 측정한 값이며 음수 값이 클수록 서쪽입니다.
  • 경도 값 범위는 -180에서 +180까지입니다.
  • 데이터 세트 최솟값: -124.3
  • 데이터 세트 최댓값: -114.3
부동 소수점 수
latitude 주택이 북쪽으로 얼마나 가야 있는지 측정합니다. 값이 클수록 북쪽입니다.
  • 위도 값의 범위는 -90에서 +90까지입니다.
  • 데이터 세트 최솟값: 32.5
  • 데이터 세트 최댓값: 42.5
부동 소수점 수
housingMedianAge 한 블록 내 주택의 연령 중앙값. 숫자가 낮을수록 새 건물입니다.
  • 데이터 세트 최솟값: 1.0
  • 데이터 세트 최댓값: 52.0
부동 소수점 수
totalRooms 한 블록 내 총 회의실 수
  • 데이터 세트 최솟값: 2.0
  • 데이터 세트 최댓값: 37937.0
부동 소수점 수
totalBedrooms 한 블록 내 총 침실 수
  • 데이터 세트 최솟값: 1.0
  • 데이터 세트 최댓값: 6445.0
부동 소수점 수
population 한 블록에 거주하는 총 사용자 수입니다.
  • 데이터 세트 최솟값: 3.0
  • 데이터 세트 최댓값: 35682.0
부동 소수점 수
households 한 블록 이내에 살고 있는 사용자 집단, 즉 총 가계 수
  • 데이터 세트 최솟값: 1.0
  • 데이터 세트 최댓값: 6082.0
부동 소수점 수
medianIncome 주택 단지 내 가계 소득 중앙값 (수만 달러)
  • 데이터 세트 최솟값: 0.5
  • 데이터 세트 최댓값: 15.0
부동 소수점 수
medianHouseValue 블록 내 가계의 주택 중앙값 (미국 달러로 측정)
  • 데이터 세트 최솟값: 14,999.0
  • 데이터 세트 최댓값: 500001.0
부동 소수점 수

* 아래 표의 최솟값 및 최댓값은 캘리포니아 주택 데이터 세트의 pandas.DataFrame.describe()을 사용하여 운동 노트북에서 가져왔습니다.

참조

페이스, R. Kelley, Ronald Barry, "Sparse Spatial Autoregressions,"통계 및 확률 편지, 33호, 3호, 1997년 5월 5일, p. 291-297.

다음은 백서에 설명된 데이터 방법론입니다.

Google은 1990년 인구조사에서 캘리포니아의 모든 블록 그룹을 사용하여 변수에 대한 정보를 수집했습니다. 이 샘플에서 블록 그룹은 평균적으로 지리적으로 작은 지역에 거주하는 1,425.5명의 개인을 포함합니다. 당연히 포함된 지리적 영역은 인구 밀도에 반비례합니다. 위도 및 경도로 측정하여 각 블록 그룹의 중심 간 거리를 계산했습니다. 독립 변수와 종속 변수의 항목이 0개 보고되는 모든 차단 그룹을 제외했습니다. 최종 데이터에는 9가지 특성에 대한 20,640개의 관찰이 포함되었습니다.