이 페이지는 Cloud Translation API를 통해 번역되었습니다.

캘리포니아 주택 데이터 세트 설명

머신러닝 단기집중과정 프로그래밍 실습의 대부분은 1990년 미국 인구조사에서 가져온 데이터를 포함하는 캘리포니아 주택 데이터 세트를 사용합니다. 다음 표에서는 데이터 세트의 각 특성에 대한 설명, 데이터 범위, 데이터 유형을 제공합니다.

항목 이름	설명	범위*	DataType
`longitude`	주택이 서쪽으로 얼마나 가야 하는지 측정한 값이며 음수 값이 클수록 서쪽입니다.	경도 값 범위는 -180에서 +180까지입니다. 데이터 세트 최솟값: -124.3 데이터 세트 최댓값: -114.3	부동 소수점 수
`latitude`	주택이 북쪽으로 얼마나 가야 있는지 측정합니다. 값이 클수록 북쪽입니다.	위도 값의 범위는 -90에서 +90까지입니다. 데이터 세트 최솟값: 32.5 데이터 세트 최댓값: 42.5	부동 소수점 수
`housingMedianAge`	한 블록 내 주택의 연령 중앙값. 숫자가 낮을수록 새 건물입니다.	데이터 세트 최솟값: 1.0 데이터 세트 최댓값: 52.0	부동 소수점 수
`totalRooms`	한 블록 내 총 회의실 수	데이터 세트 최솟값: 2.0 데이터 세트 최댓값: 37937.0	부동 소수점 수
`totalBedrooms`	한 블록 내 총 침실 수	데이터 세트 최솟값: 1.0 데이터 세트 최댓값: 6445.0	부동 소수점 수
`population`	한 블록에 거주하는 총 사용자 수입니다.	데이터 세트 최솟값: 3.0 데이터 세트 최댓값: 35682.0	부동 소수점 수
`households`	한 블록 이내에 살고 있는 사용자 집단, 즉 총 가계 수	데이터 세트 최솟값: 1.0 데이터 세트 최댓값: 6082.0	부동 소수점 수
`medianIncome`	주택 단지 내 가계 소득 중앙값 (수만 달러)	데이터 세트 최솟값: 0.5 데이터 세트 최댓값: 15.0	부동 소수점 수
`medianHouseValue`	블록 내 가계의 주택 중앙값 (미국 달러로 측정)	데이터 세트 최솟값: 14,999.0 데이터 세트 최댓값: 500001.0	부동 소수점 수

* 아래 표의 최솟값 및 최댓값은 캘리포니아 주택 데이터 세트의 pandas.DataFrame.describe()을 사용하여 운동 노트북에서 가져왔습니다.

참조

페이스, R. Kelley, Ronald Barry, "Sparse Spatial Autoregressions,"통계 및 확률 편지, 33호, 3호, 1997년 5월 5일, p. 291-297.

다음은 백서에 설명된 데이터 방법론입니다.

Google은 1990년 인구조사에서 캘리포니아의 모든 블록 그룹을 사용하여 변수에 대한 정보를 수집했습니다. 이 샘플에서 블록 그룹은 평균적으로 지리적으로 작은 지역에 거주하는 1,425.5명의 개인을 포함합니다. 당연히 포함된 지리적 영역은 인구 밀도에 반비례합니다. 위도 및 경도로 측정하여 각 블록 그룹의 중심 간 거리를 계산했습니다. 독립 변수와 종속 변수의 항목이 0개 보고되는 모든 차단 그룹을 제외했습니다. 최종 데이터에는 9가지 특성에 대한 20,640개의 관찰이 포함되었습니다.