Mô tả tập dữ liệu nhà ở California

Nhiều bài tập lập trình cho sự cố máy học sử dụng tập dữ liệu về nhà ở California, trong đó chứa dữ liệu được lấy từ dữ liệu điều tra dân số Hoa Kỳ năm 1990. Bảng sau đây cung cấp nội dung mô tả, phạm vi dữ liệu và loại dữ liệu cho từng tính năng trong tập dữ liệu đó.

Tiêu đề cột Nội dung mô tả Phạm vi* Loại dữ liệu
longitude Chỉ số đo khoảng cách về phía tây của một ngôi nhà; giá trị âm hơn xa hơn về phía tây
 • Giá trị kinh độ nằm trong khoảng từ -180 đến +180
 • Tập dữ liệu tối thiểu: -124.3
 • Tập dữ liệu tối đa: -114,3
float64
latitude Chỉ số đo khoảng cách về phía bắc của một ngôi nhà; giá trị cao hơn là phía bắc
 • Giá trị vĩ độ nằm trong khoảng từ -90 đến +90
 • Tập dữ liệu tối thiểu: 32.5
 • Tập dữ liệu tối đa: 42.5
float64
housingMedianAge Tuổi trung bình của một ngôi nhà trong một khối; số thấp hơn là toà nhà mới hơn
 • Tập dữ liệu tối thiểu: 1
 • Tập dữ liệu tối đa: 52.0
float64
totalRooms Tổng số phòng trong một khối
 • Tập dữ liệu tối thiểu: 2
 • Tập dữ liệu tối đa: 37937.0
float64
totalBedrooms Tổng số phòng ngủ trong một khối
 • Tập dữ liệu tối thiểu: 1
 • Tập dữ liệu tối đa: 6445.0
float64
population Tổng số người sống trong một khối
 • Tập dữ liệu tối thiểu: 3
 • Tập dữ liệu tối đa: 35682.0
float64
households Tổng số hộ gia đình, một nhóm người cư trú trong một đơn vị nhà, thuộc một khối
 • Tập dữ liệu tối thiểu: 1
 • Tập dữ liệu tối đa: 6082.0
float64
medianIncome Thu nhập trung vị của các hộ gia đình trong một dãy nhà (tính bằng hàng chục nghìn đô la Mỹ)
 • Tập dữ liệu tối thiểu: 0,5
 • Tập dữ liệu tối đa: 15.0
float64
medianHouseValue Giá trị nhà trung bình trong một hộ gia đình (được đo bằng Đô la Mỹ)
 • Tập dữ liệu tối thiểu: 14999.0
 • Tập dữ liệu tối đa: 500001.0
float64

* Giá trị tối thiểu và tối đa trong bảng dưới đây được lấy từ sổ tay Bài tập thể dục bằng cách sử dụng pandas.DataFrame.describe() trên tập dữ liệu Nhà ở California

Tài liệu tham khảo

Tốc độ Kelley, và Ronald Margaret, "Sparse Spaive regressation," Thống kê và thư xác suất, Tập 33, Số 3, ngày 5 tháng 5 năm 1997, trang 291-297.

Sau đây là phương pháp dữ liệu được mô tả trong bài viết:

Chúng tôi đã thu thập thông tin về các biến bằng cách sử dụng tất cả các nhóm khối ở California từ Dữ liệu điều tra dân số năm 1990. Trong mẫu này, trung bình một nhóm người gồm 1425,5 người sống trong một khu vực nhỏ gọn về địa lý. Đương nhiên, khu vực địa lý được đưa vào thay đổi tỷ lệ nghịch với mật độ dân số. Chúng tôi đã tính toán khoảng cách giữa các trọng tâm của từng nhóm khối như được đo theo vĩ độ và kinh độ. Chúng tôi đã loại trừ tất cả nhóm chặn báo cáo mục nhập bằng 0 cho các biến độc lập và phụ thuộc. Dữ liệu cuối cùng dựa trên 20.640 quan sát về 9 đặc điểm.