Nhiều bài tập lập trình cho sự cố máy học sử dụng tập dữ liệu về nhà ở California, trong đó chứa dữ liệu được lấy từ dữ liệu điều tra dân số Hoa Kỳ năm 1990. Bảng sau đây cung cấp nội dung mô tả, phạm vi dữ liệu và loại dữ liệu cho từng tính năng trong tập dữ liệu đó.
Tiêu đề cột | Nội dung mô tả | Phạm vi* | Loại dữ liệu |
---|---|---|---|
longitude |
Chỉ số đo khoảng cách về phía tây của một ngôi nhà; giá trị âm hơn xa hơn về phía tây |
|
float64 |
latitude |
Chỉ số đo khoảng cách về phía bắc của một ngôi nhà; giá trị cao hơn là phía bắc |
|
float64 |
housingMedianAge |
Tuổi trung bình của một ngôi nhà trong một khối; số thấp hơn là toà nhà mới hơn |
|
float64 |
totalRooms |
Tổng số phòng trong một khối |
|
float64 |
totalBedrooms |
Tổng số phòng ngủ trong một khối |
|
float64 |
population |
Tổng số người sống trong một khối |
|
float64 |
households |
Tổng số hộ gia đình, một nhóm người cư trú trong một đơn vị nhà, thuộc một khối |
|
float64 |
medianIncome |
Thu nhập trung vị của các hộ gia đình trong một dãy nhà (tính bằng hàng chục nghìn đô la Mỹ) |
|
float64 |
medianHouseValue |
Giá trị nhà trung bình trong một hộ gia đình (được đo bằng Đô la Mỹ) |
|
float64 |
* Giá trị tối thiểu và tối đa trong bảng dưới đây được lấy từ sổ tay Bài tập thể dục
bằng cách sử dụng pandas.DataFrame.describe()
trên tập dữ liệu Nhà ở California
Tài liệu tham khảo
Tốc độ Kelley, và Ronald Margaret, "Sparse Spaive regressation," Thống kê và thư xác suất, Tập 33, Số 3, ngày 5 tháng 5 năm 1997, trang 291-297.
Sau đây là phương pháp dữ liệu được mô tả trong bài viết:
Chúng tôi đã thu thập thông tin về các biến bằng cách sử dụng tất cả các nhóm khối ở California từ Dữ liệu điều tra dân số năm 1990. Trong mẫu này, trung bình một nhóm người gồm 1425,5 người sống trong một khu vực nhỏ gọn về địa lý. Đương nhiên, khu vực địa lý được đưa vào thay đổi tỷ lệ nghịch với mật độ dân số. Chúng tôi đã tính toán khoảng cách giữa các trọng tâm của từng nhóm khối như được đo theo vĩ độ và kinh độ. Chúng tôi đã loại trừ tất cả nhóm chặn báo cáo mục nhập bằng 0 cho các biến độc lập và phụ thuộc. Dữ liệu cuối cùng dựa trên 20.640 quan sát về 9 đặc điểm.