Trang này được dịch bởi Cloud Translation API.

Mô tả tập dữ liệu nhà ở California

Nhiều bài tập lập trình cho sự cố máy học sử dụng tập dữ liệu về nhà ở California, trong đó chứa dữ liệu được lấy từ dữ liệu điều tra dân số Hoa Kỳ năm 1990. Bảng sau đây cung cấp nội dung mô tả, phạm vi dữ liệu và loại dữ liệu cho từng tính năng trong tập dữ liệu đó.

Tiêu đề cột	Nội dung mô tả	Phạm vi*	Loại dữ liệu
`longitude`	Chỉ số đo khoảng cách về phía tây của một ngôi nhà; giá trị âm hơn xa hơn về phía tây	Giá trị kinh độ nằm trong khoảng từ -180 đến +180 Tập dữ liệu tối thiểu: -124.3 Tập dữ liệu tối đa: -114,3	float64
`latitude`	Chỉ số đo khoảng cách về phía bắc của một ngôi nhà; giá trị cao hơn là phía bắc	Giá trị vĩ độ nằm trong khoảng từ -90 đến +90 Tập dữ liệu tối thiểu: 32.5 Tập dữ liệu tối đa: 42.5	float64
`housingMedianAge`	Tuổi trung bình của một ngôi nhà trong một khối; số thấp hơn là toà nhà mới hơn	Tập dữ liệu tối thiểu: 1 Tập dữ liệu tối đa: 52.0	float64
`totalRooms`	Tổng số phòng trong một khối	Tập dữ liệu tối thiểu: 2 Tập dữ liệu tối đa: 37937.0	float64
`totalBedrooms`	Tổng số phòng ngủ trong một khối	Tập dữ liệu tối thiểu: 1 Tập dữ liệu tối đa: 6445.0	float64
`population`	Tổng số người sống trong một khối	Tập dữ liệu tối thiểu: 3 Tập dữ liệu tối đa: 35682.0	float64
`households`	Tổng số hộ gia đình, một nhóm người cư trú trong một đơn vị nhà, thuộc một khối	Tập dữ liệu tối thiểu: 1 Tập dữ liệu tối đa: 6082.0	float64
`medianIncome`	Thu nhập trung vị của các hộ gia đình trong một dãy nhà (tính bằng hàng chục nghìn đô la Mỹ)	Tập dữ liệu tối thiểu: 0,5 Tập dữ liệu tối đa: 15.0	float64
`medianHouseValue`	Giá trị nhà trung bình trong một hộ gia đình (được đo bằng Đô la Mỹ)	Tập dữ liệu tối thiểu: 14999.0 Tập dữ liệu tối đa: 500001.0	float64

* Giá trị tối thiểu và tối đa trong bảng dưới đây được lấy từ sổ tay Bài tập thể dục bằng cách sử dụng pandas.DataFrame.describe() trên tập dữ liệu Nhà ở California

Tài liệu tham khảo

Tốc độ Kelley, và Ronald Margaret, "Sparse Spaive regressation," Thống kê và thư xác suất, Tập 33, Số 3, ngày 5 tháng 5 năm 1997, trang 291-297.

Sau đây là phương pháp dữ liệu được mô tả trong bài viết:

Chúng tôi đã thu thập thông tin về các biến bằng cách sử dụng tất cả các nhóm khối ở California từ Dữ liệu điều tra dân số năm 1990. Trong mẫu này, trung bình một nhóm người gồm 1425,5 người sống trong một khu vực nhỏ gọn về địa lý. Đương nhiên, khu vực địa lý được đưa vào thay đổi tỷ lệ nghịch với mật độ dân số. Chúng tôi đã tính toán khoảng cách giữa các trọng tâm của từng nhóm khối như được đo theo vĩ độ và kinh độ. Chúng tôi đã loại trừ tất cả nhóm chặn báo cáo mục nhập bằng 0 cho các biến độc lập và phụ thuộc. Dữ liệu cuối cùng dựa trên 20.640 quan sát về 9 đặc điểm.