許多機器學習密集課程程式設計練習使用加州的住宅資料集,其中包含從 1990 年美國人口普查擷取的資料。下表提供資料集中各項特徵的說明、資料範圍和資料類型。
欄位標題 | 說明 | 範圍* | 資料類型 |
---|---|---|---|
longitude |
這項指標的估算單位為西方:距離較遠的西方值 |
|
float64 |
latitude |
測量房屋北方的程度;值越大,北方較遠 |
|
float64 |
housingMedianAge |
街區內房屋的中位數年齡;數字越大,新建築物就越新 |
|
float64 |
totalRooms |
封鎖對象的聊天室總數 |
|
float64 |
totalBedrooms |
封鎖程序中的臥室總數 |
|
float64 |
population |
在單一街區居住的總人數 |
|
float64 |
households |
特定街區,總共有一群人住在住家單位中 |
|
float64 |
medianIncome |
單一街區內家庭收入的中位數 (以數萬美元為單位) |
|
float64 |
medianHouseValue |
某個街區內家庭的中位數 (以美元為單位) |
|
float64 |
* 下表中的最小值和最大值是使用加州住宅資料集的 pandas.DataFrame.describe()
從運動筆記本取得而來
參考資料
Pace, R. Kelley 和 Ronald Barry,〈Sparse Spaspace Autortransformions〉,統計資料和機率性信件,第 33 卷,第 3 期,1997 年 5 月 5 日,第 291-297 頁。
本文說明的資料方法如下:
我們根據 1990 年人口普查,使用加州所有區塊群組收集的變數資訊。在此範例中,平均而言,一個區塊群組就含有 1425.5 名居住於地理密集區域的個人。當然,自然地區中的人口人口人口密度就不盡相同。我們會計算每個區塊群組的中心中心值,以緯度和經度測量。我們已排除所有獨立和相依變數回報零區塊的群組。最終資料包含 9 個特徵的 20,640 個觀察項目。