加州住宅資料集說明

許多機器學習密集課程程式設計練習使用加州的住宅資料集,其中包含從 1990 年美國人口普查擷取的資料。下表提供資料集中各項特徵的說明、資料範圍和資料類型。

欄位標題 說明 範圍* 資料類型
longitude 這項指標的估算單位為西方:距離較遠的西方值
  • 經度值範圍介於 -180 到 +180 之間
  • 資料集下限:-124.3
  • 資料集上限:-114.3
float64
latitude 測量房屋北方的程度;值越大,北方較遠
  • 緯度值的範圍介於 -90 到 +90
  • 資料集下限:32.5
  • 資料集上限:42.5
float64
housingMedianAge 街區內房屋的中位數年齡;數字越大,新建築物就越新
  • 資料集下限:1.0
  • 資料集上限:52.0
float64
totalRooms 封鎖對象的聊天室總數
  • 資料集下限:2.0
  • 資料集上限:37937.0
float64
totalBedrooms 封鎖程序中的臥室總數
  • 資料集下限:1.0
  • 資料集上限:6445.0
float64
population 在單一街區居住的總人數
  • 資料集下限:3.0
  • 資料集上限:35682.0
float64
households 特定街區,總共有一群人住在住家單位中
  • 資料集下限:1.0
  • 資料集上限:6082.0
float64
medianIncome 單一街區內家庭收入的中位數 (以數萬美元為單位)
  • 資料集下限:0.5
  • 資料集上限:15.0
float64
medianHouseValue 某個街區內家庭的中位數 (以美元為單位)
  • 資料集下限:14999.0
  • 資料集上限:500001.0
float64

* 下表中的最小值和最大值是使用加州住宅資料集的 pandas.DataFrame.describe() 從運動筆記本取得而來

參考資料

Pace, R. Kelley 和 Ronald Barry,〈Sparse Spaspace Autortransformions〉,統計資料和機率性信件,第 33 卷,第 3 期,1997 年 5 月 5 日,第 291-297 頁。

本文說明的資料方法如下:

我們根據 1990 年人口普查,使用加州所有區塊群組收集的變數資訊。在此範例中,平均而言,一個區塊群組就含有 1425.5 名居住於地理密集區域的個人。當然,自然地區中的人口人口人口密度就不盡相同。我們會計算每個區塊群組的中心中心值,以緯度和經度測量。我們已排除所有獨立和相依變數回報零區塊的群組。最終資料包含 9 個特徵的 20,640 個觀察項目。