本頁面由 Cloud Translation API 翻譯而成。

加州住宅資料集說明

許多機器學習密集課程程式設計練習使用加州的住宅資料集，其中包含從 1990 年美國人口普查擷取的資料。下表提供資料集中各項特徵的說明、資料範圍和資料類型。

欄位標題	說明	範圍*	資料類型
`longitude`	這項指標的估算單位為西方：距離較遠的西方值	經度值範圍介於 -180 到 +180 之間資料集下限：-124.3 資料集上限：-114.3	float64
`latitude`	測量房屋北方的程度；值越大，北方較遠	緯度值的範圍介於 -90 到 +90 資料集下限：32.5 資料集上限：42.5	float64
`housingMedianAge`	街區內房屋的中位數年齡；數字越大，新建築物就越新	資料集下限：1.0 資料集上限：52.0	float64
`totalRooms`	封鎖對象的聊天室總數	資料集下限：2.0 資料集上限：37937.0	float64
`totalBedrooms`	封鎖程序中的臥室總數	資料集下限：1.0 資料集上限：6445.0	float64
`population`	在單一街區居住的總人數	資料集下限：3.0 資料集上限：35682.0	float64
`households`	特定街區，總共有一群人住在住家單位中	資料集下限：1.0 資料集上限：6082.0	float64
`medianIncome`	單一街區內家庭收入的中位數 (以數萬美元為單位)	資料集下限：0.5 資料集上限：15.0	float64
`medianHouseValue`	某個街區內家庭的中位數 (以美元為單位)	資料集下限：14999.0 資料集上限：500001.0	float64

* 下表中的最小值和最大值是使用加州住宅資料集的 pandas.DataFrame.describe() 從運動筆記本取得而來

參考資料

Pace, R. Kelley 和 Ronald Barry，〈Sparse Spaspace Autortransformions〉，統計資料和機率性信件，第 33 卷，第 3 期，1997 年 5 月 5 日，第 291-297 頁。

本文說明的資料方法如下：

我們根據 1990 年人口普查，使用加州所有區塊群組收集的變數資訊。在此範例中，平均而言，一個區塊群組就含有 1425.5 名居住於地理密集區域的個人。當然，自然地區中的人口人口人口密度就不盡相同。我們會計算每個區塊群組的中心中心值，以緯度和經度測量。我們已排除所有獨立和相依變數回報零區塊的群組。最終資料包含 9 個特徵的 20,640 個觀察項目。