カリフォルニア州の住宅のデータセットの説明

機械学習集中講座の多くでは、カリフォルニア州のハウジングのデータセットが使用されます。このデータセットには、1990 年の米国国勢調査から得られたデータが含まれています。次の表に、データセット内の各特徴の説明、データ範囲、データ型を示します。

列のタイトル 説明 範囲* Datatype
longitude 家がどれだけ西にあるかを示す尺度。負の値が大きいほど西である
  • 経度の値の範囲は -180 ~+180 です
  • データセットの最小: -124.3
  • データセットの最大数: -114.3
float64
latitude 住宅の北がどのくらい離れているかを示します。値が大きいほど北になります。
  • 緯度の値の範囲は -90 ~+90 です
  • データセットの最小: 32.5
  • データセットの上限: 42.5
float64
housingMedianAge 1 区画内にある住宅の年数中央値。低いほど新しい建築物である
  • データセットの最小: 1.0
  • データセットの上限: 52.0
float64
totalRooms 1 ブロックあたりの部屋の合計数
  • データセットの最小: 2.0
  • データセットの最大数: 37937.0
float64
totalBedrooms 1 つのブロック内のベッドルームの合計数
  • データセットの最小: 1.0
  • データセットの上限: 6,445.0
float64
population あるブロックに居住する人の合計数
  • データセットの最小: 3.0
  • データセットの最大: 35682.0
float64
households 1 つのブロックに属する 1 つの家に属するメンバーのグループの総数(世帯数)です
  • データセットの最小: 1.0
  • データセットの上限: 6,082.0
float64
medianIncome 家のブロック内での世帯収入の中央値(数万米ドルで測定)
  • データセット最小: 0.5
  • データセットの上限: 15.0
float64
medianHouseValue ブロック内にある世帯の住宅価値の中央値(米ドルで測定)
  • データセットの最小: 14999.0
  • データセットの最大: 500001.0
float64

* 以下の表の最小値と最大値は、カリフォルニア ハウジングのデータセットで pandas.DataFrame.describe() を使用してエクササイズ ノートブックから取得されたものです。

Reference

Pace、R. Kelley、Ronald Barry、「Sparse Spatial Auto 回帰」、Statistics and Probability Letter、第 33 巻、3 号、1997 年 5 月 5 日、291 ~ 297 ページ。

この論文で説明したデータ手法は次のとおりです。

1990 年の国勢調査から、カリフォルニア州の全ブロック グループを使用して変数に関する情報を収集しました。このサンプルでは、平均的に 1,425.5 個の地域に住むブロック グループに 1,425.5 人の個人が住んでいます。本来含まれる地域は、人口密度に反比例します。緯度と経度で測定した各ブロック グループのセントロイド間の距離を計算しました。独立変数と従属変数についてゼロのエントリを報告するすべてのブロック グループを除外しました。最終的なデータには、9 つの特性に関する 20,640 件の観測が含まれていました。