カテゴリデータの操作

カテゴリデータには、取り得る値の特定のセットがあります。例:

  • 国立公園に生息するさまざまな動物
  • 特定の都市の通りの名前
  • メールがスパムかどうか
  • 家の外壁の塗装色
  • ビニングされた数値については、数値 Data モジュール

数値はカテゴリデータにもできます

真の数値データ 大きくすることができますたとえば、 面積に基づいて住宅の価値を予測するモデルです。 なお、住宅価格の評価に役立つモデルは、一般的に 特徴を活用できますただし、他の条件が同じであれば、200 平方メートルの家は、100 平方メートルの同じ家と比べて価値が約 2 倍になるはずです。

多くの場合、整数値を含む特徴は、数値データではなくカテゴリデータとして表現する必要があります。たとえば、 値を整数にします。この特徴をカテゴリではなく数値で表すと、モデルは異なる郵便番号間の数値関係を見つけるように指示されます。つまり、郵便番号 20004 を郵便番号 10002 の 2 倍(または半分)の重みを持つシグナルとして扱うようにモデルに指示しています。郵便番号をカテゴリデータとして表現すると、モデルは個々の郵便番号に個別に重み付けできます。

エンコード

エンコードとは、カテゴリデータなどのデータを、モデルがトレーニングできる数値ベクトルに変換することを意味します。この変換は、モデルが浮動小数点値でのみトレーニングできるため必要です。モデルは "dog""maple" などの文字列でトレーニングできません。このモジュールでは、カテゴリデータのさまざまなエンコード方法について説明します。