数値データには、次の 2 種類の変換の適用が必要になることがあります。
- 正規化 - 数値データを他の数値データと同じスケールに変換します。
- バケット化 - 数値(通常は連続)データをカテゴリデータに変換します。
数値特徴を正規化する理由
明らかに異なる範囲(年齢や所得など)を特徴とする数値特徴を持つデータセットを正規化することを強くおすすめします。さまざまな特徴の範囲が異なる場合、勾配降下法は「直帰」して収束を遅らせることができます。Adagrad や Adam のようなオプティマイザは、機能ごとに個別の有効な学習率を作成することにより、この問題を防ぎます。
また、「都市の人口」など、幅広い範囲に対応する単一の数値特徴を正規化することをおすすめします。「人口」の特徴量を正規化しない場合、モデルのトレーニングによって NaN エラーが発生する場合があります。残念ながら、Adagrad や Adam などのオプティマイザは、1 つの特徴内に幅広い値がある場合の NaN エラーを防止できません。