Transformer des données numériques

Vous devrez peut-être appliquer deux types de transformations aux données numériques:

  • Normalisation : transformation des données numériques à la même échelle que les autres données numériques.
  • Binning : transformation de données numériques (généralement continues) en données catégorielles.

Pourquoi normaliser les caractéristiques numériques ?

Nous vous recommandons vivement de normaliser un ensemble de données comportant des caractéristiques numériques couvrant des plages très différentes (par exemple, l'âge et le revenu). Lorsque différentes caractéristiques ont des plages différentes, la descente de gradient peut ralentir et ralentir la convergence. Des optimiseurs tels qu'Adagrad et Adam protègent contre ce problème en créant un taux d'apprentissage effectif distinct pour chaque caractéristique.

Nous vous recommandons également de normaliser une seule caractéristique numérique couvrant une large plage, telle que la "population de la ville". Si vous ne normalisez pas la caractéristique de "population de la ville", l'entraînement du modèle peut générer des erreurs NaN. Malheureusement, les optimiseurs tels qu'Adagrad et Adam ne peuvent pas éviter les erreurs NaN lorsqu'il existe une grande variété de valeurs au sein d'une même caractéristique.