Trasformazione dei dati numerici

Potresti dover applicare due tipi di trasformazioni ai dati numerici:

  • Normalizzazione: trasforma i dati numerici sulla stessa scala di altri dati numerici.
  • Bucket: trasformare i dati numerici (di solito continui) in dati categorici.

Perché normalizzare le funzionalità numeriche?

Consigliamo vivamente di normalizzare un set di dati con elementi numerici che coprono intervalli nettamente diversi (ad esempio età e reddito). Quando caratteristiche diverse hanno intervalli diversi, la discesa del gradiente può "rimpicciolire" e rallentare la convergenza. Ottimizzatori come Adagrad e Adam proteggono da questo problema creando un tasso di apprendimento effettivo separato per ogni funzionalità.

Consigliamo inoltre di normalizzare una singola funzionalità numerica che copre un'ampia gamma, come "popolazione della città". Se non normalizzi la funzionalità "Popolazione" e l'addestramento del modello potrebbero generare errori NaN. Purtroppo, gli ottimizzatori come Adagrad e Adam non possono evitare errori NaN quando c'è un'ampia gamma di valori all'interno di una singola funzionalità.