Numerische Daten umwandeln

Möglicherweise müssen Sie zwei Arten von Transformationen auf numerische Daten anwenden:

  • Normalisierung: Transformiert numerische Daten in dieselbe Skalierung wie andere numerische Daten
  • Bucketing: Umwandlung numerischer (normalerweise kontinuierlicher) Daten in kategorische Daten.

Warum sollten Sie numerische Features normalisieren?

Wir empfehlen dringend, einen Datensatz mit numerischen Merkmalen zu normalisieren, der eindeutig verschiedene Bereiche abdeckt (z. B. Alter und Einkommen). Wenn verschiedene Merkmale unterschiedliche Bereiche haben, kann der Gradientenabstieg zu Absprüngen führen und die Konvergenz verlangsamen. Optimierungstools wie Adagrad und Adam schützen dieses Problem durch die Erstellung einer separaten effektiven Lernrate für jedes Feature.

Wir empfehlen außerdem, ein einzelnes numerisches Merkmal zu normalisieren, das einen breiten Bereich abdeckt, z. B. die Stadtbevölkerung. Wenn Sie das Feature „Stadtbevölkerung“ nicht normalisieren, können beim Trainieren des Modells NaN-Fehler auftreten. Leider können Optimierungstools wie Adagrad und Adam NaN-Fehler verhindern, wenn es ein breites Spektrum an Werten innerhalb eines einzelnen Merkmals gibt.