Преобразование числовых данных

Вам может понадобиться применить два вида преобразований к числовым данным:

  • Нормализация - преобразование числовых данных в тот же масштаб, что и другие числовые данные.
  • Разделение на группы — преобразование числовых (обычно непрерывных) данных в категориальные данные.

Зачем нормализовать числовые признаки?

Мы настоятельно рекомендуем нормализовать набор данных, числовые характеристики которого охватывают совершенно разные диапазоны (например, возраст и доход). Когда разные функции имеют разные диапазоны, градиентный спуск может «отскакивать» и замедлять сходимость. Оптимизаторы, такие как Adagrad и Adam , защищают от этой проблемы, создавая отдельную эффективную скорость обучения для каждой функции.

Мы также рекомендуем нормализовать одну числовую характеристику, которая охватывает широкий диапазон, например «население города». Если вы не нормализуете функцию «население города», обучение модели может привести к ошибкам NaN. К сожалению, такие оптимизаторы, как Adagrad и Adam, не могут предотвратить ошибки NaN, когда в одной функции имеется широкий диапазон значений.