Работа с категориальными данными

Категориальные данные имеют определенный набор возможных значений. Например:

  • Различные виды животных в национальном парке
  • Названия улиц в конкретном городе
  • Является ли электронное письмо спамом или нет
  • Цвета, в которые окрашены фасады домов
  • Группированные числа, которые описаны в модуле «Работа с числовыми данными».

Числа также могут быть категориальными данными.

Истинные числовые данные можно значимо умножить. Например, рассмотрим модель, которая прогнозирует стоимость дома на основе его площади. Обратите внимание, что полезная модель оценки цен на жилье обычно опирается на сотни функций. При этом при прочих равных условиях дом площадью 200 квадратных метров должен стоить примерно в два раза дороже, чем такой же дом площадью 100 квадратных метров.

Часто вам следует представлять объекты, содержащие целочисленные значения, как категориальные данные, а не как числовые данные. Например, рассмотрим объект почтового индекса, значения которого являются целыми числами. Если вы представляете эту функцию численно, а не категориально, вы просите модель найти числовую связь между различными почтовыми индексами. То есть вы указываете модели, что почтовый индекс 20004 должен рассматриваться как сигнал в два раза (или половину) больший, чем почтовый индекс 10002. Представление почтовых индексов в виде категориальных данных позволяет модели взвешивать каждый отдельный почтовый индекс отдельно.

Кодирование

Кодирование означает преобразование категориальных или других данных в числовые векторы, на которых может обучаться модель. Это преобразование необходимо, поскольку модели могут обучаться только на значениях с плавающей запятой; модели не могут тренироваться на таких струнах, как "dog" или "maple" . В этом модуле объясняются различные методы кодирования категориальных данных.