Истинные числовые данные можно значимо умножить. Например, рассмотрим модель, которая прогнозирует стоимость дома на основе его площади. Обратите внимание, что полезная модель оценки цен на жилье обычно опирается на сотни функций. При этом при прочих равных условиях дом площадью 200 квадратных метров должен стоить примерно в два раза дороже, чем такой же дом площадью 100 квадратных метров.
Часто вам следует представлять объекты, содержащие целочисленные значения, как категориальные данные, а не как числовые данные. Например, рассмотрим объект почтового индекса, значения которого являются целыми числами. Если вы представляете эту функцию численно, а не категориально, вы просите модель найти числовую связь между различными почтовыми индексами. То есть вы указываете модели, что почтовый индекс 20004 должен рассматриваться как вдвое (или наполовину) больший сигнал, чем почтовый индекс 10002. Представление почтовых индексов в виде категориальных данных позволяет модели взвешивать каждый отдельный почтовый индекс отдельно.
Кодирование
Кодирование означает преобразование категориальных или других данных в числовые векторы, на которых может обучаться модель. Это преобразование необходимо, поскольку модели могут обучаться только на значениях с плавающей запятой; модели не могут тренироваться на таких струнах, как "dog" или "maple" . В этом модуле объясняются различные методы кодирования категориальных данных.
[[["Прост для понимания","easyToUnderstand","thumb-up"],["Помог мне решить мою проблему","solvedMyProblem","thumb-up"],["Другое","otherUp","thumb-up"]],[["Отсутствует нужная мне информация","missingTheInformationINeed","thumb-down"],["Слишком сложен/слишком много шагов","tooComplicatedTooManySteps","thumb-down"],["Устарел","outOfDate","thumb-down"],["Проблема с переводом текста","translationIssue","thumb-down"],["Проблемы образцов/кода","samplesCodeIssue","thumb-down"],["Другое","otherDown","thumb-down"]],["Последнее обновление: 2024-11-04 UTC."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]