Представление

Модель машинного обучения не может напрямую видеть, слышать или воспринимать примеры входных данных. Вместо этого вы должны создать представление данных, чтобы предоставить модели полезную точку зрения на ключевые качества данных. То есть, чтобы обучить модель, вы должны выбрать набор функций, которые лучше всего представляют данные.

Представление

Идея состоит в том, чтобы сопоставить каждую часть вектора слева с одним или несколькими полями вектора признаков справа.

Необработанные данные сопоставляются с вектором признаков посредством процесса, называемого разработкой признаков.
Пример объекта, который можно скопировать непосредственно из необработанных данных
Пример строкового объекта (названия улицы), который невозможно скопировать непосредственно из необработанных данных.
Сопоставление строкового значения (
  • Словарь сопоставляет каждое название улицы с целым числом в {0,...,V-1}.
  • Теперь представьте один горячий вектор выше как <i>

Значения объектов должны появляться с ненулевым значением несколько раз в наборе данных.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Характеристики должны иметь четкое и очевидное значение.

user_age:23

user_age:123456789

Функции не должны принимать «магические» значения.

(вместо этого используйте дополнительную логическую функцию, например, watch_time_is_define!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Определение функции не должно меняться со временем.

(Остерегайтесь зависимости от других систем машинного обучения!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Распределение не должно иметь крайних выбросов.

В идеале все функции преобразуются в одинаковый диапазон, например (-1, 1) или (0, 5).

Распределение с выбросами и распределение с пределом
График, показывающий распределение с подходящей кривой в зависимости от местоположения.
График, показывающий распределение с подходящей кривой в зависимости от местоположения.
  • Создайте несколько логических ячеек, каждая из которых соответствует новой уникальной функции.
  • Позволяет модели соответствовать разным значениям для каждого интервала

ЗНАЙТЕ СВОИ ДАННЫЕ

  • Визуализируйте : постройте гистограммы, ранжируйте их от наиболее частых к наименее распространенным.
  • Отладка : повторяющиеся примеры? Отсутствуют значения? Выбросы? Данные согласуются с информационными панелями? Данные обучения и проверки схожи?
  • Монитор : Квантили функций, количество примеров с течением времени?