Категориальные данные: перекрестия признаков

Скрещивания признаков создаются путем скрещивания (взятия декартового произведения) двух или более категориальных или сегментированных признаков набора данных. Подобно полиномиальным преобразованиям , скрещивания признаков позволяют линейным моделям обрабатывать нелинейности. Скрещивания признаков также кодируют взаимодействия между признаками.

Например, рассмотрим набор данных листьев с категориальными признаками:

  • edges , содержащие значения smooth , toothed и lobed
  • arrangement , содержащее opposite и alternate значения

Предположим, что указанный выше порядок является порядком столбцов признаков в прямом представлении, так что лист с smooth краями и opposite расположением представляется как {(1, 0, 0), (1, 0)} .

Перекрестие признаков, или декартово произведение, этих двух признаков будет иметь вид:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

где значение каждого термина является произведением значений базовых признаков, таким образом:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Например, если лист имеет lobed край и alternate расположение, вектор перекрестных признаков будет иметь значение 1 для Lobed_Alternate и значение 0 для всех остальных членов:

{0, 0, 0, 0, 0, 1}

Этот набор данных можно использовать для классификации листьев по видам деревьев, поскольку эти характеристики не различаются в пределах одного вида.

Когда использовать кросс-функции

Знание предметной области может подсказать полезную комбинацию признаков для скрещивания. Без знания предметной области может быть сложно определить эффективные скрещивания признаков или полиномиальные преобразования вручную. Часто возможно, хотя и затратно с вычислительной точки зрения, использовать нейронные сети для автоматического поиска и применения полезных комбинаций признаков во время обучения.

Будьте осторожны — скрещивание двух разреженных признаков дает еще более разреженный новый признак, чем два исходных признака. Например, если признак A — разреженный признак из 100 элементов, а признак B — разреженный признак из 200 элементов, то скрещивание признаков A и B дает разреженный признак из 20 000 элементов.