Скрещивания признаков создаются путем скрещивания (взятия декартового произведения) двух или более категориальных или сегментированных признаков набора данных. Подобно полиномиальным преобразованиям , скрещивания признаков позволяют линейным моделям обрабатывать нелинейности. Скрещивания признаков также кодируют взаимодействия между признаками.
Например, рассмотрим набор данных листьев с категориальными признаками:
-
edges
, содержащие значенияsmooth
,toothed
иlobed
-
arrangement
, содержащееopposite
иalternate
значения
Предположим, что указанный выше порядок является порядком столбцов признаков в прямом представлении, так что лист с smooth
краями и opposite
расположением представляется как {(1, 0, 0), (1, 0)}
.
Перекрестие признаков, или декартово произведение, этих двух признаков будет иметь вид:
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}
где значение каждого термина является произведением значений базовых признаков, таким образом:
-
Smooth_Opposite = edges[0] * arrangement[0]
-
Smooth_Alternate = edges[0] * arrangement[1]
-
Toothed_Opposite = edges[1] * arrangement[0]
-
Toothed_Alternate = edges[1] * arrangement[1]
-
Lobed_Opposite = edges[2] * arrangement[0]
-
Lobed_Alternate = edges[2] * arrangement[1]
Например, если лист имеет lobed
край и alternate
расположение, вектор перекрестных признаков будет иметь значение 1 для Lobed_Alternate
и значение 0 для всех остальных членов:
{0, 0, 0, 0, 0, 1}
Этот набор данных можно использовать для классификации листьев по видам деревьев, поскольку эти характеристики не различаются в пределах одного вида.
Когда использовать кросс-функции
Знание предметной области может подсказать полезную комбинацию признаков для скрещивания. Без знания предметной области может быть сложно определить эффективные скрещивания признаков или полиномиальные преобразования вручную. Часто возможно, хотя и затратно с вычислительной точки зрения, использовать нейронные сети для автоматического поиска и применения полезных комбинаций признаков во время обучения.
Будьте осторожны — скрещивание двух разреженных признаков дает еще более разреженный новый признак, чем два исходных признака. Например, если признак A — разреженный признак из 100 элементов, а признак B — разреженный признак из 200 элементов, то скрещивание признаков A и B дает разреженный признак из 20 000 элементов.