특성 교차는 데이터 세트의 두 개 이상의 범주형 또는 버케팅된 특성을 교차 (카티전 프로덕트 계산)하여 만듭니다. 다항식 변환과 마찬가지로 특성 교차를 사용하면 선형 모델이 비선형성을 처리할 수 있습니다. 특성 교차는 특성 간의 상호작용도 인코딩합니다.
예를 들어 다음과 같은 범주형 특성이 있는 리프 데이터 세트를 생각해 보겠습니다.
edges
:smooth
,toothed
,lobed
값을 포함합니다.arrangement
:opposite
및alternate
값 포함
위 순서가 원핫 표현식의 특성 열 순서라고 가정하면 smooth
가장자리와 opposite
배열이 있는 리프는 {(1, 0, 0), (1, 0)}
로 표현됩니다.
이 두 특성의 특성 교차 또는 카티언곱은 다음과 같습니다.
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
여기서 각 항의 값은 기본 지형지물 값의 곱입니다. 예를 들면 다음과 같습니다.
Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
예를 들어 리프에 lobed
가장자리와 alternate
배열이 있는 경우 기능 교차 벡터는 Lobed_Alternate
에 대해 1의 값을 갖고 다른 모든 항목에 대해 0의 값을 갖습니다.
{0, 0, 0, 0, 0, 1}
이러한 특성은 종 내에서 변하지 않으므로 이 데이터 세트를 나무 종별로 잎을 분류하는 데 사용할 수 있습니다.
지형지물 교차를 사용하는 경우
도메인 지식을 통해 교차할 유용한 특성 조합을 제안할 수 있습니다. 이러한 도메인 지식이 없으면 효과적인 기능 교차 또는 다항식 변환을 수동으로 결정하기 어려울 수 있습니다. 계산 비용이 많이 드는 경우 신경망을 사용하여 학습 중에 유용한 기능 조합을 자동으로 찾아 적용하는 것이 가능합니다.
주의하세요. 두 개의 희소한 지형지물을 교차하면 두 개의 원래 지형지물보다 더 희소한 새로운 지형지물이 생성됩니다. 예를 들어 특성 A가 100개 요소의 희소 특성이고 특성 B가 200개 요소의 희소 특성이면 A와 B의 특성 교차는 20,000개 요소의 희소 특성을 생성합니다.