범주형 데이터: 특성 교차

특성 교차는 데이터 세트의 두 개 이상의 범주형 또는 버케팅된 특성을 교차 (카티전 프로덕트 계산)하여 만듭니다. 다항식 변환과 마찬가지로 특성 교차를 사용하면 선형 모델이 비선형성을 처리할 수 있습니다. 특성 교차는 특성 간의 상호작용도 인코딩합니다.

예를 들어 다음과 같은 범주형 특성이 있는 리프 데이터 세트를 생각해 보겠습니다.

  • edges: smooth, toothed, lobed 값을 포함합니다.
  • arrangement: oppositealternate 값 포함

위 순서가 원핫 표현식의 특성 열 순서라고 가정하면 smooth 가장자리와 opposite 배열이 있는 리프는 {(1, 0, 0), (1, 0)}로 표현됩니다.

이 두 특성의 특성 교차 또는 카티언곱은 다음과 같습니다.

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

여기서 각 항의 값은 기본 지형지물 값의 곱입니다. 예를 들면 다음과 같습니다.

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

예를 들어 리프에 lobed 가장자리와 alternate 배열이 있는 경우 기능 교차 벡터는 Lobed_Alternate에 대해 1의 값을 갖고 다른 모든 항목에 대해 0의 값을 갖습니다.

{0, 0, 0, 0, 0, 1}

이러한 특성은 종 내에서 변하지 않으므로 이 데이터 세트를 나무 종별로 잎을 분류하는 데 사용할 수 있습니다.

지형지물 교차를 사용하는 경우

도메인 지식을 통해 교차할 유용한 특성 조합을 제안할 수 있습니다. 이러한 도메인 지식이 없으면 효과적인 기능 교차 또는 다항식 변환을 수동으로 결정하기 어려울 수 있습니다. 계산 비용이 많이 드는 경우 신경망을 사용하여 학습 중에 유용한 기능 조합을 자동으로 찾아 적용하는 것이 가능합니다.

주의하세요. 두 개의 희소한 지형지물을 교차하면 두 개의 원래 지형지물보다 더 희소한 새로운 지형지물이 생성됩니다. 예를 들어 특성 A가 100개 요소의 희소 특성이고 특성 B가 200개 요소의 희소 특성이면 A와 B의 특성 교차는 20,000개 요소의 희소 특성을 생성합니다.