カテゴリデータ: 特徴クロス

特徴量クロスは、データセットのカテゴリ特徴量またはバケット化された特徴量を 2 つ以上クロス(デカルト積を取る)することで作成されます。多項式変換と同様に、特徴量クロスを使用すると、線形モデルで非線形性を処理できます。特徴クロスは、特徴間の相互作用もエンコードします。

たとえば、次のカテゴリ特徴を持つリーフ データセットについて考えてみましょう。

  • edges(値 smoothtoothedlobed を含む)
  • arrangement(値 oppositealternate を含む)

上記の順序が、1 ホット表現の特徴列の順序であると仮定すると、smooth エッジと opposite 配置を持つリーフは {(1, 0, 0), (1, 0)} として表されます。

これらの 2 つの特徴量のクロス(デカルト積)は次のようになります。

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

ここで、各項の値はベース特徴量の値の積です。次に例を示します。

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

たとえば、リーフに lobed エッジと alternate 配置がある場合、特徴交差ベクトルの値は Lobed_Alternate で 1、他のすべての用語で 0 になります。

{0, 0, 0, 0, 0, 1}

これらの特徴は種内で変化しないため、このデータセットは樹木の種類ごとに葉を分類するために使用できます。

特徴の交差を使用する場合

ドメイン知識に基づいて、組み合わせに有用な特徴を推測できます。そのようなドメイン知識がないと、効果的な特徴の交差や多項式変換を手動で決定するのは難しい場合があります。計算コストが高い場合は、ニューラル ネットワークを使用して、トレーニング中に有用な特徴の組み合わせを自動的に見つけ、適用することが可能です。

注意してください。2 つのスパース特徴を交差させると、2 つの元の特徴よりもさらにスパースな新しい特徴が生成されます。たとえば、特徴 A が 100 要素のスパース特徴で、特徴 B が 200 要素のスパース特徴の場合、A と B の特徴クロスによって 20,000 要素のスパース特徴が生成されます。