Kategorik veri: Özellik geçişleri

Özellik kesişimleri, veri kümesinin iki veya daha fazla kategorik ya da gruplandırılmış özelliğinin kesişimi (kartezyen çarpımı) alınarak oluşturulur. Polinom dönüşümleri gibi özellik çaprazlamaları da doğrusal modellerin doğrusal olmayanlıkları ele almasına olanak tanır. Özellik kesişimleri, özellikler arasındaki etkileşimleri de kodlar.

Örneğin, aşağıdaki kategorik özelliklere sahip bir yaprak veri kümesini ele alalım:

  • smooth, toothed ve lobed değerlerini içeren edges
  • opposite ve alternate değerlerini içeren arrangement

Yukarıdaki sıranın, tek sıcak temsildeki özellik sütunlarının sırası olduğunu varsayalım. Böylece, smooth kenarı ve opposite düzenlemesi olan bir yaprak {(1, 0, 0), (1, 0)} olarak temsil edilir.

Bu iki özelliğin çapraz özelliği veya Kartezyen çarpımı şu şekilde olur:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

Burada her terimin değeri, temel özellik değerlerinin çarpımıdır. Örneğin:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Örneğin, bir yaprakta lobed kenarı ve alternate düzenlemesi varsa özellik çapraz vektörü Lobed_Alternate için 1 değerine, diğer tüm terimler için 0 değerine sahip olur:

{0, 0, 0, 0, 0, 1}

Bu özellikler bir tür içinde değişiklik göstermediğinden bu veri kümesi, yaprakları ağaç türüne göre sınıflandırmak için kullanılabilir.

Özellik çaprazlamaları ne zaman kullanılır?

Alan bilgisi, çaprazlanabilecek yararlı bir özellik kombinasyonu önerebilir. Bu alan bilgisi olmadan etkili özellik çaprazlamalarının veya polinom dönüşümlerinin manuel olarak belirlenmesi zor olabilir. Hesaplama açısından pahalıysa eğitim sırasında sinir ağlarını kullanarak otomatik olarak faydalı özellik kombinasyonlarını bulup uygulamak genellikle mümkündür.

İki seyrek özelliğin çaprazlanması, orijinal iki özellikten daha seyrek bir yeni özellik oluşturur. Örneğin, A özelliği 100 öğeli seyrek bir özellik ve B özelliği 200 öğeli seyrek bir özellikse A ve B'nin özellik çaprazlaması 20.000 öğeli seyrek bir özellik verir.