Özellik Geçişleri: Tek Ayaklı Vektörlerin Geçişi

Şimdiye kadar kayan iki nokta özelliğini tek tek özellik öncelikli hale getirmeye odaklandık. Pratikte, makine öğrenimi modelleri devamlı özellikler arasında nadiren kullanılır. Bununla birlikte, makine öğrenimi modelleri genellikle bir veya birkaç gizli özellikli vektöre sahiptir. Tek resimli özellik vektörlerinin özellik haçlarını mantıksal bağlantılar olarak düşünebilirsiniz. Örneğin, iki özelliğimiz olduğunu düşünelim: ülke ve dil. Her biri için tek sıcak kodlama, country=USA, country=France veya language=English, language=Spanish olarak yorumlanabilecek ikili özelliklere sahip vektörler oluşturur. Ardından, bu tek seferlik kodlamalardan bir özellik geçişi yaparsanız mantıksal birleştirmeler olarak yorumlanabilecek ikili özellikler elde edersiniz. Örneğin:

  country:usa AND language:spanish

Başka bir örnek için, enlem ve boylamı iki ayrı bin öğeli özellik vektörüyle bin şeklinde kodladığınızı varsayalım. Örneğin, belirli bir enlem ve boylam aşağıdaki gibi gösterilebilir:

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

Aşağıdaki iki özellik vektörünün bir özellik bloğunu oluşturduğunuzu varsayalım:

  binned_latitude X binned_longitude

Bu özellik köprü, 25 elemanlı bir sıcak Vektör'dür (24 sıfır ve 1 bir). Çaprazdaki tek 1, enlem ve boylamın belirli bir kombinasyonunu tanımlar. Bu şekilde modeliniz, bu ilişkilendirme hakkında belirli ilişkilendirmeleri öğrenebilir.

Enlem ve boylamı şu şekilde daha genel olarak toplayabiliriz:

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

Bu kaba kutulardan bir özellik işaretinin oluşturulması, sentetik özelliğin aşağıdaki anlamlara gelmesine neden olur:

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

Şimdi modelimizin köpek sahiplerinin iki özelliğe göre köpeklerden ne kadar memnun olacağını tahmin etmesi gerektiğini varsayalım:

  • Davranış türü (havlama, ağlama, sarılma vb.)
  • Günün saati

Bir özelliği iki özellikten de oluşturursak:

  [behavior type X time of day]

her iki özellikte olduğundan çok daha fazla tahmine dayalı özellik elde ederiz. Örneğin, köpek saat 17:00'de ağzından iş evi döndüğünde (mutlu olarak) ağlıyorsa bu da büyük olasılıkla sahip memnuniyeti için harika bir ön göstergedir. Sahibinin neşeyle uyuduğu 03:00'te ağlamak (belki de çok eskidir), muhtemelen sahip memnuniyetini güçlü bir şekilde tahmin eder.

Doğrusal öğrenciler çok büyük miktarlarda verilerle iyi ölçeklenir. Büyük veri kümelerinde özellik çaprazlarını kullanmak, son derece karmaşık modelleri öğrenmek için etkili bir stratejidir. Nöral ağlar başka bir strateji sunar.