Representation

Makine öğrenimi modeli, giriş örneklerini doğrudan göremez, duyamaz veya algılayamaz. Bunun yerine, modele verilerin temel nitelikleri açısından faydalı bir bakış açısı sunmak için verilerin bir temsilini oluşturmanız gerekir. Yani bir model eğitmek için verileri en iyi temsil eden özellik kümesini seçmeniz gerekir.

Representation

Buradaki fikir, soldaki vektörün her bir parçasını, sağdaki özellik vektörüyle bir veya daha fazla alanla eşlemektir.

Ham veriler, özellik mühendisliği adı verilen bir süreç aracılığıyla bir özellik vektörüyle eşlenir.
Doğrudan ham verilerden kopyalanabilen bir özellik örneği
Doğrudan ham verilerden kopyalanamayan dize özelliği (sokak adı) örneği
Bir dize değerini eşleme (
  • Sözlükte her sokak adı {0, ...,V-1} içindeki bir int ile eşlenir
  • Şimdi, yukarıdaki tek sıcak vektörü <i> olarak temsil edin.

Özellik değerleri, veri kümesinde sıfır olmayan bir kaç kezden daha az bir değerle görünmelidir.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Özelliklerin net ve bariz bir anlamı olmalıdır.

user_age:23

user_age:123456789

Özellikler "sihirli" değerler almamalıdır

(bunun yerine watch_time_is_defined gibi ek bir boole özelliği kullanın.)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Bir özelliğin tanımı zaman içinde değişmemelidir.

(Diğer ML sistemlerine bağlı olarak dikkatli olun.)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Dağıtımın aşırı aykırı değerleri olmamalıdır

İdeal olan, tüm özelliklerin (-1, 1) veya (0, 5 gibi) benzer bir aralığa dönüştürülmesi.

Aykırı değerlere sahip dağılım ve sınırlı sayıdaki dağılım
Konuma dayalı bir eğriyle dağılımı gösteren grafik
Konuma dayalı bir eğriyle dağılımı gösteren grafik
  • Her biri yeni bir benzersiz özellikle eşlenecek birkaç Boole bölmesi oluşturun
  • Modelin her bölmeye farklı bir değer sığdırmasını sağlar

VERİLERİNİZİ BİLİN

  • Görselleştirme: Histogramların grafiğini çizin, en çok yaygın olandan en az yaygın olana doğru sıralayın.
  • Hata ayıklama: Örnekler yineleniyor mu? Değerler eksik mi? Aykırı değerler mi? Veriler, kontrol panelleriyle uyumlu mu? Eğitim ve Doğrulama verileri benzer mi?
  • İzleyin: Özellik yüzdeleri, zaman içindeki örnek sayısı