Representasi

Model machine learning tidak dapat langsung melihat, mendengar, atau merasakan contoh masukan. Sebaliknya, Anda harus membuat representasi data untuk memberi model tersebut titik pandang yang berguna ke kualitas utama data. Artinya, untuk melatih model, Anda harus memilih set fitur yang benar-benar mewakili data.

Representasi

Idenya adalah untuk memetakan setiap bagian vektor di sebelah kiri ke satu atau beberapa field dalam vektor fitur di sebelah kanan.

Data mentah dipetakan ke vektor fitur melalui proses yang disebut dengan rekayasa fitur.
Contoh fitur yang dapat disalin langsung dari data mentah
Contoh fitur string (nama jalan) yang tidak dapat disalin langsung dari data mentah
Memetakan nilai string ("Main Street") ke vektor jarang, melalui enkode one-hot.
  • Kamus memetakan setiap nama jalan ke int di {0, ...,V-1}
  • Sekarang mewakili vektor one-hot di atas sebagai <i>

Nilai fitur akan muncul dengan nilai selain nol lebih sering dalam kumpulan data.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Fitur harus punya makna yang jelas dan pasti.

user_age:23

user_age:123456789

Fitur seharusnya tidak mengambil nilai "ajaib"

(sebagai gantinya gunakan fitur (logika) boolean tambahan seperti is_watch_time_defined.)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Definisi fitur tidak boleh berubah seiring waktu.

(Waspadalah terhadap ketergantungan pada sistem ML lainnya!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Distribusi seharusnya tidak memiliki pencilan yang tidak beraturan

Idealnya semua fitur diubah ke rentang serupa, seperti (-1, 1) atau (0, 5).

Distribusi dengan pencilan dan distribusi dengan batasan
Grafik menunjukkan distribusi dengan kurva yang sesuai berdasarkan lokasi
Grafik menunjukkan distribusi dengan kurva yang sesuai berdasarkan lokasi
  • Membuat beberapa kelompok (logika) boolean, setiap kelompok memetakan ke fitur unik baru
  • Memungkinkan model agar sesuai dengan nilai yang berbeda untuk setiap kelompok

MEMAHAMI DATA ANDA

  • Visualisasikan: Histogram plot, memberi peringkat dari paling umum hingga kurang umum.
  • Lakukan debug: Contoh duplikat? Kehilangan nilai? Pencilan? Data sesuai dengan dasbor? Data Pelatihan dan Validasi serupa?
  • Pantau: Kuantil fitur, jumlah contoh dari waktu ke waktu?