Model machine learning tidak dapat langsung melihat, mendengar, atau merasakan contoh masukan. Sebaliknya, Anda harus membuat representasi data untuk memberi model tersebut titik pandang yang berguna ke kualitas utama data. Artinya, untuk melatih model, Anda harus memilih set fitur yang benar-benar mewakili data.
Representasi
Dari Data Mentah ke Fitur
Idenya adalah untuk memetakan setiap bagian vektor di sebelah kiri ke satu atau beberapa field dalam vektor fitur di sebelah kanan.
Dari Data Mentah ke Fitur
Dari Data Mentah ke Fitur
Dari Data Mentah ke Fitur
- Kamus memetakan setiap nama jalan ke int di {0, ...,V-1}
- Sekarang mewakili vektor one-hot di atas sebagai <i>
Properti Fitur Baik
Nilai fitur akan muncul dengan nilai selain nol lebih sering dalam kumpulan data.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Properti Fitur Baik
Fitur harus punya makna yang jelas dan pasti.
user_age:23
user_age:123456789
Properti Fitur Baik
Fitur seharusnya tidak mengambil nilai "ajaib"
(sebagai gantinya gunakan fitur (logika) boolean tambahan seperti is_watch_time_defined.)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Properti Fitur Baik
Definisi fitur tidak boleh berubah seiring waktu.
(Waspadalah terhadap ketergantungan pada sistem ML lainnya!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Properti Fitur Baik
Distribusi seharusnya tidak memiliki pencilan yang tidak beraturan
Idealnya semua fitur diubah ke rentang serupa, seperti (-1, 1) atau (0, 5).
Trik Pengelompokan
Trik Pengelompokan
- Membuat beberapa kelompok (logika) boolean, setiap kelompok memetakan ke fitur unik baru
- Memungkinkan model agar sesuai dengan nilai yang berbeda untuk setiap kelompok
Kebiasaan Baik
MEMAHAMI DATA ANDA
- Visualisasikan: Histogram plot, memberi peringkat dari paling umum hingga kurang umum.
- Lakukan debug: Contoh duplikat? Kehilangan nilai? Pencilan? Data sesuai dengan dasbor? Data Pelatihan dan Validasi serupa?
- Pantau: Kuantil fitur, jumlah contoh dari waktu ke waktu?