Mengambil Sampel dan Memisahkan Data

Pengantar Pengambilan Sampel

Terkadang sulit untuk mengumpulkan cukup data untuk project machine learning. Namun, terkadang ada terlalu banyak data, dan Anda harus memilih subset contoh untuk pelatihan.

Bagaimana cara Anda memilih subset tersebut? Sebagai contoh, pertimbangkan Google Penelusuran. Di tingkat berapa Anda akan mengambil sampel data dalam jumlah besar? Apakah Anda akan menggunakan kueri acak? Sesi acak? Pengguna acak?

Pada akhirnya, jawabannya bergantung pada masalah: apa yang ingin kita prediksi, dan fitur apa yang kita inginkan?

  • Untuk menggunakan fitur kueri sebelumnya, Anda perlu mengambil sampel di tingkat sesi, karena sesi berisi urutan kueri.
  • Untuk menggunakan fitur perilaku pengguna dari hari sebelumnya, Anda perlu mengambil sampel di tingkat pengguna.

Memfilter PII (Informasi Identitas Pribadi)

Jika data Anda menyertakan PII (informasi identitas pribadi), Anda mungkin perlu memfilternya dari data Anda. Misalnya, kebijakan mungkin mengharuskan Anda menghapus fitur yang jarang.

Pemfilteran ini akan mendistorsi distribusi Anda. Anda akan kehilangan informasi di bagian akhir (bagian dari distribusi dengan nilai yang sangat rendah, jauh dari rata-rata).

Pemfilteran ini berguna karena fitur yang sangat jarang sulit dipelajari. Namun, penting untuk menyadari bahwa set data Anda akan bias terhadap kueri head. Pada waktu penayangan, Anda dapat melihat performa yang lebih buruk saat menayangkan contoh dari tail, karena ini adalah contoh yang difilter dari data pelatihan Anda. Meskipun perubahan ini tidak dapat dihindari, Anda harus mengetahuinya selama analisis.