Memisahkan Data Anda

Seperti yang ditunjukkan oleh contoh artikel berita, pemisahan acak murni tidak selalu merupakan pendekatan yang tepat.

Teknik yang sering digunakan untuk sistem online adalah membagi data menurut waktu, sehingga Anda akan:

  • Mengumpulkan data 30 hari.
  • Latih data dari Hari 1-29.
  • Evaluasi data dari Hari ke-30.

Untuk sistem online, data pelatihan lebih lama dari data penayangan. Jadi, teknik ini memastikan set validasi Anda mencerminkan jeda antara pelatihan dan penayangan. Namun, pemisahan berbasis waktu berfungsi optimal dengan set data yang sangat besar, seperti set data dengan puluhan juta contoh. Dalam project dengan lebih sedikit data, distribusi akan sangat berbeda antara pelatihan, validasi, dan pengujian.

Ingat juga bahwa celah pemisahan data dari project literatur machine learning yang dijelaskan dalam Kursus Error Machine Learning. Data berasal dari salah satu dari tiga penulis, jadi data dibagi menjadi tiga grup utama. Karena tim menerapkan pemisahan acak, data dari setiap grup ada dalam set pelatihan, evaluasi, dan pengujian, sehingga model belajar dari informasi yang tidak akan dimilikinya pada waktu prediksi. Masalah ini dapat terjadi setiap kali data Anda dikelompokkan, baik sebagai data deret waktu, atau dikelompokkan berdasarkan kriteria lainnya. Pengetahuan domain dapat menginformasikan cara Anda membagi data.

Untuk peninjauan tambahan, lihat modul berikut dalam Kursus Error Machine Learning: