Setelah mengumpulkan data dan pengambilan sampel jika diperlukan, langkah berikutnya adalah membagi data Anda menjadi set pelatihan, set validasi, dan set pengujian.
Ketika Memisahkan Secara Acak bukanlah Pendekatan Terbaik
Meskipun pemisahan acak adalah pendekatan terbaik untuk banyak masalah ML, pemisahan tersebut tidak selalu merupakan solusi yang tepat. Misalnya, pertimbangkan set data yang contohnya dikelompokkan secara alami ke dalam contoh serupa.
Misalnya, Anda ingin model mengklasifikasikan topik dari teks artikel berita. Mengapa pemisahan acak dapat menimbulkan masalah?
Gambar 1. Kisah Berita Dikelompokkan.
Artikel berita muncul dalam cluster: beberapa artikel tentang topik yang sama dipublikasikan pada waktu yang hampir bersamaan. Oleh karena itu, jika kita membagi data secara acak, set pengujian dan set pelatihan kemungkinan akan berisi cerita yang sama. Kenyataannya, cara ini tidak akan berfungsi karena semua cerita akan masuk pada waktu yang sama, sehingga melakukan pemisahan seperti ini akan menimbulkan kekurangan.
Gambar 2. Pemisahan acak akan membagi cluster di seluruh kumpulan, yang menyebabkan distorsi.
Pendekatan sederhana untuk memperbaiki masalah ini adalah membagi data berdasarkan waktu publikasi berita, mungkin berdasarkan hari publikasi artikel. Hal ini membuat artikel dari hari yang sama ditempatkan dalam pemisahan yang sama.
Gambar 3. Pembagian tepat waktu memungkinkan sebagian besar cluster berada di kumpulan yang sama.
Dengan puluhan ribu artikel berita atau lebih, persentase dapat dibagi sepanjang hari. Tidak apa-apa; pada kenyataannya, cerita ini dibagi menjadi dua dalam siklus berita. Atau, Anda dapat membuang data dalam jarak tertentu dari batas waktu tersebut untuk memastikan tidak ada tumpang tindih. Misalnya, Anda dapat melatih cerita untuk bulan April, lalu menggunakan minggu kedua Mei sebagai set pengujian, dengan jeda minggu mencegah tumpang-tindih.