Mengumpulkan Data: Periksa Pemahaman Anda

Untuk pertanyaan berikut, klik panah yang diinginkan untuk memeriksa jawaban Anda:

Misalnya, Anda sedang mengerjakan model machine learning terkait iklan dan ingin memprediksi pembelanjaan pengiklan untuk bulan Januari. Anda memiliki batas jumlah data yang dapat disimpan di disk, sehingga Anda hanya boleh menggunakan subset data yang tersedia. Anda dapat menggunakan semua data terbaru, yang berasal dari bulan sebelumnya pada bulan Desember. Orang lain menyarankan Anda untuk mengambil sampel data sepanjang tahun lalu. Mana yang mungkin lebih baik dan mengapa?
Data dari bulan sebelumnya (Desember)
Meskipun lebih baru, data ini mungkin dipengaruhi oleh pengaruh musiman dari pengeluaran pengiklan sebelum hari libur Desember.
Data diambil sampelnya sepanjang tahun
Meskipun data ini sudah lama, data tersebut kemungkinan tidak akan terpengaruh oleh pengaruh musiman dari pembelanjaan pengiklan sebelum hari libur bulan Desember.
Anda ingin menampilkan video yang ingin ditonton pengguna. Anda menggunakan video yang telah mereka lihat di YouTube sebagai label. Apakah label ini langsung atau diturunkan?
Turunan
Label ini diperoleh karena bukan prediksi yang tepat yang ingin Anda buat. Mungkin pengguna membuka video tetapi segera menutupnya. Peristiwa ini akan dihitung sebagai penayangan meskipun pengguna tidak menonton videonya. Dalam beberapa kasus, heuristik seperti ini mungkin satu-satunya opsi, tetapi perhatikan jenis label Anda (langsung atau turunan) dan bagaimana label akan membatasi prediksi.
Direct (Kemampuan Konten Menyampaikan Pesan Langsung)
Meskipun label tersebut mungkin sering menghasilkan prediksi yang akurat, tetapi itu bukanlah prediksi yang tepat yang ingin Anda buat.