Untuk pertanyaan berikut, klik panah yang diinginkan untuk memeriksa jawaban Anda:
Misalnya, Anda sedang mengerjakan model machine learning terkait iklan dan ingin memprediksi pembelanjaan pengiklan untuk bulan Januari. Anda
memiliki batas jumlah data yang dapat disimpan di disk, sehingga Anda
hanya boleh menggunakan subset data yang tersedia. Anda dapat menggunakan semua data terbaru, yang berasal dari bulan sebelumnya pada bulan Desember. Orang lain menyarankan
Anda untuk mengambil sampel data sepanjang tahun lalu. Mana yang mungkin lebih baik dan mengapa?
Data dari bulan sebelumnya (Desember)
Meskipun lebih baru, data ini mungkin dipengaruhi oleh pengaruh musiman dari pengeluaran pengiklan sebelum hari libur Desember.
Data diambil sampelnya sepanjang tahun
Meskipun data ini sudah lama, data tersebut kemungkinan tidak akan terpengaruh oleh
pengaruh musiman dari pembelanjaan pengiklan sebelum
hari libur bulan Desember.
Anda ingin menampilkan video yang ingin ditonton pengguna. Anda menggunakan video
yang telah mereka lihat di YouTube sebagai label. Apakah label ini langsung
atau diturunkan?
Turunan
Label ini diperoleh karena bukan prediksi yang tepat yang ingin Anda buat. Mungkin pengguna membuka video tetapi segera menutupnya. Peristiwa ini akan dihitung sebagai penayangan meskipun pengguna
tidak menonton videonya. Dalam beberapa kasus, heuristik seperti ini mungkin satu-satunya opsi, tetapi perhatikan jenis label Anda (langsung atau turunan) dan bagaimana label akan membatasi prediksi.
Direct (Kemampuan Konten Menyampaikan Pesan Langsung)
Meskipun label tersebut mungkin sering menghasilkan prediksi yang akurat, tetapi itu bukanlah prediksi yang tepat yang ingin Anda buat.