Pelajari opsi-opsi di bawah.
Misalkan Anda ingin mengembangkan model machine learning yang diawasi untuk memprediksi apakah email tertentu adalah "spam" atau "bukan spam." Manakah dari pernyataan berikut yang benar?
Email yang tidak ditandai sebagai "spam" atau "bukan spam" adalah contoh tak berlabel.
Karena label kita terdiri dari nilai "spam" dan "bukan spam",
email apa pun yang belum ditandai sebagai spam atau bukan spam adalah
contoh tak berlabel.
Kata-kata dalam header subjek akan menjadi label yang baik.
Kata-kata dalam header subjek mungkin akan menjadi fitur yang sangat bagus, tetapi tidak akan menjadi label yang baik.
Kita akan menggunakan contoh tak berlabel untuk melatih model.
Kita akan menggunakan contoh berlabel untuk melatih model. Kemudian, kami dapat
menjalankan model yang terlatih terhadap contoh tak berlabel guna menyimpulkan
apakah pesan email tidak berlabel adalah spam atau bukan spam.
Label yang diterapkan pada beberapa contoh mungkin tidak dapat diandalkan.
Ya, ada. Penting untuk memeriksa seberapa andal data Anda. Label untuk set data ini mungkin berasal dari pengguna email yang menandai pesan email tertentu sebagai spam. Karena sebagian besar pengguna tidak menandai setiap pesan email yang mencurigakan sebagai spam, kami mungkin kesulitan mengetahui apakah email tersebut adalah spam. Selain itu,
spammer dapat dengan sengaja meracuni model kami dengan memberikan label
yang salah.