Перегляньте варіанти нижче.
Припустімо, ви хочете розробити модель керованого машинного навчання, яка передбачатиме, чи певний електронний лист – це "спам" це чи "не спам". Які з наступних тверджень правильні?
Приклади листів без позначок "спам" або "не спам" не містять міток.
Оскільки мітка складається зі значень "спам" і "не спам", будь-який лист без таких позначок вважається прикладом без мітки.
Слова, указані в заголовку теми, можуть слугувати хорошими мітками.
Слова, указані в заголовку теми, можуть бути чудовими ознаками, але не хорошими мітками.
Ми навчатимемо модель на прикладах без міток.
Ми навчатимемо модель на прикладах із мітками. Потім можна буде використати навчену модель для аналізу прикладів електронних повідомлень без міток, і вона визначить, спам це чи ні.
Мітки деяких прикладів можуть бути ненадійними.
Так. Важливо перевірити, наскільки ваші дані надійні. Мітки цього набору даних, імовірно, з’явилися завдяки тому, що користувачі електронної пошти позначали певні повідомлення як спам. Оскільки більшість користувачів не позначають так кожне підозріле повідомлення, нам може бути складно визначити, чи є лист спамом. Крім того, спамери можуть навмисно псувати нашу модель, позначаючи не ті листи, через що виникають помилкові мітки.