Изучите варианты ниже.
Предположим, вы хотите разработать контролируемую модель машинного обучения, чтобы предсказать, является ли данное электронное письмо «спамом» или «не спамом». Какие из следующих утверждений верны?
Электронные письма, не помеченные как «спам» или «не спам», являются неотмеченными примерами.
Поскольку наша метка состоит из значений «спам» и «не спам», любое электронное письмо, еще не помеченное как спам или не спам, является примером без метки.
Слова в заголовке темы будут хорошими ярлыками.
Слова в заголовке темы могут быть отличными характеристиками, но они не будут хорошими ярлыками.
Мы будем использовать неразмеченные примеры для обучения модели.
Мы будем использовать помеченные примеры для обучения модели. Затем мы можем запустить обученную модель на немаркированных примерах, чтобы определить, являются ли немаркированные сообщения электронной почты спамом или нет.
Метки, примененные к некоторым примерам, могут быть ненадежными.
Определенно. Важно проверить, насколько надежны ваши данные. Ярлыки для этого набора данных, вероятно, исходят от пользователей электронной почты, которые помечают определенные сообщения электронной почты как спам. Поскольку большинство пользователей не отмечают каждое подозрительное сообщение электронной почты как спам, у нас могут возникнуть проблемы с определением того, является ли электронное письмо спамом. Кроме того, спамеры могут намеренно отравить нашу модель, предоставив ошибочные метки.