Фрейминг: проверьте свое понимание

Контролируемое обучение

Изучите варианты ниже.

Предположим, вы хотите разработать контролируемую модель машинного обучения, чтобы предсказать, является ли данное электронное письмо «спамом» или «не спамом». Какие из следующих утверждений верны?
Электронные письма, не помеченные как «спам» или «не спам», являются неотмеченными примерами.
Поскольку наша метка состоит из значений «спам» и «не спам», любое электронное письмо, еще не помеченное как спам или не спам, является примером без метки.
Слова в заголовке темы будут хорошими ярлыками.
Слова в заголовке темы могут быть отличными характеристиками, но они не будут хорошими ярлыками.
Мы будем использовать неразмеченные примеры для обучения модели.
Мы будем использовать помеченные примеры для обучения модели. Затем мы можем запустить обученную модель на немаркированных примерах, чтобы определить, являются ли немаркированные сообщения электронной почты спамом или нет.
Метки, примененные к некоторым примерам, могут быть ненадежными.
Определенно. Важно проверить, насколько надежны ваши данные. Ярлыки для этого набора данных, вероятно, исходят от пользователей электронной почты, которые помечают определенные сообщения электронной почты как спам. Поскольку большинство пользователей не отмечают каждое подозрительное сообщение электронной почты как спам, у нас могут возникнуть проблемы с определением того, является ли электронное письмо спамом. Кроме того, спамеры могут намеренно отравить нашу модель, предоставив ошибочные метки.

Характеристики и ярлыки

Изучите варианты ниже.

Предположим, интернет-магазин обуви хочет создать контролируемую модель машинного обучения, которая будет предоставлять пользователям персонализированные рекомендации по выбору обуви. То есть модель будет рекомендовать определенные пары обуви Марти и разные пары обуви Джанет. Система будет использовать прошлые данные о поведении пользователей для создания обучающих данных. Какие из следующих утверждений верны?
«Размер обуви» — полезная функция.
«Размер обуви» — это поддающийся количественной оценке сигнал, который, вероятно, оказывает сильное влияние на то, понравится ли пользователю рекомендуемая обувь. Например, если Марти носит 9-й размер, модель не должна рекомендовать обувь 7-го размера.
«Красота обуви» — полезная функция.
Хорошие характеристики конкретны и поддаются количественному определению. Красота — слишком расплывчатое понятие, чтобы служить полезным свойством. Красота, вероятно, представляет собой сочетание определенных конкретных черт, таких как стиль и цвет. Стиль и цвет были бы лучшими чертами, чем красота.
«Пользователь нажал на описание обуви» — полезная метка.
Пользователи, вероятно, хотят больше узнать только о той обуви, которая им нравится. Таким образом, клики пользователей — это наблюдаемая, поддающаяся количественному измерению метрика, которая может служить хорошей обучающей меткой. Поскольку наши обучающие данные основаны на прошлом поведении пользователей, наши метки должны основываться на объективном поведении, таком как клики, которые сильно коррелируют с пользовательскими предпочтениями.
«Обувь, которую обожает пользователь» — полезный ярлык.
Поклонение — это не наблюдаемая, не поддающаяся количественному измерению метрика. Лучшее, что мы можем сделать, — это найти наблюдаемые прокси-метрики обожания.