Сбор данных: проверьте свое понимание

Для следующих вопросов щелкните нужную стрелку, чтобы проверить свой ответ:

Предположим, вы работаете над моделью машинного обучения, связанной с рекламой, и хотите спрогнозировать расходы рекламодателей на январь. У вас есть ограничения на объем данных, которые вы можете хранить на диске, поэтому вы должны использовать только подмножество доступных данных. Вы можете использовать все самые последние данные, которые относятся к предыдущему месяцу декабря. Кто-то еще предлагает вам взять данные за последний год. Что может быть лучше и почему?
Данные за предыдущий месяц (декабрь)
Хотя эти данные являются более свежими, на них может повлиять сезонный эффект расходов рекламодателей перед декабрьскими праздниками.
Выборка данных в течение года
Хотя эти данные устарели, на них вряд ли повлияют сезонные эффекты расходов рекламодателей перед декабрьскими праздниками.
Вы хотите показывать видео, которые пользователи хотят смотреть. Вы используете видео, которые они просмотрели на YouTube, в качестве ярлыка. Является ли этот ярлык прямым или производным?
Полученный
Эта метка является производной, потому что это не точное предсказание, которое вы хотите сделать. Возможно, пользователь открыл видео, но вскоре закрыл его. Это событие будет считаться просмотром, даже если пользователь не смотрел видео. В некоторых случаях подобная эвристика может быть вашим единственным вариантом, но помните о своем типе метки (прямой или производный) и о том, как он ограничивает ваши прогнозы.
Прямой
Хотя эта метка может привести к точному прогнозу в большинстве случаев, это не тот прогноз, который вы хотите сделать.