Coleta de dados: teste seu conhecimento

Para as seguintes perguntas, clique na seta para conferir sua resposta:

Imagine que você está trabalhando em um modelo de aprendizado de máquina relacionado a publicidade e quer prever os gastos do anunciante em janeiro. Você tem limites na quantidade de dados que podem ser armazenados em disco. Portanto, use apenas um subconjunto de dados disponíveis. É possível usar todos os dados mais recentes do mês anterior de dezembro. Alguém sugere que você use dados de amostra do ano passado. Qual poderia ser melhor e por quê?
Dados do mês anterior (dezembro)
Esses dados são mais recentes, mas podem ser influenciados pelos efeitos sazonais dos gastos do anunciante antes das festas de fim de ano de dezembro.
Dados de amostragem ao longo do ano
Embora esses dados sejam antigos, é menos provável que eles sejam influenciados pelos efeitos sazonais dos gastos do anunciante antes das festas de fim de ano de dezembro.
Você quer exibir vídeos que os usuários querem assistir. Você usa vídeos que eles visualizaram no YouTube como uma etiqueta. Esse rótulo é direto ou derivado?
Derivado
Esse identificador é derivado porque não é a previsão exata que você quer fazer. Talvez o usuário tenha aberto o vídeo, mas o tenha fechado pouco tempo depois. Esse evento contaria como uma visualização, mesmo que o usuário não tenha assistido ao vídeo. Em alguns casos, uma heurística como essa pode ser sua única opção, mas esteja ciente do tipo de rótulo (direto ou derivado) e de como ele limita as previsões.
Direto
Embora esse rótulo possa resultar em uma previsão precisa na maioria das vezes, não é a previsão exata que você quer fazer.