Amostragem e divisão de dados

Introdução à amostragem

Muitas vezes, é difícil reunir dados suficientes para um projeto de machine learning. Às vezes, no entanto, há dados demais, e você precisa selecionar um subconjunto de exemplos para usar no treinamento.

Como você seleciona esse subconjunto? Por exemplo, considere a Pesquisa Google. Com que granularidade você criaria amostras de grandes quantidades de dados? Você usaria consultas aleatórias? Sessões aleatórias? Usuários aleatórios?

Em última análise, a resposta depende do problema: o que queremos prever e quais atributos queremos?

  • Para usar o recurso consulta anterior, faça uma amostra no nível da sessão, porque as sessões contêm uma sequência de consultas.
  • Para usar o recurso comportamento do usuário dos dias anteriores, faça a amostragem no nível do usuário.

Filtragem de informações de identificação pessoal (PII)

Se os dados incluem PII (informações de identificação pessoal), talvez seja necessário filtrá-los dos dados. Uma política pode exigir a remoção de recursos infrequentes, por exemplo.

Esse filtro distorce a distribuição. Você perderá informações na cauda (a parte da distribuição com valores muito baixos, longe da média).

Esse filtro é útil porque recursos muito pouco frequentes são difíceis de aprender. No entanto, é importante notar que o conjunto de dados será direcionado para as consultas principais. No momento da disponibilização, é possível piorar a exibição de exemplos da cauda, já que esses foram os exemplos que foram filtrados dos dados de treinamento. Embora essa distorção não possa ser evitada, esteja ciente disso durante sua análise.