Etapa 1: coletar dados

A coleta de dados é a etapa mais importante para resolver qualquer problema de machine learning supervisionado. O classificador de texto só pode ser tão bom quanto o conjunto de dados em que é criado.

Se você não tiver um problema específico que quer resolver e só estiver interessado em explorar a classificação de texto em geral, há muitos conjuntos de dados de código aberto disponíveis. Você encontra links para alguns deles no nosso repositório do GitHub. Por outro lado, se você estiver lidando com um problema específico, precisará coletar os dados necessários. Muitas organizações oferecem APIs públicas para acessar os dados delas, por exemplo, a API Twitter ou a API NY Times. Talvez você possa usar esses recursos para o problema que está tentando resolver.

Veja algumas informações importantes antes de coletar dados:

  • Se você estiver usando uma API pública, entenda as limitações dela antes de usá-la. Por exemplo, algumas APIs definem um limite para a taxa em que você pode fazer consultas.
  • Quanto mais exemplos de treinamento (chamados de amostras no restante deste guia) você tiver, melhor. Isso ajuda a generalizar seu modelo.
  • Verifique se o número de amostras para cada classe ou tópico não está excessivamente desbalanceado. Ou seja, você precisa ter um número comparável de amostras em cada classe.
  • Verifique se as amostras cobrem adequadamente o espaço de entradas possíveis, não apenas os casos comuns.

Neste guia, usaremos o conjunto de dados de avaliações de filmes do Internet Movie Database (IMDb) para ilustrar o fluxo de trabalho. Este conjunto de dados contém avaliações publicadas por pessoas no site do IMDb, bem como os rótulos correspondentes ("positivos" ou "negativos") indicando se o revisor gostou do filme ou não. Este é um exemplo clássico de um problema de análise de sentimento.