Passaggio 1: raccogli i dati

La raccolta dei dati è il passaggio più importante per risolvere qualsiasi problema di machine learning supervisionato. La categoria di classificazione del testo può dipendere solo dal set di dati da cui è stata creata.

Se non hai un problema specifico che vuoi risolvere e vuoi solo esplorare la classificazione del testo in generale, sono disponibili molti set di dati open source. Puoi trovare i link ad alcuni di loro nel nostro repository GitHub. Se invece stai affrontando un problema specifico, dovrai raccogliere i dati necessari. Molte organizzazioni forniscono API pubbliche per accedere ai propri dati, ad esempio le API Twitter o l'API NY Times. Potresti riuscire a utilizzarli per il problema che stai cercando di risolvere.

Di seguito sono riportati alcuni aspetti importanti da tenere in considerazione quando si raccolgono dati:

  • Se utilizzi un'API pubblica, prima di utilizzare le limitazioni devi prima comprenderne l'API. Ad esempio, alcune API impostano un limite alla frequenza con cui puoi eseguire le query.
  • È meglio aggiungere esempi di addestramento (indicati come esempi nella parte rimanente di questa guida). Questo consentirà di migliorare la generalizzazione del modello.
  • Assicurati che il numero di esempi per ogni classe o argomento non sia troppo sbilanciato. In altre parole, per ogni classe deve esserci un numero di campioni comparabile.
  • Assicurati che gli esempi coprano in modo adeguato lo spazio dei possibili input, non solo i casi comuni.

In questa guida, utilizzeremo il set di dati sulle recensioni dei film di Internet Movie Database (IMDb) per illustrare il flusso di lavoro. Questo set di dati contiene recensioni di film pubblicate da utenti sul sito web di IMDb, nonché le etichette corrispondenti ("positive" o " negative") che indicano se al revisore è piaciuto o meno il film. Questo è un classico esempio di problema di analisi del sentiment.