Processo di preparazione dei dati e di ingegneria delle funzionalità

Com'è la procedura?

Come accennato in precedenza, questo corso è incentrato sulla creazione del set di dati e sulla trasformazione dei dati.

La creazione del set di dati prevede le seguenti attività: 1. Raccogli dati non elaborati.  2. Identifica le origini di funzionalità ed etichette. 3. Seleziona una strategia di campionamento.
4. Suddividi i dati. La trasformazione dei dati prevede le seguenti attività:
1. Esplora e pulisci i dati. 2. Eseguire l'ingegneria delle funzionalità.

Ricorda:

  • La figura mostra un processo tipico, che potrebbe non essere ideale per ogni progetto. Questo corso si applica principalmente alla regressione lineare e alle reti neurali.
  • Il processo mostrato non è sempre sequenziale. Ad esempio, potresti suddividere i dati dopo che li hai trasformati. Potrebbe essere necessario raccogliere più dati. Potrebbe essere necessario modificare l'insieme di funzionalità, anche dopo l'inizio dell'addestramento, man mano che impari empiricamente cosa funziona e cosa no.

Quanto tempo ci vuole?

Per la seguente domanda, fai clic sulla freccia desiderata per controllare la tua risposta:

Prova a indovinare: nel tuo progetto di machine learning, quanto tempo in genere dedichi alla preparazione e alla trasformazione dei dati?
Più della metà della durata del progetto
Corretto: trascorrerai la maggior parte del tempo a un progetto di machine learning costruendo set di dati e trasformando i dati.
Meno della metà del tempo del progetto
Pianifica per scoprire di più. In genere, l'80% del tempo su un progetto di machine learning viene dedicato alla creazione di set di dati e alla trasformazione dei dati.