Preparazione dei dati e progettazione delle funzionalità in ML

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Il machine learning ci aiuta a trovare schemi nei dati, ovvero modelli che utilizziamo per fare previsioni sui nuovi punti dati. Per ottenere queste previsioni corrette, dobbiamo costruire il set di dati e trasformare i dati correttamente. Questo corso illustra questi due passaggi chiave. Vedremo anche come giocano le considerazioni sulla formazione e sulla pubblicazione in questi passaggi.

Un progetto di machine learning organizzato in cinque fasi. 1. Definisci un problema con il machine learning e proponi una soluzione. 2. Crea il tuo set di dati. 3. Trasforma i dati.
4. Addestrare un modello. 5. Utilizza il modello per fare previsioni.  Questo corso illustra la creazione di un set di dati e la trasformazione dei dati.

Prerequisiti

Questo corso presuppone che tu abbia:

Perché scoprire di più sulla preparazione dei dati e sulla progettazione tecnica delle funzionalità?

Puoi considerare l'ingegneria delle funzionalità come un modello che aiuta a comprendere i set di dati nello stesso modo in cui lo fai tu. Gli studenti spesso seguono un corso di machine learning incentrato sulla creazione di modelli, ma finiscono per dedicare molto più tempo ai dati.

Per la seguente domanda, fai clic sulla freccia desiderata per controllare la tua risposta:

Se dovessi dare la priorità a migliorare una delle aree seguenti nel tuo progetto di machine learning, quale potrebbe essere la soluzione più efficace?
La qualità e le dimensioni dei tuoi dati
I dati hanno la precedenza. È vero che l'aggiornamento dell'algoritmo di apprendimento o dell'architettura del modello ti consente di apprendere diversi tipi di pattern, ma se i tuoi dati sono scadenti, finirai per creare funzioni adatte alla situazione sbagliata. La qualità e le dimensioni del set di dati sono molto più importanti rispetto all'algoritmo lucido che utilizzi.
Utilizzare l'algoritmo di ottimizzazione più recente
Sicuramente potresti notare alcuni miglioramenti nell'uso degli strumenti di ottimizzazione, ma non avrebbe un impatto significativo sul tuo modello come un altro elemento in questo elenco.
Una rete più profonda
Anche se una rete più dettagliata può migliorare il modello, l'impatto non sarà significativo come un altro elemento in questo elenco.
Una funzione di perdita più intelligente
Ci sei andato vicino! Una funzione di perdita migliore può dare un grande successo, ma è ancora seconda a un altro elemento in questo elenco.

Perché è importante raccogliere un buon set di dati?

Google Traduttore

"...uno dei nostri miglioramenti di qualità più efficaci da quando la traduzione automatica neurale ha identificato il miglior sottoinsieme di dati di addestramento da usare."

- Software Engineer, Google Traduttore

Il team di Google Traduttore ha più dati di addestramento di quanti ne possa utilizzare. Invece di ottimizzare il proprio modello, il team ha guadagnato più vincite utilizzando le migliori funzionalità dei suoi dati.

 

 

 

"...la maggior parte delle volte, quando ho provato a eseguire manualmente il debug degli errori interessanti, potevano essere causati da problemi con i dati di addestramento." - Software Engineer, Google Traduttore

"Di aspetto interessante". In genere, gli errori sono causati dai dati. Dati errati potrebbero causare l'apprendimento degli schemi errati indipendentemente dal modello, a prescindere dalle tecniche di modellazione che provi.

 

 

Progetto di retinopatia diabetica di Brain

Il progetto di retinopatia diabetica di Google Brain ha utilizzato un'architettura di rete neurale, nota come Inception. Per rilevare la malattia classificando le immagini. Il team non ha modificato i modelli. Sono riusciti a creare un set di dati di 120.000 esempi etichettati da oftalmologi. Scopri di più all'indirizzo https://research.google.com/pubs/pub43022.html.