Set di dati, generalizzazione e overfitting

Introduzione

Questo modulo inizia con una domanda guida. Scegli una delle seguenti risposte:

Se dovessi dare la priorità al miglioramento di una delle seguenti aree nel tuo progetto di machine learning, quale avrebbe un impatto maggiore?
Migliorare la qualità del set di dati
I dati sono più importanti di tutto. La qualità e le dimensioni del set di dati sono molto più importanti dell'algoritmo di Shiny che utilizzi per creare il modello.
Applicazione di una funzione di perdita più intelligente all'addestramento del modello
È vero, una funzione di perdita migliore può aiutare un modello ad addestrarsi più velocemente, ma rimane comunque molto indietro rispetto a un altro elemento di questo elenco.

Una domanda ancora più insolita:

Indovina: nel tuo progetto di machine learning, quanto tempo in genere investi in preparazione e trasformazione dei dati?
Più della metà del tempo del progetto
Sì, gli esperti di ML dedicano la maggior parte del loro tempo alla creazione di set di dati e al feature engineering.
Meno della metà del tempo del progetto
Pianifica di più. Di solito, l'80% delle volte utilizza il machine learning alla creazione di set di dati e alla trasformazione dei dati.

In questo modulo scoprirai di più sulle caratteristiche del machine learning set di dati e come prepararli per garantire risultati di alta qualità per l'addestramento e la valutazione del modello.