Quando implementi un modello, inizia con qualcosa di semplice. La maggior parte del lavoro nell'ML riguarda i dati, quindi eseguire una pipeline completa per un modello complesso è più difficile che eseguire l'iterazione sul modello stesso. Dopo aver configurato la pipeline di dati e implementato un modello semplice che utilizza alcune funzionalità, puoi eseguire l'iterazione per creare un modello migliore.
I modelli semplici forniscono una buona base di riferimento, anche se non li avvii. In realtà, l'utilizzo di un modello semplice è probabilmente meglio di quanto pensi. Iniziare con qualcosa di semplice ti aiuta a determinare se un modello complesso è giustificato o meno.
Addestrare un modello personalizzato rispetto all'utilizzo di un modello già addestrato
Esistono modelli addestrati per una serie di casi d'uso e offrono molti vantaggi. Tuttavia, i modelli addestrati funzionano davvero solo quando l'etichetta e gli elementi corrispondono esattamente al tuo set di dati. Ad esempio, se un modello addestrato utilizza 25 funzionalità e il tuo set di dati ne include solo 24, molto probabilmente il modello addestrato farà previsioni sbagliate.
In genere, gli esperti di ML utilizzano sottosezioni corrispondenti di input di un modello addestrato per la messa a punto o il transfer learning. Se non esiste un modello addestrato per il tuo caso d'uso specifico, valuta la possibilità di utilizzare le sottosezioni di un modello addestrato per addestrare il tuo.
Per informazioni sui modelli addestrati, consulta
Monitoraggio
Durante la definizione del problema, prendi in considerazione l'infrastruttura di monitoraggio e generazione di avvisi di cui ha bisogno la tua soluzione di ML.
Deployment del modello
In alcuni casi, un modello appena addestrato potrebbe essere peggiore del modello attualmente in produzione. In questo caso, ti consigliamo di impedirne il rilascio in produzione e di ricevere un avviso che ti comunichi che il deployment automatico non è riuscito.
Disallineamento addestramento/distribuzione
Se una delle funzionalità in entrata utilizzate per l'inferenza ha valori che non rientrano nel range di distribuzione dei dati utilizzati nell'addestramento, ti consigliamo di ricevere un avviso perché è probabile che il modello effettui previsioni imprecise. Ad esempio, se il tuo modello è stato addestrato a prevedere le temperature per le città equatoriali a livello del mare, il sistema di pubblicazione dovrebbe avvisarti dei dati in entrata con latitudini e longitudini e/o altitudini al di fuori dell'intervallo in cui è stato addestrato il modello. Al contrario, il sistema di pubblicazione dovrebbe avvisarti se il modello fa predizioni al di fuori dell'intervallo di distribuzione osservato durante l'addestramento.
Server di inferenza
Se fornisci deduzioni tramite un sistema RPC, ti consigliamo di monitorare il server RPC stesso e di ricevere un avviso se smette di fornire deduzioni.