Esempio di suddivisione dati

Dopo aver raccolto i dati e il campionamento dove necessario, il passaggio successivo consiste nella suddivisione dei dati in set di addestramento, set di convalida e set di test.

La suddivisione casuale non è l'approccio migliore

La suddivisione casuale è l'approccio migliore per molti problemi di machine learning, ma non è sempre la soluzione giusta. Ad esempio, considera i set di dati in cui gli esempi sono raggruppati in modo simile in modo simile.

Supponiamo che tu voglia che il modello classifichi l'argomento dal testo di un articolo di notizie. Perché un segmento casuale è problematico?

Quattro gruppi separati di articoli (con etichetta "Storia 1", "Storia 2") e una storia 3" sono visualizzati in sequenza temporale. Figura 1. Le notizie sono raggruppate.

Le notizie vengono raggruppate in cluster: più notizie sullo stesso argomento vengono pubblicate contemporaneamente. Se suddividi i dati in modo casuale, pertanto, il set di test e il set di addestramento conterranno probabilmente le stesse storie. In realtà, non funzionerà in questo modo perché tutte le storie torneranno contemporaneamente, quindi fare la suddivisione in questo modo causerebbe un disallineamento.

Gli stessi articoli della Figura 1 non sono più presenti in una sequenza temporale. Invece, gli articoli sono ora suddivisi casualmente in un set di addestramento e un set di test. Il set di addestramento e il set di test
contengono ciascuno un mix di esempi diversi di tutte e quattro le storie. Figura 2. Una suddivisione casuale consente di suddividere un cluster in più set, causando un disallineamento.

Un modo semplice per risolvere questo problema consiste nel suddividere i dati in base a quando è stata pubblicata la storia, forse il giorno in cui è stata pubblicata. In questo modo, le storie dello stesso giorno vengono posizionate nella stessa suddivisione.

La sequenza temporale originale della Figura 1 è ora suddivisa in un set di addestramento e in un set di test. Tutti gli articoli della storia "1a storia" e della "Storia 2" fanno parte del set di addestramento e tutti gli articoli della storia "3" e della "storia 4" sono inclusi nel set di test. Figura 3. La suddivisione puntuale consente ai cluster di finire per lo più nello stesso insieme.

Con decine di migliaia o più notizie, una percentuale potrebbe essere suddivisa tra i giorni. Ma va bene così, in realtà queste notizie sono state suddivise in due giorni del ciclo di notizie. In alternativa, puoi eliminare i dati entro una certa distanza dall'orario limite per assicurarti di non avere sovrapposizioni. Ad esempio, potresti allenare le storie per il mese di aprile e poi utilizzare la seconda settimana di maggio come set di test, con l'intervallo settimanale che impedisce la sovrapposizione.