Campionamento e suddivisione: verifica le tue conoscenze

Per le seguenti domande, fai clic sulla freccia desiderata per controllare la tua risposta:

Immagina di avere un set di dati con un rapporto 1:1000 positivo-negativo. Purtroppo il tuo modello prevede sempre la maggior parte delle classi. Quale tecnica ti consentirebbe di affrontare meglio questo problema? Ricorda che vuoi che il modello segnali una probabilità calibrata.
Sottoponi a esempi gli esempi negativi.
Si tratta di un buon inizio, ma devi modificare la tariffa di base del modello, quindi non è più calibrata.
Sottocampiona gli esempi negativi (la maggior parte). Quindi, aumenta la ponderazione della classe sottocampionata in base allo stesso fattore.
Si tratta di un modo efficace per gestire i dati non bilanciati e ottenere comunque la reale distribuzione delle etichette. Tieni presente che è importante sapere se il modello segnala una probabilità calibrata o meno. Se non è necessario calibrarlo, non devi preoccuparti di modificare la tariffa di base.
Quali tecniche perdono i dati dalla coda di un set di dati? Seleziona tutte le voci pertinenti.
Filtro PII
Il filtro delle PII dai tuoi dati può comportare la rimozione delle informazioni in coda, alterando la distribuzione.
Ponderazione
La ponderazione degli esempi cambia l'importanza dei diversi esempi, ma non perde le informazioni. In effetti, l'aggiunta di peso agli esempi di coda può aiutare il tuo modello ad apprendere il comportamento della coda.
Campionamento
La coda delle distribuzioni di funzionalità perderà le informazioni nel downsampling. Tuttavia, poiché di solito eseguiamo il sottocampionamento della classe principale, questa perdita non è di norma un grande problema.
Normalizzazione
La normalizzazione funziona su singoli esempi, quindi non causa bias di campionamento.
Stai lavorando a un problema di classificazione e hai suddiviso casualmente i dati in set di addestramento, valutazione e test. La categoria di classificazione sembra funzionare perfettamente. In fase di produzione, il classificatore costituisce un errore totale. Più tardi scoprirai che il problema è stato causato dalla suddivisione casuale. Quali tipi di dati sono suscettibili a questo problema?
Dati di serie temporali
La suddivisione casuale suddivide ogni cluster nel segmento test/addestramento, fornendo un'"anteprima" del modello che non sarà disponibile in produzione.
Dati che non cambiano molto nel tempo
Se i dati non cambiano molto nel tempo, avrai più possibilità con una suddivisione casuale. Ad esempio, potresti voler identificare la razza del cane nelle foto o prevedere i pazienti a rischio di difetti cardiaci in base ai dati biometrici passati. In entrambi i casi, in genere i dati non cambiano nel tempo, pertanto la suddivisione casuale non dovrebbe causare problemi.
Raggruppamenti di dati
Il set di test sarà sempre troppo simile al set di addestramento perché i cluster di dati simili si trovano in entrambi i set. Il modello sembrerà avere una potenza predittiva migliore di quella effettiva.
Dati con burst (dati in arrivo in burst intermittenti rispetto a un flusso continuo)
I cluster di dati simili (i burst) verranno visualizzati sia durante l'addestramento sia durante i test. Il modello farà previsioni migliori durante i test rispetto ai nuovi dati.