Introduzione alla creazione del set di dati

Passaggi per la creazione del set di dati

Per creare il set di dati (e prima di eseguire la trasformazione dei dati), devi:

  1. Raccogli i dati non elaborati.
  2. Identifica le origini di funzionalità ed etichette.
  3. Seleziona una strategia di campionamento.
  4. Suddividi i dati.

Questi passaggi dipendono molto da come hai strutturato il problema di ML. Utilizza l'autocontrollo qui sotto per aggiornare la tua memoria sulla framing dei problemi e controllare le tue ipotesi sulla raccolta dei dati.

Controllo automatico dei concetti di data framework e raccolta dei dati

Per le seguenti domande, fai clic sulla freccia desiderata per controllare la tua risposta:

Stai lavorando a un nuovo progetto di machine learning in procinto di selezionare le tue prime funzionalità. Quante funzionalità dovresti scegliere?
Scegli 1-3 funzionalità che sembrano avere un potere predittivo elevato.
È preferibile che la pipeline di raccolta dati inizi con una o due funzionalità. Questo ti aiuterà a confermare che il modello ML funziona come previsto. Inoltre, quando creerai una base di riferimento utilizzando un paio di funzionalità, avrai la sensazione di avere fatto progressi.
Scegli 4-6 funzionalità che sembrano avere un'elevata potenza predittiva.
Anche se alla fine potresti utilizzare molte di queste funzionalità, ma è ancora meglio iniziare con meno. Un minor numero di funzionalità di solito comporta meno complicazioni non necessarie.
Scegli il maggior numero possibile di funzionalità, così potrai iniziare a osservare quali funzionalità hanno la potenza predittiva più efficace.
Inizia con un budget più basso. Ogni nuova funzionalità aggiunge una nuova dimensione al set di dati di addestramento. All'aumento delle dimensioni, il volume dello spazio aumenta a una velocità tale che i dati di addestramento disponibili diventano ridotti. Più sono semplici i dati, più è difficile per un modello apprendere la relazione tra le funzionalità più importanti e l'etichetta. Questo fenomeno è chiamato "maledizione della dimensionalità".
Il tuo amico Sam è entusiasta dei risultati iniziali della sua analisi statistica. Afferma che i dati mostrano una correlazione positiva tra il numero di download dell'app e il numero di impressioni di recensione dell'app. Tuttavia, non è sicuro se l'avrebbe comunque scaricata senza visualizzare la recensione. Quale risposta sarebbe più utile a Marco?
Puoi eseguire un esperimento per confrontare il comportamento degli utenti che non hanno visto la recensione con utenti simili.
risposta esatta. Se Sam osserva che gli utenti che hanno visto la recensione positiva hanno maggiori probabilità di scaricare l'app rispetto a quelli che non l'hanno fatto, ha prove ragionevoli di suggerire che la recensione positiva stia incoraggiando le persone a scaricarla.
Considera attendibili i dati. È chiaro che questa recensione è il motivo per cui gli utenti stanno scaricando l'app.
risposta errata. Questa risposta non conduce Sam nella direzione giusta. Non puoi determinare la causale solo dai dati di osservazione. Sam vede una correlazione (ovvero una dipendenza statistica tra i numeri) che potrebbe o meno indicare la causale. Non lasciare che le tue analisi si uniscano ai ranghi di correzioni buffe.