Trasformazione dei dati: verifica le tue conoscenze

Per le seguenti domande, fai clic sulla freccia desiderata per controllare la tua risposta:

Stai preelaborando i dati per un modello di regressione. Quali trasformazioni sono obbligatorie? Seleziona tutte le voci pertinenti.
Conversione di tutti gli elementi non numerici in funzionalità numeriche.
risposta esatta. Questa è una trasformazione obbligatoria. Devi convertire le stringhe in una rappresentazione numerica perché non puoi eseguire la moltiplicazione delle matrici su una stringa.
Normalizza i dati numerici.
La normalizzazione dei dati numerici potrebbe essere utile, ma è una trasformazione di qualità facoltativa.

 

Esamina il grafico riportato di seguito. Quale tecnica di trasformazione dei dati sarà probabilmente la più produttiva con cui iniziare e perché? Supponiamo che il tuo obiettivo sia trovare una relazione lineare tra camerePerPersona e prezzo della casa.
Punteggio Z
Il punteggio z è un'ottima scelta se i valori anomali non sono estremi. Tuttavia, le anomalie sono estreme qui.
Clip
Questa funzionalità è utile poiché il set di dati contiene valori anomali estremi. Dovresti correggere i valori anomali estremi prima di applicare altre normalizzazioni.
Ridimensionamento log
La scalabilità dei log è una buona scelta se i tuoi dati confermano la distribuzione di leggi sull'energia. Tuttavia, questi dati sono conformi a una normale distribuzione anziché a una distribuzione di legge sull'energia.
Bucket (binning) con confini quantili
Il bucket quantile può essere un buon approccio per i dati inclinati, ma in questo caso questo disallineamento è dovuto in parte ad alcuni valori anomali. Inoltre, vuoi che il modello apprenda una relazione lineare. Pertanto, devi mantenere i numeri numerici di roomPerPerson invece di trasformarli in categorie, cosa che fa il bucket. Prova invece una tecnica di normalizzazione.

Un grafico che mostra la frequenza relativa delle diverse stanze per persona, dove
Stanze virtualiPer persona è il numero di stanze di una residenza diviso per il numero di persone nella
residenza.  La maggior parte dei dati è distribuita tra 0 e 5 con un numero di punti da 5 a 55.

 

Esamina il grafico riportato di seguito. Quale tecnica di trasformazione dei dati sarà probabilmente la più produttiva con cui iniziare e perché?
Punteggio Z
Il punteggio z è un'ottima scelta se i valori anomali non sono così estremi da richiedere un ritaglio. Non è questo il caso. Il modo in cui i dati vengono inclinati deve essere un suggerimento.
Clip
Il ritaglio è un'ottima scelta in caso di anomalie. Questo grafico, tuttavia, mostra una distribuzione di legge sull'energia e c'è un'altra tecnica di normalizzazione più adatta per risolvere il problema.
Ridimensionamento log
La scalabilità dei log è una buona scelta qui perché i dati sono conformi alla distribuzione di legge sull'energia.
Bucket (binning) con confini quantili
Il bucket quantile può essere un buon approccio per i dati inclinati. Tuttavia, stai cercando il modello per imparare una relazione lineare. Pertanto, dovresti conservare i dati numerici ed evitare di inserirli in bucket. Prova una tecnica di normalizzazione.

Un grafico a barre le cui barre sono fortemente concentrate nella fascia bassa. La prima barra ha una magnitudo di 1200, la seconda una magnitudo di 460, la terza una magnitudo di 300. Nella 15a barra, la grandezza è scesa a circa 30. Una coda molto lunga continua per altri 90 bar con un'ampiezza della coda lunga che non supera mai i 10 gradi.

 

Esamina il grafico riportato di seguito. Un modello lineare farebbe una buona previsione sulla relazione tra rapporto di compressione e città-mpg? In caso contrario, in che modo potresti trasformare i dati per addestrare meglio il modello?
Sì, il modello probabilmente troverebbe una relazione lineare ed effettuerà previsioni abbastanza accurate.
Anche se il modello troverebbe una relazione lineare, non farebbe previsioni molto accurate. Puoi provare ad addestrare questo set di dati nell'esercizio della modellazione dei dati per comprendere meglio il motivo.
No. Il modello probabilmente sarebbe più preciso dopo la scalabilità.
Puoi applicare la scalabilità lineare, ma la pendenza della relazione tra rapporto di compressione e città-mpg sarebbe uguale. Ciò che vi aiuterebbe di più è vedere due piste separate: una per il cluster di punti nel rapporto di compressione inferiore e un'altra per quella più alta.
No. Sembra che esistano due comportamenti diversi. Impostare una soglia al centro e utilizzare una funzionalità bucket può aiutarti a comprendere meglio cosa sta succedendo in queste due aree.
risposta esatta. È importante essere chiari sui motivi e sulle modalità di definizione dei limiti. Nell'esercizio della modellazione dei dati, scoprirai di più su come questo approccio può aiutarti a creare un modello migliore.

Un grafico a dispersione in cui viene mostrata l'autostrada-mpg rispetto al rapporto di compressione. Due gruppi di dati distinti, uno molto più grande dell'altro, vengono visualizzati su estremità opposte dell'asse del rapporto di compressione. Il gruppo più grande copre l'intervallo di rapporti di compressione 7-12, mentre quello più piccolo copre l'intervallo di rapporti di compressione 21-23. In genere, l'autostrada-mpg è un po' più bassa nel gruppo più grande
che in quello più piccolo.

 

Un team di colleghi ti informa dei progressi compiuti nel progetto di machine learning. Ha calcolato un vocabolario e ha addestrato un modello offline. Vuole evitare problemi di inattività, tuttavia sta per addestrare un modello diverso online. Cosa potrebbe succedere dopo?
Il modello rimarrà aggiornato all'arrivo di nuovi dati. L'altro team dovrà monitorare continuamente i dati di input.
Sebbene l'assenza di inattività del modello sia il vantaggio principale dell'addestramento dinamico, l'utilizzo di un vocabolario con un modello addestrato offline comporterà problemi.
Potrebbero riscontrare che gli indici che utilizzano non corrispondono al vocab.
risposta esatta. Avvisa i tuoi colleghi dei pericoli dell'incarico di addestramento/produzione e consiglia loro di seguire il corso di Google sulla preparazione dei dati e l'ingegneria delle funzionalità per il machine learning per saperne di più.