Iniziamo con una rapida revisione di un'idea chiave del corso di arresto anomalo di machine learning. Osserva la distribuzione nel grafico qui sotto.
Figura 1: prezzi delle case rispetto alla latitudine.
Per la seguente domanda, fai clic sulla freccia desiderata per controllare la tua risposta:
In casi come l'esempio della latitudine, devi dividere le latitudini in bucket per ottenere informazioni diverse sui valori degli alloggi per ciascun bucket. Questa trasformazione di funzionalità numeriche in caratteristiche categoriche, utilizzando un insieme di soglie, è chiamata bucketing (o binding). In questo esempio di bucket, i confini sono equidistanti.
Figura 2: prezzi delle case e latitudine, ora suddivisi in bucket.
Bucket quantile
Rivediamo il nostro set di dati sui prezzi delle auto con i bucket aggiunti. Con una funzionalità per bucket, il modello utilizza quanta capacità per un singolo esempio nell'intervallo >45000 quanto per tutti gli esempi nell'intervallo 5000-10000. che sembra uno spreco. Come potremmo migliorare la situazione?
Figura 3: numero di auto vendute a prezzi diversi.
Il problema è che i bucket con spaziatura uniforme non acquisiscono bene questa distribuzione. La soluzione consiste nel creare bucket che abbiano lo stesso numero di punti. Questa tecnica è chiamata bucket quantile. Ad esempio, la seguente figura divide i prezzi delle auto in bucket quantili. Per ottenere lo stesso numero di esempi in ciascun bucket, alcuni bucket comprendono una sezione di prezzi ristretta, mentre altri includono un intervallo di prezzi molto ampio.
Figura 4: il bucket quantile fornisce a ogni bucket lo stesso numero di auto.
Riepilogo bucket
Se scegli di bucket per le tue funzionalità numeriche, spiega chiaramente come imposti i limiti e il tipo di bucket che stai applicando:
- Bucket con limiti equidistanti: i limiti sono fissi e comprendono lo stesso intervallo (ad esempio 0-4 gradi, 5-9 gradi e 10-14 gradi oppure 5000 $ 9999, $ 10.000-14.999 $ e 15.000 $-19.999 $). Alcuni bucket potrebbero contenere molti punti, mentre altri potrebbero averne pochi o nessuno.
- Bucket con limiti quantici: ogni bucket ha lo stesso numero di punti. I limiti non sono fissi e potrebbero includere un intervallo di valori ristretto o ampio.