Glossario del machine learning: foreste decisionali

Questa pagina contiene i termini del glossario di Decision Forests. Per tutti i termini del glossario, fai clic qui.

R

campionamento degli attributi

#df

Una tattica per addestrare un sistema decisionale in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili funzionalità quando apprende la condizione. In genere, viene campionato un sottoinsieme di funzionalità diverso per ogni nodo. Al contrario, durante l'addestramento di un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le possibili funzionalità per ciascun nodo.

condizione allineata all'asse

#df

In un albero decisionale, si tratta di una condizione che prevede una sola funzionalità. Ad esempio, se l'area è una caratteristica, quanto segue è una condizione allineata all'asse:

area > 200

Contrasto con condizione obbligatoria.

B

insaccamento

#df

Un metodo per addestrare un insieme in cui ogni elemento modello viene addestrato in base a un sottoinsieme casuale di esempi di addestramento campionati con la sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con l'insaccamento.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due risultati possibili, in genere yes o no. Ad esempio, di seguito è una condizione binaria:

temperature >= 100

Contrasto con la condizione non binaria.

C

Condizione

#df

In una albero decisionale, qualsiasi nodo che valuti un'espressione. Ad esempio, la seguente parte di un albero decisionale contiene due condizioni:

Un albero decisionale costituito da due condizioni: (x > 0) e (y > 0).

Una condizione è chiamata anche suddivisione o test.

Condizione di contrasto con leaf.

Vedi anche:

D

decisione foresta

#df

Un modello creato da più alberi decisionali. Una foresta di decisioni esegue una previsione aggregando le previsioni dei suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali figurano foreste a caso e alberi spinti da gradienti.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di conditions e conditions organizzati in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Un albero decisionale composto da quattro condizioni disposte in modo gerarchico che portano a cinque foglie.

E

entropia

#df

Nella teoria dell'informazione, una descrizione dell'imprevedibilità di una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha la più alta entropia possibile quando tutti i valori di una variabile casuale sono ugualmente probabili.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

  • H è l'entropia.
  • p è la frazione di "1".
  • q è la frazione di "0" esempi. Tieni presente che q = (1 - p)
  • log corrisponde in genere a log2. In questo caso, l'unità di entropia è un po'.

Ad esempio, supponiamo che:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Pertanto, il valore entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0,25) log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio

Un set perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1,0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare aumento delle informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confronta l'entropia con:

L'entropia è spesso chiamata entropia di Shannon.

F

importanza delle caratteristiche

#df

Sinonimo di importanza variabile.

G

impurità gini

#df

Una metrica simile all'entropia. Gli divisori utilizzano valori derivati dall'impurità o dall'entropia di gini per comporre condizioni per gli alberi decisionali di classificazione. Il guadagno di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di gini; tuttavia, questa metrica senza nome è importante quanto il guadagno di informazioni.

L'impurità di Gini è anche chiamata gini index o semplicemente gini.

alberi con gradiente (GBT) potenziati

#df

Un tipo di foresta decisionale in cui:

boosting del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello solido. Ad esempio, un modello debole potrebbe essere un modello lineare o ad albero decisionale piccolo. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di boosting del gradiente, a ogni iterazione, viene addestrato un modello debole per prevedere il gradiente di perdita del modello con efficacia forte. Quindi, l'output del modello avanzato viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

  • $F_{0}$ è il modello iniziale efficace.
  • $F_{i+1}$ è il prossimo modello efficace.
  • $F_{i}$ è il modello attuale di sicurezza.
  • $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato retrazione, che è analogo al tasso di apprendimento nella discesa del gradiente.
  • $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne di boosting del gradiente includono anche la seconda derivata (Hessian) della perdita nel calcolo.

Gli alberi decisionali sono comunemente utilizzati come modelli deboli nel boosting del gradiente. Vedi gli alberi con gradiente (decisione).

I

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso che un determinato esempio prende dalla principale ad altre condizioni, terminando con una leaf. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

  • x = 7
  • y = 12
  • z = -3

Il percorso di inferenza nell'illustrazione seguente attraversa tre condizioni prima di raggiungere la foglia (Zeta).

Un albero decisionale composto da quattro condizioni e cinque foglie.
          La condizione principale è (x > 0). Poiché la risposta è Sì, il percorso di inferenza si sposta dalla radice alla condizione successiva (y > 0).
          Poiché la risposta è Sì, il percorso di inferenza si sposta alla condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza si sposta fino al suo nodo terminale, che è la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (per numero di esempi) dell'entropia dei nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori entropia:

  • entropia del nodo padre = 0,6
  • entropia di un nodo figlio con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Pertanto, il 40% degli esempi si trova in un nodo secondario e il 60% nell'altro nodo secondario. Pertanto:

  • somma di entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, le informazioni ottenute sono:

  • guadagno di informazioni = entropia del nodo principale - somma di entropia ponderata dei nodi figlio
  • guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte dei splitter cerca di creare condizioni che massimizzino il guadagno di informazioni.

condizione interna

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, di seguito è riportata una condizione predefinita:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore di feature in stile autopromozionale è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della funzionalità autopromozionale è diverso (ad esempio ranch), la condizione restituisce No.

Le condizioni integrate di solito portano a strutture decisionali più efficienti rispetto alle condizioni che testano le funzionalità di codifica ad una sola operazione.

L

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

No

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili risultati. Un risultato (number_of_legs = 8) porta a una foglia chiamata ragno. Un secondo risultato (number_of_legs = 4) porta a una foglia di nome cane. Un terzo risultato (number_of_legs = 2) porta a
          una foglia chiamata pinguino.

O

condizione obliqua

#df

In un albero decisionale, una condizione che coinvolge più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambi elementi, allora si tratta di una condizione obliqua:

  height > width

Contrasto con la condizione allineata all'asse.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un sistema decisionale testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel seguente diagramma, nota che il sistema addestra ogni struttura decisionale su circa due terzi degli esempi, quindi valuta in base a un terzo rimanente degli esempi.

Una foresta decisionale composta da tre alberi decisionali.
          Un albero decisionale viene addestrato su due terzi degli esempi,
          quindi utilizza il terzo rimanente per la valutazione OOB.
          Un secondo albero decisionale viene addestrato su due terzi diversi degli esempi rispetto alla struttura decisionale precedente, quindi utilizza un terzo diverso per la valutazione OOB rispetto alla struttura decisionale precedente.

La valutazione out-of-bag è un'approssimazione conservativa e efficiente dal punto di vista computazionale del meccanismo di convalida incrociata. Nella convalida incrociata viene addestrato un modello per ogni ciclo di convalida incrociata (ad esempio, 10 modelli vengono addestrati in una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché l'insufficienza trattiene alcuni dati da ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

P

Importazioni delle variabili di permutazione

#df

Un tipo di importanza variabile che valuta l'aumento dell'errore di previsione di un modello dopo l'autorizzazione dei valori della funzionalità. L'importanza della variabile di permutazione è una metrica indipendente dal modello.

R

Random Forest

#df

Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio l'insacco.

Le foreste casuali sono un tipo di foresta decisionale.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi mettono la radice all'inizio dell'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
          condizione iniziale (x > 2) è la condizione radice.

S

campionamento con sostituzione

#df

Metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con sostituzione" indica che, dopo ogni selezione, l'elemento selezionato viene restituito al gruppo di elementi candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera il seguente set di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come prima voce. Se utilizzi il campionamento con la sostituzione, il sistema sceglie il secondo elemento dall'insieme seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è uguale a prima, pertanto il sistema potrebbe scegliere di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta scelto, non potrai più selezionarlo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non può essere più scelto. Di conseguenza, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

ritiro

#df

Un iperparametro in gradient boosting che controlla l'overfitting. La riduzione nel boosting del gradiente è analoga al tasso di apprendimento nella discesa del gradiente. La riduzione è un valore decimale compreso tra 0,0 e 1,0. Un valore di contrazione inferiore riduce l'overfitting maggiore rispetto a un valore maggiore.

split

#df

In un albero decisionale, viene utilizzato un altro nome per una condizione.

splitter

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile della ricerca della migliore condizione per ogni nodo.

T

test

#df

In un albero decisionale, viene utilizzato un altro nome per una condizione.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una funzionalità. Ad esempio, 75 è il valore di soglia nella seguente condizione:

grade >= 75

V

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ogni funzionalità per il modello.

Prendiamo come esempio un albero decisionale che stima i prezzi delle abitazioni. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: dimensione, età e stile. Se viene calcolato che un insieme di priorità delle variabili per le tre caratteristiche è {size=5.8, age=2.5, style=4.7}, per l'albero decisionale la taglia è più importante dell'età o dello stile.

Esistono diverse metriche di importanza variabile che possono informare gli esperti di ML su diversi aspetti dei modelli.

W

la saggezza della folla

#df

L'idea che la media delle opinioni o stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendentemente buoni. Prendiamo come esempio un gioco in cui le persone indovinano il numero di jelly belly confezionati in un grande barattolo. Anche se la maggior parte delle persone indovina non sarà precisa, la media di tutte le ipotesi si è dimostrata sorprendentemente vicina al numero effettivo di gelatine nel barattolo.

I Ensembles sono un analogo software della saggezza della folla. Anche se i singoli modelli effettuano previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso previsioni sorprendentemente valide. Ad esempio, anche se un singolo albero decisionale potrebbe fare previsioni scadenti, un bosco decisionale spesso genera ottime previsioni.