Glossario del machine learning: foreste strategiche

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Questa pagina contiene i termini nel glossario di Decision Forests. Per tutti i termini del glossario, fai clic qui.

A

campionamento degli attributi

#df

Una tattica per l'addestramento di una bosco di decisioni in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili funzionalità durante l'apprendimento della condizione. In genere, viene campionato un sottoinsieme diverso di funzionalità per ogni nodo. Quando, invece, addestra un albero decisionale senza campionamento di attributi, per ogni nodo vengono prese in considerazione tutte le funzionalità possibili.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che coinvolge una sola funzionalità. Ad esempio, se l'area è una caratteristica, quello che segue è una condizione allineata sull'asse:

area > 200

Contrasto con condizione oblique.

B

bagaglio

#df

Un metodo per addestrare un insieme in cui ogni costituente modello viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con sostituzioni. Ad esempio, una foresta casuale è una raccolta di albero decisionale addestrato con il bagaglio.

Il termine bagging è l'acronimo di bootstrap aggregating.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due risultati possibili, in genere yes o no. Ad esempio, di seguito è una condizione binaria:

temperature >= 100

Contrasto con condizioni non binarie.

C

Condizione

#df

In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di un albero decisionale contiene due condizioni:

Un albero decisionale composto da due condizioni: (x > 0) e
          (y > 0).

Una condizione è chiamata anche suddivisione o test.

Condizione di contrasto con leaf.

Vedi anche:

D

foresta decisionale

#df

Un modello creato da più albero decisionale. Una foresta decisionale fa una previsione aggregando le previsioni dei suoi alberi decisionale. I tipi di foreste più diffusi includono boschi casuali e albero con pendenza più elevata.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di condizioni e Foglie organizzate in modo gerarchico. Di seguito è riportato un albero decisionale:

Un albero decisionale composto da quattro condizioni disposte in modo gerarchico, che portano a cinque foglie.

E

entropia

#df

In Teoria delle informazioni, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è definita anche in base alla quantità di informazioni contenute in ogni esempio. Una distribuzione ha la massima entropia possibile quando tutti i valori di una variabile casuale sono uguali.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

  • H è l'entropia.
  • p è la frazione di "1" esempi.
  • q è la frazione di "0" esempi. Nota che q = (1 - p)
  • log è in genere log2. In questo caso, l'unità entropia è un po'.

Ad esempio, supponiamo che:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1,0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli albero decisionale, l'entropia aiuta a formulare aumento delle informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confronta l'entropia con:

L'entropia è spesso chiamata entropia di Shannon.

F

importanza delle caratteristiche

#df

Sinonimo di importanza variabile.

G

impurità gini

#df

Una metrica simile a entropy. Gli Splitter utilizzano valori ricavati dall'impurità o dall'entropia gini per comporre condizioni per la classificazione degli albero delle decisioni. Acquisizione di informazioni deriva da entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità gini; tuttavia, questa metrica senza nome è importante tanto quanto il guadagno delle informazioni.

L'impurità Gini è anche chiamata indice gini o semplicemente gini.

potenziamento gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello efficace. Ad esempio, un modello debole potrebbe essere un albero decisionale semplice o lineare. Il modello efficace diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di potenziamento delle sfumature, ad ogni iterazione viene addestrato un modello debole per prevedere la sfumatura di perdita del modello forte. Quindi, l'output del modello forte viene aggiornato sottraendo il gradiente previsto, in modo simile alla discendenza gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

  • $F_{0}$ è il modello iniziale.
  • $F_{i+1}$ è il prossimo modello efficace.
  • $F_{i}$ è il modello attuale.
  • $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato restringimento, che è analogo al tasso di apprendimento nella discesa del gradiente.
  • $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le moderne varianti di boosting gradiente includono anche la seconda derivata (Hessiana) della perdita nel calcolo.

Gli albero decisionale sono comunemente utilizzati come modelli deboli nel gradient boosting. Consulta la pagina relativa agli albero con pendenza aumentata (decisione).

alberi con gradiente decifrato (decisione) (GBT)

#df

Un tipo di Foresta decisionale in cui:

I

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso di un determinato esempio passa dalla root ad altre condizioni, terminando con una foglia. Ad esempio, nella seguente struttura decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle caratteristiche:

  • x = 7
  • y = 12
  • Z = -3

Il percorso di inferenza nella seguente illustrazione viaggia attraverso tre condizioni prima di raggiungere il foglia (Zeta).

Un albero decisionale composto da quattro condizioni e cinque foglie.
          La condizione principale è (x > 0). Poiché la risposta è Sì, il percorso di inferenza viaggia dalla radice alla condizione successiva (y > 0).
          Poiché la risposta è Sì, il percorso di inferenza si sposta nella condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza si sposta nel nodo nodo, che è la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

aumento delle informazioni

#df

Nelle decisioni delle foreste, la differenza tra l'entropia di un nodo e la somma ponderata (per numero di esempi) dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

  • entropia del nodo padre = 0,6
  • entropia di un nodo figlio con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Quindi il 40% degli esempi si trova in un nodo secondario e il 60% nell'altro nodo secondario. Pertanto:

  • somma entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Di conseguenza, l'acquisizione di informazioni è il seguente:

  • guadagno delle informazioni = entropia del nodo principale - somma entropia ponderata dei nodi secondari
  • aumento delle informazioni = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzano il guadagno delle informazioni.

condizione nel set

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, quanto segue è una condizione integrata:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore dell'funzionalità dello stile casa è tudor, colonial o cape, questa condizione restituisce un valore Sì. Se il valore della caratteristica stile casa è diverso (ad esempio ranch), questa condizione restituisce il valore No.

In genere, le condizioni impostate portano a decisioni più efficienti rispetto alle condizioni che verificano le funzionalità di codifica one-hot.

S

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una previsione possibile. Foglia è anche il nodo di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

No

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

condizione non binaria

#df

Una condizione contenente più di due possibili risultati. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili
          risultati. Un risultato (number_of_legs = 8) genera una foglia
          denominata spider. Un secondo risultato (number_of_legs = 4) porta a
          una foglia di nome cane. Un terzo risultato (number_of_legs = 2) porta a una foglia di nome pinguino.

O

condizione obliqua

#df

In un albero decisionale, una condizione che coinvolge più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe funzionalità, allora è la seguente condizione obliqua:

  height > width

Contrasto con la condizione allineata sull'asse.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di una bosco decisionale testando ogni albero decisionale sulla base degli esempi non utilizzati durante addestramento dell'albero decisionale. Ad esempio, nel seguente diagramma, il sistema addestra ogni albero decisionale su circa due terzi degli esempi e poi valuta il rendimento di un terzo rimanente degli esempi.

Una foresta decisionale composta da tre alberi decisionale.
          Un albero decisionale viene addestrato su due terzi degli esempi
          e utilizza il terzo terzo rimanente per la valutazione dell'OOB.
          Un secondo albero decisionale viene addestrato su due terzi
          degli esempi diversi rispetto alla precedente albero decisionale, quindi
          utilizza un terzo diverso per la valutazione dell'OOB rispetto
          alla precedente albero decisionale.

La valutazione senza prenotazione è un'approssimazione efficiente dal punto di vista computazionale e del meccanismo di convalida incrociata. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, 10 modelli vengono addestrati in una convalida incrociata 10 volte). Con la valutazione OOB viene addestrato un singolo modello. Poiché l'inserimento nel cestino trattiene alcuni dati da ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare le convalide incrociate.

R

importanza delle variabili di permutazione

#df

Un tipo di importanza variabile che valuta l'aumento dell'errore di previsione di un modello dopo aver modificato i valori della funzionalità. L'importanza delle variabili di risposta è una metrica indipendente dal modello.

R

foresta casuale

#df

Un insieme di alberi decisionale in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, come gli involucro.

Le foreste casuali sono un tipo di Foresta decisionale.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i grafici posizionano la radice in cima all'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
          condizione iniziale (x > 2) è la radice.

S

campionamento con sostituzione

#df

Un metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con sostituzione" significa che, dopo ogni selezione, l'elemento selezionato viene restituito al gruppo di elementi candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera il seguente insieme di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga casualmente fig come primo elemento. Se utilizzi il campionamento con una sostituzione, il sistema seleziona il secondo elemento dal seguente insieme:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, lo stesso valore è impostato come prima, quindi il sistema potrebbe poter scegliere di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta selezionato un campione non può essere scelto di nuovo. Ad esempio, se il sistema seleziona casualmente fig come primo campione, fig non potrà essere scelto di nuovo. Pertanto, il sistema seleziona il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

riduzione

#df

Un iperparametro nel aumento di pendenza che controlla l'overfitting. Il ritiro del boosting dei gradienti è analogo al tasso di apprendimento nella discesa del gradiente. Il ritiro è un valore decimale compreso tra 0,0 e 1,0. Un valore di ritiro più basso riduce l'overfitting di più di un valore di ritiro maggiore.

split

#df

In un albero decisionale, un altro nome per una condizione.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile di trovare la condizione migliore a ogni nodo.

T

test

#df

In un albero decisionale, un altro nome per una condizione.

soglia (per gli alberi decisionale)

#df

In una condizione allineata sull'asse, viene confrontato il valore con cui una viene confrontata. Ad esempio, 75 è il valore soglia nella seguente condizione:

grade >= 75

V

importanti variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ogni funzionalità per il modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che l'albero decisionale utilizzi tre funzionalità: dimensioni, età e stile. Se viene calcolato un insieme di importanti variabili per le tre caratteristiche, ovvero {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale che per l'età o lo stile.

Esistono metriche di importanza variabile diverse, che possono informare gli esperti di ML di diversi aspetti dei modelli.

W

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un vasto gruppo di persone (la " folla") produce spesso risultati straordinariamente buoni. Ad esempio, pensa a un gioco in cui le persone indovineranno il numero di caramelle gommose confezionate in un vaso grande. Sebbene la maggior parte delle incertezze sia imprecisa, la media di tutte le ipotesi si è rivelata stranamente vicina al numero effettivo di caramelle gommose nel barattolo.

Gli ensemble sono un software analogico alla saggezza della folla. Anche se i singoli modelli fanno previsioni estremamente imprecise, la previsione di molti modelli genera spesso previsioni incredibilmente valide. Ad esempio, anche se un singolo albero decisionale può fare previsioni scarse, una bosco di decisioni spesso fa previsioni molto valide.