Glossario del machine learning: potenziamento

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Questa pagina contiene i termini del glossario di Reinforcement Learning. Per tutti i termini del glossario, fai clic qui.

A

azione

#rl

Nell'apprendimento di rafforzamento, il meccanismo con cui l'agente passa tra gli stati dell'ambiente. L'agente sceglie l'azione utilizzando un criterio.

agente

#rl

Nell'apprendimento del rafforzamento, l'entità che utilizza un criterio per massimizzare il ritorno previsto ottenuto dalla transizione tra gli stati dell'ambiente.

B

Equazione di Bellman

#rl

Nell'apprendimento di rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di reinforzamento applicano questa identità per creare Q-learning tramite la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Oltre all'apprendimento del rafforzamento, l'equazione di Bellman include applicazioni per la programmazione dinamica. Consulta la voce di Wikipedia per l'equazione di Bellman.

C

critico

#rl

Sinonimo di Deep Q-Network.

D

DQN (Deep Q-Network)

#rl

In Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critica è un sinonimo di Deep Q-Network.

DQN

#rl

Abbreviazione per Deep Q-Network.

E

ambiente

#rl

Nell'apprendimento di potenziamento, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo in questione. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, quest'ultimo passa da uno stato all'altro.

puntata

#rl

Nell'apprendimento di rinforzo, ciascuno dei tentativi ripetuti da parte dell'agente di apprendere un ambiente.

norme relative all'avidità epsilon

#rl

Nell'apprendimento di rinforzo, un criterio che segue un criterio casuale con una probabilità epsilon o un criterio golo in caso contrario. Ad esempio, se epsilon è 0,9, il criterio segue un criterio casuale il 90% delle volte e un criterio ingombrante il 10% delle volte.

Nelle puntate successive, l'algoritmo riduce il valore di epsilon per passare da una norma casuale a una norma golosa. Spostando il criterio, l'agente esplora innanzitutto l'ambiente in modo casuale e poi sfrutta i risultati dell'esplorazione casuale.

replica dell'esperienza

#rl

Nell'apprendimento di rinforzo, una tecnica di DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente archivia le transizioni di stato in un buffer di riproduzione, quindi campiona le transizioni dal buffer di replica per creare i dati di addestramento.

G

norme golose

#rl

Nell'ambito del potenziamento, una norma che sceglie sempre l'azione con il ritorno previsto più alto.

M

Processo decisionale Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono intraprese per navigare in una sequenza di stati supponendo che la proprietà Markov sia valida. Nell'apprendimento di rafforzamento, queste transizioni tra gli stati restituiscono un premio numerico.

Proprietà Markov

#rl

Una proprietà di determinati ambienti, in cui le transizioni di stato sono interamente determinate da informazioni implicite nello stato corrente e nell'azione dell'agente.

R

policy

#rl

Nell'apprendimento di rinforzo, una mappatura probabilistica degli agenti da stati ad azioni.

D

Funzione Q

#rl

Nell'apprendimento di rinforzo, la funzione che prevede il ritorno previsto in seguito a un' azione in uno stato e poi a una determinata norma.

La funzione Q è nota anche come funzione value dell'azione statale.

Apprendimento Q

#rl

Nell'apprendimento di rafforzamento, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Benman. Il processo decisionale di Markov modella un ambiente.

R

criterio casuale

#rl

Nell'apprendimento di rafforzamento, una norma che sceglie un'azione a caso.

apprendimento basato sul rafforzamento (RL)

#rl

Una famiglia di algoritmi che apprendono un criterio ottimale, il cui obiettivo è massimizzare il ritorno quando interagisci con un ambiente. Ad esempio, il premio finale per la maggior parte dei giochi è la vittoria. I sistemi di apprendimento per il potenziamento possono diventare esperti di giochi complessi valutando sequenze di giochi precedenti che hanno portato a vittorie e sequenze che alla fine hanno portato a perdite.

buffer di riproduzione

#rl

Negli algoritmi DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato da utilizzare nella riproduzione dell'esperienza.

rendimento

#rl

Nell'apprendimento di rafforzamento, in base a un determinato criterio e a un determinato stato, il ritorno è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue il criterio dallo stato alla fine dell'episodio. L'agente considera la natura ritardata dei premi previsti scontando i premi in base alle transizioni statali richieste per ottenere il premio.

Pertanto, se il fattore di sconto è \(\gamma\)e \(r_0, \ldots, r_{N}\) indica i premi fino alla fine della puntata, il calcolo del ritorno è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nell'apprendimento di rafforzamento, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

S

state

#rl

Nell'apprendimento di rinforzo, i valori dei parametri che descrivono la configurazione attuale dell'ambiente, che l'agente utilizza per scegliere un'azione.

Funzione Stato azione

#rl

Sinonimo di Q-function.

T

Q-learning tabulare

#rl

Nell'apprendimento di rafforzamento, l'implementazione di Q-learning mediante una tabella per archiviare le funzioni Q per ogni combinazione di stato e azione.

rete target

#rl

In Deep Q-learning, una rete neurale che è un'approssimazione stabile della rete neurale principale, in cui la rete neurale principale implementa una funzione Q o un criterio. Quindi, puoi addestrare la rete principale sui valori Q previsti dalla rete di destinazione. Di conseguenza, impedisci il loop di feedback che si verifica quando la rete principale viene addestrata in base ai valori Q previsti automaticamente. Evitando questo feedback, la stabilità dell'addestramento aumenta.

condizione di recesso

#rl

Nell'apprendimento di rafforzamento, le condizioni che determinano al termine di un episodio, ad esempio quando l'agente raggiunge un certo stato o supera una soglia per il numero di transizioni di stato. Ad esempio, in tic-tac-toe (noto anche come nought e crosses), una puntata termina quando un giocatore contrassegna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.

traiettoria

#rl

Nell'apprendimento di rinforzo, una sequenza di tupoli che rappresentano una sequenza di transizioni di stato dell'agente, in cui ogni tupla corrisponde allo stato, all'azione, premio e allo stato successivo per una determinata transizione di stato.