Questa pagina contiene i termini del glossario di Reinforcement Learning. Per tutti i termini del glossario, fai clic qui.
A
azione
Nell'apprendimento del rinforzo, il meccanismo con cui l'agente passa tra gli stati dell'ambiente. L'agente sceglie l'azione utilizzando un criterio.
agente
Nell'rinforzo dell'apprendimento, l'entità che utilizza un criterio per massimizzare il ritorno previsto ottenuto dalla transizione tra gli stati dell'ambiente.
B
Equazione di Bellman
Nel potenziamento, la seguente identità è soddisfatta dalla funzione Q ottimale:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Gli algoritmi di rinforzo dell'apprendimento applicano questa identità per creare Q-learning tramite la seguente regola di aggiornamento:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Oltre al potenziamento dell'apprendimento, l'equazione di Bellman ha applicazioni per la programmazione dinamica. Consulta la voce di Wikipedia dedicata all'equazione di Bellman.
C
critico
Sinonimo di Deep Q-Network.
D
DQN (deep network)
Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.
Critica è sinonimo di Deep Q-Network.
DQN
Abbreviazione per Deep Q-Network.
E
ambiente
Nel potenziamento, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.
puntata
Nel potenziamento, ciascuno dei tentativi ripetuti da parte dell'agente di apprendere un ambiente.
norme relative all'avidità di epsilon
Nel potenziamento, un criterio che segue un criterio casuale con probabilità di epsilon o un criterio avido. Ad esempio, se epsilon è 0,9, il criterio segue un criterio casuale il 90% delle volte e un criterio avido il 10% delle volte.
Nelle puntate successive, l'algoritmo riduce il valore di epsilon per passare dal seguire un criterio casuale a quello avidamente. Eseguendo lo spostamento del criterio, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.
replica dell'esperienza
Nel potenziamento dell'apprendimento, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente archivia le transizioni di stato in un buffer di riproduzione, quindi campiona le transizioni dal buffer di riproduzione per creare i dati di addestramento.
G
norme avide
Nel potenziamento, un criterio che sceglie sempre l'azione con il ritorno previsto più elevato.
L
Processo decisionale Markov (MDP)
Un grafico che rappresenta il modello decisionale in cui vengono prese le decisioni (o azioni) per esplorare una sequenza di stati supponendo che la proprietà Markov contenga. Nell'apprendimento del rinforzo, queste transizioni tra stati restituiscono un premio numerico.
Proprietà Markov
Una proprietà di alcuni ambienti, in cui le transizioni di stato sono interamente determinate da informazioni implicite nello stato corrente e dall'azione dell'agente.
P
policy
Nel potenziamento, la mappatura probabilistica di un agente da stati ad azioni.
D
Funzione Q
Nell'apprendimento del rinforzo, la funzione che prevede il ritorno previsto dopo aver intrapreso un'azione in un stato e poi seguendo un determinato criterio.
La funzione Q è nota anche come funzione valore-azione.
Domande e risposte
Nell'apprendimento del rinforzo, un algoritmo che consente a un agente di imparare la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.
Dx
criterio casuale
Nell'apprendimento del rinforzo, una norma che sceglie un'azione a caso.
rinforzo dell'apprendimento (RL)
Una famiglia di algoritmi che imparano un criterio ottimale il cui obiettivo è massimizzare il ritorno quando interagisci con un ambiente. Ad esempio, la maggior parte dei giochi riguarda la vittoria. I sistemi di apprendimento del rinforzo possono diventare esperti di giochi complessi valutando le sequenze dei precedenti giochi che hanno portato a vittorie e sequenze che hanno portato a perdite.
Rinforzo dell'apprendimento dal feedback umano (RLHF)
Utilizzo del feedback dei revisori per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi regolare le risposte future in base a questi feedback.
buffer di riproduzione
Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato da utilizzare nella riproduzione dell'esperienza.
ritorno
Nel potenziamento, dato un determinato criterio e un determinato stato, il ritorno è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue le norme dallo stato alla fine della episodio. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato richieste per ottenere il premio.
Pertanto, se il fattore di sconto è \(\gamma\)e \(r_0, \ldots, r_{N}\) indica i premi fino alla fine della puntata, il calcolo del ritorno è il seguente:
premio
Nel potenziamento, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.
D
finale
Nel potenziamento, i valori parametro che descrivono la configurazione corrente dell'ambiente, che viene utilizzata dall'agente per scegliere un'azione.
funzione stato-azione
Sinonimo di Q-function.
M
Q-learning tabulare
Nell'apprendimento del rinforzo, l'implementazione del Q-learning utilizzando una tabella per archiviare le funzioni Q per ogni combinazione di stato e azione.
rete target
Nel Q-learning profondo, una rete neurale che è stabile approssimativa alla rete neurale principale, dove la rete neurale principale implementa una funzione Q o un criterio. Puoi quindi addestrare la rete principale sui valori Q previsti dalla rete target. Pertanto, eviti il loop di feedback che si verifica quando la rete principale viene addestrata su valori Q da sé. Evitando questo feedback, la stabilità dell'addestramento aumenta.
condizione di risoluzione
Nell'apprendimento del rinforzo, le condizioni che determinano la fine di un episodio, ad esempio quando l'agente raggiunge un determinato stato o supera un numero soglia di transizioni di stato. Ad esempio, in tic-tac-toe (nota anche come nulla e croce), una puntata termina quando un giocatore contrassegna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.
traiettoria
Nell'apprendimento per il rinforzo, una sequenza di tuple che rappresenta una sequenza di transizioni di stato dell'agente, in cui ogni tuple corrisponde allo stato, azione, premio e stato successivo per una determinata transizione di stato.