Glossario del machine learning: potenziamento

Questa pagina contiene i termini del glossario di Reinforcement Learning. Per tutti i termini del glossario, fai clic qui.

A

azione

#rl

Nell'apprendimento del rinforzo, il meccanismo con cui l'agente passa tra gli stati dell'ambiente. L'agente sceglie l'azione utilizzando un criterio.

agente

#rl

Nell'rinforzo dell'apprendimento, l'entità che utilizza un criterio per massimizzare il ritorno previsto ottenuto dalla transizione tra gli stati dell'ambiente.

B

Equazione di Bellman

#rl

Nel potenziamento, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di rinforzo dell'apprendimento applicano questa identità per creare Q-learning tramite la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Oltre al potenziamento dell'apprendimento, l'equazione di Bellman ha applicazioni per la programmazione dinamica. Consulta la voce di Wikipedia dedicata all'equazione di Bellman.

C

critico

#rl

Sinonimo di Deep Q-Network.

D

DQN (deep network)

#rl

Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critica è sinonimo di Deep Q-Network.

DQN

#rl

Abbreviazione per Deep Q-Network.

E

ambiente

#rl

Nel potenziamento, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

#rl

Nel potenziamento, ciascuno dei tentativi ripetuti da parte dell'agente di apprendere un ambiente.

norme relative all'avidità di epsilon

#rl

Nel potenziamento, un criterio che segue un criterio casuale con probabilità di epsilon o un criterio avido. Ad esempio, se epsilon è 0,9, il criterio segue un criterio casuale il 90% delle volte e un criterio avido il 10% delle volte.

Nelle puntate successive, l'algoritmo riduce il valore di epsilon per passare dal seguire un criterio casuale a quello avidamente. Eseguendo lo spostamento del criterio, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.

replica dell'esperienza

#rl

Nel potenziamento dell'apprendimento, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente archivia le transizioni di stato in un buffer di riproduzione, quindi campiona le transizioni dal buffer di riproduzione per creare i dati di addestramento.

G

norme avide

#rl

Nel potenziamento, un criterio che sceglie sempre l'azione con il ritorno previsto più elevato.

L

Processo decisionale Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui vengono prese le decisioni (o azioni) per esplorare una sequenza di stati supponendo che la proprietà Markov contenga. Nell'apprendimento del rinforzo, queste transizioni tra stati restituiscono un premio numerico.

Proprietà Markov

#rl

Una proprietà di alcuni ambienti, in cui le transizioni di stato sono interamente determinate da informazioni implicite nello stato corrente e dall'azione dell'agente.

P

policy

#rl

Nel potenziamento, la mappatura probabilistica di un agente da stati ad azioni.

D

Funzione Q

#rl

Nell'apprendimento del rinforzo, la funzione che prevede il ritorno previsto dopo aver intrapreso un'azione in un stato e poi seguendo un determinato criterio.

La funzione Q è nota anche come funzione valore-azione.

Domande e risposte

#rl

Nell'apprendimento del rinforzo, un algoritmo che consente a un agente di imparare la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

Dx

criterio casuale

#rl

Nell'apprendimento del rinforzo, una norma che sceglie un'azione a caso.

rinforzo dell'apprendimento (RL)

#rl

Una famiglia di algoritmi che imparano un criterio ottimale il cui obiettivo è massimizzare il ritorno quando interagisci con un ambiente. Ad esempio, la maggior parte dei giochi riguarda la vittoria. I sistemi di apprendimento del rinforzo possono diventare esperti di giochi complessi valutando le sequenze dei precedenti giochi che hanno portato a vittorie e sequenze che hanno portato a perdite.

Rinforzo dell'apprendimento dal feedback umano (RLHF)

#generativaAI
#rl

Utilizzo del feedback dei revisori per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi regolare le risposte future in base a questi feedback.

buffer di riproduzione

#rl

Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato da utilizzare nella riproduzione dell'esperienza.

ritorno

#rl

Nel potenziamento, dato un determinato criterio e un determinato stato, il ritorno è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue le norme dallo stato alla fine della episodio. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato richieste per ottenere il premio.

Pertanto, se il fattore di sconto è \(\gamma\)e \(r_0, \ldots, r_{N}\) indica i premi fino alla fine della puntata, il calcolo del ritorno è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nel potenziamento, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

D

finale

#rl

Nel potenziamento, i valori parametro che descrivono la configurazione corrente dell'ambiente, che viene utilizzata dall'agente per scegliere un'azione.

funzione stato-azione

#rl

Sinonimo di Q-function.

M

Q-learning tabulare

#rl

Nell'apprendimento del rinforzo, l'implementazione del Q-learning utilizzando una tabella per archiviare le funzioni Q per ogni combinazione di stato e azione.

rete target

#rl

Nel Q-learning profondo, una rete neurale che è stabile approssimativa alla rete neurale principale, dove la rete neurale principale implementa una funzione Q o un criterio. Puoi quindi addestrare la rete principale sui valori Q previsti dalla rete target. Pertanto, eviti il loop di feedback che si verifica quando la rete principale viene addestrata su valori Q da sé. Evitando questo feedback, la stabilità dell'addestramento aumenta.

condizione di risoluzione

#rl

Nell'apprendimento del rinforzo, le condizioni che determinano la fine di un episodio, ad esempio quando l'agente raggiunge un determinato stato o supera un numero soglia di transizioni di stato. Ad esempio, in tic-tac-toe (nota anche come nulla e croce), una puntata termina quando un giocatore contrassegna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.

traiettoria

#rl

Nell'apprendimento per il rinforzo, una sequenza di tuple che rappresenta una sequenza di transizioni di stato dell'agente, in cui ogni tuple corrisponde allo stato, azione, premio e stato successivo per una determinata transizione di stato.