Glossário de machine learning: aprendizado por reforço

Esta página contém termos do glossário do aprendizado por reforço. Para todos os termos do glossário, clique aqui.

A

ação

#rl

No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre estados do ambiente. O agente escolhe a ação usando uma política.

agente

#rl

No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado da transição entre estados do ambiente.

B

Equação de Bellman

#rl

No aprendizado por reforço, a seguinte identidade é satisfeita pela função Q ideal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Os algoritmos de aprendizado por reforço aplicam essa identidade para criar Q-learning com a seguinte regra de atualização:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Além do aprendizado por reforço, a equação de Bellman tem aplicações à programação dinâmica. Consulte a entrada da Equação de Bellman na Wikipédia.

C

crítica

#rl

Sinônimo de Deep Q-Network.

D)

Rede Q profunda (DQN)

#rl

No Q-learning, há uma rede neural profunda que prevê funções Q.

Crítica é um sinônimo de "Deep Q-Network".

DQN

#rl

Abreviação de q-network profunda.

E

ambiente

#rl

No aprendizado por reforço, o mundo que contém o agente e permite que ele observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo como xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, ele faz a transição entre os estados.

episódio

#rl

No aprendizado por reforço, cada uma das tentativas repetidas do agente de aprender um ambiente.

política épsilon gananciosa

#rl

No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política gananciosa. Por exemplo, se o épsilon for 0,9, a política seguirá uma política aleatória 90% das vezes e uma política gananciosa 10% das vezes.

Em episódios sucessivos, o algoritmo reduz o valor da epsilon para passar de uma política aleatória para uma gananciosa. Ao alterar a política, o agente primeiro explora aleatoriamente o ambiente e depois explora os resultados da exploração aleatória.

experiência de repetição

#rl

No aprendizado por reforço, uma técnica DQN é usada para reduzir correlações temporais nos dados de treinamento. O agente armazena transições de estado em um buffer de reprodução e, em seguida, faz a amostragem das transições do buffer de repetição para criar dados de treinamento.

G

política gananciosa

#rl

No aprendizado por reforço, uma política que sempre escolhe a ação com o maior retorno esperado.

M

Processo de decisão de Markov (MDP)

#rl

Um gráfico que representa o modelo de tomada de decisão em que as decisões (ou ações) são tomadas para navegar uma sequência de estados sob a suposição que a propriedade Markov contém. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.

Propriedade Markov

#rl

Uma propriedade de determinados ambientes, em que as transições de estado são totalmente determinadas pelas informações implícitas no estado atual e pela ação do agente.

P

policy

#rl

No aprendizado por reforço, o mapeamento probabilístico de um agente de estados para ações.

Q

Função Q

#rl

No aprendizado por reforço, a função que prevê o retorno esperado de tomar uma ação em um estado e depois seguir uma determinada política.

A função Q também é conhecida como função de valor de ação de estado.

Aprendizagem

#rl

No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão do Markov aplicando a equação de Bellman. O processo de decisão do Markov modela um ambiente.

Direita

política aleatória

#rl

No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.

aprendizado por reforço

#rl

Uma família de algoritmos que aprendem uma política ideal. O objetivo deles é maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogos complexos por meio da avaliação de sequências de movimentos de jogos anteriores que, em última análise, levam a vitórias e sequências que, por fim, levam a perdas.

Aprendizado por reforço com feedback humano (RLHF)

#generativeAI
#rl

Usar feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo RLHF pode solicitar que os usuários avaliem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.

buffer de repetição

#rl

Em algoritmos como DQN, a memória usada pelo agente para armazenar transições de estado para uso em repetição da experiência.

devolver

#rl

No aprendizado por reforço, considerando uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o fim do episódio. O agente considera a natureza atrasada das recompensas esperadas ao descontar as recompensas de acordo com as transições de estado necessárias para receber a recompensa.

Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\)indicar as recompensas até o final do episódio, o cálculo de retorno será o seguinte:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

recompensa (recompensar)

#rl

No aprendizado por reforço, o resultado numérico de executar uma ação em um estado, conforme definido pelo ambiente.

S

estado oculto final

#rl

No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.

função de valor de ação de estado

#rl

Sinônimo de Q-function.

T

Q-learning tabular

#rl

No aprendizado por reforço, implementar o Q-learning usando uma tabela para armazenar as Q-functions para cada combinação de estado e ação.

rede de destino

#rl

No Q-learning profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, é possível treinar a rede principal nos valores Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal é treinada em valores Q previstos por ela mesma. Ao evitar esse feedback, a estabilidade do treinamento aumenta.

condição de encerramento

#rl

No aprendizado por reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, no tic-tac-toe (também conhecido como noughts e crosss), um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.

trajetória

#rl

No aprendizado por reforço, uma sequência de tuples que representa uma sequência de transições de state do agent, em que cada tupla corresponde ao estado, action, reward e ao próximo estado de uma determinada transição de estado.