Esta página contém termos do glossário do aprendizado por reforço. Para todos os termos do glossário, clique aqui.
A
ação
No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre estados do ambiente. O agente escolhe a ação usando uma política.
agente
No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado da transição entre estados do ambiente.
B
Equação de Bellman
No aprendizado por reforço, a seguinte identidade é satisfeita pela função Q ideal:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Os algoritmos de aprendizado por reforço aplicam essa identidade para criar Q-learning com a seguinte regra de atualização:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Além do aprendizado por reforço, a equação de Bellman tem aplicações à programação dinâmica. Consulte a entrada da Equação de Bellman na Wikipédia.
C
crítica
Sinônimo de Deep Q-Network.
D)
Rede Q profunda (DQN)
No Q-learning, há uma rede neural profunda que prevê funções Q.
Crítica é um sinônimo de "Deep Q-Network".
DQN
Abreviação de q-network profunda.
E
ambiente
No aprendizado por reforço, o mundo que contém o agente e permite que ele observe o estado desse mundo. Por exemplo, o mundo representado pode ser um jogo como xadrez ou um mundo físico como um labirinto. Quando o agente aplica uma ação ao ambiente, ele faz a transição entre os estados.
episódio
No aprendizado por reforço, cada uma das tentativas repetidas do agente de aprender um ambiente.
política épsilon gananciosa
No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política gananciosa. Por exemplo, se o épsilon for 0,9, a política seguirá uma política aleatória 90% das vezes e uma política gananciosa 10% das vezes.
Em episódios sucessivos, o algoritmo reduz o valor da epsilon para passar de uma política aleatória para uma gananciosa. Ao alterar a política, o agente primeiro explora aleatoriamente o ambiente e depois explora os resultados da exploração aleatória.
experiência de repetição
No aprendizado por reforço, uma técnica DQN é usada para reduzir correlações temporais nos dados de treinamento. O agente armazena transições de estado em um buffer de reprodução e, em seguida, faz a amostragem das transições do buffer de repetição para criar dados de treinamento.
G
política gananciosa
No aprendizado por reforço, uma política que sempre escolhe a ação com o maior retorno esperado.
M
Processo de decisão de Markov (MDP)
Um gráfico que representa o modelo de tomada de decisão em que as decisões (ou ações) são tomadas para navegar uma sequência de estados sob a suposição que a propriedade Markov contém. No aprendizado por reforço, essas transições entre estados retornam uma recompensa numérica.
Propriedade Markov
Uma propriedade de determinados ambientes, em que as transições de estado são totalmente determinadas pelas informações implícitas no estado atual e pela ação do agente.
P
policy
No aprendizado por reforço, o mapeamento probabilístico de um agente de estados para ações.
Q
Função Q
No aprendizado por reforço, a função que prevê o retorno esperado de tomar uma ação em um estado e depois seguir uma determinada política.
A função Q também é conhecida como função de valor de ação de estado.
Aprendizagem
No aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão do Markov aplicando a equação de Bellman. O processo de decisão do Markov modela um ambiente.
Direita
política aleatória
No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.
aprendizado por reforço
Uma família de algoritmos que aprendem uma política ideal. O objetivo deles é maximizar o retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogos complexos por meio da avaliação de sequências de movimentos de jogos anteriores que, em última análise, levam a vitórias e sequências que, por fim, levam a perdas.
Aprendizado por reforço com feedback humano (RLHF)
Usar feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo RLHF pode solicitar que os usuários avaliem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.
buffer de repetição
Em algoritmos como DQN, a memória usada pelo agente para armazenar transições de estado para uso em repetição da experiência.
devolver
No aprendizado por reforço, considerando uma determinada política e um determinado estado, o retorno é a soma de todas as recompensas que o agente espera receber ao seguir a política do estado até o fim do episódio. O agente considera a natureza atrasada das recompensas esperadas ao descontar as recompensas de acordo com as transições de estado necessárias para receber a recompensa.
Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\)indicar as recompensas até o final do episódio, o cálculo de retorno será o seguinte:
recompensa (recompensar)
No aprendizado por reforço, o resultado numérico de executar uma ação em um estado, conforme definido pelo ambiente.
S
estado oculto final
No aprendizado por reforço, os valores de parâmetro que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.
função de valor de ação de estado
Sinônimo de Q-function.
T
Q-learning tabular
No aprendizado por reforço, implementar o Q-learning usando uma tabela para armazenar as Q-functions para cada combinação de estado e ação.
rede de destino
No Q-learning profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, é possível treinar a rede principal nos valores Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal é treinada em valores Q previstos por ela mesma. Ao evitar esse feedback, a estabilidade do treinamento aumenta.
condição de encerramento
No aprendizado por reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, no tic-tac-toe (também conhecido como noughts e crosss), um episódio termina quando um jogador marca três espaços consecutivos ou quando todos os espaços são marcados.
trajetória
No aprendizado por reforço, uma sequência de tuples que representa uma sequência de transições de state do agent, em que cada tupla corresponde ao estado, action, reward e ao próximo estado de uma determinada transição de estado.