Esta página contém termos do glossário de aprendizado por reforço. Para ver todos os termos do glossário, clique aqui.
A
ação
No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre estados do ambiente. O agente escolhe a ação usando uma política.
agente
No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado da transição entre estados do ambiente.
B
Equação de Bellman
No aprendizado por reforço, a seguinte identidade foi satisfeita pela função Q ideal:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Os algoritmos de aprendizado por reforço aplicam essa identidade para criar o Q-learning usando a seguinte regra de atualização:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Além do aprendizado por reforço, a equação de Bellman tem aplicações para a programação dinâmica. Consulte a entrada da Wikipédia sobre a equação de Bellman.
C
crítica
Sinônimo de Q-Network profundo.
D
Rede Q profunda (DQN)
No Q-learning, uma rede neural profunda que prevê funções-Q.
Crítica é um sinônimo de Deep Q-Network (Rede Q Q profunda).
DQN
Abreviação de Deep Q-Network (Rede de redes profundas).
E
ambiente
No aprendizado por reforço, o mundo que contém o agente e permite que o agente observe esse estado do mundo. Por exemplo, o mundo representado pode ser um jogo como xadrez ou um mundo físico como um Labirinto. Quando o agente aplica uma ação ao ambiente, ele faz a transição entre estados.
episódio
No aprendizado por reforço, cada uma das tentativas repetidas do agente para aprender um ambiente.
política da epsilon gudy
No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política discriminante. Por exemplo, se o épsilon for 0,9, a política seguirá uma política aleatória em 90% das vezes e uma política ocupada 10% das vezes.
Em episódios sucessivos, o algoritmo reduz o valor do épsilon para passar a seguir uma política aleatória para uma política faminta. Ao alterar a política, o agente primeiro explora o ambiente e, em seguida, explora os resultados da exploração aleatória.
experiência de repetição
No aprendizado por reforço, uma técnica DQN (link em inglês) usada para reduzir correlações temporais nos dados de treinamento. O agente armazena as transições de estado em um buffer de repetição e, em seguida, amostra as transições do buffer de repetição para criar dados de treinamento.
G
política vulgar
No aprendizado por reforço, uma política que sempre escolhe a ação com o retorno mais alto esperado.
M
Processo de decisão de Markov (MDP)
Um gráfico representando o modelo de tomada de decisão em que decisões (ou ações) são tomadas para navegar em uma sequência de estados sob o pressuposto de que a propriedade Markov contém. No aprendizado de reforço, essas transições entre estados retornam um prêmio numérico.
Propriedade Markov
Uma propriedade de determinados ambientes, em que as transições de estado são totalmente determinadas pelas informações implícitas no estado atual e na ação do agente.
P
policy
No aprendizado por reforço, um mapeamento probabilístico de agente's de estados para ações.
P
Função Q
Em aprendizado por reforço, a função que prevê o retorno esperado de executar uma ação em um estado e depois seguir uma determinada política.
A função Q também é conhecida como função de valor de ação de estado.
Q-learning
Em aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.
R
política aleatória
No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.
aprendizado por reforço (RL)
Uma família de algoritmos que aprendem uma política ideal, cujo objetivo é maximizar a retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogar jogos complexos, avaliando as sequências de movimentos anteriores que resultaram em vitórias e sequências que resultaram em perdas.
buffer de repetição
Em algoritmos semelhantes ao DQN (link em inglês), a memória usada pelo agente para armazenar transições de estado para uso na repetição da experiência.
devolver
No aprendizado por reforço, considerando uma determinada política e um determinado estado, o retorno é a soma de todos os prêmios que o agente espera que sejam recebidos ao seguir a política do estado até o fim do episódio. O agente considera a natureza atrasada das recompensas esperadas, descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.
Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\) indicar as recompensas até o fim do episódio, o cálculo de retorno será o seguinte:
recompensa (recompensar)
No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.
S
estado
No aprendizado por reforço, os valores de parâmetros que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.
função de valor de ação de estado
Sinônimo de Q-function.
T
Q-learning tabular
Em aprendizado por reforço, implemente o Q-learning usando uma tabela para armazenar as funções Q para cada combinação de estado e ação.
rede de destino
No Q-learning profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, é possível treinar a rede principal nos valores-Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal é treinada com valores-Q previstos por si só. Ao evitar esse feedback, a estabilidade do treinamento aumenta.
condição de rescisão
No aprendizado de reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, no tic-tac-toe (também conhecido como "conventos e cruzamentos"), um episódio é encerrado quando um jogador marca três espaços consecutivos ou todos os espaços são marcados.
trajetória
Em aprendizado de reforço, uma sequência de tuplas que representam uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e ao próximo estado de uma determinada transição de estado.