Glossário de machine learning: aprendizado por reforço

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Esta página contém termos do glossário de aprendizado por reforço. Para ver todos os termos do glossário, clique aqui.

A

ação

#rl

No aprendizado por reforço, o mecanismo pelo qual o agente faz a transição entre estados do ambiente. O agente escolhe a ação usando uma política.

agente

#rl

No aprendizado por reforço, a entidade que usa uma política para maximizar o retorno esperado da transição entre estados do ambiente.

B

Equação de Bellman

#rl

No aprendizado por reforço, a seguinte identidade foi satisfeita pela função Q ideal:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Os algoritmos de aprendizado por reforço aplicam essa identidade para criar o Q-learning usando a seguinte regra de atualização:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Além do aprendizado por reforço, a equação de Bellman tem aplicações para a programação dinâmica. Consulte a entrada da Wikipédia sobre a equação de Bellman.

C

crítica

#rl

Sinônimo de Q-Network profundo.

D

Rede Q profunda (DQN)

#rl

No Q-learning, uma rede neural profunda que prevê funções-Q.

Crítica é um sinônimo de Deep Q-Network (Rede Q Q profunda).

DQN

#rl

Abreviação de Deep Q-Network (Rede de redes profundas).

E

ambiente

#rl

No aprendizado por reforço, o mundo que contém o agente e permite que o agente observe esse estado do mundo. Por exemplo, o mundo representado pode ser um jogo como xadrez ou um mundo físico como um Labirinto. Quando o agente aplica uma ação ao ambiente, ele faz a transição entre estados.

episódio

#rl

No aprendizado por reforço, cada uma das tentativas repetidas do agente para aprender um ambiente.

política da epsilon gudy

#rl

No aprendizado por reforço, uma política que segue uma política aleatória com probabilidade de épsilon ou uma política discriminante. Por exemplo, se o épsilon for 0,9, a política seguirá uma política aleatória em 90% das vezes e uma política ocupada 10% das vezes.

Em episódios sucessivos, o algoritmo reduz o valor do épsilon para passar a seguir uma política aleatória para uma política faminta. Ao alterar a política, o agente primeiro explora o ambiente e, em seguida, explora os resultados da exploração aleatória.

experiência de repetição

#rl

No aprendizado por reforço, uma técnica DQN (link em inglês) usada para reduzir correlações temporais nos dados de treinamento. O agente armazena as transições de estado em um buffer de repetição e, em seguida, amostra as transições do buffer de repetição para criar dados de treinamento.

G

política vulgar

#rl

No aprendizado por reforço, uma política que sempre escolhe a ação com o retorno mais alto esperado.

M

Processo de decisão de Markov (MDP)

#rl

Um gráfico representando o modelo de tomada de decisão em que decisões (ou ações) são tomadas para navegar em uma sequência de estados sob o pressuposto de que a propriedade Markov contém. No aprendizado de reforço, essas transições entre estados retornam um prêmio numérico.

Propriedade Markov

#rl

Uma propriedade de determinados ambientes, em que as transições de estado são totalmente determinadas pelas informações implícitas no estado atual e na ação do agente.

P

policy

#rl

No aprendizado por reforço, um mapeamento probabilístico de agente's de estados para ações.

P

Função Q

#rl

Em aprendizado por reforço, a função que prevê o retorno esperado de executar uma ação em um estado e depois seguir uma determinada política.

A função Q também é conhecida como função de valor de ação de estado.

Q-learning

#rl

Em aprendizado por reforço, um algoritmo que permite que um agente aprenda a função Q ideal de um processo de decisão de Markov aplicando a equação de Bellman. O processo de decisão de Markov modela um ambiente.

R

política aleatória

#rl

No aprendizado por reforço, uma política que escolhe uma ação aleatoriamente.

aprendizado por reforço (RL)

#rl

Uma família de algoritmos que aprendem uma política ideal, cujo objetivo é maximizar a retorno ao interagir com um ambiente. Por exemplo, a recompensa final da maioria dos jogos é a vitória. Os sistemas de aprendizado por reforço podem se tornar especialistas em jogar jogos complexos, avaliando as sequências de movimentos anteriores que resultaram em vitórias e sequências que resultaram em perdas.

buffer de repetição

#rl

Em algoritmos semelhantes ao DQN (link em inglês), a memória usada pelo agente para armazenar transições de estado para uso na repetição da experiência.

devolver

#rl

No aprendizado por reforço, considerando uma determinada política e um determinado estado, o retorno é a soma de todos os prêmios que o agente espera que sejam recebidos ao seguir a política do estado até o fim do episódio. O agente considera a natureza atrasada das recompensas esperadas, descontando as recompensas de acordo com as transições de estado necessárias para receber a recompensa.

Portanto, se o fator de desconto for \(\gamma\)e \(r_0, \ldots, r_{N}\) indicar as recompensas até o fim do episódio, o cálculo de retorno será o seguinte:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

recompensa (recompensar)

#rl

No aprendizado por reforço, o resultado numérico de realizar uma ação em um estado, conforme definido pelo ambiente.

S

estado

#rl

No aprendizado por reforço, os valores de parâmetros que descrevem a configuração atual do ambiente, que o agente usa para escolher uma ação.

função de valor de ação de estado

#rl

Sinônimo de Q-function.

T

Q-learning tabular

#rl

Em aprendizado por reforço, implemente o Q-learning usando uma tabela para armazenar as funções Q para cada combinação de estado e ação.

rede de destino

#rl

No Q-learning profundo, uma rede neural que é uma aproximação estável da rede neural principal, em que a rede neural principal implementa uma função Q ou uma política. Em seguida, é possível treinar a rede principal nos valores-Q previstos pela rede de destino. Portanto, você evita o loop de feedback que ocorre quando a rede principal é treinada com valores-Q previstos por si só. Ao evitar esse feedback, a estabilidade do treinamento aumenta.

condição de rescisão

#rl

No aprendizado de reforço, as condições que determinam quando um episódio termina, como quando o agente atinge um determinado estado ou excede um número limite de transições de estado. Por exemplo, no tic-tac-toe (também conhecido como "conventos e cruzamentos"), um episódio é encerrado quando um jogador marca três espaços consecutivos ou todos os espaços são marcados.

trajetória

#rl

Em aprendizado de reforço, uma sequência de tuplas que representam uma sequência de transições de estado do agente, em que cada tupla corresponde ao estado, ação, recompensa e ao próximo estado de uma determinada transição de estado.