Esta página contiene los términos del glosario de Aprendizaje por refuerzo. Para todos los términos del glosario, haz clic aquí.
A
acción
En el aprendizaje por refuerzo, es el mecanismo mediante el cual el agente pasa por estados del entorno. El agente elige la acción mediante una política.
agente
En el aprendizaje por refuerzo, la entidad que utiliza una política para maximizar el retorno esperado que se obtuvo de la transición entre estados del entorno.
B
Ecuación de Bellman
En el aprendizaje por refuerzo, la siguiente identidad se cumple con la función Q óptima:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear aprendizaje mediante Q a través de la siguiente regla de actualización:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la entrada de Wikipedia para la ecuación de Bellman.
C
crítico
Sinónimo de Red Q profunda.
D
Red profunda (DQN)
En el aprendizaje Q, una red neuronal profunda que predice funciones Q.
Crítico es un sinónimo de Deep Q-Network.
DQN
Abreviatura de Deep Q-Network.
E
de producción
En el aprendizaje por refuerzo, el mundo que contiene el agente y permite que el agente observe el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este pasa entre los estados.
episod.
En el aprendizaje por refuerzo, cada uno de los intentos repetidos por parte del agente de aprender un entorno.
política sobre la codicia de épsilon
En el aprendizaje por refuerzo, es una política que sigue una política aleatoria con probabilidad de épsilon o una política voraz. Por ejemplo, si el épsilon es 0.9, la política sigue una política aleatoria el 90% de las veces y una política voraz el 10% de las veces.
En episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política aleatoria a seguir una política codiciosa. Cuando se cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, explota con avidez los resultados de la exploración aleatoria.
experiencia de repetición
En el aprendizaje por refuerzo, una técnica de DQN se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de repetición y, luego, muestra las transiciones del búfer de repetición para crear datos de entrenamiento.
G
política voraz
En el aprendizaje por refuerzo, una política que siempre elige la acción con el retorno más alto esperado.
M
Proceso de decisión de Markov (MDP)
Un grafo que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones) para navegar por una secuencia de estados bajo la suposición de que la propiedad Markov contiene. En el aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.
Propiedad de Markov
Una propiedad de ciertos entornos, en la que las transiciones de estado están completamente determinadas por la información implícita en el estado actual y la acción del agente.
P
política
En el aprendizaje por refuerzo, un estado probabilístico del agente de estados a acciones.
P.
Función Q
En el aprendizaje por refuerzo, la función que predice el retorno esperado cuando realiza una acción en un estado y, luego, sigue una política determinada.
La función Q también se conoce como función de valor de acción de estado.
Aprendizaje Q
En el aprendizaje por refuerzo, un algoritmo que permite a un agente aprender la función Q óptima de un proceso de decisión de Markov mediante la aplicación de la ecuación de Bellman. El proceso de decisión de Markov modela un entorno.
R
política aleatoria
En el aprendizaje por refuerzo, es una política que elige una acción de forma aleatoria.
aprendizaje por refuerzo (RL)
Una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el retorno cuando interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos de juegos anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a derrotas.
búfer de repetición
En los algoritmos similares a DQN, la memoria que usa el agente a fin de almacenar transiciones de estado para usarla en la reproducción de experiencia.
return
En el aprendizaje por refuerzo, dada una determinada política y cierto estado, el retorno es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente explica la naturaleza retrasada de las recompensas esperadas mediante el descuento de las recompensas según las transiciones de estado necesarias para obtener la recompensa.
Por lo tanto, si el factor de descuento es \(\gamma\)y \(r_0, \ldots, r_{N}\)denota las recompensas hasta el final del episodio, el cálculo que se muestra es el siguiente:
una recompensa
En el aprendizaje por refuerzo, es el resultado numérico de realizar una acción en un estado, como lo define el entorno.
S
state
En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del entorno, que el agente usa para elegir una acción.
función de valor de acción de estado
Sinónimo de función Q.
T
aprendizaje en Q tabular
En el aprendizaje por refuerzo, se implementa el aprendizaje Q mediante una tabla a fin de almacenar las funciones Q para cada combinación de estado y acción.
red de destino
En el aprendizaje profundo Q, una red neuronal que es una aproximación estable de la red neuronal principal, en la que la red neuronal principal implementa una función Q o una política. Luego, puedes entrenar la red principal con los valores Q que predice la red objetivo. Por lo tanto, evitas el bucle de retroalimentación que ocurre cuando la red principal se entrena en valores Q previstos por sí misma. Si evitas estos comentarios, la estabilidad del entrenamiento aumenta.
condición de rescisión
En el aprendizaje por refuerzo, se incluyen las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un estado determinado o supera una cantidad límite de transiciones de estado. Por ejemplo, en tic-tac-toe (también conocido como nadas y cruces), un episodio termina cuando un jugador marca tres espacios consecutivos o cuando todos los espacios están marcados.
trayectoria
En el aprendizaje por refuerzo, es una secuencia de tuplas que representan una secuencia de transiciones de estado del agente, en la que cada tupla corresponde al estado, acción, recompensa y el estado siguiente para una transición de estado determinada.