Glosario sobre aprendizaje automático: aprendizaje por refuerzo

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Esta página contiene los términos del glosario de Aprendizaje por refuerzo. Para todos los términos del glosario, haz clic aquí.

A

acción

#rl

En el aprendizaje por refuerzo, es el mecanismo mediante el cual el agente pasa por estados del entorno. El agente elige la acción mediante una política.

agente

#rl

En el aprendizaje por refuerzo, la entidad que utiliza una política para maximizar el retorno esperado que se obtuvo de la transición entre estados del entorno.

B

Ecuación de Bellman

#rl

En el aprendizaje por refuerzo, la siguiente identidad se cumple con la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a'))\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear aprendizaje mediante Q a través de la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones para la programación dinámica. Consulta la entrada de Wikipedia para la ecuación de Bellman.

C

crítico

#rl

Sinónimo de Red Q profunda.

D

Red profunda (DQN)

#rl

En el aprendizaje Q, una red neuronal profunda que predice funciones Q.

Crítico es un sinónimo de Deep Q-Network.

DQN

#rl

Abreviatura de Deep Q-Network.

E

de producción

#rl

En el aprendizaje por refuerzo, el mundo que contiene el agente y permite que el agente observe el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este pasa entre los estados.

episod.

#rl

En el aprendizaje por refuerzo, cada uno de los intentos repetidos por parte del agente de aprender un entorno.

política sobre la codicia de épsilon

#rl

En el aprendizaje por refuerzo, es una política que sigue una política aleatoria con probabilidad de épsilon o una política voraz. Por ejemplo, si el épsilon es 0.9, la política sigue una política aleatoria el 90% de las veces y una política voraz el 10% de las veces.

En episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política aleatoria a seguir una política codiciosa. Cuando se cambia la política, el agente primero explora el entorno de forma aleatoria y, luego, explota con avidez los resultados de la exploración aleatoria.

experiencia de repetición

#rl

En el aprendizaje por refuerzo, una técnica de DQN se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de repetición y, luego, muestra las transiciones del búfer de repetición para crear datos de entrenamiento.

G

política voraz

#rl

En el aprendizaje por refuerzo, una política que siempre elige la acción con el retorno más alto esperado.

M

Proceso de decisión de Markov (MDP)

#rl

Un grafo que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones) para navegar por una secuencia de estados bajo la suposición de que la propiedad Markov contiene. En el aprendizaje por refuerzo, estas transiciones entre estados muestran una recompensa numérica.

Propiedad de Markov

#rl

Una propiedad de ciertos entornos, en la que las transiciones de estado están completamente determinadas por la información implícita en el estado actual y la acción del agente.

P

política

#rl

En el aprendizaje por refuerzo, un estado probabilístico del agente de estados a acciones.

P.

Función Q

#rl

En el aprendizaje por refuerzo, la función que predice el retorno esperado que realiza una acción en un estado y, luego, sigue una política determinada.

La función Q también se conoce como función de valor de acción de estado.

Aprendizaje Q

#rl

En el aprendizaje por refuerzo, un algoritmo que permite que un agente aprenda la función Q óptima de un proceso de decisión de Markov mediante la ecuación de Bellman. El proceso de decisión de Markov modela un entorno.

R

política aleatoria

#rl

En el aprendizaje por refuerzo, una política que elige una acción de forma aleatoria.

aprendizaje por refuerzo (RL)

#rl

Una familia de algoritmos que aprenden una política óptima, cuyo objetivo es maximizar el retorno cuando interactúa con un entorno. Por ejemplo, la máxima recompensa para la mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden convertirse en expertos en juegos complejos mediante la evaluación de secuencias de movimientos de juegos anteriores que finalmente llevaron a victorias y secuencias que finalmente llevaron a derrotas.

búfer de repetición

#rl

En los algoritmos similares a DQN, la memoria que usa el agente a fin de almacenar transiciones de estado para usarla en la reproducción de experiencia.

return

#rl

En el aprendizaje por refuerzo, dada una determinada política y cierto estado, el retorno es la suma de todas las recompensas que el agente espera recibir cuando sigue la política desde el estado hasta el final del episodio. El agente explica la naturaleza retrasada de las recompensas esperadas mediante el descuento de las recompensas según las transiciones de estado necesarias para obtener la recompensa.

Por lo tanto, si el factor de descuento es \(\gamma\)y \(r_0, \ldots, r_{N}\)denota las recompensas hasta el final del episodio, el cálculo que se muestra es el siguiente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

una recompensa

#rl

En el aprendizaje por refuerzo, es el resultado numérico de realizar una acción en un estado, como lo define el entorno.

S

state

#rl

En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del entorno, que el agente usa para elegir una acción.

función de valor de acción de estado

#rl

Sinónimo de función Q.

T

aprendizaje en Q tabular

#rl

En el aprendizaje por refuerzo, se implementa Q-learning mediante una tabla a fin de almacenar las funciones Q para cada combinación de estado y acción.

red de destino

#rl

En el aprendizaje profundo Q, una red neuronal que es una aproximación estable de la red neuronal principal, en la que la red neuronal principal implementa una función Q o una política. Luego, puedes entrenar la red principal con los valores Q que predice la red objetivo. Por lo tanto, evitas el bucle de retroalimentación que ocurre cuando la red principal se entrena en valores Q previstos por sí misma. Si evitas estos comentarios, la estabilidad del entrenamiento aumenta.

condición de rescisión

#rl

En el aprendizaje por refuerzo, las condiciones que determinan cuándo finaliza un episodio, como cuando el agente alcanza un estado determinado o excede un límite de transiciones de estado. Por ejemplo, en tic-tac-toe (también conocido como nadas y cruces), un episodio termina cuando un jugador marca tres espacios consecutivos o cuando todos los espacios están marcados.

trayectoria

#rl

En el aprendizaje por refuerzo, una secuencia de tuplas que representan una secuencia de transiciones estado del agente, en la que cada tupla corresponde al estado, acción, recompensa y siguiente estado para una transición de estado determinada.