Cette page contient les termes du glossaire de l'apprentissage par renforcement. Pour consulter tous les termes du glossaire, cliquez ici.
A
action
Dans l'apprentissage par renforcement, mécanisme par lequel l'agent effectue une transition entre les états de l'environnement. L'agent choisit l'action à l'aide d'une règle.
agent
Dans l'apprentissage par renforcement, l'entité qui utilise une règle pour maximiser le retour attendu obtenu lors d'une transition entre des États de l'environnement
B
Équation de Bellman
Dans l'apprentissage par renforcement, l'identité suivante satisfaite par la fonction Q optimale :
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Les algorithmes d'apprentissage par renforcement appliquent cette identité pour créer -Q-learning via la règle de mise à jour suivante:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Au-delà de l'apprentissage par renforcement, l'équation de Bellman a des applications en programmation dynamique. Consultez l'entrée Wikipédia pour Bellman Equation.
C
critique
Synonyme de Deep Q-Network.
D
Réseau profond profond (DQN)
Dans Q-learning, un réseau de neurones profond qui prédit les fonctions Q.
Critic est l'acronyme de Deep Q-Network.
DQN
Abréviation de Deep Q-Network.
E
de production
Dans l'apprentissage par renforcement, le monde contenant l'agent permet à l'agent d'observer l'état du monde. Par exemple, le monde représenté peut être un jeu tel que les échecs, ou un monde physique tel qu'un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.
épisode
En apprentissage par renforcement, chacune des tentatives répétées par l'agent pour apprendre un environnement.
règlement d'epsilon gourmande
Dans l'apprentissage par renforcement, une stratégie qui suit une stratégie aléatoire avec une probabilité epsilon ou une règle avide dans le cas contraire. Par exemple, si la valeur de "epsilon" est 0,9, la règle suit une règle aléatoire 90% du temps et une règle gourmande 10% du temps.
Lors d'épisodes successifs, l'algorithme réduit la valeur d'epsilon afin de passer d'une règle aléatoire à une règle avide. En décalant la règle, l'agent explore d'abord l'environnement au hasard, puis exploite les résultats d'une exploration aléatoire.
expérience de rediffusion
Dans l'apprentissage par renforcement, une technique DQN permet de réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis des échantillons de transitions du tampon de relecture pour créer les données d'entraînement.
G
politique gourmande
Dans l'apprentissage par renforcement, une règle choisit toujours l'action avec le retour le plus élevé attendu.
M
Décision Markov (MDP)
Graphique représentant le modèle de prise de décision dans lequel des décisions (ou actions) sont prises pour parcourir une séquence d'états en partant du principe que la propriété Markov est valide. Dans l'apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.
Propriété de Markov
Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par des informations implicites dans l'état actuel et l'action de l'agent.
P
règlement
En apprentissage par renforcement, un mappage probabiliste d'agent entre États et actions.
Q
Fonction Q
Dans l'apprentissage par renforcement, il s'agit de la fonction qui prédit le retour attendu si elle effectue une action dans un état, puis suit une règle donnée.
La fonction Q est également appelée fonction de valeur d'état d'action.
Q-learning
Dans l'apprentissage par renforcement, un algorithme qui permet à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation Bellman. Le processus de décision de Markov modélise un environnement.
R
règle aléatoire
Dans l'apprentissage par renforcement, une règle qui sélectionne une action de manière aléatoire.
apprentissage par renforcement (RL)
Famille d'algorithmes apprenant une stratégie optimale, dont l'objectif est de maximiser le retour lors de l'interaction avec un environnement. Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir experts dans les jeux complexes en évaluant les séquences de mouvements précédents qui ont finalement conduit à des victoires et les séquences qui ont finalement conduit à des pertes.
mémoire tampon de relecture
Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la relecture d'expérience
rentabilité
En cas d'apprentissage par renforcement, selon une certaine règle et un certain état, le retour est la somme de toutes les récompenses que l'agent prévoit de recevoir lorsqu'il suit la règle de l'état jusqu'à la fin de l'épisode. L'agent prend en compte le retard des récompenses attendues en leur appliquant une remise en fonction des transitions d'État requises pour obtenir la récompense.
Par conséquent, si le facteur de remise est de \(\gamma\)et que \(r_0, \ldots, r_{N}\)indiquent les récompenses jusqu'à la fin de l'épisode, le calcul du retour se calcule comme suit:
une récompense
Dans l'apprentissage par renforcement, le résultat numérique d'une action dans un état, tel que défini par l'environnement.
S
state
En apprentissage par renforcement, les valeurs de paramètre décrivant la configuration actuelle de l'environnement, que l'agent utilise pour choisir une action.
fonction d'état/action
Synonyme de fonction Q.
T
Q-learning tabulaire
Dans l'apprentissage par renforcement, implémenter l'apprentissage Q à l'aide d'une table pour stocker les fonctions Q pour chaque combinaison d'état et d'action.
réseau cible
Dans le cours Deep Q-learning, un réseau de neurones est une approximation stable du réseau de neurones principal, dans lequel le réseau de neurones principal implémente une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs Q prédites par le réseau cible. Par conséquent, vous évitez la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur des valeurs Q prédites par lui-même. En évitant ce commentaire, la stabilité de l'entraînement augmente.
condition de résiliation
Dans l'apprentissage par renforcement, les conditions qui déterminent la fin d'un épisode, par exemple lorsque l'agent atteint un certain état ou dépasse un certain nombre de transitions d'état. Par exemple, dans tic-tac-toe (également connu sous le nom de "Nikes and Crosses"), un épisode se termine lorsqu'un joueur marque trois espaces consécutifs ou lorsque tous les espaces sont marqués.
trajectoire
Dans l'apprentissage par renforcement, une séquence de tuples représentant une séquence de états de l'agent, où chaque tuple correspond à l'état, action, récompense et l'état suivant pour une transition d'état donnée.