Glossaire du machine learning: apprentissage par renforcement

Cette page contient les termes du glossaire d'apprentissage par renforcement. Pour consulter tous les termes du glossaire, cliquez ici.

A

action

#rl

Dans l'apprentissage par renforcement, le mécanisme par lequel l'agent passe d'un état à un autre dans l'environnement. L'agent choisit l'action à l'aide d'une règle.

agent

#rl

Dans l'apprentissage par renforcement, l'entité qui utilise une règle pour maximiser le retour attendu obtenu lors de la transition entre les états de l'environnement.

B

Équation de Bellman

#rl

Dans l'apprentissage par renforcement, l'identité suivante est satisfaite par la fonction Q optimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Les algorithmes de l'apprentissage par renforcement appliquent cette identité pour créer Q-learning via la règle de mise à jour suivante:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Outre l'apprentissage par renforcement, l'équation de Bellman s'applique aux programmations dynamiques. Consultez l' entrée Wikipédia pour l'équation Bellman.

C

critique

#rl

Synonyme de deep Q-Network.

D.

Réseau de neurones profond (DQN)

#rl

Dans Q-learning, un réseau de neurones profond qui prédit les fonctions Q.

Critic est l'acronyme de Deep Q-Network.

DQN

#rl

Abréviation de Deep Q-Network.

E

de production

#rl

Dans l'apprentissage par renforcement, le monde contenant l'agent et lui permet d'observer l'état de ce monde. Par exemple, le monde représenté peut être un jeu comme les échecs ou un monde physique comme un labyrinthe. Lorsque l'agent applique une action à l'environnement, celui-ci passe d'un état à un autre.

épisode

#rl

Dans l'apprentissage par renforcement, chacune des tentatives répétées de l'agent pour apprendre un environnement.

règle epsilon gourmande

#rl

Dans l'apprentissage par renforcement, il s'agit d'une règle qui suit une règle aléatoire avec une probabilité epsilon ou une règle agressive dans le cas contraire. Par exemple, si l'indicateur epsilon est égal à 0,9, la règle suit une règle aléatoire 90% du temps et une règle avide 10% du temps.

Sur les épisodes suivants, l'algorithme réduit la valeur d'epsilon afin de passer d'une règle aléatoire à une règle avide. En décalant la règle, l'agent explore d'abord de manière aléatoire l'environnement, puis exploite les résultats d'une exploration aléatoire.

relecture de l'expérience

#rl

Dans l'apprentissage par renforcement, une technique DQN permet de réduire les corrélations temporelles dans les données d'entraînement. L'agent stocke les transitions d'état dans un tampon de relecture, puis échantillonne les transitions du tampon de relecture pour créer des données d'entraînement.

G

règle avide

#rl

Dans l'apprentissage par renforcement, une règle qui choisit toujours l'action avec le retour le plus attendu.

M

Processus de décision de Markov (MDP)

#rl

Graphique représentant le modèle de prise de décision dans lequel les décisions (ou actions) sont prises pour parcourir une séquence d'états en partant du principe que la propriété de Markov est valide. Dans l'apprentissage par renforcement, ces transitions entre les états renvoient une récompense numérique.

Propriété de Markov

#rl

Propriété de certains environnements, où les transitions d'état sont entièrement déterminées par les informations implicites dans l'état actuel et l'action de l'agent.

P

policy

#rl

Dans l'apprentissage par renforcement, la correspondance probabiliste d'un agent entre les états et les actions.

Q

Fonction Q

#rl

En apprentissage par renforcement, la fonction qui prédit le retour attendu après avoir exécuté une action dans un état, puis suivi d'une règle donnée.

La fonction Q est également appelée fonction de valeur d'action-action.

Q-learning

#rl

Dans l'apprentissage par renforcement, un algorithme permettant à un agent d'apprendre la fonction Q optimale d'un processus de décision de Markov en appliquant l'équation Bellman Le processus de décision de Markov modélise un environnement.

R

règle aléatoire

#rl

Dans l'apprentissage par renforcement, une règle choisit une action de manière aléatoire.

l'apprentissage par renforcement (RL)

#rl

Famille d'algorithmes qui apprennent une règle optimale, dont l'objectif est de maximiser le retour lors d'une interaction avec un environnement Par exemple, la récompense ultime dans la plupart des jeux est la victoire. Les systèmes d'apprentissage par renforcement peuvent devenir des experts en jeux complexes en évaluant les séquences de mouvements précédents qui ont permis de gagner et les séquences qui ont abouti à des pertes.

Apprentissage par renforcement (RLHF)

IA générative
#rl

Utiliser les commentaires d'évaluateurs manuels pour améliorer la qualité des réponses d'un modèle. Par exemple, un mécanisme RLHF peut demander aux utilisateurs d'évaluer la qualité de la réponse d'un modèle avec un emoji 👍 ou 👎. Le système peut ensuite ajuster ses futures réponses en fonction de ces commentaires.

mémoire tampon de relecture

#rl

Dans les algorithmes de type DQN, la mémoire utilisée par l'agent pour stocker les transitions d'état à utiliser dans la relecture d'expérience.

rentabilité

#rl

Dans l'apprentissage par renforcement, selon une certaine règle et un certain état, le retour correspond à la somme de toutes les récompenses que l'agent s'attend à recevoir en suivant la règle de l'état à la fin de l'épisode. L'agent tient compte du caractère retardé des récompenses attendues en leur appliquant une remise sur les récompenses en fonction des transitions requises par l'État pour les obtenir.

Par conséquent, si le facteur de remise est \(\gamma\)et que \(r_0, \ldots, r_{N}\)indiquent les récompenses jusqu'à la fin de l'épisode, le calcul du retour est le suivant:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

une récompense

#rl

Dans l'apprentissage par renforcement, résultat numérique d'une action dans un état, tel que défini par l'environnement.

S

final

#rl

Dans l'apprentissage par renforcement, les valeurs de paramètres décrivant la configuration actuelle de l'environnement que l'agent utilise pour choisir une action.

fonction de valeur d'état d'action

#rl

Synonyme de fonction Q.

M

Q-learning tabulaire

#rl

Dans l'apprentissage par renforcement, l'implémentation du Q-learning consiste à utiliser un tableau pour stocker les fonctions Q pour chaque combinaison d'état et d'action.

réseau cible

#rl

Dans le cadre du deep-learning, un réseau de neurones est une approximation stable du réseau de neurones principal, dans lequel le réseau de neurones principal implémente une fonction Q ou une règle. Vous pouvez ensuite entraîner le réseau principal sur les valeurs Q prédites par le réseau cible. Par conséquent, vous empêchez la boucle de rétroaction qui se produit lorsque le réseau principal s'entraîne sur les valeurs Q prédites par elle-même. En évitant ce commentaire, la stabilité de l'entraînement augmente.

condition de résiliation

#rl

Dans l'apprentissage par renforcement, les conditions qui déterminent la fin d'un épisode, telles que le moment où l'agent atteint un certain état ou dépasse un certain seuil de transitions d'état. Par exemple, dans le morpion (également appelé "croix" ou "croix"), l'épisode se termine lorsqu'un joueur marque trois espaces consécutifs ou lorsque tous les espaces sont marqués.

la trajectoire

#rl

Dans l'apprentissage par renforcement, une séquence de tuples représentant une séquence de états de l'agent, où chaque tuple correspond à l'état, l'action, récompense et l'état suivant pour une transition d'état donnée.