Diese Seite enthält Begriffe aus dem Glossar zum Reinforcement Learning. Alle Glossarbegriffe finden Sie hier.
A
Aktion
Beim Reforcement Learning der Mechanismus, mit dem der Agent zwischen Status der Umgebung wechselt. Der Agent wählt die Aktion mithilfe einer Richtlinie aus.
Agent
Im Reforcement Learning verwendet die Entität, die eine Richtlinie verwendet, um den erwarteten Return on Advertising Spend aus dem Übergang zwischen den Zuständen der Umgebung zu maximieren.
B
Bellman-Gleichung
Beim Reinforcement Learning wird die folgende Identität durch die optimale Q-Funktion erfüllt:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Die Algorithmen Bestärkendes Lernen wenden diese Identität an, um Q-Learning über die folgende Aktualisierungsregel zu erstellen:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Neben dem Reinforcement Learning bietet die Bellman-Gleichung Anwendungen für die dynamische Programmierung. Weitere Informationen finden Sie im Wikipedia-Eintrag zu Bellman Gleichung.
C
Kritiker
Synonym für Deep Q-Network.
D
Deep-Q-Network (DQN)
In Q-Learning ein tiefes neuronales Netzwerk, das Q-Funktionen vorhersagt.
Critic ist ein Synonym für Deep Q-Network.
DQN
Abkürzung für Deep Q-Network
E
Umgebung
Im Reinforcement Learning ist dies die Welt, die den Agent enthält, sodass der Agent diesen Status beobachten kann. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Zuständen.
Folge
Bei wiederholtem Lernen versucht der Agent, eine Umgebung zu erlernen.
Epsilon-Giery-Richtlinie
Reinverständliches Lernen: Eine Richtlinie, die entweder einer zufälligen Richtlinie mit Epsilon-Wahrscheinlichkeit oder einer Gier-Richtlinie entspricht. Wenn Epsilon beispielsweise 0, 9 ist, dann folgt die Richtlinie in 90% der Fälle einer zufälligen Richtlinie und in einer 10 %-der Zeit einer gierigen Richtlinie.
Bei aufeinanderfolgenden Folgen reduziert der Algorithmus den Epsilonwert, um von einer zufälligen Richtlinie auf eine gierige Richtlinie zu verzichten. Durch Verschieben der Richtlinie erkundet der Agent die Umgebung zuerst zufällig und nutzt dann gierig die Ergebnisse der zufälligen explorativen Datenanalyse aus.
Aufzeichnung wiederholen
Beim Reinforcement Learning wird mit einer DQN-Methode zeitliche Korrelationen in den Trainingsdaten reduziert. Der Agent speichert Statusübergänge in einem Wiederholungspuffer und erfasst dann Übergänge aus dem Zwischenspeicher für die erneute Wiedergabe, um Trainingsdaten zu erstellen.
G
gierig Richtlinie
Reinforcement Learning: Eine Richtlinie, bei der immer die Aktion mit der höchsten erwarteten Rückgabe ausgewählt wird.
M
Markov-Entscheidungsprozess (MDP)
Diagramm, das das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Abfolge von Bundesstaaten zu erstellen, in der Annahme, dass die Markov-Property gilt. Beim Reforcement Learning geben diese Übergänge zwischen Bundesstaaten eine numerische Prämie zurück.
Markov-Property
Ein Attribut bestimmter Umgebungen, in denen Zustandsübergänge vollständig durch Informationen implizit im aktuellen Status und der Aktion des Agents bestimmt werden.
P
policy
Zur Verstärkung des Reinforcements hat ein Agent eine probabilistische Zuordnung von Bundesstaaten zu Aktionen vorgenommen.
F
Q-Funktion
Beim verstärkten Lernen verwendet die Funktion, die vorhersagt, welche Return-Aktion eine Aktion in einem Zustand ausführen soll, und dann einer bestimmten Richtlinie folgt.
Die Funktion „Q-Funktion“ wird auch als Funktion für Wert der Zustandsaktion bezeichnet.
Q-Learning
Beim verstärkten Lernen verwendet ein Algorithmus, der es einem Agent ermöglicht, die optimale Q-Funktion eines Markov-Entscheidungsprozesses durch Anwendung der Bellman-Gleichung zu lernen. Der Entscheidungsprozess von Markov modelliert eine Umgebung.
R
Zufällige Richtlinie
Beim Reforcement Learning eine Richtlinie, die nach dem Zufallsprinzip eine Aktion auswählt.
Reinforcement Learning (RL)
Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, deren Ziel darin besteht, den Return on Investment bei der Interaktion mit einer Umgebung zu maximieren. Die meisten Spieler gewinnen beispielsweise die ultimative Prämie. Verstärkende Lernsysteme können Experte beim Spielen komplexer Spiele werden, indem sie Sequenzen vorheriger Spielzüge bewerten, die letztlich zu Erfolgen und Sequenzen führen, die letztendlich zu Verlusten führen.
Wiedergabepuffer
In DQN-ähnlichen Algorithmen wird der Speicher, der vom Agent zum Speichern von Statusübergängen verwendet wird, für die Wiederholungserfahrung verwendet.
Rendite
Im Reinforcement Learning ist die Rückkehr bei einer bestimmten Richtlinie und einem bestimmten Zustand die Summe aller Prämien, die der Agent erwarten wird, wenn er der Richtlinie vom Status bis zum Ende der Folge folgt. Der Kundenservicemitarbeiter berücksichtigt die verzögerte Art der erwarteten Prämien, indem er gemäß den Statusübergängen, die zum Erhalt der Prämie erforderlich sind, keine Rabatte gewährt.
Wenn der Rabattfaktor \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge kennzeichnen, sieht die Rückgabeberechnung so aus:
eine Belohnung
Beim Reinforcement Learning ist dies das numerische Ergebnis einer Aktion in einem Status gemäß der Definition in der Umgebung.
S
Bundesland
Beim bestärkenden Lernen die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben. Der Agent wählt eine Aktion aus.
Funktion für den Zustand/Aktion
Synonym für Q-Funktion.
T
Tabellarisches Q-Learning
Beim reforcement Learning die Implementierung von Q-Learning mithilfe einer Tabelle zum Speichern der Q-Funktionen für jede Kombination aus Status und Aktion implementieren.
Zielnetzwerk
In Deep Q-Learning ist ein neuronales Netzwerk eine stabile Annäherung an das neuronale Hauptnetzwerk, in dem das neuronale Hauptnetzwerk entweder eine Q-Funktion oder eine Richtlinie implementiert. Anschließend können Sie das Hauptnetzwerk mit den vom Zielnetzwerk vorhergesagten Q-Werten trainieren. Daher wird die Feedbackschleife verhindert, die auftritt, wenn das Hauptnetzwerk mit selbst vorhergesagten Q-Werten trainiert wird. Wenn Sie dieses Feedback vermeiden, erhöht sich die Trainingsstabilität.
Kündigungsbedingung
Beim verstärkenden Lernen die Bedingungen, die festlegen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Zustand erreicht oder eine bestimmte Anzahl von Statusübergängen überschreitet. Beispielsweise wird eine Folge in tic-tac-toe (auch als Nullen und Kreuze bezeichnet) beendet, wenn ein Spieler drei aufeinanderfolgende Leerzeichen oder alle Projektbereiche markiert.
Flugbahn
Beim Reinforcement Learning eine Sequenz von sogenannten Semikolons, die eine Sequenz von Statusübergängen des Agents darstellen, wobei jedes Semikolon dem Status, der Aktion, dem Prämien und dem nächsten Status für einen bestimmten Zustandsübergang entspricht.