Glossar zum maschinellen Lernen: Reinforcement Learning

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Diese Seite enthält Begriffe aus dem Glossar zum Reinforcement Learning. Alle Glossarbegriffe finden Sie hier.

A

Aktion

#rl

Beim Reforcement Learning der Mechanismus, mit dem der Agent zwischen Status der Umgebung wechselt. Der Agent wählt die Aktion mithilfe einer Richtlinie aus.

Agent

#rl

Im Reforcement Learning verwendet die Entität, die eine Richtlinie verwendet, um den erwarteten Return on Advertising Spend aus dem Übergang zwischen den Zuständen der Umgebung zu maximieren.

B

Bellman-Gleichung

#rl

Beim Reinforcement Learning wird die folgende Identität durch die optimale Q-Funktion erfüllt:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Die Algorithmen Bestärkendes Lernen wenden diese Identität an, um Q-Learning über die folgende Aktualisierungsregel zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Neben dem Reinforcement Learning bietet die Bellman-Gleichung Anwendungen für die dynamische Programmierung. Weitere Informationen finden Sie im Wikipedia-Eintrag zu Bellman Gleichung.

C

Kritiker

#rl

Synonym für Deep Q-Network.

D

Deep-Q-Network (DQN)

#rl

In Q-Learning ein tiefes neuronales Netzwerk, das Q-Funktionen vorhersagt.

Critic ist ein Synonym für Deep Q-Network.

DQN

#rl

Abkürzung für Deep Q-Network

E

Umgebung

#rl

Im Reinforcement Learning ist dies die Welt, die den Agent enthält, sodass der Agent diesen Status beobachten kann. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Zuständen.

Folge

#rl

Bei wiederholtem Lernen versucht der Agent, eine Umgebung zu erlernen.

Epsilon-Giery-Richtlinie

#rl

Reinverständliches Lernen: Eine Richtlinie, die entweder einer zufälligen Richtlinie mit Epsilon-Wahrscheinlichkeit oder einer Gier-Richtlinie entspricht. Wenn Epsilon beispielsweise 0, 9 ist, dann folgt die Richtlinie in 90% der Fälle einer zufälligen Richtlinie und in einer 10 %-der Zeit einer gierigen Richtlinie.

Bei aufeinanderfolgenden Folgen reduziert der Algorithmus den Epsilonwert, um von einer zufälligen Richtlinie auf eine gierige Richtlinie zu verzichten. Durch Verschieben der Richtlinie erkundet der Agent die Umgebung zuerst zufällig und nutzt dann gierig die Ergebnisse der zufälligen explorativen Datenanalyse aus.

Aufzeichnung wiederholen

#rl

Beim Reinforcement Learning wird mit einer DQN-Methode zeitliche Korrelationen in den Trainingsdaten reduziert. Der Agent speichert Statusübergänge in einem Wiederholungspuffer und erfasst dann Übergänge aus dem Zwischenspeicher für die erneute Wiedergabe, um Trainingsdaten zu erstellen.

G

gierig Richtlinie

#rl

Reinforcement Learning: Eine Richtlinie, bei der immer die Aktion mit der höchsten erwarteten Rückgabe ausgewählt wird.

M

Markov-Entscheidungsprozess (MDP)

#rl

Diagramm, das das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Abfolge von Bundesstaaten zu erstellen, in der Annahme, dass die Markov-Property gilt. Beim Reforcement Learning geben diese Übergänge zwischen Bundesstaaten eine numerische Prämie zurück.

Markov-Property

#rl

Ein Attribut bestimmter Umgebungen, in denen Zustandsübergänge vollständig durch Informationen implizit im aktuellen Status und der Aktion des Agents bestimmt werden.

P

policy

#rl

Zur Verstärkung des Reinforcements hat ein Agent eine probabilistische Zuordnung von Bundesstaaten zu Aktionen vorgenommen.

F

Q-Funktion

#rl

Beim verstärkten Lernen verwendet die Funktion, die vorhersagt, welche Return-Aktion eine Aktion in einem Zustand ausführen soll, und dann einer bestimmten Richtlinie folgt.

Die Funktion „Q-Funktion“ wird auch als Funktion für Wert der Zustandsaktion bezeichnet.

Q-Learning

#rl

Beim verstärkten Lernen verwendet ein Algorithmus, der es einem Agent ermöglicht, die optimale Q-Funktion eines Markov-Entscheidungsprozesses durch Anwendung der Bellman-Gleichung zu lernen. Der Entscheidungsprozess von Markov modelliert eine Umgebung.

R

Zufällige Richtlinie

#rl

Beim Reforcement Learning eine Richtlinie, die nach dem Zufallsprinzip eine Aktion auswählt.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, deren Ziel darin besteht, den Return on Investment bei der Interaktion mit einer Umgebung zu maximieren. Die meisten Spieler gewinnen beispielsweise die ultimative Prämie. Verstärkende Lernsysteme können Experte beim Spielen komplexer Spiele werden, indem sie Sequenzen vorheriger Spielzüge bewerten, die letztlich zu Erfolgen und Sequenzen führen, die letztendlich zu Verlusten führen.

Wiedergabepuffer

#rl

In DQN-ähnlichen Algorithmen wird der Speicher, der vom Agent zum Speichern von Statusübergängen verwendet wird, für die Wiederholungserfahrung verwendet.

Rendite

#rl

Im Reinforcement Learning ist die Rückkehr bei einer bestimmten Richtlinie und einem bestimmten Zustand die Summe aller Prämien, die der Agent erwarten wird, wenn er der Richtlinie vom Status bis zum Ende der Folge folgt. Der Kundenservicemitarbeiter berücksichtigt die verzögerte Art der erwarteten Prämien, indem er gemäß den Statusübergängen, die zum Erhalt der Prämie erforderlich sind, keine Rabatte gewährt.

Wenn der Rabattfaktor \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge kennzeichnen, sieht die Rückgabeberechnung so aus:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

eine Belohnung

#rl

Beim Reinforcement Learning ist dies das numerische Ergebnis einer Aktion in einem Status gemäß der Definition in der Umgebung.

S

Bundesland

#rl

Beim bestärkenden Lernen die Parameterwerte, die die aktuelle Konfiguration der Umgebung beschreiben. Der Agent wählt eine Aktion aus.

Funktion für den Zustand/Aktion

#rl

Synonym für Q-Funktion.

T

Tabellarisches Q-Learning

#rl

Beim reforcement Learning die Implementierung von Q-Learning mithilfe einer Tabelle zum Speichern der Q-Funktionen für jede Kombination aus Status und Aktion implementieren.

Zielnetzwerk

#rl

In Deep Q-Learning ist ein neuronales Netzwerk eine stabile Annäherung an das neuronale Hauptnetzwerk, in dem das neuronale Hauptnetzwerk entweder eine Q-Funktion oder eine Richtlinie implementiert. Anschließend können Sie das Hauptnetzwerk mit den vom Zielnetzwerk vorhergesagten Q-Werten trainieren. Daher wird die Feedbackschleife verhindert, die auftritt, wenn das Hauptnetzwerk mit selbst vorhergesagten Q-Werten trainiert wird. Wenn Sie dieses Feedback vermeiden, erhöht sich die Trainingsstabilität.

Kündigungsbedingung

#rl

Beim verstärkenden Lernen die Bedingungen, die festlegen, wann eine Folge endet, z. B. wenn der Agent einen bestimmten Zustand erreicht oder eine bestimmte Anzahl von Statusübergängen überschreitet. Beispielsweise wird eine Folge in tic-tac-toe (auch als Nullen und Kreuze bezeichnet) beendet, wenn ein Spieler drei aufeinanderfolgende Leerzeichen oder alle Projektbereiche markiert.

Flugbahn

#rl

Beim Reinforcement Learning eine Sequenz von sogenannten Semikolons, die eine Sequenz von Statusübergängen des Agents darstellen, wobei jedes Semikolon dem Status, der Aktion, dem Prämien und dem nächsten Status für einen bestimmten Zustandsübergang entspricht.