Глоссарий машинного обучения: обучение с подкреплением

Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Эта страница содержит глоссарий терминов обучения с подкреплением. Чтобы просмотреть все термины глоссария, щелкните здесь .

А

действие

#рл

В обучении с подкреплением - механизм, с помощью которого агент переходит между состояниями среды . Агент выбирает действие с помощью политики .

агент

#рл

В обучении с подкреплением объект, который использует политику для максимизации ожидаемой отдачи от перехода между состояниями среды .

Б

Уравнение Беллмана

#рл

При обучении с подкреплением оптимальная Q-функция удовлетворяет следующему тождеству:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Алгоритмы обучения с подкреплением применяют эту идентичность для создания Q-обучения с помощью следующего правила обновления:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Помимо обучения с подкреплением, уравнение Беллмана имеет приложения к динамическому программированию. См. статью в Википедии об уравнении Беллмана .

С

критик

#рл

Синоним Глубокой Q-сети .

Д

Глубокая Q-сеть (DQN)

#рл

В Q-learning — глубокая нейронная сеть , предсказывающая Q-функции .

Критик — это синоним Deep Q-Network.

DQN

#рл

Аббревиатура от Deep Q-Network .

Е

Окружающая среда

#рл

В обучении с подкреплением мир, который содержит агента и позволяет агенту наблюдать за состоянием этого мира. Например, представленный мир может быть игрой, такой как шахматы, или физическим миром, таким как лабиринт. Когда агент применяет действие к среде, среда переходит из одного состояния в другое.

эпизод

#рл

При обучении с подкреплением каждая из повторных попыток агента изучить среду .

эпсилон жадная политика

#рл

В обучении с подкреплением - политика , которая либо следует случайной политике с эпсилон-вероятностью, либо жадной политике в противном случае. Например, если эпсилон равен 0,9, то политика следует случайной политике в 90 % случаев и жадной политике в 10 % времени.

В последовательных эпизодах алгоритм уменьшает значение эпсилон, чтобы перейти от следования случайной политике к следованию жадной политике. Изменяя политику, агент сначала случайным образом исследует среду, а затем жадно использует результаты случайного исследования.

повтор опыта

#рл

В обучении с подкреплением метод DQN , используемый для уменьшения временных корреляций в обучающих данных. Агент сохраняет переходы между состояниями в буфере воспроизведения , а затем выбирает переходы из буфера воспроизведения для создания обучающих данных.

грамм

жадная политика

#рл

В обучении с подкреплением — политика , которая всегда выбирает действие с наибольшей ожидаемой отдачей .

М

Марковский процесс принятия решений (MDP)

#рл

Граф, представляющий модель принятия решений, в которой решения (или действия ) предпринимаются для навигации по последовательности состояний в предположении, что марковское свойство выполняется. В обучении с подкреплением эти переходы между состояниями возвращают числовое вознаграждение .

марковское свойство

#рл

Свойство определенных сред , в которых переходы состояний полностью определяются информацией, неявной в текущем состоянии и действиях агента.

п

политика

#рл

В обучении с подкреплением - вероятностное отображение агента от состояний к действиям .

Вопрос

Q-функция

#рл

В обучении с подкреплением — функция, предсказывающая ожидаемую отдачу от выполнения действия в определенном состоянии и последующего следования заданной политике .

Q-функция также известна как функция значения состояния-действия .

Q-обучение

#рл

В обучении с подкреплением — алгоритм, который позволяет агенту изучить оптимальную Q-функцию марковского процесса принятия решений , применяя уравнение Беллмана . Марковский процесс принятия решений моделирует окружающую среду .

р

случайная политика

#рл

В обучении с подкреплениемполитика , которая выбирает действие случайным образом.

обучение с подкреплением (RL)

#рл

Семейство алгоритмов, которые изучают оптимальную политику , целью которой является максимизация отдачи при взаимодействии с окружающей средой . Например, конечной наградой большинства игр является победа. Системы обучения с подкреплением могут стать экспертами в сложных играх, оценивая последовательности предыдущих игровых ходов, которые в конечном итоге привели к победам, и последовательности, которые в конечном итоге привели к проигрышу.

буфер воспроизведения

#рл

В алгоритмах, подобных DQN , память, используемая агентом для хранения переходов между состояниями для использования в воспроизведении опыта .

возвращаться

#рл

В обучении с подкреплением при заданной определенной политике и определенном состоянии отдача представляет собой сумму всех вознаграждений , которые агент ожидает получить при следовании политике от состояния до конца эпизода . Агент учитывает отсроченный характер ожидаемых вознаграждений, дисконтируя вознаграждения в соответствии с переходами состояний, необходимыми для получения вознаграждения.

Следовательно, если коэффициент дисконтирования равен \(\gamma\), а \(r_0, \ldots, r_{N}\)обозначает вознаграждения до конца эпизода, то расчет возврата выглядит следующим образом:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

награда

#рл

В обучении с подкреплением — числовой результат выполнения действия в состоянии , определяемом средой .

С

государство

#рл

В обучении с подкреплением — значения параметров, описывающие текущую конфигурацию среды, которую агент использует для выбора действия .

функция значения состояния-действия

#рл

Синоним Q-функции .

Т

табличное Q-обучение

#рл

В обучении с подкреплением реализация Q-обучения с использованием таблицы для хранения Q-функций для каждой комбинации состояния и действия .

целевая сеть

#рл

В Deep Q-learning нейронная сеть, являющаяся устойчивым приближением основной нейронной сети, где основная нейронная сеть реализует либо Q-функцию , либо политику . Затем вы можете обучить основную сеть значениям Q, предсказанным целевой сетью. Таким образом, вы предотвращаете петлю обратной связи, которая возникает, когда основная сеть обучается на предсказанных ею значениях Q. Избегая этой обратной связи, повышается стабильность тренировки.

условие прекращения

#рл

В обучении с подкреплением — условия, определяющие окончание эпизода , например, когда агент достигает определенного состояния или превышает пороговое количество переходов между состояниями. Например, в крестиках-ноликах (также известных как крестики-нолики ) эпизод заканчивается либо когда игрок отмечает три последовательных пробела, либо когда отмечены все пробелы.

траектория

#рл

В обучении с подкреплением — последовательность кортежей , представляющих последовательность переходов состояний агента , где каждый кортеж соответствует состоянию, действию , вознаграждению и следующему состоянию для данного перехода состояния.