Эта статья является второй в серии вводного обучения с подкреплением, в основном она знакомит с очень важной теоретической основой обучения с подкреплением — Марковским процессом принятия решений MDP.
MDP Марковский процесс принятия решений
MDP расшифровывается как Марковский процесс принятия решений, Марковский процесс принятия решений. MDP — это математическая форма задачи обучения с подкреплением, можно сказать, что этот раздел начнется с теоретической части обучения с подкреплением.
Базовые концепты
Что такое обучение с подкреплением?
Прежде всего необходимо уточнить несколько понятий. Первый — агент.агентПредставляет собой машину, способную обучаться и принимать решения. Все, что находится вне агента и взаимодействует с ним, называетсяокружающая обстановка. Агент находится в среде, взаимодействует с ней и в определенный момент в средегосударствовыберитедействие, среда дает соответствующую обратную связь на действие и переходит в новое состояние в следующий момент, генерируя при этомнаградаВернитесь к агенту. Это процесс взаимодействия агента со средой. Как показано ниже.
Обучение с подкреплением рассматривает интерактивное обучение между агентом и средой.Целью обучения агента является вознаграждение, возвращаемое средой, а задача RL состоит в том, чтобы максимизировать ожидание совокупной суммы вознаграждений. Это метод активного обучения без присмотра. Награды также являются основой для оценки выбора действий.
MDP
MDP является основой обучения с подкреплением и теоретической основой RL. В MDP мы рассматриваем состояние,действие,награда. В частности, агент в данный моментНаблюдайте за характерным выражением состояния окружающей среды, затем выберите «Действие», действие получено в следующий моментрезультат - награда, и одновременно войти в следующее состояние. И когда состояние, действие, награда установлены в MDPЭлементов всего конечное число, такой МДП также называют конечным МДП. Формализованная последовательность выглядит следующим образом:
выражение с четырьмя аргументами
Вот краткое изложение:
Приведенное выше уравнение вероятности показывает, что в MDPВероятность каждого возможного значения зависит только от предыдущего состояния и действия., независимо от предыдущих состояний и действий. Это состояние также называют марковским свойством.
Для непрерывных задач определите G как взвешенную сумму вознаграждений:
называется коэффициентом дисконтирования.
Фактическое общее вознаграждениепо-прежнему конечно, потому что до тех пор, пока вознаграждение является отличной от нуля константой и, общая наградаЕго можно сходиться, например, когда вознаграждение является константой 1, его можно выразить как
Функция значения состояния и функция значения действия
Политика — это отображение состояния в вероятность выбора каждого действия, то есть случайная функция выбора действия агентом. использоватьВыражать.исвязан.представляет вероятность выбора действия a в состоянии s,Оно относится к функции плотности вероятности в данном состоянии (то есть в данный момент).это функция,является конкретным значением вероятности.
Функции ценности состояний при разных стратегиях различны, поэтому мы используемстратегия презентациинерабочее состояниефункция стоимости. Ценность, полученная при выполнении разных действий в одном и том же состоянии одной и той же стратегии, также различна, поэтому используйтестратегия презентациинерабочее состояниедействоватьфункция стоимости.также известный как стратегияФункция значения состояния ,также известный как стратегияфункция действия-ценности. Вероятность совершения одного и того же действия при разных стратегиях может быть разной.
для всех штатов, значение текущего состояния состоит в том, чтобы начать с состояния s, учитывая стратегию, вероятностное ожидаемое значение вознаграждения, полученного агентом, выполняющим действие в соответствии с текущей политикой. Ожидание здесь потому, что отперейти к следующему состоянию, предпринимайте различные действия, чтобы ввести разные, награды получаются тоже разные, поэтому для всех возможныхСпросите об ожиданиях.
Аналогично, для функции ценности действия, то есть при заданной стратегии, после выполнения действия а, поскольку вознаграждения, генерируемые различными средами действия, могут быть разными, необходимо получить ожидания для вознаграждений всех возможных последовательностей решений, мы имеем
Сопоставив рисунок, чтобы понять, видно, что,ожидание вознаграждения от штата к штату,это ожидание вознаграждения от действия к действию. в то время как вероятностьЭто определяется средой, поэтому мы можем только оптимизировать стратегию.
На самом деле найти не сложноиСуществуют следующие отношения:
Формула наблюдения показывает, что значение состояния равно значению всех возможных действий в этом состоянии, умноженному на математическое ожидание вероятности выбора возможного действия при текущей политике. Ценность действия зависит от ожидаемого значения последующего вознаграждения и ожидаемого значения суммы оставшихся вознаграждений.
фактическиЭто также может быть записано как:
Далее, для любой стратегиии любое состояние, мы можем получить, состояниеТекущее значение и его возможные последующие состоянияОтношения между:
Это уравнение также называютУравнение Беллмана(уравнение Беллмана). так какявляется функцией плотности вероятности, поэтому последний член на самом деле является ожидаемым значением, которое равно.
Оптимальное уравнение Беллмана
Как вывести?
Мы знаем, что уравнение Беллмана на самом деле является рекурсивной формой функции значения состояния:
Как найти лучшую стратегию?
Фактически оптимальная стратегия (обозначается как) может быть больше одного, но они должны иметь общую функцию значения оптимального действия и функцию значения состояния, поэтому существуют:
При оптимальной стратегии значение каждого состояния должно быть равно ожидаемому вознаграждению за оптимальное действие в этом состоянии (поскольку стратегия определена), есть:
Это уравнение оптимальности Беллмана для функции значения состояния.
Для функции ценности действия оптимальное уравнение Беллмана выглядит следующим образом:
Ссылаться на
- Саттон Барто Обучение с подкреплением (второе издание)