Введение в обучение с подкреплением 2 - Знакомство с MDP

обучение с подкреплением

Эта статья является второй в серии вводного обучения с подкреплением, в основном она знакомит с очень важной теоретической основой обучения с подкреплением — Марковским процессом принятия решений MDP.

MDP Марковский процесс принятия решений

MDP расшифровывается как Марковский процесс принятия решений, Марковский процесс принятия решений. MDP — это математическая форма задачи обучения с подкреплением, можно сказать, что этот раздел начнется с теоретической части обучения с подкреплением.

Базовые концепты

Что такое обучение с подкреплением?

Прежде всего необходимо уточнить несколько понятий. Первый — агент.агентПредставляет собой машину, способную обучаться и принимать решения. Все, что находится вне агента и взаимодействует с ним, называетсяокружающая обстановка. Агент находится в среде, взаимодействует с ней и в определенный момент в средегосударствовыберитедействие, среда дает соответствующую обратную связь на действие и переходит в новое состояние в следующий момент, генерируя при этомнаградаВернитесь к агенту. Это процесс взаимодействия агента со средой. Как показано ниже.

1.1.png

Обучение с подкреплением рассматривает интерактивное обучение между агентом и средой.Целью обучения агента является вознаграждение, возвращаемое средой, а задача RL состоит в том, чтобы максимизировать ожидание совокупной суммы вознаграждений. Это метод активного обучения без присмотра. Награды также являются основой для оценки выбора действий.

MDP

MDP является основой обучения с подкреплением и теоретической основой RL. В MDP мы рассматриваем состояниеSS,действиеAA,наградаRR. В частности, агент в данный моментttНаблюдайте за характерным выражением состояния окружающей средыsts_t, затем выберите «Действие»ata_t, действие получено в следующий моментata_tрезультат - наградаrt+1r_{t+1}, и одновременно войти в следующее состояниеst+1s_{t+1}. И когда состояние, действие, награда установлены в MDP(S,A,R)(С, А, Р)Элементов всего конечное число, такой МДП также называют конечным МДП. Формализованная последовательность выглядит следующим образом:

(s0,a0,r0,...,st,at,rt,...)(s_0,a_0,r_0,...,s_t,a_t,r_t,...)

выражение с четырьмя аргументами

p(s',rs,a)=P(St=s',Rt=rSt1=s,At1=a)p(s',r|s,a)=P(S_{t}=s',R_{t}=r|S_{t-1}=s,A_{t-1}=a)

Вот краткое изложение:

Process(s0,s1,s2,...,st,...)  with  P(stst1,...,s0)Markov Process(s0,s1,s2,...,st,...)  with  P(stst1,...,s0)=P(stst1)Markov Process(s0,r0,s1,r1,s2,r2,...,st,rt,...)  with  P(stst1,...,s0)=P(stst1)Markov Decision Process(s0,a0,r0,s1,a1,r1,...,st,at,rt,...)  with  P(stst1,...,a0,,s0)=P(stst1,at1)\begin{aligned} &\text{Process} \\ &\quad(s_0,s_1,s_2,...,s_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)\\ &{\text{Markov Process}}\\ &\quad(s_0,s_1,s_2,...,s_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)=P(s_t|s_{t-1})\\ &\text{Markov Process}\\ &\quad(s_0,r_0,s_1,r_1,s_2,r_2,...,s_t,r_t,...)\;\text{with}\; P(s_t|s_{t-1},...,s_0)=P(s_t|s_{t-1})\\ &\text{Markov Decision Process}\\ &\quad(s_0,a_0,r_0,s_1,a_1,r_1,...,s_t,a_t,r_t,...)\;\text{with}\; P(s_t|s_{t-1},...,a_0,,s_0)=P(s_t|s_{t-1},a_{t-1})\\ \end{aligned}

Приведенное выше уравнение вероятности показывает, что в MDPst,rtс_т, р_тВероятность каждого возможного значения зависит только от предыдущего состояния и действия.st1,at1с_{т-1}, а_{т-1}, независимо от предыдущих состояний и действий. Это состояние также называют марковским свойством.

Для непрерывных задач определите G как взвешенную сумму вознаграждений:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1=Rt+1+γGt+1\begin{aligned} G_t=&R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...=\sum_{k=0}^{\infty}\gamma^k R_{t+k+1}\\ =&R_{t+1}+\gamma G_{t+1} \end{aligned}

γ\gammaназывается коэффициентом дисконтирования.

Фактическое общее вознаграждениеGtG_tпо-прежнему конечно, потому что до тех пор, пока вознаграждение является отличной от нуля константой иγ>1\gamma>1, общая наградаGtG_tЕго можно сходиться, например, когда вознаграждение является константой 1, его можно выразить как

Gt=k=0γk=11γG_t=\sum_{k=0}^{\infty}\gamma^k=\dfrac{1}{1-\gamma}

Функция значения состояния и функция значения действия

Политика — это отображение состояния в вероятность выбора каждого действия, то есть случайная функция выбора действия агентом. использоватьчисло Пи\piВыражать.число Пи\piиssсвязан.число Пи(as)\pi(a|s)представляет вероятность выбора действия a в состоянии s,число Пи(s)\pi(s)Оно относится к функции плотности вероятности в данном состоянии (то есть в данный момент).число Пи(s)\pi(s)это функция,число Пи(as)\pi(a|s)является конкретным значением вероятности.

Функции ценности состояний при разных стратегиях различны, поэтому мы используемvчисло Пи(s)v_{\pi}(s)стратегия презентациичисло Пи\piнерабочее состояниеssфункция стоимости. Ценность, полученная при выполнении разных действий в одном и том же состоянии одной и той же стратегии, также различна, поэтому используйтеqчисло Пи(s,a)q_{\pi}(s,a)стратегия презентациичисло Пи\piнерабочее состояниеssдействоватьaaфункция стоимости.vчисло Пиv_{\pi}также известный как стратегиячисло Пи\piФункция значения состояния ,qчисло Пиq_{\pi}также известный как стратегиячисло Пи\piфункция действия-ценности. Вероятность совершения одного и того же действия при разных стратегиях может быть разной.

для всех штатовss, значение текущего состояния состоит в том, чтобы начать с состояния s, учитывая стратегиючисло Пи\pi, вероятностное ожидаемое значение вознаграждения, полученного агентом, выполняющим действие в соответствии с текущей политикой. Ожидание здесь потому, что отssперейти к следующему состояниюs's', предпринимайте различные действия, чтобы ввести разныеs's', награды получаются тоже разные, поэтому для всех возможныхs's'Спросите об ожиданиях.

vчисло Пи(s)=Eчисло Пи[Gt    St=s]=Eчисло Пи[t=0γkRt+k+1    St=s]\begin{aligned} v_{\pi}(s)=& E_{\pi}[G_t\;|\;S_t=s]= E_{\pi}[\sum_{t=0}^{\infty}\gamma^k R_{t+k+1}\;|\;S_t=s] \end{aligned}

Аналогично, для функции ценности действияqчисло Пиq_{\pi}, то есть при заданной стратегиичисло Пи\pi, после выполнения действия а, поскольку вознаграждения, генерируемые различными средами действия, могут быть разными, необходимо получить ожидания для вознаграждений всех возможных последовательностей решений, мы имеем

qчисло Пи(s,a)=Eчисло Пи[Gt    St=s,At=a]=Eчисло Пи[t=0γkRt+k+1    St=s,At=a]\begin{aligned} q_{\pi}(s,a)=& E_{\pi}[G_t\;|\;S_t=s,A_t=a]= E_{\pi}[\sum_{t=0}^{\infty}\gamma^k R_{t+k+1}\;|\;S_t=s,A_t=a] \end{aligned}

Сопоставив рисунок, чтобы понять, видно, что,vчисло Пиv_{\pi}ожидание вознаграждения от штата к штату,qчисло Пиq_{\pi}это ожидание вознаграждения от действия к действию. в то время как вероятностьppЭто определяется средой, поэтому мы можем только оптимизировать стратегию.2021_7_1.jpg

На самом деле найти не сложноvчисло Пиv_{\pi}иqчисло Пиq_{\pi}Существуют следующие отношения:

vчисло Пи(s)=EaA(s)[qчисло Пи(s,a)]=aчисло Пи(as)qчисло Пи(s,a)v_{\pi}(s)=E_{a\sim A(s)}[ q_{\pi}(s,a)]=\sum_a \pi(a|s) q_{\pi}(s,a)

Формула наблюдения показывает, что значение состояния равно значению всех возможных действий в этом состоянии, умноженному на математическое ожидание вероятности выбора возможного действия при текущей политике. Ценность действия зависит от ожидаемого значения последующего вознаграждения и ожидаемого значения суммы оставшихся вознаграждений.

фактическиqчисло Пи(s,a)q_{\pi}(s,a)Это также может быть записано как:

qчисло Пи(s,a)=E[Rt+1+γvчисло Пи(St+1)    St=s,At=a]=s',rp(s',rs,a)[r+γvчисло Пи(s')]q_{\pi}(s,a)=E[R_{t+1}+\gamma \cdot v_{\pi}(S_{t+1})\;|\;S_t=s,A_t=a] =\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]

Далее, для любой стратегиичисло Пи\piи любое состояниеss, мы можем получить, состояниеssТекущее значение и его возможные последующие состоянияs's'Отношения между:

vчисло Пи(s)=Eчисло Пи[Rt+1+γGt+1    St=s]=aчисло Пи(as)s'rp(s',rs,a)[r+γEчисло Пи[Gt+1    St+1=s']=aчисло Пи(as)s',rp(s',rs,a)[r+γvчисло Пи(s')]\begin{aligned} v_{\pi}(s) =& E_{\pi}[R_{t+1}+\gamma G_{t+1}\;|\;S_t=s] \\ =&\sum_a \pi(a|s)\sum_{s'}\sum_{r}p(s',r|s,a)[r+\gamma E_{\pi}[G_{t+1}\;|\;S_{t+1}=s'] \\ =&\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')] \\ \end{aligned}

Это уравнение также называютУравнение Беллмана(уравнение Беллмана). так какppявляется функцией плотности вероятности, поэтому последний член на самом деле является ожидаемым значением, которое равноqчисло Пиq_{\pi}.

Оптимальное уравнение Беллмана

Как вывести?

Мы знаем, что уравнение Беллмана на самом деле является рекурсивной формой функции значения состояния:

vчисло Пи(s)=aчисло Пи(as)s',rp(s',rs,a)[r+γvчисло Пи(s')]v_{\pi}(s)=\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]

Как найти лучшую стратегию?

Фактически оптимальная стратегия (обозначается какчисло Пи*\pi_*) может быть больше одного, но они должны иметь общую функцию значения оптимального действия и функцию значения состояния, поэтому существуют:

v*(s)=maxчисло Пиvчисло Пи(s)q*(s,a)=maxчисло Пиqчисло Пи(s,a)v_*(s)=\max_{\pi} v_{\pi}(s) \\ q_*(s,a)=\max_{\pi} q_{\pi}(s,a)

При оптимальной стратегии значение каждого состояния должно быть равно ожидаемому вознаграждению за оптимальное действие в этом состоянии (поскольку стратегия определена), есть:

v*(s)=maxaеA(s)qчисло Пи*(s,a)=maxaEчисло Пи*[GtSt=s,At=a]=maxaEчисло Пи*[Rt+1+γGt+1St=s,At=a]=maxaE[Rt+1+γv*(St+1)St=s,At=a]=maxas',rp(s',rs,a)[r+γv*(s')]\begin{aligned} v_*(s)=&\max_{a\in A(s)} q_{\pi_*}(s,a) \\ =&\max_a E_{\pi_*}[G_t|S_t=s,A_t=a] \\ =&\max_a E_{\pi_*}[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a] \\ =&\max_a E[R_{t+1}+\gamma v_*(S_{t+1})|S_t=s,A_t=a] \\ =&\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')] \end{aligned}

Это уравнение оптимальности Беллмана для функции значения состояния.

Для функции ценности действия оптимальное уравнение Беллмана выглядит следующим образом:

q*(s,a)=E[Rt+1+γmaxa'q*(St+1,a')    St=s,At=a]=s',rp(s',rs,a)[r+γmaxa'q*(s',a')]\begin{aligned} q_{*}(s,a)=&E[R_{t+1}+\gamma \max_{a'}q_*(S_{t+1},a')\;|\;S_t=s,A_t=a] \\ =& \sum_{s',r}p(s',r|s,a)[r+\gamma \max_{a'}q_*(s',a')] \end{aligned}

Ссылаться на

  1. Саттон Барто Обучение с подкреплением (второе издание)