[Анализ статей о природе] Модель AlphaGo Zero

обучение с подкреплением
  • Тема эссе: Овладение навыками игры в Atari, го, шахматы и сёги путем планирования с использованием изученной модели.

Проблема решена?

  ПланированиеplanningВ области исследований искусственного интеллекта люди всегда были трудной задачей.Алгоритмы планирования на основе дерева, такие какAlphaGoТакие алгоритмы достигли больших успехов, однако алгоритмы планирования на основе древовидной модели требуют идеальной модели окружающей среды, условие, которое трудно удовлетворить в реальном мире.

задний план

  Методы обучения с подкреплением на основе моделей сначала изучают модель среды, а затем планируют на основе изученной модели среды решение проблем, которые не могут слишком сильно взаимодействовать в реальной среде. В прошлом классические алгоритмы планирования часто опирались на модель управляемого объекта, что являлось большим препятствием для фактической реализации. Разрабатываемые в настоящее время алгоритмы обучения с подкреплением на основе моделей не фокусируются на реконструкции всей среды, то есть, как правило, они не реконструируют всю последовательность наблюдений. рисунокabstract mdpиlatent spaceЭти методы могут быть более эффективными для оценки функции ценности.

Используемый метод?

  MuZeroоснован наAlphaZeroулучшенная версия .MuZeroрасширятьAlphaZeroк единому агентскому домену и управлять объектами с бессрочными вознаграждениями.

Основная идея алгоритма    — предсказывать будущее,В основном прогнозирование данных, которые можно напрямую использовать для планирования будущего., такие как функция ценности, которая предсказывает будущее. Планирование может быть выполнено на основе данных прогноза.

  • Алгоритм MuZero

  Конкретный метод: модель берет наблюдение (например, кадр пикселей из игры) и кодирует его в скрытое пространство состояний. Скрытое пространство состояний можно изучать и тренировать в заданном действии и авторегрессивным образом.На каждом этапе модель должна генерировать (или прогнозировать) политику, функцию ценности (прогнозируемое кумулятивное вознаграждение) и прогнозирование немедленного вознаграждения (прогнозирование вознаграждения для текущего шага).. Модель обучается напрямую end-to-end, и автор здесь ее не используетdreamerиplanetМетод обучения модели среды предполагает, что модель не обязательно имеет возможность восстановления исходного пикселя из скрытого состояния.Пока скрытое состояние может правильно оценить политику, функцию ценности и немедленное вознаграждение.

![](IMG-блог.CSDN IMG.Can/20210117160… =700x)

Как показано на фиг.:Рисунок а: 1. Учитывая скрытое состояниеsk1s^{k-1}и действие-кандидатaka^{k}, динамическая модельggНеобходимо создать мгновенное вознаграждениеrkr^{k}и новое скрытое состояниеsks^{k}. 2. Стратегияpkp^{k}и функция значенияvkv^{k}по функции прогнозированияffвведяsks^{k}Рассчитаноvk=fθ(sk)v^{k}=f_{\theta}\left(s^{k}\right). действиеat+1a_{t+1}из стратегии поискачисло Пиt\pi_{t}проба в. начальное состояниеs0s_{0}является входом в функцию представления из прошлых наблюденийhh, например, вход на пустую шахматную доску.Рисунок б:действиеat+1a_{t+1}по стратегии поискачисло Пиt\pi_{t}производить. Новое наблюдение генерируется после того, как среда получает действиеot+1o_{t+1}и мгновенные наградыut+1u_{t+1}.Рисунок с: MuZero обучает всю модель, основываясь на двух шагах a и b, мы почти можем отобрать некоторые данные. С помощью этих данных вы можете обучить модель: модель политикиpkчисло Пиt+kp^{k} \approx \pi_{t+k}; функция значенияvkzt+kv^{k} \approx z_{t+k}; и модель вознагражденияrk=ut+kr^{k} = \approx u_{t+k}.

   задан временной шагtt, за каждый шагk=0,,Kk=0,\cdots,Kшаг, один сθ\thetaпараметрическая модельмюθ\mu_{\theta}, на основе данных прошлых условий данных наблюденийo1,,oto_{1}, \cdots,o_{t}и будущие действияat+1,,at+ka_{t+1}, \cdots, a_{t+k}K>0K>0) для предсказания будущего:

Стратегия

ptkчисло Пи(at+k+1o1,,ot,at+1,,at+k)p_{t}^{k} \approx \pi\left(a_{t+k+1} \mid o_{1}, \ldots, o_{t}, a_{t+1}, \ldots, a_{t+k}\right)

   функция значения

vtkE[ut+k+1+γut+k+2+o1,,ot,at+1,,at+k]v_{t}^{k} \approx \mathbb{E}\left[u_{t+k+1}+\gamma u_{t+k+2}+\ldots \mid o_{1}, \ldots, o_{t}, a_{t+1}, \ldots, a_{t+k}\right]

   Мгновенные награды

rtkut+kr_{t}^{k} \approx u_{t+k}

вuuнастоящая награда за наблюдение,число Пи\piэто стратегия,γ\gammaявляется коэффициентом дисконтирования.

  Грубо говоря, это получение данных прошлых наблюдений, кодирование их в текущее скрытое состояние, а затем задание будущих действий, а затем планирование в пространстве скрытых состояний..

  1. Для достижения вышеуказанных функций, таких как алгоритмы на основе моделей, есть два шага: изучение моделей окружающей среды и стратегическое планирование.

Что должна обеспечить модель среды   , так это: 1. Переход состояния 2. Действия, которые каждый узел позволяет выполнять поиск (уменьшение пространства поиска) 3. Узел завершения. Просто сделайте это с помощью нейронной сети Модель среды фактически состоит из двух частей: модели представления и динамической модели.gθg_{\theta}:

rk,sk=gθ(sk1,ak)r^{\mathrm{k}}, s^{k}=g_{\theta}\left(s^{k-1}, a^{k}\right)

   представляет собой функциюhθh_{\theta}Кодировать прошлые наблюденияs0=hθ(o1,,ot)s^{0}=h_{\theta}\left(o_{1}, \ldots, o_{t}\right), получить текущий корневой узелs0s^{0}. Учитывая такую ​​модель, для будущей гипотетической траекторииa1,,aka^{1}, \ldots, a^{k}, и учитывая прошлые наблюденияo1,,oto_{1}, \ldots, o_{t}.

  1. стратегия используется сAlphaGo Zeroто жеMCTSстратегия, нужно искать стратегиючисло Пиt=P[at+1o1,,ot]\pi_{t}=\mathrm{P}\left[a_{t+1} \mid o_{1}, \ldots, o_{t}\right]и функция ценностиvt=E[ut+1+γut+2+o1,,ot]v_{t} = \mathbb{E} \left[u_{t+1}+\gamma u_{t+2}+\ldots \mid o_{1}, \ldots, o_{t}\right].lossсостоит из трех частей: стратегии, ценности и вознаграждения.lossсочинение:

lt(θ)=k=0Klp(число Пиt+k,ptk)+k=0Klv(zt+k,vtk)+k=1Klr(ut+k,rtk)+cθ2l_{t}(\theta)=\sum_{k=0}^{K} l^{\mathrm{p}}\left(\pi_{t+k}, p_{t}^{k}\right)+\sum_{k=0}^{K} l^{\mathrm{v}}\left(z_{t+k}, v_{t}^{k}\right)+\sum_{k=1}^{K} l^{\mathrm{r}}\left(u_{t+k}, r_{t}^{k}\right)+c\|\theta\|^{2}

Достигнутый эффект?

  • Результаты эксперимента поразительны!

Опубликованная информация? Информация об авторе?

Julian Schrittwieser

  Julian SchrittwieserИнженер-программист Google Brain!AlphaGoиAlphaZero члены команды проекта.