[Анализ статей о природе] Модель AlphaGo Zero

Тема эссе: Овладение навыками игры в Atari, го, шахматы и сёги путем планирования с использованием изученной модели.

Проблема решена?

ПланированиеplanningВ области исследований искусственного интеллекта люди всегда были трудной задачей.Алгоритмы планирования на основе дерева, такие какAlphaGoТакие алгоритмы достигли больших успехов, однако алгоритмы планирования на основе древовидной модели требуют идеальной модели окружающей среды, условие, которое трудно удовлетворить в реальном мире.

задний план

Методы обучения с подкреплением на основе моделей сначала изучают модель среды, а затем планируют на основе изученной модели среды решение проблем, которые не могут слишком сильно взаимодействовать в реальной среде. В прошлом классические алгоритмы планирования часто опирались на модель управляемого объекта, что являлось большим препятствием для фактической реализации. Разрабатываемые в настоящее время алгоритмы обучения с подкреплением на основе моделей не фокусируются на реконструкции всей среды, то есть, как правило, они не реконструируют всю последовательность наблюдений. рисунокabstract mdpиlatent spaceЭти методы могут быть более эффективными для оценки функции ценности.

Используемый метод?

MuZeroоснован наAlphaZeroулучшенная версия .MuZeroрасширятьAlphaZeroк единому агентскому домену и управлять объектами с бессрочными вознаграждениями.

Основная идея алгоритма — предсказывать будущее,В основном прогнозирование данных, которые можно напрямую использовать для планирования будущего., такие как функция ценности, которая предсказывает будущее. Планирование может быть выполнено на основе данных прогноза.

Алгоритм MuZero

Конкретный метод: модель берет наблюдение (например, кадр пикселей из игры) и кодирует его в скрытое пространство состояний. Скрытое пространство состояний можно изучать и тренировать в заданном действии и авторегрессивным образом.На каждом этапе модель должна генерировать (или прогнозировать) политику, функцию ценности (прогнозируемое кумулятивное вознаграждение) и прогнозирование немедленного вознаграждения (прогнозирование вознаграждения для текущего шага).. Модель обучается напрямую end-to-end, и автор здесь ее не используетdreamerиplanetМетод обучения модели среды предполагает, что модель не обязательно имеет возможность восстановления исходного пикселя из скрытого состояния.Пока скрытое состояние может правильно оценить политику, функцию ценности и немедленное вознаграждение.

![](IMG-блог.CSDN IMG.Can/20210117160… =700x)

Как показано на фиг.:Рисунок а: 1. Учитывая скрытое состояние $s^{k-1}$ и действие-кандидат $a^{k}$ , динамическая модель $g$ Необходимо создать мгновенное вознаграждение $r^{k}$ и новое скрытое состояние $s^{k}$ . 2. Стратегия $p^{k}$ и функция значения $v^{k}$ по функции прогнозирования $f$ введя $s^{k}$ Рассчитано $v^{k}=f_{\theta}\left(s^{k}\right)$ . действие $a_{t+1}$ из стратегии поиска $\pi_{t}$ проба в. начальное состояние $s_{0}$ является входом в функцию представления из прошлых наблюдений $h$ , например, вход на пустую шахматную доску.Рисунок б:действие $a_{t+1}$ по стратегии поиска $\pi_{t}$ производить. Новое наблюдение генерируется после того, как среда получает действие $o_{t+1}$ и мгновенные награды $u_{t+1}$ .Рисунок с: MuZero обучает всю модель, основываясь на двух шагах a и b, мы почти можем отобрать некоторые данные. С помощью этих данных вы можете обучить модель: модель политики $p^{k} \approx \pi_{t+k}$ ; функция значения $v^{k} \approx z_{t+k}$ ; и модель вознаграждения $r^{k} = \approx u_{t+k}$ .

задан временной шаг $t$ , за каждый шаг $k=0,\cdots,K$ шаг, один с $\theta$ параметрическая модель $\mu_{\theta}$ , на основе данных прошлых условий данных наблюдений $o_{1}, \cdots,o_{t}$ и будущие действия $a_{t+1}, \cdots, a_{t+k}$ (в $K>0$ ) для предсказания будущего:

Стратегия

$p_{t}^{k} \approx \pi\left(a_{t+k+1} \mid o_{1}, \ldots, o_{t}, a_{t+1}, \ldots, a_{t+k}\right)$

функция значения

$v_{t}^{k} \approx \mathbb{E}\left[u_{t+k+1}+\gamma u_{t+k+2}+\ldots \mid o_{1}, \ldots, o_{t}, a_{t+1}, \ldots, a_{t+k}\right]$

Мгновенные награды

$r_{t}^{k} \approx u_{t+k}$

в $u$ настоящая награда за наблюдение, $\pi$ это стратегия, $\gamma$ является коэффициентом дисконтирования.

Грубо говоря, это получение данных прошлых наблюдений, кодирование их в текущее скрытое состояние, а затем задание будущих действий, а затем планирование в пространстве скрытых состояний..

Для достижения вышеуказанных функций, таких как алгоритмы на основе моделей, есть два шага: изучение моделей окружающей среды и стратегическое планирование.

Что должна обеспечить модель среды , так это: 1. Переход состояния 2. Действия, которые каждый узел позволяет выполнять поиск (уменьшение пространства поиска) 3. Узел завершения. Просто сделайте это с помощью нейронной сети Модель среды фактически состоит из двух частей: модели представления и динамической модели. $g_{\theta}$ :

$r^{\mathrm{k}}, s^{k}=g_{\theta}\left(s^{k-1}, a^{k}\right)$

представляет собой функцию $h_{\theta}$ Кодировать прошлые наблюдения $s^{0}=h_{\theta}\left(o_{1}, \ldots, o_{t}\right)$ , получить текущий корневой узел $s^{0}$ . Учитывая такую модель, для будущей гипотетической траектории $a^{1}, \ldots, a^{k}$ , и учитывая прошлые наблюдения $o_{1}, \ldots, o_{t}$ .

стратегия используется сAlphaGo Zeroто жеMCTSстратегия, нужно искать стратегию $\pi_{t}=\mathrm{P}\left[a_{t+1} \mid o_{1}, \ldots, o_{t}\right]$ и функция ценности $v_{t} = \mathbb{E} \left[u_{t+1}+\gamma u_{t+2}+\ldots \mid o_{1}, \ldots, o_{t}\right]$ .lossсостоит из трех частей: стратегии, ценности и вознаграждения.lossсочинение:

$l_{t}(\theta)=\sum_{k=0}^{K} l^{\mathrm{p}}\left(\pi_{t+k}, p_{t}^{k}\right)+\sum_{k=0}^{K} l^{\mathrm{v}}\left(z_{t+k}, v_{t}^{k}\right)+\sum_{k=1}^{K} l^{\mathrm{r}}\left(u_{t+k}, r_{t}^{k}\right)+c\|\theta\|^{2}$

Достигнутый эффект?

Результаты эксперимента поразительны!

Опубликованная информация? Информация об авторе?

Julian Schrittwieser

Julian SchrittwieserИнженер-программист Google Brain!AlphaGoиAlphaZero члены команды проекта.