- Тема эссе: Овладение навыками игры в Atari, го, шахматы и сёги путем планирования с использованием изученной модели.
Проблема решена?
Планированиеplanning
В области исследований искусственного интеллекта люди всегда были трудной задачей.Алгоритмы планирования на основе дерева, такие какAlphaGo
Такие алгоритмы достигли больших успехов, однако алгоритмы планирования на основе древовидной модели требуют идеальной модели окружающей среды, условие, которое трудно удовлетворить в реальном мире.
задний план
Методы обучения с подкреплением на основе моделей сначала изучают модель среды, а затем планируют на основе изученной модели среды решение проблем, которые не могут слишком сильно взаимодействовать в реальной среде. В прошлом классические алгоритмы планирования часто опирались на модель управляемого объекта, что являлось большим препятствием для фактической реализации. Разрабатываемые в настоящее время алгоритмы обучения с подкреплением на основе моделей не фокусируются на реконструкции всей среды, то есть, как правило, они не реконструируют всю последовательность наблюдений. рисунокabstract mdp
иlatent space
Эти методы могут быть более эффективными для оценки функции ценности.
Используемый метод?
MuZero
основан наAlphaZero
улучшенная версия .MuZero
расширятьAlphaZero
к единому агентскому домену и управлять объектами с бессрочными вознаграждениями.
Основная идея алгоритма — предсказывать будущее,В основном прогнозирование данных, которые можно напрямую использовать для планирования будущего., такие как функция ценности, которая предсказывает будущее. Планирование может быть выполнено на основе данных прогноза.
- Алгоритм MuZero
Конкретный метод: модель берет наблюдение (например, кадр пикселей из игры) и кодирует его в скрытое пространство состояний. Скрытое пространство состояний можно изучать и тренировать в заданном действии и авторегрессивным образом.На каждом этапе модель должна генерировать (или прогнозировать) политику, функцию ценности (прогнозируемое кумулятивное вознаграждение) и прогнозирование немедленного вознаграждения (прогнозирование вознаграждения для текущего шага).. Модель обучается напрямую end-to-end, и автор здесь ее не используетdreamer
иplanet
Метод обучения модели среды предполагает, что модель не обязательно имеет возможность восстановления исходного пикселя из скрытого состояния.Пока скрытое состояние может правильно оценить политику, функцию ценности и немедленное вознаграждение.

Как показано на фиг.:Рисунок а: 1. Учитывая скрытое состояниеи действие-кандидат, динамическая модельНеобходимо создать мгновенное вознаграждениеи новое скрытое состояние. 2. Стратегияи функция значенияпо функции прогнозированиявведяРассчитано. действиеиз стратегии поискапроба в. начальное состояниеявляется входом в функцию представления из прошлых наблюдений, например, вход на пустую шахматную доску.Рисунок б:действиепо стратегии поискапроизводить. Новое наблюдение генерируется после того, как среда получает действиеи мгновенные награды.Рисунок с: MuZero обучает всю модель, основываясь на двух шагах a и b, мы почти можем отобрать некоторые данные. С помощью этих данных вы можете обучить модель: модель политики; функция значения; и модель вознаграждения.
задан временной шаг, за каждый шагшаг, один спараметрическая модель, на основе данных прошлых условий данных наблюденийи будущие действия(в) для предсказания будущего:
Стратегия
функция значения
Мгновенные награды
внастоящая награда за наблюдение,это стратегия,является коэффициентом дисконтирования.
Грубо говоря, это получение данных прошлых наблюдений, кодирование их в текущее скрытое состояние, а затем задание будущих действий, а затем планирование в пространстве скрытых состояний..
- Для достижения вышеуказанных функций, таких как алгоритмы на основе моделей, есть два шага: изучение моделей окружающей среды и стратегическое планирование.
Что должна обеспечить модель среды , так это: 1. Переход состояния 2. Действия, которые каждый узел позволяет выполнять поиск (уменьшение пространства поиска) 3. Узел завершения. Просто сделайте это с помощью нейронной сети Модель среды фактически состоит из двух частей: модели представления и динамической модели.:
представляет собой функциюКодировать прошлые наблюдения, получить текущий корневой узел. Учитывая такую модель, для будущей гипотетической траектории, и учитывая прошлые наблюдения.
- стратегия используется с
AlphaGo Zero
то жеMCTS
стратегия, нужно искать стратегиюи функция ценности.loss
состоит из трех частей: стратегии, ценности и вознаграждения.loss
сочинение:
Достигнутый эффект?
- Результаты эксперимента поразительны!
Опубликованная информация? Информация об авторе?
Julian Schrittwieser
Инженер-программист Google Brain!AlphaGo
иAlphaZero
члены команды проекта.