[CoRL 2018] Алгоритм MBRL, оптимизированный с помощью метаполитики

обучение с подкреплением
  • Тема эссе: Обучение с подкреплением на основе моделей посредством оптимизации метаполитики

作者及标题信息截图

Проблема решена?

   предлагает метод, не зависящий отlearned dynamic modelАлгоритм обучения точности Модельно-ориентированная метаполитика-оптимизация (MB-MPO). Точно так же можно использовать метод emsemble для интеграции изученной модели, а затем использовать метод метаобучения для изучения политики, чтобы он мог лучше обучать любую модель. В конечном счете, алгоритм более надежен.

задний план

Большая часть метода на основе модели до того, как образец траектории и динамической модели тренируется эти два этапа. Использование этих методов байесовских нейронных сетей. Методы Bayesian обычно используются для низкоразмерных пространств, хотя нейронная сеть обладает потенциалом для высокоразмерного пространства, но в значительной степени будет зависеть от точности прогнозов модели для достижения лучших результатов.

Существуют также предыдущие работы по решению проблемы неточного обучения модели, Наиболее похожим на эту статью является алгоритм EM-TRPO, и в этой статье используется алгоритм метаобучения, который относится к усилению надежности модели в случае неточность.

Используемый метод?

Model Learning

   При изучении модели автор узнает величину изменения состояния. Одношаговое предсказание используется:

\min _{\boldsymbol{\phi}_{k}} \frac{1}{\left|\mathcal{D}_{k}\right|} \sum_{\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \boldsymbol{s}_{t+1}\right) \in \mathcal{D}_{k}}\left\|\boldsymbol{s}_{t+1}-\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right\|_{2}^{2}

   Во избежание переобучения автор принимает следующие три пункта:

  1. досрочное прекращение обучения из-за потери валидации;
  2. нормализация входов и выходов нейронной сети;
  3. weight normalization
  • T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.

Meta-Reinforcement Learningon Learned Models

  Каждая задача представляет собой различное представление о том, какой может быть динамика в реальной среде.Цель оптимизации:

\max _{\boldsymbol{\theta}} \frac{1}{K} \sum_{k=0}^{K} J_{k}\left(\boldsymbol{\theta}_{k}^{\prime}\right) \quad \text { s.t.: } \quad \boldsymbol{\theta}_{k}^{\prime}=\boldsymbol{\theta}+\alpha \nabla_{\boldsymbol{\theta}} J_{k}(\boldsymbol{\theta})

вJ_{k}(\boldsymbol{\theta})Указывает стратегию\pi_{\boldsymbol{\theta}}и предполагаемая динамическая модель\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)ожидаемое возвращение.

J_{k}(\boldsymbol{\theta})=\mathbb{E}_{\boldsymbol{a}_{t} \sim \pi_{\boldsymbol{\theta}}\left(\boldsymbol{a}_{t} | \boldsymbol{s}_{t}\right)}\left[\sum_{t=0}^{H-1} r\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right) | \boldsymbol{s}_{t+1}=\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right]

MB-MPO

  Вот прямое обучение настройке\theta, вместо обучения политике по данным обученной модели, что также является отличием от ME-TRPO.

Достигнутый эффект?

  Сравнение с безмодельным алгоритмом:

与Model-Free算法对比

  Сравнение с алгоритмом на основе модели:

与Model-Based方法对比

  Автор также провел несколько экспериментов для сравнения с алгоритмом MR-TRPO.Если вам интересно, вы можете обратиться к исходному тексту.

Опубликованная информация? Информация об авторе?

  Игнаси Клавера — аспирант третьего курса факультета компьютерных наук Калифорнийского университета в Беркли, наставником которого является Питер Аббил из Лаборатории исследований искусственного интеллекта Беркли (BAIR). Исследования находятся на стыке машинного обучения и управления и направлены на то, чтобы роботизированные системы научились эффективно выполнять сложные задачи.

Ignasi Clavera

Ссылка на ссылку