- Тема эссе: Обучение с подкреплением на основе моделей посредством оптимизации метаполитики
Проблема решена?
предлагает метод, не зависящий отlearned dynamic model
Алгоритм обучения точности Модельно-ориентированная метаполитика-оптимизация (MB-MPO). Точно так же можно использовать метод emsemble для интеграции изученной модели, а затем использовать метод метаобучения для изучения политики, чтобы он мог лучше обучать любую модель. В конечном счете, алгоритм более надежен.
задний план
Большая часть метода на основе модели до того, как образец траектории и динамической модели тренируется эти два этапа. Использование этих методов байесовских нейронных сетей. Методы Bayesian обычно используются для низкоразмерных пространств, хотя нейронная сеть обладает потенциалом для высокоразмерного пространства, но в значительной степени будет зависеть от точности прогнозов модели для достижения лучших результатов.
Существуют также предыдущие работы по решению проблемы неточного обучения модели, Наиболее похожим на эту статью является алгоритм EM-TRPO, и в этой статье используется алгоритм метаобучения, который относится к усилению надежности модели в случае неточность.
Используемый метод?
Model Learning
При изучении модели автор узнает величину изменения состояния. Одношаговое предсказание используется:
Во избежание переобучения автор принимает следующие три пункта:
- досрочное прекращение обучения из-за потери валидации;
- нормализация входов и выходов нейронной сети;
- weight normalization
- T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.
Meta-Reinforcement Learningon Learned Models
Каждая задача представляет собой различное представление о том, какой может быть динамика в реальной среде.Цель оптимизации:
вУказывает стратегию
и предполагаемая динамическая модель
ожидаемое возвращение.
Вот прямое обучение настройке, вместо обучения политике по данным обученной модели, что также является отличием от ME-TRPO.
Достигнутый эффект?
Сравнение с безмодельным алгоритмом:
Сравнение с алгоритмом на основе модели:
Автор также провел несколько экспериментов для сравнения с алгоритмом MR-TRPO.Если вам интересно, вы можете обратиться к исходному тексту.
Опубликованная информация? Информация об авторе?
Игнаси Клавера — аспирант третьего курса факультета компьютерных наук Калифорнийского университета в Беркли, наставником которого является Питер Аббил из Лаборатории исследований искусственного интеллекта Беркли (BAIR). Исследования находятся на стыке машинного обучения и управления и направлены на то, чтобы роботизированные системы научились эффективно выполнять сложные задачи.
Ссылка на ссылку
- Официальное введение:sites.google.com/view/mb-mpo
- ссылка на код:GitHub.com/Джонас Рот Рич…