- Тема эссе:model-ensemble оптимизация политик trust-region
Проблема решена?
Безмодельный подход имеет высокую сложность выборки, что затрудняет его использование в реальном мире. Используйте ансамбль, чтобы преодолеть предвзятость модели.
задний план
Стандартный подход на основе моделей заключается в взаимозаменяемом использовании обучения модели и оптимизации политики. Обучение модели обычно использует данные взаимодействия между агентом и средой для контролируемого обучения, а часть оптимизации стратегии основана на изученной модели для поиска улучшения стратегии. Этот класс алгоритмов называется RL на основе ванильных моделей. Такие алгоритмы требуют достаточно данных для изучения модели.Чем точнее изучена модель, тем лучше стратегия оптимизации и выше производительность в реальном мире.
Ванильное RL на основе моделей хорошо работает на относительно простых задачах низкой размерности, но плохо работает на задачах непрерывного управления и очень нестабильно. Причина в том, что оптимизация политики имеет тенденцию использовать регионы, в которых недостаточно данных для обучения модели, что приводит к катастрофическим сбоям.Этот тип проблемы называется смещением модели, или его также можно считать переоснащением. Чтобы решить проблему переоснащения, вы, конечно, можете искать вдохновение в алгоритмах обучения с учителем, таких как регуляризация или перекрестная проверка, Данные, обработанные такими алгоритмами, удовлетворяют независимому и идентичному распределению, в то время как данные в алгоритмах обучения с подкреплением на основе моделей мало, а модели неточны. Если внедрение выразительных моделей, таких как нейронные сети, только ухудшит результаты.
Модельные методы наиболее широко используются в области робототехники. Лучшим методом является метод линейной модели. Однако этот метод не эффективен для сложных нелинейных систем или многомерных систем в пространстве состояний. Другим подходом является непараметрический метод гауссовых процессов (ГП), который имеет проблему проклятия размерности и в настоящее время в основном используется в низкоразмерных пространствах.
Хотя есть некоторые методы обучения с подкреплением на основе моделей, основанные на нейронных сетях, эффект не очень хороший. Для некоторых сложных объектов управления это обычно сочетается с безмодельными методами обучения с подкреплением или с алгоритмами обучения и планирования, специфичными для предметной области.
используемый метод
Оригинальный метод MBRL:
Автор использует ансамблевую нейронную сеть, чтобы справиться с неопределенностью данных в окружающей среде. На самом деле, грубо говоря, обучение модели происходит с помощью встроенной нейронной сети. Выполнение обучения модели и изучения политики попеременно может решать более сложные задачи по сравнению с методом обучения модели с фиксированным набором данных.
В этой статье предполагается, что функция вознаграждения известна, а вероятность перехода состояния неизвестна, поэтому функция вознаграждения не изучена.
Model Learning
В процессе обучения модели автор использует нейронную сеть для прогнозирования величины изменения состояния, а не для прогнозирования следующего состояния. Это освобождает нейронную сеть от необходимости запоминать состояние ввода. Этот подход более эффективен, когда верхние и нижние изменения состояния малы. Его функция потерь выглядит следующим образом:
Policy Learning
Цели Policy Learning:
вЭто означает, что модель использует изученную модель.
ME-TRPO
Достигнутый эффект?
Обучающий эффект стратегии более надежен, и лучше избегать переобучения. Достигается тот же результат, что и безмодельный алгоритм SOTA.
Опубликованная информация? Информация об авторе?
Статья из Беркли, первый автор Танард Курутах, доктор наук в области исследований искусственного интеллекта (BAIR) Калифорнийского университета в Беркли, под совместным руководством профессоров Стюарта Рассела и профессора Питера Аббеля. Интерес вызывает разработка алгоритмов, позволяющих роботам эффективно решать сложные задачи принятия решений посредством обучения и планирования.
Домашняя страница:people.ee CS.Berkeley.Amount/~чем AR's.Cry...
другие ссылки
- Videos available at: сайты.Google.com/view/what-inputs….
- Code available at: GitHub.com/чем AR/что-….