[NIPS 2018] Модель повторяющегося мира способствует развитию политики

обучение с подкреплением
  • Тема эссе: Повторяющиеся модели мира способствуют развитию политики

作者及标题信息

Проблема решена?

Изучите политику из модели мира и перенесите ее в реальный мир.

задний план

Люди обычно строят свои собственные когнитивные модели мира на основе своих собственных сенсорных данных. Например, глядя на одну и ту же картину, у разных людей могут возникать разные абстрактные представления, и это понимание связано с установившимся у него ранее мировоззрением. Это осознание мира может помочь нам быстро реагировать на проблемы или опасности.

Используемый метод?

Автор делает это, комбинируя методы RNN и вероятностного моделирования. Алгоритмы обучения с подкреплением на основе моделей могли достигать лучших результатов и раньше, но многие из них все еще обучаются в реальных условиях. Автор предлагает политику, которая учится на сгенерированной модели мира и переносит ее в реальную среду.

Flow diagram showing how V, M, and C interacts with the environment (left).

VAE используется для сжатия информации для получения скрытого вектора. RNN используется для вывода функции плотности вероятностиp(z)(сделанный смесью гауссовых моделей). Моделирование RNN выражается какP(z_{t+1}|a_{t},z_{t},h_{t}), конкретная зависимость показана на рисунке выше. Стратегия эволюции адаптации ковариационной матрицы (CMA-ES) для контроллеров.

В общем, он основан на наблюдаемых скрытых переменных, предсказании скрытых переменных предыдущего кадра и действии по предсказанию скрытых переменных следующего кадра. Затем скрытая переменная текущего состояния и скрытая переменная прогнозируемого состояния совместно решают, какое действие выбрать.

算法流程

Здесь автор ожидает, что RNN сможет изучить основные законы скрытых переменных и данных взаимодействия действий после кодирования среды (поскольку выходные данные RNN содержат всю предыдущую историческую информацию), а затем использовать ее для помощи в принятии решений. . И VAE, и RNN можно обучать без информации о вознаграждении, а только с данными о взаимодействии.

Причина этого заключается в том, чтобы сначала выполнить извлечение признаков из информации об окружающей среде, а затем использовать извлеченные признаки для обучения получению политики.Обучение выполнению политики будет быстрее.

Достигнутый эффект?

实验结果

Оценка агента, основанная на извлеченных вручную функциях, составляет 632 балла модели V вверх и вниз.

实验效果

实验结果

Опубликованная информация? Информация об авторе?

Дэвид Ха, член Google Brain, в основном занимается исследованиями машинного интеллекта.

David Ha

Другие справочные ссылки