- Тема эссе: Повторяющиеся модели мира способствуют развитию политики
Проблема решена?
Изучите политику из модели мира и перенесите ее в реальный мир.
задний план
Люди обычно строят свои собственные когнитивные модели мира на основе своих собственных сенсорных данных. Например, глядя на одну и ту же картину, у разных людей могут возникать разные абстрактные представления, и это понимание связано с установившимся у него ранее мировоззрением. Это осознание мира может помочь нам быстро реагировать на проблемы или опасности.
Используемый метод?
Автор делает это, комбинируя методы RNN и вероятностного моделирования. Алгоритмы обучения с подкреплением на основе моделей могли достигать лучших результатов и раньше, но многие из них все еще обучаются в реальных условиях. Автор предлагает политику, которая учится на сгенерированной модели мира и переносит ее в реальную среду.
VAE используется для сжатия информации для получения скрытого вектора. RNN используется для вывода функции плотности вероятности(сделанный смесью гауссовых моделей). Моделирование RNN выражается как
, конкретная зависимость показана на рисунке выше. Стратегия эволюции адаптации ковариационной матрицы (CMA-ES) для контроллеров.
В общем, он основан на наблюдаемых скрытых переменных, предсказании скрытых переменных предыдущего кадра и действии по предсказанию скрытых переменных следующего кадра. Затем скрытая переменная текущего состояния и скрытая переменная прогнозируемого состояния совместно решают, какое действие выбрать.
Здесь автор ожидает, что RNN сможет изучить основные законы скрытых переменных и данных взаимодействия действий после кодирования среды (поскольку выходные данные RNN содержат всю предыдущую историческую информацию), а затем использовать ее для помощи в принятии решений. . И VAE, и RNN можно обучать без информации о вознаграждении, а только с данными о взаимодействии.
Причина этого заключается в том, чтобы сначала выполнить извлечение признаков из информации об окружающей среде, а затем использовать извлеченные признаки для обучения получению политики.Обучение выполнению политики будет быстрее.
Достигнутый эффект?
Оценка агента, основанная на извлеченных вручную функциях, составляет 632 балла модели V вверх и вниз.
Опубликованная информация? Информация об авторе?
Дэвид Ха, член Google Brain, в основном занимается исследованиями машинного интеллекта.
Другие справочные ссылки
- Введение на официальном сайте:worldmodels.github.io/