- Тема эссе: Повторяющиеся модели мира способствуют развитию политики
Проблема решена?
Изучите политику из модели мира и перенесите ее в реальный мир.
задний план
Люди обычно строят свои собственные когнитивные модели мира на основе своих собственных сенсорных данных. Например, глядя на одну и ту же картину, у разных людей могут возникать разные абстрактные представления, и это понимание связано с установившимся у него ранее мировоззрением. Это осознание мира может помочь нам быстро реагировать на проблемы или опасности.
Используемый метод?
Автор делает это, комбинируя методы RNN и вероятностного моделирования. Алгоритмы обучения с подкреплением на основе моделей могли достигать лучших результатов и раньше, но многие из них все еще обучаются в реальных условиях. Автор предлагает политику, которая учится на сгенерированной модели мира и переносит ее в реальную среду.
VAE используется для сжатия информации для получения скрытого вектора. RNN используется для вывода функции плотности вероятности(сделанный смесью гауссовых моделей). Моделирование RNN выражается как, конкретная зависимость показана на рисунке выше. Стратегия эволюции адаптации ковариационной матрицы (CMA-ES) для контроллеров.
В общем, он основан на наблюдаемых скрытых переменных, предсказании скрытых переменных предыдущего кадра и действии по предсказанию скрытых переменных следующего кадра. Затем скрытая переменная текущего состояния и скрытая переменная прогнозируемого состояния совместно решают, какое действие выбрать.
Здесь автор ожидает, что RNN сможет изучить основные законы скрытых переменных и данных взаимодействия действий после кодирования среды (поскольку выходные данные RNN содержат всю предыдущую историческую информацию), а затем использовать ее для помощи в принятии решений. . И VAE, и RNN можно обучать без информации о вознаграждении, а только с данными о взаимодействии.
Причина этого заключается в том, чтобы сначала выполнить извлечение признаков из информации об окружающей среде, а затем использовать извлеченные признаки для обучения получению политики.Обучение выполнению политики будет быстрее.
Достигнутый эффект?
Оценка агента, основанная на извлеченных вручную функциях, составляет 632 балла модели V вверх и вниз.
Опубликованная информация? Информация об авторе?
Дэвид Ха, член Google Brain, в основном занимается исследованиями машинного интеллекта.
Другие справочные ссылки
- Введение на официальном сайте:worldmodels.github.io/