Видео введение: Оценка компромиссов дизайна в обучении с подкреплением на основе визуальных моделей
Обучение с подкреплением без использования моделейПодтвержденный успех в ряде областей, в том числеробот,контроль,играть в игрыибеспилотный автомобиль. Эти системы учатся путем простых проб и ошибок, поэтому перед решением поставленной задачи требуется много проб и ошибок. Напротив, на основе моделейОбучение с подкреплением (MBRL)Модели среды обучения (часто называемыемодель мира или динамическая модель), позволяя агенту предсказывать результат потенциальных действий, тем самым уменьшая количество взаимодействий с окружающей средой, необходимых для решения задачи.
В принципе, все, что необходимо для планирования, — это предсказать будущие вознаграждения, которые затем можно использовать для выбора почти оптимальных будущих действий. Однако многие современные методы, такие как Dreamer, Pei и Simple, также используют обучающие сигналы для прогнозирования будущих изображений. Но действительно ли необходимо или полезно предсказывать будущие изображения? Какая польза от использования визуальных алгоритмов MBRL, которые на самом деле получены из предсказания будущих изображений? Вычислительные и репрезентативные затраты на прогнозирование всего изображения значительны, поэтому понимание того, действительно ли это полезно, важно для исследований MBRL.
В статье «Модели, пиксели и вознаграждения: оценка компромиссов дизайна в обучении с подкреплением на основе визуальных моделей» мы демонстрируем, что прогнозирование будущих изображений дает огромные преимущества и фактически является ключевым фактором в обучении успешных визуальных агентов MBRL. Мы разработали новую библиотеку с открытым исходным кодом под названием «Библиотека моделей мира», которая позволяет нам тщательно оценивать различные конструкции моделей мира, чтобы определить относительное влияние прогнозов изображений на вознаграждение, возвращаемое каждой моделью.
World Models Library
Библиотека мировых моделей, специально разработанная для визуального обучения и оценки MBRL, позволяет проводить эмпирические исследования влияния каждого проектного решения на конечную производительность крупномасштабных агентов при выполнении нескольких задач. Библиотека представляет независимый от платформы цикл визуального моделирования MBRL и API для беспрепятственного определения новых моделей мира, планировщиков и задач или выбора из существующих каталогов, которые включают агентов (например, сэнпей), видеорежимы (например, SV2P) и различные Задачи и планировщики DeepMind Control, такие как CEM и MPPI.
Используя эту библиотеку, разработчики могут изучать влияние различных факторов в MBRL, таких как дизайн модели или пространство представления, на производительность агента при выполнении набора задач. Библиотека поддерживает обучение агентов с нуля или на предварительно собранном наборе траекторий, а также оценку предварительно обученных агентов по заданной задаче. Модели, алгоритмы планирования и задачи можно легко смешивать и подбирать для любой желаемой комбинации.
Чтобы предоставить пользователям максимальную гибкость, библиотека построена с использованием интерфейса NumPy, который позволяет реализовывать различные компоненты в TensorFlow, Pytorch или JAX. Ознакомьтесь с этой коллаборацией для краткого ознакомления.
Влияние предсказания изображения
Используя библиотеку моделей мира, мы обучили несколько моделей мира с разными уровнями предсказания изображений. Все эти модели используют одни и те же входные данные (ранее наблюдаемые изображения) для прогнозирования изображений и наград, но они предсказывают разное процентное соотношение изображений. По мере увеличения количества пикселей изображения, предсказанных агентом, производительность агента, измеряемая истинным вознаграждением, обычно улучшается.
Интересно, что корреляция между точностью предсказания вознаграждения и производительностью агента не такая сильная, а в некоторых случаях более точное предсказание вознаграждения даже приводит к снижению производительности агента. В то же время существует сильная корреляция между ошибкой реконструкции изображения и производительностью агента.
Это явление напрямую связано с исследованием, когда агент предпринимает более рискованные и потенциально менее полезные действия, чтобы собрать больше информации о неизвестных возможностях в окружающей среде. Это можно показать, протестировав и сравнив модели в автономном режиме (т. е. изучая политики из предварительно собранных наборов данных, в отличие от онлайн-обучения, при котором политики изучаются путем взаимодействия со средой). Автономная настройка гарантирует отсутствие исследования и обучение всех моделей на одних и тех же данных. Мы наблюдаем, что модели, которые лучше соответствуют данным, часто лучше работают в офлайн-режиме, и, что удивительно, эти модели могут отличаться от моделей, которые лучше всего работают, когда их изучают и исследуют с нуля.
в заключении
Мы эмпирически показали, что предсказание изображений может значительно улучшить выполнение задачи по сравнению с моделями, которые предсказывают только ожидаемое вознаграждение. Мы также показываем, что точность прогнозов изображений тесно связана с выполнением конечной задачи этих моделей. Эти результаты могут быть использованы для улучшения дизайна модели и особенно полезны для любых будущих условий, где входное пространство является многомерным, а сбор данных обходится дорого.
Если вы хотите разработать свои собственные модели и эксперименты, перейдите на нашРепозитории и совместные лаборатории, где вы можете найти инструкции о том, как воспроизвести эту работу и как использовать или расширить библиотеку моделей мира.
Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».
Источник блога:Блог Дождливой ночи