Дофамин — новая основа для гибких и воспроизводимых исследований обучения с подкреплением

Google искусственный интеллект GitHub игра

Авторы: Пабло Самуэль Кастро, разработчик программного обеспечения для исследований, и Марк Г. Беллемаре, научный сотрудник, команда Google Brain

Источник | Публичный аккаунт разработчика Google

За последние несколько лет исследования обучения с подкреплением (RL) добились значительного прогресса во многих аспектах. Эти достижения позволили агентам ИИ превзойти людей в нескольких играх — примечательные примеры включают прорыв DeepMind в DQN в играх Atari, AlphaGo и AlphaGo Zero в Go и Open в Dota2 против профессиональных игроков-людей AI Five. В частности, введение воспроизводимой памяти в DQN позволяет агенту использовать предыдущий опыт, крупномасштабное распределенное обучение позволяет распределить процесс обучения на несколько рабочих потоков, а распределенный подход позволяет агенту моделировать полное распределенное моделирование, чтобы научиться понимать весь ландшафт, а не только ожидаемое значение. Этот прогресс имеет решающее значение, потому что алгоритмы, которые их породили, также применимы к другим областям, таким как робототехника (см. наши недавние отчеты о манипулировании роботами и обучении роботов наблюдению и самоадаптации).

Для достижения такого прогресса часто требуется быстрая итерация дизайна, часто без четкого направления и нарушение рамок существующих методов. Однако большинство существующих структур обучения с подкреплением не могут одновременно обладать гибкостью и стабильностью, и исследователям трудно эффективно повторять обучение с подкреплением, поэтому изучение новых направлений исследований может не принести очевидных преимуществ в краткосрочной перспективе. Кроме того, воспроизведение результатов на основе существующих структур часто требует слишком много времени, что приводит к последующим проблемам с научной воспроизводимостью.

Сегодня мы запускаем новую платформу на основе Tensorflow, предназначенную для предоставления новых инструментов как для начинающих, так и для опытных исследователей обучения с подкреплением, обладающих гибкостью, стабильностью и воспроизводимостью. Эта структура основана на «дофаминовых рецепторах», основных компонентах мотивированного вознаграждением поведения в мозге, что отражает тесную историческую связь между нейронаукой и исследованиями в области обучения с подкреплением. Эта платформа предназначена для продвижения спекулятивных исследований крупных открытий. Кроме того, мы выпустили набор обучающих коллабораций по фреймворку. Примечание: ссылка на colabsGitHub.com/Google/dopa…

Простота использования Простота и ясность были двумя ключевыми факторами, которые мы учитывали при разработке этой структуры. Код, который мы предоставляем, компактен (около 15 файлов Python) и хорошо документирован. Это достигается за счет сосредоточения внимания на среде обучения в аркадном режиме (ALE — это зрелый, хорошо понятный тест) и четырех агентах, основанных на ценности: DQN, C51, тщательно разработанной упрощенной версии агента Rainbow, и в последнем IQN (Implicit Quantile Network) был представлен на Международной конференции по машинному обучению (ICML) в этом месяце. Мы надеемся, что эта краткая функция поможет исследователям понять внутреннюю работу агента и быстро опробовать множество новых идей.

повторяемость Мы особенно обеспокоены воспроизводимостью в исследованиях обучения с подкреплением. С этой целью мы предоставляем полное тестовое покрытие кода; эти тесты подробно описаны в прилагаемой документации. Кроме того, наша экспериментальная структура следует подходу, рекомендованному Мачадо и др. (2018) для стандартизированной эмпирической оценки с использованием аркадной обучающей среды (ALE).

Ориентиры Для начинающих исследователей очень важно иметь возможность быстро сопоставить свои идеи с устоявшимися методами. С этой целью мы предоставляем полные обучающие данные для четырех агентов в 60 играх, поддерживаемых средой обучения ALE, в виде файлов рассола Python (для агентов, обученных с помощью нашей платформы) и файлов данных JSON (для сравнения с другими платформами). Обученные агенты ); мы также предоставляем веб-сайт, на котором исследователи могут быстро просмотреть тренировочные прогоны предоставленных агентов во всех 60 играх. Ниже мы показываем обучение 4 агентов игре Seaquest, одной из игр для Atari 2600, поддерживаемых в среде обучения ALE.

4 агента обучены и работают на Seaquest. По оси X отложены итерации, где каждая итерация составляет 1 миллион игровых кадров (4,5 часа игрового процесса в реальном времени); по оси Y — средний балл, полученный за игру. Заштрихованные области представляют собой доверительные интервалы для 5 независимых прогонов.

Мы также предоставляем глубокие сети, обученные этими агентами, необработанные журналы статистики и файлы событий Tensorflow для визуализации Tensorboard. Их можно найти в разделе загрузки нашего веб-сайта. Примечание: ссылка на Tensorboardwoohoo.tensorflow.org/expensive/Мама Су…Ссылка на область загрузкиGitHub.com/Google/dopa…

Мы надеемся, что гибкость и простота использования нашей структуры помогут исследователям экспериментировать с новыми идеями, как постепенными, так и радикальными. Мы активно использовали его в различных исследованиях и обнаружили, что он позволяет быстро и гибко повторять многие идеи. Мы с нетерпением ждем, когда более широкое сообщество будет использовать эту структуру для изучения бесконечных возможностей. Проверьте его и используйте в нашем репозитории на github, и не забудьте сообщить мне, что вы думаете! Примечание: ссылка на репозиторий githubGitHub.com/Google/dopa…

Благодарность Благодаря сотрудничеству с Google этот проект стал возможен. В основную команду входят Марк Г. Беллемаре, Пабло Самуэль Кастро, Карлес Гелада, Субходип Мойтра и Саурабх Кумар. Особая благодарность Серхио Гуадамарре, Офиру Нахуму, Ифань Ву, Клэр Лайл, Лайаму Федусу, Кельвину Сюй, Эмилио Паризото, Хадо ван Хасселту, Георгу Островски и Уиллу Дабни, а также другим сотрудникам Google, которые помогали нам в тестировании.