Любопытство и прокрастинация в обучении с подкреплением

Google искусственный интеллект Программа перевода самородков OpenAI
Любопытство и прокрастинация в обучении с подкреплением

обучение с подкреплением(RL) — это один из наиболее активно исследуемых методов машинного обучения, в котором искусственный агент получает положительное вознаграждение, когда он делает правильные вещи, и отрицательное вознаграждение, когда он этого не делает. этоморковь и палочкиМетод прост и универсален, как и метод профессора DeepMind.DQNАлгоритмы могут заставить его играть в старомодные игры AtariAlphaGoZeroСыграйте в старую игру Го. Вот как OpenAI научил этомуOpenAI-FiveАлгоритмы играют в современную видеоигру «Дота» и как Google научил роботов-манипуляторовЗахватите новые объекты. Однако, несмотря на успех RL, остается много проблем, связанных с тем, чтобы сделать его эффективным методом.

Стандартные алгоритмы RLstruggleПодходит для сред, где обратная связь с агентом скудна — что очень важно, такие среды распространены в реальном мире. В качестве примера представьте, что вы нашли свой любимый сыр в лабиринте гипермаркетов. Вы искали снова и снова и не могли найти область сыра. Если вы не получаете «кнута» или «пряника» с каждым шагом, вы не можете сказать, идете ли вы в правильном направлении. Как можно не крутиться без обратной связи? Возможно, ничто не может разорвать порочный круг, кроме любопытства, которое вдохновляет вас зайти в незнакомую область продуктов в поисках вашего любимого сыра.

в газете"Ситуативное любопытство, основанное на доступности"В - этоМозговая команда Google,DeepMindиЦюрих ETHРезультаты сотрудничества между - Мы предлагаем новую модель эпизодической памяти для поощрения RL, которая похожа на исследование окружающей среды, движимое любопытством. Поскольку мы хотим, чтобы агент не только исследовал окружающую среду, но и решал исходную задачу, мы увеличиваем вознаграждение, предоставляемое моделью, поверх исходного вознаграждения за разреженное задание. Совместное вознаграждение больше не является разреженным, что позволяет стандартным алгоритмам RL учиться на нем. Таким образом, наш подход любопытства расширяет набор задач, которые может решить RL.

Эпизодическое любопытство, основанное на доступности: путем добавления в память механизма наблюдения, а затем расчета вознаграждения в зависимости от того, насколько далеко текущее наблюдение от наиболее похожего наблюдения в памяти. Агент получает большее вознаграждение, если видит наблюдение, которого еще нет в памяти.

Ключевая идея в нашем подходе состоит в том, чтобы хранить наблюдения агента за окружающей средой в эпизодической памяти, одновременно вознаграждая агента, когда он получает наблюдение, которое еще не было представлено в памяти, таким образом избегая вращения и, в конечном счете, нащупывания целевой строки. «Не в памяти» — более новаторское определение в нашем подходе — искать такие наблюдения — значит искать незнакомое. Такое стремление искать незнакомое может привести агента-человека к новому местоположению, избегая его блужданий по известным кругам и, в конечном счете, помогая ему добраться до нужной точки. Как мы обсудим позже, наш подход позволяет агенту избежать некоторых нежелательных результатов, которые могут возникнуть при использовании других подходов. К нашему удивлению, такое поведение имеет некоторое сходство с тем, что неспециалист называет «прокрастинацией».

предыдущие формы любопытства
Хотя в прошлом было много попыток сформулировать любопытство [1][2][3][4], в этой статье мы сосредоточимся на естественном и очень популярном подходе: исследовать любопытство с помощью основанного на прогнозах сердца удивления (часто называемого как метод ICM), который описан в недавней статье "Исследование, движимое любопытством, посредством предсказания с самоконтролемЧтобы проиллюстрировать, как удивление может привести к любопытству, снова рассмотрим пример нашего поиска сыра в супермаркете.

Иллюстрация ©Indira Pasko,существуетCC BY-NC-ND 4.0Используется по лицензии.

Ходишь по рынку, пытаешься предсказать будущее(«Сейчас я нахожусь в мясном отделе, поэтому я думаю, что часть за углом — это рыбный отдел — они обычно соседствуют в супермаркетах».). Вы удивитесь, если ваши прогнозы окажутся неверными («Нет, на самом деле это овощная зона. Я не ожидал!») и таким образом получить соответствующий доход. Это делает вас более мотивированным, чтобы заглянуть за угол, исследовать новые места, чтобы увидеть, реалистичны ли ваши ожидания от них (и, надеюсь, наткнуться на сыр).

Точно так же методы ICM строят динамические прогностические модели всей мировой среды и вознаграждают агента, когда модель не дает хороших прогнозов — признак неожиданности или новизны. Обратите внимание, что изучение непосещенных мест не является частью формулы любопытства ICM. Для метода ICM доступ к ним — это просто способ получить больше «сюрпризов» и, таким образом, максимизировать общее вознаграждение. Оказывается, в некоторых обстоятельствах могут быть и другие способы вызвать удивление, приводящие к непредсказуемым результатам.

Удивленные агенты, основанные на любопытстве, застревают, когда сталкиваются с экраном телевизора. GIF взят с сайта ©Deepak Pathakвидео наCC BY 2.0Используется по лицензии.

Угроза «прокрастинации»
в газете"Крупномасштабное исследование обучения на основе любопытства», авторы метода ИКМ иOpenAIИсследователи выявили потенциальную опасность максимизации неожиданности: агенты могут позволить себе эту прокрастинацию вместо того, чтобы сделать что-то полезное для выполнения поставленной задачи. Чтобы выяснить, почему, давайте рассмотрим распространенный мысленный эксперимент, названный авторами «проблемой шумного телевизора», в котором агента помещают в лабиринт, которому поручено найти предмет с высокой наградой (это похоже на «сыр» в супермаркете). пример, который мы упоминали ранее). В окружении также находился телевизор, которым агент мог управлять удаленно. Телевизоры имеют ограниченное количество каналов (каждый с другой программой) и переключаются на случайный канал при каждом нажатии на пульт. Так как же агент будет работать в такой среде?

Для формулы любопытства, основанной на неожиданности, смена телеканалов имеет большую выгоду, поскольку каждое изменение непредсказуемо и неожиданно. Важно отметить, что даже после того, как все доступные каналы закольцованы, случайный выбор каналов гарантирует, что каждое новое изменение по-прежнему будет неожиданным, потому что агент предсказывает, что появится на телевидении после смены канала, и это, скорее всего, будет неверным. к сюрпризам. Важно отметить, что даже если агент смотрел каждое шоу на каждом канале, изменения все равно непредсказуемы. Таким образом, это основанное на неожиданности любопытство может привести к тому, что агент навсегда останется перед телевизором вместо того, чтобы искать этот очень ценный объект — сродни прокрастинации. Так как же определить любопытство, чтобы оно не приводило к такому поведению?

ситуативное любопытство
в газете"Ситуативное любопытство, основанное на доступности», мы исследовали модель любопытства, основанную на эпизодической памяти, которая менее склонна к «потворствующему себе» мгновенному удовлетворению. Почему это? Используя наш пример выше, после переключения каналов на некоторое время после этого все шоу остаются в памяти. Поэтому сериалы перестанут быть привлекательными: даже если последовательность появления сериалов на экране случайна и непредсказуема, все эти сериалы уже в памяти! Наш метод даже не пытается делать ставки на будущее, которое может быть трудно (или даже невозможно) предсказать, вместо этого агент исследует прошлое, чтобы увидеть, видел ли онпохожийрезультаты наблюдения. Таким образом, наши агенты не получают мгновенного удовольствия от шумного телевизора. Ему придется исследовать мир за пределами телевидения, чтобы получить больше наград.

Но как узнать, видит ли агент тот же контент, который уже есть в памяти? Проверка на точное совпадение может быть бессмысленной, потому что в реальных условиях агент редко видит одно и то же дважды. Например, даже если агент возвращается в ту же комнату, он все равно видит комнату с другой точки зрения, чем он помнит.

мы обучаемглубокая нейронная сетьчтобы измерить, насколько похожи два опыта, а не искать точное соответствие тому, что есть в памяти. Чтобы обучить сеть, мы позволяем ей угадать, тесно ли связаны два наблюдения во времени или они далеко друг от друга во времени. Мы используем временную близость как хороший показатель того, являются ли два опыта частью одного и того же опыта. Это обучение может зафиксировать общую концептуальную новизну за счет достижимости, как показано ниже.

Графики достижимости определяют новизну. На практике этот график недоступен, поэтому нам нужно обучить аппроксиматор нейронной сети оценивать взаимосвязь между наблюдениями на нескольких шагах.

достигать результатов
Чтобы сравнить производительность различных методов Curiosity, мы протестировали их в двух трехмерных средах с богатыми визуальными эффектами: т.е.ViZDoomиDMLab. В этих средах агентам поручают решать различные проблемы, такие как поиск цели в лабиринте или сбор хороших и избегание плохих объектов. Среда DMLab предоставляет агентам лазерные научно-фантастические инструменты. Стандартная настройка в предыдущей работе заключалась в настройке гаджета DMLab для агентов во всех задачах, и ее можно не использовать, если агенту не нужен этот инструмент для конкретной задачи. Интересно, что, как и в вышеописанном эксперименте с шумным телевизором, метод ICM на основе неожиданности фактически использует этот инструмент, хотя для текущей задачи он бесполезен! При поиске объектов с высокой наградой в лабиринте он предпочитает проводить время, отмечая стены, так как это дает много «неожиданных» наград. Теоретически маркировка должна быть предсказуемой, но на практике это сложно, так как очевидно требует от стандартного агента более глубоких знаний физики.

Методы ICM, основанные на неожиданности, постоянно отмечают стены, а не исследуют лабиринт.

Вместо этого наш подход учит разумному исследовательскому поведению в тех же условиях. Это потому, что он не пытался предсказать результаты вашего собственного поведения, а искал наблюдения за «более сложными» из памяти сценария. Иными словами, агент неявно преследовал какие-то цели, требующие больше усилий, чтобы попасть в память, а не только одну маркерную операцию.

Разумное исследовательское поведение, демонстрируемое нашим методом.

Интересно, что наш подход к поощрению наказывает агентов, которые вращаются по кругу. Это связано с тем, что после завершения первого цикла агент не сталкивается с новыми наблюдениями, кроме тех, которые находятся в памяти, и, следовательно, не получает никакого вознаграждения:

Визуализация наград в методе: красный для отрицательных наград и зеленый для положительных наград. Слева направо: карта с наградами, карта с текущим местоположением в памяти, карта с видом от первого лица.

В то же время наш метод способствует хорошему исследованию:

Визуализация наград в методе: красный для отрицательных наград и зеленый для положительных наград. Слева направо: карта с наградами, карта с текущим местоположением в памяти, карта с видом от первого лица.

Есть надежда, что наша работа поможет открыть новую волну методов исследования, которые могут выйти за рамки механизма неожиданности и научиться более разумному исследовательскому поведению. Подробный анализ конкретных методов см.Научно-исследовательские работыпрепринт.

Спасибо:
Проект является результатом сотрудничества команды Google Brain, DeepMind и ETH Zürich. В основную команду входят Николай Савинов, Антон Райчук, Рафаэль Мариньер, Дэмиен Винсент, Марк Поллефейс, Тимоти Лилликрап и Сильвен Желли. Спасибо Оливье Питкену, Карлосу Рикельме, Чарльзу Бланделлу и Сергею Левину за обсуждение этой статьи. Спасибо Индире Пасько за помощь с иллюстрациями.

использованная литература:
[1] "Count-Based Exploration with Neural Density Models", Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos
[2] "#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning", Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel
[3] "Unsupervised Learning of Goal Spaces for Intrinsically Motivated Goal Exploration", Александр Пере, Себастьен Форестье, Оливье Сиго, Пьер-Ив Одейе
[4] "VIME: Variational Information Maximizing Exploration", Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel