DeepMind исследует роль дофамина в обучении с помощью системы обучения с метаподкреплением.

Переводчик | Чжоу Сяолу

Редактор | Дебра

Руководство по передовой ИИ:В последнее время системы искусственного интеллекта заняли первое место во многих видеоиграх, таких как классика Atari Breakout и Pong. Хотя ИИ хорошо справляется с видеоиграми, он по-прежнему зависит от долгих часов игровой практики, чтобы соответствовать или превосходить игроков-людей. Вместо этого мы быстро осваиваем основы игры, в которую никогда раньше не играли.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Вопрос о том, почему мозг может добиться такого прогресса за такой короткий период времени, привел нас к изучению метаобучения, или обучения обучению. Принято считать, что наше обучение основано на двух временных шкалах: в краткосрочной перспективе мы фокусируемся на изучении конкретных случаев, но в долгосрочной перспективе мы изучаем абстрактные навыки или правила, необходимые для выполнения задачи. Сочетание этих двух факторов может помочь нам эффективно учиться и быстро и гибко применять эти знания для решения новых задач. Было показано, что модели реконструкции метаобучения в системах ИИ, которые мы называем метаобучением с подкреплением, очень эффективны для быстрого однократного обучения агентов (см. нашу статью). Но механизм, обеспечивающий такую сложную обработку в мозгу, остается загадкой для нейронауки.

видео:V.QQ.com/small/afraid/from 064…

В нашей последней статье о Nature Neuroscience мы используем структуру обучения с метаподкреплением в ИИ для изучения роли дофамина в мозге в нашем процессе обучения. Дофамин, который часто считают сигналом удовольствия в мозгу, когда-то считался столь же мощным, как сигнал ошибки предсказания вознаграждения, используемый в алгоритмах обучения ИИ с подкреплением. Эти системы мотивированы методом проб и ошибок, и мы предполагаем, что роль дофамина заключается не только в том, чтобы мотивировать нас учиться на прошлом поведении с вознаграждением, но и в том, чтобы играть неотъемлемую роль, особенно в префронтальной коре, позволяя нам быть продуктивными. Учитесь новым задачам быстро и гибко.

Чтобы подтвердить эту теорию, мы виртуально реконструировали 6 экспериментов по метаобучению в нейробиологии, каждый из которых требовал от агента выполнения задачи, основные правила которой одинаковы, но отличаются в некоторых измерениях. Мы обучили рекуррентную нейронную сеть (играющую роль дофамина), а затем сравнили динамику активности в рекуррентной сети с реальными данными предыдущих нейробиологических экспериментов. Оказывается, рекуррентные сети являются хорошими агентами метаобучения, потому что они способны усваивать прошлое поведение и наблюдения, а затем ассимилировать эти эксперименты с коллегами, обученными нескольким задачам.

Один из реконструированных нами экспериментов называется «Эксперимент Харлоу» и использовался в 1840-х годах для изучения концепции метаобучения. В первоначальном эксперименте группе обезьян показывали два незнакомых предмета, и за выбор одного из них они вознаграждались едой. Два объекта показывают им 6 раз, каждый раз в случайном порядке слева направо, и обезьяны должны узнать, какой объект даст им награду. Далее им будут показаны еще 2 новых предмета, опять же, только один предмет даст бонус к еде. Во время обучения обезьяны открыли для себя стратегию выбора предметов, связанных с вознаграждением: они научились случайным образом выбирать первый вариант, а затем выбирать конкретный предмет на основе обратной связи с вознаграждением, а не слева и справа. Этот эксперимент демонстрирует, что обезьяны могут усвоить основные правила задачи и изучить архитектуру абстрактных правил, то есть научиться учиться на самом деле.

Мы смоделировали очень похожий эксперимент, используя экран виртуального компьютера и случайно выбранные картинки, и обнаружили, что наш обучающийся с метаподкреплением агент продемонстрировал поведение, очень похожее на поведение животных в эксперименте Харлоу, даже проявляя совершенно невидимое ранее поведение. образ создается.

В нашей виртуальной реконструкции эксперимента Харлоу агент должен обратить внимание на цели, которые, по его мнению, имеют отношение к вознаграждению.

На самом деле мы обнаружили, что агенты мета-RL могут научиться быстро адаптироваться к нескольким доменам задач с разными правилами и архитектурами. И по мере того, как эта сеть учится приспосабливаться к широкому кругу задач, она также изучает общие правила эффективного обучения. Важно отметить, что мы видим, что большая часть обучения в рекуррентных сетях поддерживает наше предположение о том, что дофамин играет более важную роль в метаобучении, чем мы думали ранее. Традиционно считалось, что дофамин укрепляет синаптические связи в префронтальной системе, улучшая определенное поведение. В ИИ это означает сигнал вознаграждения, подобный дофамину, который изменяет вес искусственных синапсов в нейронных сетях, когда он учится правильно решать проблемы.

Однако в наших экспериментах веса нейронной сети были заморожены, то есть их нельзя было изменить в процессе обучения, но мета-RL-агент все еще мог решать и адаптироваться к новым задачам. Это показывает, что подобные дофамину вознаграждения используются не только для изменения весов, но также для передачи и компиляции важной информации об абстрактных задачах и структурах правил, что позволяет агентам быстрее адаптироваться к новым задачам.

Нейробиологи уже давно наблюдали аналогичную модель нейронной активации в префронтальной коре, которая быстро адаптируется и очень гибка, но нейробиологи изо всех сил пытались найти объяснение этому. Префронтальная кора не полагается на медленные изменения веса синапсов для изучения регулярных структур, а использует информацию, основанную на абстрактных паттернах, закодированную непосредственно в дофамине, объяснение, которое кажется более убедительным.

Ключевые компоненты ИИ, приводящие к обучению с метаподкреплением, также присутствуют в мозге, и, доказывая эту гипотезу, мы разработали теорию, которая не только соответствует существующим знаниям о дофамине и префронтальной коре, но также объясняет неврологию и психологию Многие нерешенные загадки в поле. В частности, теория проливает свет на такие вопросы, как структурированное обучение на основе моделей в мозге, почему дофамин содержит информацию на основе моделей и как нейроны в префронтальной коре получают сигналы, связанные с обучением. Результаты искусственного интеллекта применяются в нейробиологии и психологии, показывая нам ценность, которую одна область может принести другой. В будущем у нас также есть предчувствие, что нейронауки и психология также могут иметь обратную связь с ИИ, опираясь на специфическую организацию мозговых цепей при разработке новых моделей для обучения агентов обучения с подкреплением.

Эту работу выполнили Джейн X. Ван, Зеб Курт-Нельсон, Дхаршан Кумаран, Дхрува Тирумала, Хьюберт Сойер, Джоэл З. Лейбо, Демис Хассабис и Мэтью Ботвиник.

Статья в журнале "Nature Neuroscience":

https://www.nature.com/articles/s41593-018-0147-8.pdf

Оригинальный адрес:

https://deepmind.com/blog/prefrontal-cortex-meta-reinforcement-learning-system/