[Google Brain] Может ли агент учиться во сне?

Google искусственный интеллект игра обучение с подкреплением

27 марта Дэвид Ха из Google Brain в сотрудничестве с сотрудниками Швейцарской лаборатории искусственного интеллекта опубликовал документ под названием «Модель мира», а также разместил веб-сайт с заголовком «Может ли разумное тело учиться во сне?» (Могут ли агенты учиться внутри? собственных мечтаний?), мне очень интересно поделиться с вами. Оригинал здесь:АР Вест V.org/PDF/1803.10…Сайт здесь:World Models

жизненный опыт

В этой статье обсуждается обучение с подкреплением, модель мира, которая может сжимать среду, в которой эти агенты (агенты) в настоящее время обучаются, чтобы можно было обучить более сжатую политику для решения проблемы агента. Даже агента можно обучить на модели мира (прямо как обучение во сне), а затем поместить его в реальную среду для решения задачи. Как упоминалось в статье, идея этого метода обучения исходит из того, как человеческий мозг решает задачи. Человеческий мозг ежедневно получает много информации, которую необходимо сжимать в соответствии с наблюдаемым временем и пространством. Есть также свидетельства того, что человеческое восприятие будущего следует за суждением о будущем в мозгу, так что в будущем можно очень быстро реагировать. Этот принцип применим и к армированию. В обучении многие модели имеют части памяти и ожидания.

В настоящее время большое количество моделей RNN очень способствует запоминанию и предвосхищению, но многие алгоритмы обучения с подкреплением ограничены частью присвоения кредитов, поэтому многие методы обучения с подкреплением теперь используют небольшие модели, а затем быстро повторяются, но в этой статье обсуждается, как обучать агента с помощью большого RNN.

Обучение — это большая проблема, и для обучения большой RNN требуется много циклов. В этой статье проблема обучения RNN разделена на обучение модели большого мира и обучение небольшой модели управления, а затем обучение небольшой модели управления на модели большого мира. Небольшие модели управления сохраняют преимущества быстрой итерации с назначением кредитов, в то время как более крупные модели сохраняют преимущества RNN. До того, как появилась эта идея, было много идей по использованию NN для обучения с подкреплением.Подробности см. в этой статье.[1708.05866] A Brief Survey of Deep Reinforcement Learning, подытожил все идеи до середины 2017 года.

Агент (агент) модель

Модель агента разделена на три части: зрение, память и контроллер.

Визуальный ввод представляет собой 2D-изображение с использованием вариационного автоэнкодера (VAE). Студенты, интересующиеся этой областью, могут посмотреть здесь:[1312.6114] Auto-Encoding Variational Bayes ; [1401.4082] Stochastic Backpropagation and Approximate Inference in Deep Generative Models

В модели памяти используется смешанная сеть плотности (MDM), и на выходе модели получается не просто ожидание будущего, а распределение будущих суждений. Эта модель ранее применялась к проблеме рисования Google.По мере того, как вы рисуете, модель может судить о том, что вы хотите нарисовать дальше. статья здесьАР Вест V.org/PDF/1704.03….

Модель контроллера использует линейную модель,a_t = W_c [z_t h_t] + b_c. z — это выходные данные модели VAE, h — выходные данные модели MDM, поэтому и W, и b — это параметры, которые необходимо изучить, поэтому вся модель выглядит следующим образом:

Большинство параметров в этой модели находятся в модели зрения и памяти, а в модели контроллера их всего несколько тысяч. Частью так называемой «модели мира» является модель зрения и памяти.

Вождение автомобиля эксперимент

Как применить изложенную выше модель на практике? Хорошим примером является движение по смоделированной дороге (в документе говорится, что эта модель, безусловно, лучшая). Тренировочный процесс

  • Первый запуск случайным образом 10 000 раз
  • Обучите модель зрения, чтобы свести к минимуму разницу между входным изображением и реконструированным изображением модели (выход представляет собой 32-мерный вектор).
  • Затем обучите модель памяти.Ввод, который модель памяти может получать каждый раз, — это поведение этого кадра и сжатых визуальных данных, а затем тренируйте суждение о будущем.
  • Затем обучите модель контроллера, используя генетический алгоритм CMA-ES.

В статье особо упоминается, что визуальную модель и модель памяти можно тренировать вместе, но лучше тренировать отдельно. Хотя визуальная модель потеряет детали, ключевые моменты будут поняты.На следующем рисунке показано исходное изображение и реконструированное изображение визуальной модели:

Поскольку модель памяти можно использовать для суждения о будущем, всю тренировку можно провести даже «во сне», вот так:

Сыграйте в стрелялку (Doom)

Следующее обсуждение касается того, как тренироваться во сне, а затем помещать результаты тренировки во сне в моделируемую среду. Doom — очень классическая стрелялка с настройками огненных шаров, и игрокам нужно знать, как избежать летающих огненных шаров. По сравнению с автомобилем разница между двумя моделями заключается в том, что

  • Произвольно собрать 60 секунд (2100 кадров) данных
  • Ввод модели зрения 64-мерный вместо 32-мерного.
  • Здесь модель памяти должна не только предсказывать будущее распределение, но и предсказывать, зависнет ли игрок в следующем кадре, так что вся тренировка может быть во сне, потому что контроллер может знать, как эволюционировать. Реальная среда также очень похожа на сжатую среду.

Весь процесс обучения использует модель памяти, чтобы определить, убил ли контроллер игрока.Для увеличения сложности модель MDM имеет параметр «температура», который можно использовать для увеличения неопределенности вывода.После увеличения неопределенности Может помочь контроллеру не слишком часто использовать ошибки искажения в среде моделирования. Это очень критичное изменение, если вывод будет однозначным, контроллер быстро найдет дыры в модели памяти. Эту «температурную» модель нельзя настраивать слишком высоко, иначе сложность игры в стране грез будет слишком высока, и контроллер ничему не научится.

Итеративный процесс обучения

Предложенная схема очень хороша и инновационна, но эта модель подходит только для относительно простых сред, ведь и визуальная модель, и модель памяти обучаются, а собираемая память составляет всего от нескольких тысяч до десятков тысяч картинок каждая. время. . Решение, приведенное в статье, представляет собой итеративное обучение, разделяющее память на кратковременную память и долговременную память.Модель памяти также должна модифицировать функцию потерь, чтобы гарантировать, что в новом обучении контроллер будет достаточно «любопытным», чтобы собрать другую информацию для дедупликации попробовать свою модель мира

Суммировать

В этой статье удачно сочетаются многие концепции обучения с подкреплением, которые не особенно новы, и я нахожу всю концепцию очень интересной. Редко в этой статье есть такая полная демоверсия, в которой понятие "температура" модели памяти доступно на демо-сайте (World Models), я предлагаю всем сыграть в нее и посмотреть, каково это тренироваться как человек в стране грез Я сам играл в нее дважды, и это действительно похоже на сон, ха-ха.