【5min Paper】Глубокое рекуррентное Q-обучение для частично наблюдаемых MDP

обучение с подкреплением
  • Тема эссе: Глубокое рекуррентное Q-обучение для частично наблюдаемых MDP

论文标题及作者信息截图

  Эта статья была первоначально предложена через 15 лет, но последняя редакция выпущена 17 лет назад. Все последующее содержание основано на 17-летней версии.

Проблема решена?

   Как указано в заголовке, автор решает частично наблюдаемый марковский решающий процесс (Partially-Observable Markov Decision Process(POMDP)) трудно получить всю наблюдаемую информацию.

POMDP 数学模型描述

   в основном правDQNсовершенствуйся и станьDeep Recurrent Q-Network (DRQN). В Китае есть старая поговорка «причина и следствие».DQNКак правило, в середине берутся 4 кадра данных изображения, а степень фрагментации последовательного состояния относительно велика.Часто трудно учесть влияние состояния давно минувших дней на настоящее, и некоторые проблемы приходится решать. быть тщательно рассмотрены.

部分可观测游戏

Используемый метод?

  Автор принимаетHochreiterиSchmidhuberпредложено в 1997 г.Long Short Term Memory(LSTM) в сочетании с DQN для решения этой частично наблюдаемой проблемы.

   Его сетевая структура выглядит следующим образом:

DRQN 网络结构

  Потому что естьLSTM, автор в основном рассматривает два метода обновления:Bootstrapped Sequential UpdatesиBootstrapped Random Updates.

  • Bootstrapped Sequential Updates: обновлять по одномуEpisode, от начала до конца, вся последовательностьLSTMзаконченный.
  • Bootstrapped Random Updates:отEpisodeСлучайным образом выберите сегмент из списка и обновите его.

   Разница между этими двумя методами обновления заключается в том, очищается неявное состояние или нет. каждыйEpisodeОбновления могут узнать больше, а случайные слова больше соответствуютDQNидея случайной выборки. Экспериментальные результаты двух методов очень похожи. В статье автора используется метод случайной выборки, который, как ожидается, будет иметь более сильную способность к обобщению.

Достигнутый эффект?

   Частично наблюдаемая среда: в каждомtimestep, изображение игры начнется с0.5фаззификация вероятности. Здесь автор приводит два результата, один лучший и один худший.

DRQN 实验结果

  Автор также поднял вопрос: непосредственно вMDPМожно ли напрямую обобщить алгоритм обучения с подкреплением, обученный в рамках этой структуры, наPOMDPЧто с верхом? Результаты эксперимента следующие:

MDP到POMDP泛化测试结果

   Из приведенных выше результатов видно, чтоDRQNКоэффициент обобщающей способностиDQNПрочность намного лучше. Это также означает, чтоLSTMне только может справитьсяPOMDPИ производительность и надежность лучшеDQNулучшит.

Опубликованная информация? Информация об авторе?

   Это статья, опубликованная через 15 летnational conference on artificial intelligenceстатья выше. авторMatthew Hausknechtимеет докторскую степень Техасского университета в Остине и в настоящее время является старшим научным сотрудником Microsoft.

Matthew Hausknecht

Ссылка на ссылку

  Автор не является идейным основоположником данной статьи, уже文献1:2007годWierstraтам будетLSTMОн используется для решения статьи в частично наблюдаемой марковской системе принятия решений, но он используется вPolicy Gradientметод иDRQNОн также обучается вместе со сверточной нейронной сетью, избегая ручного извлечения признаков.

  文献2:существует2001год,BakkerсуществуетcartpoleЭксперимент под миссией,LSTMрешатьPOMDPчемRNNБыть хорошим.

литература

  1. Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
  2. Bakker, B. 2001. Reinforcement learning with long shortterm memory, В NIPS, 1475–1482, MIT Press.

мойИмя общедоступной учетной записи WeChat: Глубокое обучение и расширенное интеллектуальное принятие решенийИдентификатор официального аккаунта WeChat: Мультиагент1024Введение в публичный аккаунт: В основном исследуйте и делитесь соответствующим контентом, таким как глубокое обучение, машинные игры и обучение с подкреплением! Ждем вашего внимания, добро пожаловать учиться и обмениваться прогрессом вместе!