- Тема эссе: Глубокое рекуррентное Q-обучение для частично наблюдаемых MDP
Эта статья была первоначально предложена через 15 лет, но последняя редакция выпущена 17 лет назад. Все последующее содержание основано на 17-летней версии.
- Бумажная ссылка:АР Вест V.org/ABS/1507.06…
Проблема решена?
Как указано в заголовке, автор решает частично наблюдаемый марковский решающий процесс (Partially-Observable Markov Decision Process(POMDP)) трудно получить всю наблюдаемую информацию.
в основном правDQN
совершенствуйся и станьDeep Recurrent Q-Network (DRQN)
. В Китае есть старая поговорка «причина и следствие».DQN
Как правило, в середине берутся 4 кадра данных изображения, а степень фрагментации последовательного состояния относительно велика.Часто трудно учесть влияние состояния давно минувших дней на настоящее, и некоторые проблемы приходится решать. быть тщательно рассмотрены.
Используемый метод?
Автор принимаетHochreiter
иSchmidhuber
предложено в 1997 г.Long Short Term Memory
(LSTM) в сочетании с DQN для решения этой частично наблюдаемой проблемы.
Его сетевая структура выглядит следующим образом:
Потому что естьLSTM
, автор в основном рассматривает два метода обновления:Bootstrapped Sequential Updates
иBootstrapped Random Updates
.
-
Bootstrapped Sequential Updates: обновлять по одному
Episode
, от начала до конца, вся последовательностьLSTM
законченный. -
Bootstrapped Random Updates:от
Episode
Случайным образом выберите сегмент из списка и обновите его.
Разница между этими двумя методами обновления заключается в том, очищается неявное состояние или нет. каждыйEpisode
Обновления могут узнать больше, а случайные слова больше соответствуютDQN
идея случайной выборки. Экспериментальные результаты двух методов очень похожи. В статье автора используется метод случайной выборки, который, как ожидается, будет иметь более сильную способность к обобщению.
Достигнутый эффект?
Частично наблюдаемая среда: в каждомtimestep
, изображение игры начнется с0.5
фаззификация вероятности. Здесь автор приводит два результата, один лучший и один худший.
Автор также поднял вопрос: непосредственно вMDP
Можно ли напрямую обобщить алгоритм обучения с подкреплением, обученный в рамках этой структуры, наPOMDP
Что с верхом? Результаты эксперимента следующие:
Из приведенных выше результатов видно, чтоDRQN
Коэффициент обобщающей способностиDQN
Прочность намного лучше. Это также означает, чтоLSTM
не только может справитьсяPOMDP
И производительность и надежность лучшеDQN
улучшит.
Опубликованная информация? Информация об авторе?
Это статья, опубликованная через 15 летnational conference on artificial intelligence
статья выше. авторMatthew Hausknecht
имеет докторскую степень Техасского университета в Остине и в настоящее время является старшим научным сотрудником Microsoft.
Ссылка на ссылку
Автор не является идейным основоположником данной статьи, уже文献1
:2007
годWierstra
там будетLSTM
Он используется для решения статьи в частично наблюдаемой марковской системе принятия решений, но он используется вPolicy Gradient
метод иDRQN
Он также обучается вместе со сверточной нейронной сетью, избегая ручного извлечения признаков.
文献2
:существует2001
год,Bakker
существуетcartpole
Эксперимент под миссией,LSTM
решатьPOMDP
чемRNN
Быть хорошим.
литература
- Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
- Bakker, B. 2001. Reinforcement learning with long shortterm memory, В NIPS, 1475–1482, MIT Press.
мойИмя общедоступной учетной записи WeChat: Глубокое обучение и расширенное интеллектуальное принятие решенийИдентификатор официального аккаунта WeChat: Мультиагент1024Введение в публичный аккаунт: В основном исследуйте и делитесь соответствующим контентом, таким как глубокое обучение, машинные игры и обучение с подкреплением! Ждем вашего внимания, добро пожаловать учиться и обмениваться прогрессом вместе!