- Тема эссе: Глубокое обучение с подкреплением с двойным Q-обучением
Проблема решена?
Q-Learning
В алгоритме имеет место завышение функции ценности действия (overestimate action values) (поскольку его уравнение обновления содержитmaximization
элемент функции значения действия), повлияет ли такая проблема переоценки на производительность его алгоритма? Можем ли мы избежать такой проблемы переоценки?
задний план
Если бы все функции действия-значения были равномерно дополнены константой, кажется, что это не оказало бы никакого влияния на политику. Проблема заключается в том, что когда у вас есть завышенная функция ценности действия, а затем вы добавляете методы исследования и использования, она может быть смещена в сторону функции ценности действия, которая была переоценена ранее, что приводит к тому, что некоторые действия вообще не выбираются, тогда изучение стратегии влияния является хорошим. или плохо. Тогда вы получите неоптимальное решение.
Используемый метод?
DQN
Одна и та же функция значения используется для выбора и оценки действий, поэтому здесь автор разбирает ее, и конкретная формула выглядит следующим образом:
Предположим, у вас есть две сетии. Один используется для выбора действия, решенияgreedy policy
, другой используется для определения функции значения действия. Для удобства иDQN
Сравнение алгоритмов, сначала напишите сюдаDQN
Формула:
Double Q-Learning
Формула выглядит следующим образом:
Основное различие между ними заключается в следующем.Target
Используются ли выбор политики и оценка политики в одной и той же сети.
Достигнутый эффект?
Автор эксперимента использует многочлен, чтобы подобрать кривую через точки выборки. Исходный текст выглядит следующим образом: Оценка представляет собой полином d-степени, который соответствует истинным значениям в выборочных состояниях, где d = 6 (верхняя и средняя строки) или d = 9 (нижняя строка). На рисунке ниже: сравнение между экспериментами в первой строке и второй строке предназначено для анализа общности проблемы переоценки, а эксперименты во второй строке и третьей строке — для анализа взаимосвязи между проблемой завышения и подгоночная способность приближенной функции.
Автор разработал эту среду, и функция оптимального значения действия связана только с текущим состоянием. Самая оптимальная функция «действие-ценность» имеет следующий вид:, средняя и нижняя линии выполнены в виде. На рисунке слева показана аппроксимация функции значения действия состояния, а зеленые точки — это точки выборки во время эксперимента.
Эффект подгонки к точкам выборки по-прежнему очень хорош, но эффект аппроксимации всего уравнения функции ценности не очень идеален. В частности, велика ошибка в левой части точки выборки.
Автор потом стал сравнивать с самым большим, и картинка крайняя справа лучше всего иллюстрируетDouble DQN
Это может облегчить проблему переоценки. Подробное описание показано на следующем рисунке:
В приведенном выше эксперименте также упоминалась проблема, заключающаяся в том, что улучшение подгоночной способности аппроксимационной функции часто лучше для известных точек данных, а ошибка подгонки для неизвестных точек данных больше.
Вышеизложенное показывает, что переоценка будет существовать.Повлияет ли переоценка на изучение оптимальной стратегии??
На самом деле так и будет. Результаты эксперимента следующие:
Как видно из двух нижних рисунков на приведенном выше рисунке, по мере увеличения функции значения переоценки ее оценочная эффективность снижается, поэтому переоценка фактически ухудшает оценочную производительность алгоритма.
Опубликованная информация? Информация об авторе?
2016
годDeepMind
Команда Опубликовано вational conference on artificial intelligence
предыдущий пост автораHado van Hasselt
,GoogleDeepMind
научный сотрудник,Rich Sutton
коллега.
- Домашняя страница:hadovanhasselt.com/about/
Доказательство теоремы
Theorem1
Теорема 1 Описание: задано состояние, его истинная оптимальная функция действия-ценности и функция ценности удовлетворяют уравнению:. Предположениеявляется произвольной функцией значения действия в текущем состоянии, и ее несмещенная оценка выражается как:. Но это описание не совсем корректно, например:. в,Указывает количество действий, которые можно выбрать в текущем состоянии. При указанных выше условиях получается следующее неравенство:
Приведенная выше теорема на самом деле утверждает, что даже если ваши оценки функции действия-ценности в среднем верны, то есть, небольшое возмущение все равно приведет к переоценке, что приведет к отклонению от истинной функции оптимального значения.
На рисунке ниже показано, что нижняя нижняя граница переоценки уменьшается по мере увеличения размерности пространства действий.
Теорема 1 Доказательство:
определить ошибку для каждого действия. предположим, что существуеттакая коллекция, у которого естьнабор положительных чисел,набор отрицательных чисел(). если,Зависит отможет быть запущен, что то же самое, чтоудовлетворитьпротиворечивы, поэтому должно быть. Из этого можно сделать вывод, что:,использоватьможет получить,это означает. Это приводит к следующей формуле:
Теперь мы можем объединить эти отношения, чтобы вычислить всеверхний предел суммы квадратов.
Это то же самое, что и предполагаемоепротиворечиво, поэтому множествоЭлемент удовлетворяет ограничению. мы можем установить,правильно,ииди проверь этонижняя частьверно. можно проверитьи.
Theorem2
Теорема 2 Описание:
Данное состояние, для всех действительно оптимальных функций действия-ценности суравнение. Гипотетическая ошибка оценкисуществуетудовлетворяет независимому равномерному случайному распределению. имеют:
Теорема 2 Доказательство:
Определение; этоРавномерная случайная величина в пространстве.Вероятность эквивалентна одновременному,Вероятность. Поскольку ошибки оценок независимы, мы можем вывести:
функциядаКумулятивная функция распределения (cumulative distribution function(CDF)), определяемый просто как:
это означает:
Дана случайная величина, ее математическое ожидание можно записать в следующем интегральном виде:
в- функция плотности вероятности этой переменной, определяемая какCDF
Производное от :. Поэтому,У нас есть, а затем вычислить его интеграл следующим образом:
Ссылка на ссылку
Проблема оценивания, которая была решена ранее, заключается в недостаточной аппроксимации функции цены
- Thrun and A. Schwartz. Issues in using function approximation for reinforcement learning. In M. Mozer, P. Smolensky, D. Touretzky, J. Elman, and A. Weigend, editors, Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ, 1993. Lawrence Erlbaum.
или добавить немного шума
- van Hasselt. Double Q-learning, Достижения в области нейронных систем обработки информации, 23:2613–2621, 2010.
- van Hasselt. Insights in Reinforcement Learning. PhD thesis, Utrecht University, 2011.
мойИмя общедоступной учетной записи WeChat: Глубокое обучение и расширенное интеллектуальное принятие решенийИдентификатор официального аккаунта WeChat: Мультиагент1024Введение в публичный аккаунт: В основном исследуйте и делитесь соответствующим контентом, таким как глубокое обучение, машинные игры и обучение с подкреплением! Ждем вашего внимания, добро пожаловать учиться и обмениваться прогрессом вместе!