Автор|Натан Ламберт Компилировать|ВКонтакте Источник | К науке о данных
Итерация ценности исследования и итерация стратегии.
В этой статье основное внимание уделяется пониманию основных MDP (кратко рассмотренных здесь) и их применению к основным методам обучения с подкреплением. Методы, на которых я сосредоточусь, — это «итерация значения» и «итерация политики». Эти два метода лежат в основе итерации Q-value, которая ведет непосредственно к Q-Learning.
Вы можете прочитать некоторые из моих предыдущих статей (намеренно независимых):
- Что такое марковский процесс принятия решений? (к data science.com/what-is-ah-no…)
- Линейная алгебра для обучения с подкреплением (в сторону data science.com/ он и -hidden-…)
Q-Learning положил начало волне глубокого обучения с подкреплением, в котором мы сейчас находимся, и является важной частью стратегии обучения студентов в обучении с подкреплением.
Просмотрите марковский процесс принятия решений
Марковские процессы принятия решений (MDP) — это стохастические модели, лежащие в основе обучения с подкреплением (RL). Вы можете пропустить эту часть, если вы знакомы, но я добавил некоторые соответствующие пояснения.
определение
-
Множество состояний $s\in S, множество действий $a\in A$. Состояния и действия представляют собой совокупность всех возможных позиций и действий агента. существуетПродвинутое обучение с подкреплением, состояние и действие непрерывны, поэтому это требует переосмысления нашего алгоритма.
-
Функция преобразования T(s, a, s'). Учитывая текущую позицию и заданное действие, T определяет, как часто возникает следующее состояние. При обучении с подкреплением у нас нет доступа к этой функции, поэтому эти методы пытаются аппроксимировать или неявно обучаться на выборочных данных.
-
Функция вознаграждения R(s, a, s'). Эта функция указывает, сколько вознаграждения доступно за каждый шаг. В обучении с подкреплением мы не используем эту функцию, поэтому мы учимся на выборочных значениях r, которые заставляют алгоритм исследовать окружающую среду, а затем использовать оптимальную траекторию.
-
Коэффициент дисконтирования γ (гамма, диапазон [0,1]) корректирует значение следующего шага в соответствии с будущим вознаграждением. В обучении с подкреплением мы не используем эту функцию, γ(гамма) контролирует сходимость большинства алгоритмов обучения и оптимизаций на основе Беллмана.
-
Начальное состояние s0 также может быть конечным состоянием.
важная ценность
MDP имеет две важные характеристики: значение состояния и значение q случайного узла. * в любом значении MDP или RL указывает оптимальное количество.
-
Значение состояния: значение состояния — это оптимальная рекурсивная сумма вознаграждений после запуска из состояния.
-
Q-значение состояния, пара действий: Q-значение — это оптимальная сумма дисконтированных вознаграждений, связанных с парами состояние-действие.
Оптимальное значение связано со значением оптимального условия действия q. Тогда правила обновления значения и q-значения очень похожи (взвешенные преобразования, коэффициенты вознаграждения и скидки). Вверху: связь значения с q-значением, в середине: рекурсия Q-значения: внизу: итерация значения. Ссылаться на:Inst.ee CS.Berkeley Quota / ~ 188 на данный момент / 20 на билеты…
Ведущее обучение с подкреплением
итерация значения
Узнав значения всех состояний, мы можем затем оперировать градиентами. Итерация значения изучает значение состояния непосредственно из обновления Беллмана. При определенных не ограничивающих условиях обновления Беллмана гарантированно сходятся к оптимальному значению.
Изучение стратегии может быть более простым, чем изучение ценности. Изучение значения может занять бесконечное количество времени, чтобы приблизиться к числовой точности 64-битного числа с плавающей запятой (рассмотрите постоянное скользящее среднее значение на каждой итерации, которое всегда будет добавлять все меньше и меньше значения после начала оценки в 0 не -нулевое число).
итерация политики
Изучите стратегии, связанные с ценностью. Изучение политики поэтапно просматривает текущее значение и извлекает политику. Поскольку пространство действий конечно, мы ожидаем, что оно сойдется быстрее, чем итерация значения. Теоретически последнее изменение в операции произойдет до окончания небольшого обновления скользящего среднего. Итерация политики состоит из двух шагов.
Первый, называемый извлечением политики, заключается в том, как преобразовать значение в политику, максимизирующую ожидаемое значение.
Второй шаг – оценка стратегии. Оценка политики берет политику и повторяет значения, обусловленные политикой. Эти образцы всегда имеют отношение к политике, но мы должны запустить итеративный алгоритм, чтобы уменьшить корреляцию извлечения.действиеинформационные шаги.
Как и в случае с итерацией значения, итерация политики гарантированно сходится для большинства разумных MDP благодаря базовому обновлению Беллмана.
Итерация значения Q
Проблема с изучением оптимальных значений заключается в том, что из них сложно извлечь политики. Очевидно, что оператор argmax является нелинейным и его трудно оптимизировать, поэтому итерационная нормаль q-значения — это шаг к прямому извлечению политики. Оптимальной политикой в каждом состоянии является максимальное значение q в этом состоянии.
Причина, по которой большинство инструкций начинается с «итерации значений», заключается в том, что они естественным образом входят в обновление Bellman. Итерация Q-значения требует замены двух ключевых взаимосвязей значений MDP вместе. Сделав это, это первый шаг в Q-Learning, о котором мы узнаем.
Причина, по которой большинство инструкций начинаются с итерации значений, заключается в том, что обновления Беллмана вставляются более естественно. Итерация Q-значения требует замены двух ключевых взаимосвязей значений MDP вместе. После этого остается один шаг до того, что мы собираемся понять о Q-обучении.
Что происходит с этими итеративными алгоритмами?
Давайте удостоверимся, что вы понимаете все термины. По сути, каждое обновление состоит из суммированных двух элементов (и, возможно, действия выбора по макс.). Давайте заключим их в скобки и обсудим, как они относятся к MDP.
Первый член представляет собой сумму произведений Т(s, а, s') R(s, а, s'). Этот термин представляет потенциальное значение и вероятность данного состояния и перехода.T, или переходы, определяют вероятность получения данного вознаграждения за переход (напомним, что кортеж s,a,s' определяет, где действие a переводит агента из одного состояния s в другое состояние s'). Это будет делать вещи, которые будут делать такие вещи, как обмен состояниями с низкой вероятностью с высокими вознаграждениями по сравнению с частыми состояниями с низкими весами.
Следующий член определяет «свойства Беллмана» этих алгоритмов. Это взвешивание данных на последнем шаге итеративного алгоритма V, формула выше имеет один член. Это получает информацию о значениях из соседних состояний, чтобы мы могли понять долгосрочные переходы. Думайте об этом терме как об основном месте, где происходят рекурсивные обновления, а о первом члене как о весе приоритета, определяемом средой.
Условия сходимости
Приказывает всем итеративным алгоритмам «сойтись к оптимальному значению или политике при определенных условиях». Эти условия таковы:
-
Общий государственный космический охват. Условие состоит в том, что все кортежи state, action, next_state достигаются в соответствии с условной политикой. Если этого не сделать, часть информации из MDP будет потеряна, а значение может остаться на исходном уровне.
-
Коэффициент дисконтирования γ . В противном случае это приведет к бесконечному циклу и, наконец, к бесконечности.
К счастью, на практике эти условия легко выполняются. Большинство исследований являются эпсилон-жадными, в том числе всегда есть вероятность случайного действия (поэтому любое действие возможно), а коэффициент дисконтирования, отличный от единицы, приводит к лучшей производительности. В конечном счете, эти алгоритмы работают во многих условиях, поэтому их определенно стоит проверить.
обучение с подкреплением
Как превратить то, что мы видим, в проблему обучения с подкреплением? Вместо реальных функций T(s, a, s') и R(s, a, s') нам нужно использовать выборки.
Обучение на основе образцов — как решить скрытые MDP
Единственное различие между итеративными методами в MDP и базовыми методами решения задач обучения с подкреплением заключается в том, что образцы RL получаются из базовых функций преобразования и вознаграждения MDP, а не включаются в правила обновления. Нам нужно обновить две вещи: заменить T(s,a,s') и заменить R(s,a,s')
Во-первых, давайте аппроксимируем функцию перехода как средний переход, обусловленный действием, на набор наблюдений. Все значения, которые мы не видим, инициализируются случайными значениями. Это простейшая форма обучения с подкреплением на основе моделей (моя область исследований).
Теперь осталось только вспомнить, как использовать награду. Однако на самом деле у нас есть вознаграждение за каждый шаг, поэтому мы можем остаться безнаказанными (метод усредняет правильное значение по множеству выборок). Рассмотрим аппроксимацию итеративного уравнения q-значения с выборочным вознаграждением, как показано ниже.
Вышеупомянутое уравнение Q-Learning. Мы начинаем с некоторого вектора Q(s, a), заполненного случайными значениями, затем собираем взаимодействия с миром и корректируем альфу. Альфа — это скорость обучения, поэтому, когда мы думаем, что алгоритм сходится, мы ее снижаем.
Оказывается, Q-обучение очень похоже на итерацию Q-значения, но мы просто запускаем алгоритм с неполным представлением о мире.
Q-обучение, используемое в робототехнике и играх, заключается в том, что нейронная сеть аппроксимирует большую таблицу всех пар состояний и действий в более сложном пространстве признаков.
Оригинальная ссылка:к data science.com/fundamental…
Добро пожаловать на сайт блога Panchuang AI:panchuang.net/
sklearn машинное обучение китайские официальные документы:sklearn123.com/
Добро пожаловать на станцию сводки ресурсов блога Panchuang:docs.panchuang.net/