Основные итерационные методы обучения с подкреплением

машинное обучение

Автор|Натан Ламберт Компилировать|ВКонтакте Источник | К науке о данных

Итерация ценности исследования и итерация стратегии.

В этой статье основное внимание уделяется пониманию основных MDP (кратко рассмотренных здесь) и их применению к основным методам обучения с подкреплением. Методы, на которых я сосредоточусь, — это «итерация значения» и «итерация политики». Эти два метода лежат в основе итерации Q-value, которая ведет непосредственно к Q-Learning.

Вы можете прочитать некоторые из моих предыдущих статей (намеренно независимых):

  1. Что такое марковский процесс принятия решений? (к data science.com/what-is-ah-no…)
  2. Линейная алгебра для обучения с подкреплением (в сторону data science.com/ он и -hidden-…)

Q-Learning положил начало волне глубокого обучения с подкреплением, в котором мы сейчас находимся, и является важной частью стратегии обучения студентов в обучении с подкреплением.

Просмотрите марковский процесс принятия решений

Марковские процессы принятия решений (MDP) — это стохастические модели, лежащие в основе обучения с подкреплением (RL). Вы можете пропустить эту часть, если вы знакомы, но я добавил некоторые соответствующие пояснения.

определение

  • Множество состояний $s\in S, множество действий $a\in A$. Состояния и действия представляют собой совокупность всех возможных позиций и действий агента. существуетПродвинутое обучение с подкреплением, состояние и действие непрерывны, поэтому это требует переосмысления нашего алгоритма.

  • Функция преобразования T(s, a, s'). Учитывая текущую позицию и заданное действие, T определяет, как часто возникает следующее состояние. При обучении с подкреплением у нас нет доступа к этой функции, поэтому эти методы пытаются аппроксимировать или неявно обучаться на выборочных данных.

  • Функция вознаграждения R(s, a, s'). Эта функция указывает, сколько вознаграждения доступно за каждый шаг. В обучении с подкреплением мы не используем эту функцию, поэтому мы учимся на выборочных значениях r, которые заставляют алгоритм исследовать окружающую среду, а затем использовать оптимальную траекторию.

  • Коэффициент дисконтирования γ (гамма, диапазон [0,1]) корректирует значение следующего шага в соответствии с будущим вознаграждением. В обучении с подкреплением мы не используем эту функцию, γ(гамма) контролирует сходимость большинства алгоритмов обучения и оптимизаций на основе Беллмана.

  • Начальное состояние s0 также может быть конечным состоянием.

важная ценность

MDP имеет две важные характеристики: значение состояния и значение q случайного узла. * в любом значении MDP или RL указывает оптимальное количество.

  • Значение состояния: значение состояния — это оптимальная рекурсивная сумма вознаграждений после запуска из состояния.

  • Q-значение состояния, пара действий: Q-значение — это оптимальная сумма дисконтированных вознаграждений, связанных с парами состояние-действие.

Оптимальное значение связано со значением оптимального условия действия q. Тогда правила обновления значения и q-значения очень похожи (взвешенные преобразования, коэффициенты вознаграждения и скидки). Вверху: связь значения с q-значением, в середине: рекурсия Q-значения: внизу: итерация значения. Ссылаться на:Inst.ee CS.Berkeley Quota / ~ 188 на данный момент / 20 на билеты…

Ведущее обучение с подкреплением

итерация значения

Узнав значения всех состояний, мы можем затем оперировать градиентами. Итерация значения изучает значение состояния непосредственно из обновления Беллмана. При определенных не ограничивающих условиях обновления Беллмана гарантированно сходятся к оптимальному значению.

Изучение стратегии может быть более простым, чем изучение ценности. Изучение значения может занять бесконечное количество времени, чтобы приблизиться к числовой точности 64-битного числа с плавающей запятой (рассмотрите постоянное скользящее среднее значение на каждой итерации, которое всегда будет добавлять все меньше и меньше значения после начала оценки в 0 не -нулевое число).

итерация политики

Изучите стратегии, связанные с ценностью. Изучение политики поэтапно просматривает текущее значение и извлекает политику. Поскольку пространство действий конечно, мы ожидаем, что оно сойдется быстрее, чем итерация значения. Теоретически последнее изменение в операции произойдет до окончания небольшого обновления скользящего среднего. Итерация политики состоит из двух шагов.

Первый, называемый извлечением политики, заключается в том, как преобразовать значение в политику, максимизирующую ожидаемое значение.

Второй шаг – оценка стратегии. Оценка политики берет политику и повторяет значения, обусловленные политикой. Эти образцы всегда имеют отношение к политике, но мы должны запустить итеративный алгоритм, чтобы уменьшить корреляцию извлечения.действиеинформационные шаги.

Как и в случае с итерацией значения, итерация политики гарантированно сходится для большинства разумных MDP благодаря базовому обновлению Беллмана.

Итерация значения Q

Проблема с изучением оптимальных значений заключается в том, что из них сложно извлечь политики. Очевидно, что оператор argmax является нелинейным и его трудно оптимизировать, поэтому итерационная нормаль q-значения — это шаг к прямому извлечению политики. Оптимальной политикой в ​​каждом состоянии является максимальное значение q в этом состоянии.

Причина, по которой большинство инструкций начинается с «итерации значений», заключается в том, что они естественным образом входят в обновление Bellman. Итерация Q-значения требует замены двух ключевых взаимосвязей значений MDP вместе. Сделав это, это первый шаг в Q-Learning, о котором мы узнаем.

Причина, по которой большинство инструкций начинаются с итерации значений, заключается в том, что обновления Беллмана вставляются более естественно. Итерация Q-значения требует замены двух ключевых взаимосвязей значений MDP вместе. После этого остается один шаг до того, что мы собираемся понять о Q-обучении.

Что происходит с этими итеративными алгоритмами?

Давайте удостоверимся, что вы понимаете все термины. По сути, каждое обновление состоит из суммированных двух элементов (и, возможно, действия выбора по макс.). Давайте заключим их в скобки и обсудим, как они относятся к MDP.

Первый член представляет собой сумму произведений Т(s, а, s') R(s, а, s'). Этот термин представляет потенциальное значение и вероятность данного состояния и перехода.T, или переходы, определяют вероятность получения данного вознаграждения за переход (напомним, что кортеж s,a,s' определяет, где действие a переводит агента из одного состояния s в другое состояние s'). Это будет делать вещи, которые будут делать такие вещи, как обмен состояниями с низкой вероятностью с высокими вознаграждениями по сравнению с частыми состояниями с низкими весами.

Следующий член определяет «свойства Беллмана» этих алгоритмов. Это взвешивание данных на последнем шаге итеративного алгоритма V, формула выше имеет один член. Это получает информацию о значениях из соседних состояний, чтобы мы могли понять долгосрочные переходы. Думайте об этом терме как об основном месте, где происходят рекурсивные обновления, а о первом члене как о весе приоритета, определяемом средой.

Условия сходимости

Приказывает всем итеративным алгоритмам «сойтись к оптимальному значению или политике при определенных условиях». Эти условия таковы:

  1. Общий государственный космический охват. Условие состоит в том, что все кортежи state, action, next_state достигаются в соответствии с условной политикой. Если этого не сделать, часть информации из MDP будет потеряна, а значение может остаться на исходном уровне.

  2. Коэффициент дисконтирования γ . В противном случае это приведет к бесконечному циклу и, наконец, к бесконечности.

К счастью, на практике эти условия легко выполняются. Большинство исследований являются эпсилон-жадными, в том числе всегда есть вероятность случайного действия (поэтому любое действие возможно), а коэффициент дисконтирования, отличный от единицы, приводит к лучшей производительности. В конечном счете, эти алгоритмы работают во многих условиях, поэтому их определенно стоит проверить.

обучение с подкреплением

Как превратить то, что мы видим, в проблему обучения с подкреплением? Вместо реальных функций T(s, a, s') и R(s, a, s') нам нужно использовать выборки.

Обучение на основе образцов — как решить скрытые MDP

Единственное различие между итеративными методами в MDP и базовыми методами решения задач обучения с подкреплением заключается в том, что образцы RL получаются из базовых функций преобразования и вознаграждения MDP, а не включаются в правила обновления. Нам нужно обновить две вещи: заменить T(s,a,s') и заменить R(s,a,s')

Во-первых, давайте аппроксимируем функцию перехода как средний переход, обусловленный действием, на набор наблюдений. Все значения, которые мы не видим, инициализируются случайными значениями. Это простейшая форма обучения с подкреплением на основе моделей (моя область исследований).

Теперь осталось только вспомнить, как использовать награду. Однако на самом деле у нас есть вознаграждение за каждый шаг, поэтому мы можем остаться безнаказанными (метод усредняет правильное значение по множеству выборок). Рассмотрим аппроксимацию итеративного уравнения q-значения с выборочным вознаграждением, как показано ниже.

Вышеупомянутое уравнение Q-Learning. Мы начинаем с некоторого вектора Q(s, a), заполненного случайными значениями, затем собираем взаимодействия с миром и корректируем альфу. Альфа — это скорость обучения, поэтому, когда мы думаем, что алгоритм сходится, мы ее снижаем.

Оказывается, Q-обучение очень похоже на итерацию Q-значения, но мы просто запускаем алгоритм с неполным представлением о мире.

Q-обучение, используемое в робототехнике и играх, заключается в том, что нейронная сеть аппроксимирует большую таблицу всех пар состояний и действий в более сложном пространстве признаков.

Оригинальная ссылка:к data science.com/fundamental…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию ​​сводки ресурсов блога Panchuang:docs.panchuang.net/