Что такое оффлайн RL?

обучение с подкреплением

Это 18-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления

Offline-RL

концепция

Offline RL — это автономное обучение с подкреплением. Автономный RL также называется пакетным RL, Его базовая настройка: есть набор данных, полученный в среде обучения с подкреплением, учетверенный из этого(st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1}). Наша цель — изучить наилучшую политику только из этого набора данных, не взаимодействуя с окружающей средой.число Пи\pi.

Практически все алгоритмы вне политики могут использоваться для выполнения Offline-RL. Методы вне политики, такие как DQN и DDPG, имеют буфер воспроизведения, используемый для хранения ранее собранных данных. Фактически, когда буфер воспроизведения достаточно велик, мы можем рассматривать его как Offline-RL.

отличие от имитационного обучения

Когда качество данных достаточно хорошее, например, когда все траектории представляют собой данные, сгенерированные экспертными стратегиями, имитационное обучение может выполняться напрямую. Разница между автономным RL и имитационным обучением заключается в том, что offlineRL теоретически может использовать автономные данные, отобранные любой стратегией, для изучения оптимальной стратегии, в то время как имитационное обучение должно имитировать данные, отобранные экспертной стратегией.

Разница между онлайн и вне политики

онлайн RL: любая стратегиячисло Пиk+1\pi_{k+1}При обновлении основывается на потоковых данных, полученных из среды (то есть последовательностиsi,ai,ri,si's_i,a_i,r_i,s'_i), обновить

RL вне политики: добавьте буфер воспроизведения пула опыта в онлайн RL, чтобы сохранить ранее выбранную политику.число Пи0,...,число Пиk\pi_0,...,\pi_kВключая серию наблюдений по каждой стратегии, все данные будут использоваться длячисло Пиk+1\pi_{k+1}возобновить.

автономный RL: используйте содержащийчисло Пибета\pi_{\beta}(неизвестная политика) автономный набор данныхDD. Набор данных собирается только один раз и не изменяется во время обучения. Процесс обучения не взаимодействует с MDP, и политика развертывается только после полного обучения. Автономный RL может использовать большие предварительно собранные наборы данных. Автономная последовательность RL фиксирована.

在这里插入图片描述

текущие проблемы

Сдвиг распределения

Текущие проблемы автономного обучения с подкреплением: автономное обучение с подкреплением хочет изучить политики из автономных данных, которые отличаются от наблюдаемых данных, что вызовет проблему смещения распределения. То есть распределение в автономном наборе данных сильно отличается от распределения в реальном наборе данных наблюдения.

Короче говоря, мы сэмплируем политику из офлайн-данных.число Пибета\pi_{\beta}, но фактическая стратегия обучения таковачисло Пиθ\pi_{\theta}. Это может привести к тому, что распределение двух стратегий будет совершенно различным.

Чтобы преодолеть эту проблему, в настоящее время существуют такие методы, как выборка важности, которые будут дополнительно изучены и обсуждены в будущем.