Это 18-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления
Offline-RL
концепция
Offline RL — это автономное обучение с подкреплением. Автономный RL также называется пакетным RL, Его базовая настройка: есть набор данных, полученный в среде обучения с подкреплением, учетверенный из этого. Наша цель — изучить наилучшую политику только из этого набора данных, не взаимодействуя с окружающей средой..
Практически все алгоритмы вне политики могут использоваться для выполнения Offline-RL. Методы вне политики, такие как DQN и DDPG, имеют буфер воспроизведения, используемый для хранения ранее собранных данных. Фактически, когда буфер воспроизведения достаточно велик, мы можем рассматривать его как Offline-RL.
отличие от имитационного обучения
Когда качество данных достаточно хорошее, например, когда все траектории представляют собой данные, сгенерированные экспертными стратегиями, имитационное обучение может выполняться напрямую. Разница между автономным RL и имитационным обучением заключается в том, что offlineRL теоретически может использовать автономные данные, отобранные любой стратегией, для изучения оптимальной стратегии, в то время как имитационное обучение должно имитировать данные, отобранные экспертной стратегией.
Разница между онлайн и вне политики
онлайн RL: любая стратегияПри обновлении основывается на потоковых данных, полученных из среды (то есть последовательности), обновить
RL вне политики: добавьте буфер воспроизведения пула опыта в онлайн RL, чтобы сохранить ранее выбранную политику.Включая серию наблюдений по каждой стратегии, все данные будут использоваться длявозобновить.
автономный RL: используйте содержащий(неизвестная политика) автономный набор данных. Набор данных собирается только один раз и не изменяется во время обучения. Процесс обучения не взаимодействует с MDP, и политика развертывается только после полного обучения. Автономный RL может использовать большие предварительно собранные наборы данных. Автономная последовательность RL фиксирована.
текущие проблемы
Сдвиг распределения
Текущие проблемы автономного обучения с подкреплением: автономное обучение с подкреплением хочет изучить политики из автономных данных, которые отличаются от наблюдаемых данных, что вызовет проблему смещения распределения. То есть распределение в автономном наборе данных сильно отличается от распределения в реальном наборе данных наблюдения.
Короче говоря, мы сэмплируем политику из офлайн-данных., но фактическая стратегия обучения такова. Это может привести к тому, что распределение двух стратегий будет совершенно различным.
Чтобы преодолеть эту проблему, в настоящее время существуют такие методы, как выборка важности, которые будут дополнительно изучены и обсуждены в будущем.