Резюме обучения с подкреплением 01 Основные понятия

обучение с подкреплением
Резюме обучения с подкреплением 01 Основные понятия

1 Обзор

Обучение с подкреплением — это процесс, в котором агент (Agent) постоянно взаимодействует с окружающей средой (Environment) и постоянно совершенствует свою способность принимать решения.

  • Агентно-ориентированное обучение - путем взаимодействия с окружающей средой

    • научилсяобразецОтВзаимодействие с окружающей средой. Вместо традиционных образцов машинного обучения доступны.
  • пройти черезМетод проб и ошибок и оптимизацияУчитесь - учитесь с **наградами (или штрафами)** после проб и ошибок

Общий процесс: среда предоставит агенту наблюдение (

При полном наблюдении состояние состояния и наблюдение эквивалентны)
, агент выполнит действие (Действие) после получения значения наблюдения, заданного средой, это действие даст вознаграждение (Награда) и новое значение наблюдения.Агент обновит свое собственное значение в соответствии со значением вознаграждения, заданным средой. Окружающая среда Политика.

обучение с подкреплениемЦель

для получения оптимальной стратегии
.

2. Компоненты обучения с подкреплением

Общая структура: среда и агент

环境和智能体
Окружающая среда и агенты

каждый момент:

  • Агент

    • Агент выполняет действие, и наблюдается в окружающей средеи награды
  • Окружающая обстановка

    • Действие среды на агентареагирует, затем отправляет новые наблюденияи награды

Агент — это часть, которую мы можем контролировать, среда — это часть, которую мы не можем контролировать. В разных задачах агент и среда относятся к разным объектам.

2.1 Награда

наградаэто обучение с подкреплениемосновной, цель обучения с подкреплением состоит в том, чтобыМаксимизируйте ожидаемые джекпоты

  • Функции
    • даскаляр, чтобы можно было сравнить размер
    • Указывает, что агент в данный моменткак хорошо сделано
    • Награды не обязательно должны быть положительными или отрицательными, все положительные или все отрицательные могут быть, если они удовлетворены.Относительный размерПросто

Если проблема не удовлетворяет гипотезе вознаграждения, ее нельзя решить с помощью обучения с подкреплением!

  • стоимость вознагражденияиВозвращаемое значение (возврат)Сравнение

    возвращаемое значениетакже известен какНакопительные скидки(кумулятивное вознаграждение со скидкой). шагкогда возвращение

    вПредставляет коэффициент дисконтирования.Степень акцента на награду за каждый шаг в формуле уменьшается со временем, что является регулируемым гиперпараметром.

    • Чем больше, тем больше мы ориентируемся на долгосрочное вознаграждение.
    • Чем меньше значение, тем больше мы ориентируемся на краткосрочное вознаграждение.

    Задача агента — максимизировать совокупное вознаграждение, то есть максимизировать вознаграждение всего процесса.

    Таким образом, задача агента может быть преобразована вМаксимизируйте ожидание джекпотов.

2.2 Состояние Состояние

история

  • историяпредставляет собой последовательность наблюдений, действий и наград. является агентом во времениВсе предыдущие переменные взаимодействия.

Согласно истории:

  • Агент выбирает действие
  • Окружающая среда генерирует новые наблюденияи награды

По существу, государство есть функция истории:

Статус может бытьполная историяиличасть истории

  • При игре в шахматы текущую раскладку шахматной доски можно рассматривать как состояние
  • В игре «Арканоид» наблюдения первых нескольких кадров можно рассматривать как состояние

экологический статус

环境状态
экологический статус
  • Все данные, которые могут влиять на окружающую среду для получения наблюдений/поощрений, считаются частью состояния окружающей среды.
  • Состояние окружающей среды, как правило, незаметно для агента.
  • даже если окружающая средаВидимый, как правило, также содержит нерелевантную информацию

состояние агента

智能体状态
состояние агента
  • Все данные, которые могут повлиять на следующее действие агента, считаются частью состояния агента.
  • Состояния, используемые в обучении с подкреплением
  • может быть любой функцией истории

Для агента,Состояние среды неизвестно, известно состояние агентаАгент совершает соответствующие действия через состояние агента Если не указано иное, состояние, о котором мы говорим, относится к состоянию агента.

Полные и частичные наблюдения

Полное наблюдение:

  • Агенты могутНаблюдайте за всем окружением,СейчасСостояние агента эквивалентно состоянию среды
  • Основная исследовательская проблема обучения с подкреплением - марковский процесс принятия решений

Некоторые наблюдения:

  • агентне полностью наблюдаемыйко всей окружающей среде
  • Смоделирован как частично наблюдаемый марковский процесс принятия решений.

2.3 Действие Действие

  • Действие – это среда, посредством которой агент взаимодействует с окружающей средой.
  • Действия должны воздействовать на окружающую средунекоторый контроль
  • Действие должно соответствовать награде

3. Состав средства

В состав средства в основном входят:

  • Стратегия
  • функция значения
  • Модель

3.1 Политика Политика()

Политика — это отображение состояний в действия с использованиемпредставление, которое сообщает агенту, как выбрать следующее действие.

В обучении с подкреплением есть два типа политик:

  1. Детерминированная политика

В детерминированной стратегии входом является состояние, а выходом — определенноеопределенное действие.

  1. Стохастическая политика

В стратегии случайности входом является состояние, а выходомраспределение вероятности для каждого действия.

3.2 Функции ценности

  • Функция ценностиОжидание возвращаемого значения
  • Функция ценности в основном используется для оценки качества различных состояний и выбора действий.

3.3 Модель

Относится к модели прогнозирования агента для среды, которая разделена на две части.

  • - предсказать, каким будет следующее состояние
  • - Предсказать, какой будет следующая награда

4. Классификация обучения с подкреплением

По среде:

  • под полным наблюдением
  • при некоторых условиях наблюдения

По агентному составу:

  • Ценностно-ориентированные функции: обучение ценностным функциям
  • На основе политик: стратегии обучения
  • Критик актора: изучение функций ценности и политики одновременно

По модели:

  • Обучение с подкреплением без использования моделей
  • Обучение с подкреплением на основе моделей

По способу использования:

  • традиционное обучение с подкреплением
  • глубокое обучение с подкреплением

5. Обучение и планирование

решатьзадача последовательного решенияСуществует два основных метода:

Обучение с подкреплением:

  • Окружающая среда неизвестна
  • Агент взаимодействует со средой и постоянно совершенствует политику

планирование:

  • окружающая среда известна
  • Может быть рассчитан непосредственно по модели без взаимодействия

Когда модель среды неточна, она не только использует среду для планирования, но и взаимодействует со средой для обучения с подкреплением -->Обучение с подкреплением на основе моделейКогда модель среды очень точна, ее можно решить непосредственно путем планирования.

6. Разведка и разработка

  • проводить исследования:Откройте для себя больше информации в окружающей среде;
  • использовать:Полностью моя текущая известная информация, чтобы максимизировать возвращаемое значение;

Оба компромисса одинаково важны.

7. Оценка и оптимизация

  • Оценка: учитывая стратегию, оцените качество стратегии.Функция оценки
  • Оптимизация: улучшите свою стратегиюнайти оптимальную стратегию