1 Обзор
Обучение с подкреплением — это процесс, в котором агент (Agent) постоянно взаимодействует с окружающей средой (Environment) и постоянно совершенствует свою способность принимать решения.
Агентно-ориентированное обучение - путем взаимодействия с окружающей средой
- научилсяобразецОтВзаимодействие с окружающей средой. Вместо традиционных образцов машинного обучения доступны.
пройти черезМетод проб и ошибок и оптимизацияУчитесь - учитесь с **наградами (или штрафами)** после проб и ошибок
Общий процесс: среда предоставит агенту наблюдение (
При полном наблюдении состояние состояния и наблюдение эквивалентны), агент выполнит действие (Действие) после получения значения наблюдения, заданного средой, это действие даст вознаграждение (Награда) и новое значение наблюдения.Агент обновит свое собственное значение в соответствии со значением вознаграждения, заданным средой. Окружающая среда Политика.
обучение с подкреплениемЦель
2. Компоненты обучения с подкреплением
Общая структура: среда и агент
каждый момент:
Агент
- Агент выполняет действие
, и наблюдается в окружающей среде
и награды
Окружающая обстановка
- Действие среды на агента
реагирует, затем отправляет новые наблюдения
и награды
Агент — это часть, которую мы можем контролировать, среда — это часть, которую мы не можем контролировать. В разных задачах агент и среда относятся к разным объектам.
2.1 Награда
наградаэто обучение с подкреплениемосновной, цель обучения с подкреплением состоит в том, чтобыМаксимизируйте ожидаемые джекпоты
- Функции
- даскаляр, чтобы можно было сравнить размер
- Указывает, что агент в данный момент
как хорошо сделано
- Награды не обязательно должны быть положительными или отрицательными, все положительные или все отрицательные могут быть, если они удовлетворены.Относительный размерПросто
Если проблема не удовлетворяет гипотезе вознаграждения, ее нельзя решить с помощью обучения с подкреплением!
стоимость вознагражденияиВозвращаемое значение (возврат)Сравнение
возвращаемое значение
также известен какНакопительные скидки(кумулятивное вознаграждение со скидкой). шаг
когда возвращение
в
Представляет коэффициент дисконтирования.Степень акцента на награду за каждый шаг в формуле уменьшается со временем, что является регулируемым гиперпараметром.
Чем больше, тем больше мы ориентируемся на долгосрочное вознаграждение.
Чем меньше значение, тем больше мы ориентируемся на краткосрочное вознаграждение.
Задача агента — максимизировать совокупное вознаграждение, то есть максимизировать вознаграждение всего процесса.
Таким образом, задача агента может быть преобразована вМаксимизируйте ожидание джекпотов.
2.2 Состояние Состояние
история
- историяпредставляет собой последовательность наблюдений, действий и наград. является агентом во времени
Все предыдущие переменные взаимодействия.
Согласно истории:
- Агент выбирает действие
- Окружающая среда генерирует новые наблюдения
и награды
По существу, государство есть функция истории:
Статус может бытьполная историяиличасть истории
При игре в шахматы текущую раскладку шахматной доски можно рассматривать как состояние![]()
В игре «Арканоид» наблюдения первых нескольких кадров можно рассматривать как состояние![]()
экологический статус
- Все данные, которые могут влиять на окружающую среду для получения наблюдений/поощрений, считаются частью состояния окружающей среды.
- Состояние окружающей среды, как правило, незаметно для агента.
- даже если окружающая среда
Видимый, как правило, также содержит нерелевантную информацию
состояние агента
- Все данные, которые могут повлиять на следующее действие агента, считаются частью состояния агента.
- Состояния, используемые в обучении с подкреплением
- может быть любой функцией истории
Для агента,Состояние среды неизвестно, известно состояние агентаАгент совершает соответствующие действия через состояние агента Если не указано иное, состояние, о котором мы говорим, относится к состоянию агента.
Полные и частичные наблюдения
Полное наблюдение:
- Агенты могутНаблюдайте за всем окружением,СейчасСостояние агента эквивалентно состоянию среды
- Основная исследовательская проблема обучения с подкреплением - марковский процесс принятия решений
Некоторые наблюдения:
- агентне полностью наблюдаемыйко всей окружающей среде
- Смоделирован как частично наблюдаемый марковский процесс принятия решений.
2.3 Действие Действие
- Действие – это среда, посредством которой агент взаимодействует с окружающей средой.
- Действия должны воздействовать на окружающую средунекоторый контроль
- Действие должно соответствовать награде
3. Состав средства
В состав средства в основном входят:
- Стратегия
- функция значения
- Модель
3.1 Политика Политика()
Политика — это отображение состояний в действия с использованиемпредставление, которое сообщает агенту, как выбрать следующее действие.
В обучении с подкреплением есть два типа политик:
- Детерминированная политика
В детерминированной стратегии входом является состояние, а выходом — определенноеопределенное действие.
- Стохастическая политика
В стратегии случайности входом является состояние, а выходомраспределение вероятности для каждого действия.
3.2 Функции ценности
- Функция ценностиОжидание возвращаемого значения
- Функция ценности в основном используется для оценки качества различных состояний и выбора действий.
3.3 Модель
Относится к модели прогнозирования агента для среды, которая разделена на две части.
- предсказать, каким будет следующее состояние
- Предсказать, какой будет следующая награда
4. Классификация обучения с подкреплением
По среде:
- под полным наблюдением
- при некоторых условиях наблюдения
По агентному составу:
- Ценностно-ориентированные функции: обучение ценностным функциям
- На основе политик: стратегии обучения
- Критик актора: изучение функций ценности и политики одновременно
По модели:
- Обучение с подкреплением без использования моделей
- Обучение с подкреплением на основе моделей
По способу использования:
- традиционное обучение с подкреплением
- глубокое обучение с подкреплением
5. Обучение и планирование
решатьзадача последовательного решенияСуществует два основных метода:
Обучение с подкреплением:
- Окружающая среда неизвестна
- Агент взаимодействует со средой и постоянно совершенствует политику
планирование:
- окружающая среда известна
- Может быть рассчитан непосредственно по модели без взаимодействия
Когда модель среды неточна, она не только использует среду для планирования, но и взаимодействует со средой для обучения с подкреплением -->Обучение с подкреплением на основе моделейКогда модель среды очень точна, ее можно решить непосредственно путем планирования.
6. Разведка и разработка
- проводить исследования:Откройте для себя больше информации в окружающей среде;
- использовать:Полностью моя текущая известная информация, чтобы максимизировать возвращаемое значение;
Оба компромисса одинаково важны.
7. Оценка и оптимизация
- Оценка: учитывая стратегию, оцените качество стратегии.
Функция оценки
- Оптимизация: улучшите свою стратегию
найти оптимальную стратегию