Первое предложение текста статьи: «Это третий день моего участия в Gengwen Challenge. Подробности о мероприятии см.:Обновить вызов
Если вы хотите посмотреть похожие видео, вы можете найти меня на видео Арбуз (аккаунт zidea) или Bilibili (аккаунт zidea2015), чтобы найти видеокомментарий, который я разместил.Обратите внимание, что аватар и аватар, используемые Цзяньшу, одинаковы.
Deepmind работает над тем, чтобы заставить ИИ играть в более сложную игру Starcraft после победы над чемпионом мира по го. Я думаю, вам может быть не менее интересно, как реализуются проекты, в которых ИИ может играть в игры. Интерес интересом Реализовать такой проект по-прежнему сложно, но как бы ни было сложно, мы все равно начинаем шаг за шагом с азов.
Основы вероятности
Прежде всего, прежде чем мы начнем, мы кратко вернемся к некоторым вероятностным знаниям, которые могут быть использованы в этом обмене.
Случайные величины и функции распределения
Во-первых, аргумент функции может быть расширен от вещественного числа до, например, двух точек в качестве аргумента, и выводится расстояние между двумя точками. Используйте прописные буквы для случайных величин и строчные буквы для наблюдений. События используются в языке для описания коллекций образцов, сгруппированных вместе с определенными свойствами.
Функция плотности вероятности (PDF)
PDF — это аббревиатура функции плотности вероятности, которая представляет возможность определенного значения случайной величины, с которой мы знакомы.
ожидать
ожидания для непрерывных дистрибутивов
ожидания для дискретных распределений
случайная выборка
случайная выборкаТо есть каждая часть обследуемой совокупности имеет одинаковую возможность быть отобранной, и это разновидность выборочного обследования, проводимого в соответствии с принципом равных возможностей, называется разновидностью обследования.равная вероятность.
срок
Состояние
Так называемое состояние заключается в наблюдении за каждым кадром игрового экрана, то есть в наблюдении за содержимым из окружения, или в понимании того, что окружение позволяет нам наблюдать.
Action
Действия — это агенты (и мы представим, какие агенты будут следующими), ответы, данные в зависимости от текущего состояния. Тогда мы увидим
Agent
Агент, в различных задачах обучения с подкреплением агент является инициатором действия, агент в танковой войне - это танк, а агент становится ? в беспилотном вождении.
Policy
Прежде всего, политика — это функция. Если это функция, то она должна иметь вход и выход.В функции политики входом является состояние, а выходом — когда агент выполняет действие.Распределения вероятностей, поэтому видно, что даже при одном и том же входном состоянии Политика может выводить разные действия вместо определенного действия.
Математически функция политики выражается как
Из приведенной выше формулы легко найти, чтообучение с подкреплениемГлавное - изучить эту функцию политики. Пока у вас есть эта функция политики, после ввода состояния политика будет делать случайную выборку, чтобы выполнить действие. Случайная выборка здесь предназначена для того, чтобы противник не угадал машину и не нашел правила, поэтому стратегия политики является случайной.
reward
использовать
- Определенные награды за уничтожение вражеских танков
- Если враг взломает гнездо, вы потеряете много наград.
переход состояния
На основе текущего действия и предыдущего состояния мы получим новое состояние,
Что касается перехода между состояниями, наше совместное использование скрытой цепи Маркова сделало это очень ясным в графическом виде, то переход между состояниями определяется средой, а среда в игре — это система.
Взаимодействие агента и среды
Далее давайте посмотрим, как Агент взаимодействует со средой.
Случайность в обучении с подкреплением
- Политика дает действие случайным образом в зависимости от состояния
- Окружающая среда дает следующее состояние на основе действия, а состояние является случайным
- Политика Согласно
давать - Окружающая среда согласно
давать и - Политика по-прежнему основывается на
давать
Итеративно повторите вышеуказанные шаги, чтобы сформировать путь
Возвращение
Давайте сравним награды с наградами.Награды - это накопление наград от текущего состояния серии действий с текущего момента, а награды накоплены до последней награды в конце игры.
- Связанный
и Ценность их вознаграждений со временем будет уменьшаться. Давайте рассмотрим пример, чтобы кратко объяснить эту проблему. Поскольку будущие вознаграждения не более ценны, чем текущие вознаграждения, мы можем добавить скидку для корректировки. выражать
затем добавил
Также необходимо объяснить ставку дисконтирования
Мы знаем, что Политика генерирует
тогда для
Вышеизложенное представляет, что такое возврат, и имеет определенное понимание возврата. Мы можем начать вводить, что такое функция ценности.Функция ценности используется для измерения качества определенного состояния или состояния действия, то есть стоит ли агенту выбирать определенное состояние или выполнять определенное действие в определенное состояние.
Функция значения действия (значение)
да
Кроме
функция значения состояния
значение, основанное на
- Рассматривайте действие как случайную величину A и накапливайте ее, интегрируя
-
только с и связанные с функцией -
Можете ли вы рассказать нам о текущем состоянии