Первое предложение текста статьи: «Это третий день моего участия в Gengwen Challenge. Подробности о мероприятии см.:Обновить вызов
Если вы хотите посмотреть похожие видео, вы можете найти меня на видео Арбуз (аккаунт zidea) или Bilibili (аккаунт zidea2015), чтобы найти видеокомментарий, который я разместил.Обратите внимание, что аватар и аватар, используемые Цзяньшу, одинаковы.
Deepmind работает над тем, чтобы заставить ИИ играть в более сложную игру Starcraft после победы над чемпионом мира по го. Я думаю, вам может быть не менее интересно, как реализуются проекты, в которых ИИ может играть в игры. Интерес интересом Реализовать такой проект по-прежнему сложно, но как бы ни было сложно, мы все равно начинаем шаг за шагом с азов.
Основы вероятности
Прежде всего, прежде чем мы начнем, мы кратко вернемся к некоторым вероятностным знаниям, которые могут быть использованы в этом обмене.
Случайные величины и функции распределения
Во-первых, аргумент функции может быть расширен от вещественного числа до, например, двух точек в качестве аргумента, и выводится расстояние между двумя точками. Используйте прописные буквы для случайных величин и строчные буквы для наблюдений. События используются в языке для описания коллекций образцов, сгруппированных вместе с определенными свойствами.
Функция плотности вероятности (PDF)
PDF — это аббревиатура функции плотности вероятности, которая представляет возможность определенного значения случайной величины, с которой мы знакомы.
ожидать
ожидания для непрерывных дистрибутивов
ожидания для дискретных распределений
случайная выборка
случайная выборкаТо есть каждая часть обследуемой совокупности имеет одинаковую возможность быть отобранной, и это разновидность выборочного обследования, проводимого в соответствии с принципом равных возможностей, называется разновидностью обследования.равная вероятность.
срок
Состояние
Так называемое состояние заключается в наблюдении за каждым кадром игрового экрана, то есть в наблюдении за содержимым из окружения, или в понимании того, что окружение позволяет нам наблюдать.
Action
Действия — это агенты (и мы представим, какие агенты будут следующими), ответы, данные в зависимости от текущего состояния. Тогда мы увидим
Agent
Агент, в различных задачах обучения с подкреплением агент является инициатором действия, агент в танковой войне - это танк, а агент становится ? в беспилотном вождении.
Policy
Прежде всего, политика — это функция. Если это функция, то она должна иметь вход и выход.В функции политики входом является состояние, а выходом — когда агент выполняет действие.Распределения вероятностей, поэтому видно, что даже при одном и том же входном состоянии Политика может выводить разные действия вместо определенного действия.
Математически функция политики выражается как
Из приведенной выше формулы легко найти, чтообучение с подкреплениемГлавное - изучить эту функцию политики. Пока у вас есть эта функция политики, после ввода состояния политика будет делать случайную выборку, чтобы выполнить действие. Случайная выборка здесь предназначена для того, чтобы противник не угадал машину и не нашел правила, поэтому стратегия политики является случайной.
reward
использоватьЧтобы выразить награду, нужно дать оценку в соответствии с действием и состоянием. Эту оценку можно понимать как награду. Как спроектировать награду, очень важно. Хорошо продуманная награда даст в два раза больше результата с половиной усилий.
- Определенные награды за уничтожение вражеских танков
- Если враг взломает гнездо, вы потеряете много наград.
переход состояния
На основе текущего действия и предыдущего состояния мы получим новое состояние,
Что касается перехода между состояниями, наше совместное использование скрытой цепи Маркова сделало это очень ясным в графическом виде, то переход между состояниями определяется средой, а среда в игре — это система.
Взаимодействие агента и среды
Далее давайте посмотрим, как Агент взаимодействует со средой.
Случайность в обучении с подкреплением
- Политика дает действие случайным образом в зависимости от состояния
- Окружающая среда дает следующее состояние на основе действия, а состояние является случайным
- Политика Согласнодавать
- Окружающая среда согласнодаватьи
- Политика по-прежнему основывается надавать
Итеративно повторите вышеуказанные шаги, чтобы сформировать путь
Возвращение
Давайте сравним награды с наградами.Награды - это накопление наград от текущего состояния серии действий с текущего момента, а награды накоплены до последней награды в конце игры.
- СвязанныйиЦенность их вознаграждений со временем будет уменьшаться. Давайте рассмотрим пример, чтобы кратко объяснить эту проблему. Поскольку будущие вознаграждения не более ценны, чем текущие вознаграждения, мы можем добавить скидку для корректировки.выражать
затем добавилВозврат также является дисконтированным доходом, как показано ниже.
Также необходимо объяснить ставку дисконтированияэто гиперпараметр, который необходимо считать установленным,Настройка будет иметь влияние на обучение с подкреплением. Когда какой-то момент закончился,также в нижнем регистретак какЗависимое вознаграждение является случайной величиной, поэтомутакже является случайной величиной.
Мы знаем, что Политика генерируетв то время как среда дает следующее состояние на основе текущего состояния и действияэто, то текущая наградатекущийи действиеСвязанный.
тогда дляПросто и все будущие моментыивсе имеет значение
Вышеизложенное представляет, что такое возврат, и имеет определенное понимание возврата. Мы можем начать вводить, что такое функция ценности.Функция ценности используется для измерения качества определенного состояния или состояния действия, то есть стоит ли агенту выбирать определенное состояние или выполнять определенное действие в определенное состояние.
Функция значения действия (значение)
является случайной величиной, которая зависит от всех будущих действий и состояний,Не зная в момент времени t,
даНайдите математическое ожидание и аккумулируйте в нем случайность с помощью интегралов.Например, хотя мы не знаем, что произойдет в следующий момент, например, подбрасывание монеты, мы не знаем, будет ли в следующий момент орел или решка, но мы знаем, что выпадет орел или решка. Все вероятности равны 0,5. Предположим, что верхняя сторона вверх, и мы записываем случайную величину X как 1, а решку как 0. Тогда ожидание равно, та же причинаМожно ожидать, что случайная величина получит число, то есть
КромеиВсе остальные случайные величины интегрируются и накапливаются, а полученноефункция ценности действия,
функция значения состояния
значение, основанное насостояние моментаОжидаемый будущий доход (возврат)
- Рассматривайте действие как случайную величину A и накапливайте ее, интегрируя
- только сисвязанные с функцией
- Можете ли вы рассказать нам о текущем состоянии