Опоздание в горячую точку: AlphaGo Zero в самостоятельной игре

машинное обучение искусственный интеллект глубокое обучение Тенсент

作者:李立 

Введение:«Человеческие знания не требуются» достигается благодаря методу обучения модели + бустер MCTS. На основе использования модели подъемник MCTS всегда сильнее, чем сама модель, что указывает направление для улучшения модели; улучшение модели еще больше увеличивает возможности подъемника MCTS; это образует прямую петлю. Подъемник, который всегда сильнее модели, является ключом к построению передней петли.

AlphaGo Zero [1] давно отсутствует. Изначально AlphaGo Zero должна была написать научно-популярную книгу, как только она вышла, но мне было очень лень. Просто подождите до сих пор, чтобы обновить.

Самая большая особенность AlphaGo Zero заключается в том, что она может приобретать более мощные шахматы, чем предыдущая версия, вообще не используя человеческие знания. Основные методы: 1) Используйте поиск по дереву Монте-Карло для построения модели подъемника, 2) В процессе самостоятельной игры используйте подъемник для улучшения модели, а улучшение модели еще больше улучшает способности подъемника.

1. Введение в поиск по дереву Монте-Карло

Поиск по дереву Монте-Карло (MCTS) — это метод поиска по дереву с древовидной структурой, как показано ниже.

Каждый узел s в дереве представляет поверхность доски Го с двумя числами. Один из них — количество посещений N(s), а другой — качество Q(s). Количество посещений N(s) представляет собой количество посещений узла при поиске. Столкнувшись с диском, MCTS будет выполнять повторные поиски, поэтому к узлу можно обращаться неоднократно, что будет подробно описано ниже. Качество Q(s) представляет собой степень доминирования AlphaGo в этом узле, и формула его расчета выглядит следующим образом.

Смысл этой формулы: 1) Для нелистового узла степень качества равна средней степени качества существующих дочерних узлов во всех деревьях узла. 2) Для листовых узлов степень качества связана с вероятностью выигрыша vθ(sL), оцениваемой сетью значений, а также связана с результатом выигрыша или проигрыша zL, полученным путем быстрого моделирования последующих игр. Степень качества листового узла равна взвешенной смеси двух, где параметр смешивания λ находится между 0 и 1.

Со структурой MCTS мы можем продолжить знакомство с тем, как MCTS выполняет поиск. Когда противник роняет фишку, AlphaGo быстро считывает текущую доску и использует ее как корневой узел поиска, чтобы начать поиск. Процесс поиска MCTS показан на рисунке ниже и разделен на четыре этапа:

  1. Выбор: начиная с корневого узла R, рекурсивно выберите дочерний узел, пока не достигнете конечного узла L. Когда мы находимся в узле s, как мы выбираем дочерний узел si? Мы не должны выбирать дочерние узлы случайным образом, а должны выбирать эти дочерние узлы высокого качества. Способ выбора дочерних узлов в AlphaGo следующий.

где p(si|s) — выход сети политик. Интересным моментом является то, что чем больше раз посещается узел, тем меньше вероятность того, что он будет выбран в качестве дочернего узла ради разнообразия поиска.

  1. Расширение: если игра в го на узле L не окончена, можно создать узел C.

  2. Моделирование: рассчитайте качество узла C.

  3. Обратное распространение: в соответствии со степенью качества C обновите степень качества его отца, дедушки и предков.

Описанные выше этапы поиска повторяются до тех пор, пока не будет достигнуто определенное условие завершения. После поиска MCTS выбирает дочерний узел самого высокого качества корневого узла в качестве хода AlphaGo.

2. Структура сети и метод обучения

Сетевая структура AlphaGo Zero отличается от предыдущих версий. Сетевая структура AlphaGo Zero использует сеть resnet, тогда как предыдущая версия использует традиционную сеть CNN. В то же время AlphaGo Zero сочетает в себе сеть политики и сеть ценности, и одна сеть выводит разные вероятности действий и расчетные коэффициенты выигрыша одновременно, как показано ниже.

Структура сети определена, давайте посмотрим, как AlphaGo Zero обучается с помощью Self-Play. Подключив вышеуказанную модель к MCTS, MCTS может осуществлять стратегический поиск, а результатом поиска является вероятность различных действий на текущем диске. Поскольку был проведен поиск MCTS, вероятность выходного действия определенно лучше, чем вероятность действия, выводимая самой моделью, поэтому MCTS можно рассматривать как модельный подъемник. Самостоятельная игра начинается с начальной доски го; MCTS вводит текущую доску s1 и выводит вероятность p1 различных действий и выбирает действие как ход игрока в соответствии с этой вероятностью; MCTS, как противник, вводит текущую доску s2 и выводит вероятность p2 различных действий и выбирает действие в соответствии с этой вероятностью Как ход противника; продолжайте выполнять до тех пор, пока победителем не станет z. Соберите данные (s1,p1,z),... в качестве обучающих данных для обучения модели. Весь процесс обучения показан ниже.

Тут лично у меня есть небольшие сомнения. Этот метод обучения явно отличается от обучения с подкреплением, основанного на известном нам марковском процессе принятия решений (MDP), но в статье он по-прежнему называется обучением с подкреплением. Существует ли более широкое определение трудности обучения с подкреплением?

3. Экспериментальный эффект

3.1 Сравнение различных сетевых структур

Структура сети AlphaGo Zero имеет два изменения: 1) заменить традиционную CNN на реснет, 2) объединить сеть политик и сеть ценности. Как видно из рисунка ниже, эти два изменения могут улучшить эффект AlphaGo Zero (sep означает, что политика и значение разделены, двойное означает, что они объединены; res означает сеть resnet, а cnn означает традиционную CNN).

3.2 Сравнение разных версий AlphaGo

Как видно из графика ниже, AlphaGo Zero превосходит предыдущую версию без участия человека. Кроме того, из рисунка ниже видно, что после завершения обучения способность модели MCTS booster + все еще сильнее, чем у модели.

4. Резюме

Все думали, что с игрой в го покончено, и другие команды, которые играли в го, изо всех сил старались улучшить свои навыки, используя старые методы. Я не ожидал, что DeepMind придумает такую ​​тяжелую исследовательскую работу с «отсутствием потребности в человеческих знаниях» в качестве самой большой изюминки. «Человеческие знания не требуются» достигается благодаря методу обучения модели + бустер MCTS. На основе использования модели подъемник MCTS всегда сильнее, чем сама модель, что указывает направление для улучшения модели; улучшение модели еще больше увеличивает возможности подъемника MCTS; это образует прямую петлю. Подъемник, который всегда сильнее модели, является ключом к построению передней петли.

Многие собственные СМИ начали выступать за то, что это важный шаг к общему интеллекту. Это неправильно. Из-за четких правил и полной информации о Go мы нашли MCTS, усилитель модели, который всегда сильнее модели. Но в более общих областях такие ускорители моделей найти еще труднее.

Эта статья была впервые опубликована в блоге:woohoo.algorithmdog.com/alpha-go-responsibility…И публичный аккаунт WeChat AlgorithmDog, приглашаю всех обратить внимание~

Связанное Чтение

Он был украден TensorFlowLite, но я должен опубликовать его снова.

Примечания к исследованию DL002: ИИ, машинное обучение, репрезентативное обучение, глубокое обучение, первая великая рецессия

Учебные заметки DL001: математические обозначения, концепции глубокого обучения

Эта статья была разрешена автором для публикации в сообществе Tencent Cloud Technology Community, укажите это при перепечатке.первоисточник

Исходная ссылка: https://cloud.tencent.com/community/article/192908?fromSource=gwzcw.631407.631407.631407


Огромный технический практический опыт, все вОблачное сообщество Tencent