[Английский][Официальный] DeepMind переиздает AlphaStar, чтобы ИИ мог играть с вами в Starcraft II

искусственный интеллект игра
[Английский][Официальный] DeepMind переиздает AlphaStar, чтобы ИИ мог играть с вами в Starcraft II

Игры использовались в течение десятилетий как важный способ тестирования и оценки производительности систем искусственного интеллекта.По мере расширения возможностей исследовательское сообщество искало игры с возрастающей сложностью, которые охватывают различные элементы интеллекта, необходимые для решения научных и реальных задач. В последние годы StarCraft, считающийся одной из самых сложных игр в жанре стратегии в реальном времени (RTS) и одной из самых популярных киберспортивных игр всех времен, по общему мнению, стал «большой задачей» для исследований ИИ.

Download 11 replays

Now, we introduce our StarCraft II program AlphaStar, the first Artificial Intelligence to defeat a top professional player. In a series of test matches held on 19 December, AlphaStar decisively beat  Team Liquid Grzegorz "MaNa" Komincz, один из сильнейших в мире профессиональных игроков в StarCraft, 5-0 после успешного контрольного матча против своего товарища по команде Дарио“TLO” Wünsch. Матчи проходили в условиях профессионального матча по соревновательной лестнице.map and without any game restrictions.

Although there have been significant successes in video games such as AtariMarioQuake III Arena Capture the Flag, and Dota 2, until now, AI techniques have struggled to cope with the complexity of StarCraft. The best results were made possible by hand-crafting major elements of the system, imposing significant restrictions on the game rules, giving systems superhuman capabilities, or by playing on simplified maps. Even with these modifications, no system has come anywhere close to rivalling the skill of professional players. In contrast, AlphaStar plays the full game of StarCraft II, using a deep neural network that is trained directly from raw game data by  supervised learning and reinforcement learning.

The Challenge of StarCraft

StarCraft II, created by Blizzard Entertainment, is set in a fictional sci-fi universe and features rich, multi-layered gameplay designed to challenge human intellect. Along with the original title, it is among the biggest and most successful games of all time, with players competing in esports tournaments for more than 20 years.

 

Есть несколько разных способов играть в игру, но в киберспорте наиболее распространенным является турнир 1 на 1, который проводится в течение пяти игр.Для начала игрок должен выбрать одну из трех разных инопланетных «рас» - зергов, протоссов или терранов, все из которых есть отличительные характеристики и способности (хотя профессиональные игроки, как правило, специализируются на одной расе) Каждый игрок начинает с несколькими рабочими юнитами, которые собирают основные ресурсы для создания новых юнитов и сооружений и создания новых технологий. Это, в свою очередь, позволяет игроку добывать другие ресурсы, строить более сложные базы и сооружения, а также развивать новые способности, которые можно использовать, чтобы перехитрить противника. экономия — известная как макро — наряду с низкоуровневым управлением их отдельными единицами — известная как микро.

The need to balance short and long-term goals and adapt to unexpected situations, poses a huge challenge for systems that have often tended to be brittle and inflexible. Mastering this problem requires breakthroughs in several AI research challenges including:

  • Game theory: StarCraft is a game where, just like rock-paper-scissors, there is no single best strategy. As such, an AI training process needs to continually explore and expand the frontiers of strategic knowledge.
  • Imperfect information: В отличие от таких игр, как шахматы или го, где игроки видят все, важная информация скрыта от игрока StarCraft и должна быть активно обнаружена путем «разведки».
  • Long term planning: Like many real-world problems cause-and-effect is not instantaneous. Games can also take anywhere up to one hour to complete, meaning actions taken early in the game may not pay off for a long time.
  • Real time: Unlike traditional board games where players alternate turns between subsequent moves, StarCraft players must perform actions continually as the game clock progresses.
  • Large action space: Hundreds of different units and buildings must be controlled at once, in real-time, resulting in a combinatorial space of possibilities. On top of this, actions are hierarchical and can be modified and augmented. Our parameterization of the game has an average of approximately 10 to the 26 legal actions at every time-step.

Из-за этих огромных проблем StarCraft превратился в «большую задачу» для исследований ИИ. Текущие соревнования как в StarCraft, так и в StarCraft II оценивают прогресс с момента запуска API BroodWar в 2009 году, включаяAIIDE StarCraft AI CompetitionCIG StarCraft CompetitionStudent StarCraft AI Tournament, and the Starcraft II AI Ladder. To help the community explore these problems further,  we worked with Blizzard in 2016 and 2017 to release an open-source set of tools known as PySC2, including the largest set of anonymised game replays ever released. We have now built on this work, combining engineering and algorithmic breakthroughs to produce AlphaStar.

agent viz scII 
Визуализация агента AlphaStar во время второй игры матча против MaNa, которая показывает игру с точки зрения агента: необработанные входные данные наблюдения в нейронную сеть, внутренние активации нейронной сети, некоторые из рассмотренных действия, которые может предпринять агент, например, куда щелкнуть и что построить, а также прогнозируемый результат.Также отображается представление MaNa об игре, хотя оно недоступно для агента.

How AlphaStar is trained

Поведение AlphaStar обусловлено глубокимneural network that receives input data from the raw game interface (a list of units and their properties), and outputs a sequence of instructions that constitute an action within the game. More specifically, the neural network architecture applies a transformer torso to the units, combined with a deep LSTM core, an auto-regressive policy head with a pointer network, and a centralised value baseline. We believe that this advanced model will help with many other challenges in machine learning research that involve long-term sequence modelling and large output spaces such as translation, language modelling and visual representations.

AlphaStar also uses a novel multi-agent learning algorithm. The neural network was initially trained by supervised learning from anonymised human games released by Blizzard. Это позволило AlphaStar изучить, имитируя, основные микро- и макростратегии, используемые игроками на ладдере StarCraft.Этот первоначальный агент победил встроенный ИИ «Элитного» уровня — около золотого уровня для игрока-человека — в 95% случаев. игры.

The AlphaStar league. Agents are initially trained from human game replays, and then trained against other competitors in the league. At each iteration, new competitors are branched, original competitors are frozen, and the matchmaking probabilities and hyperparameters determining the learning objective for each agent may be adapted, increasing the difficulty while preserving diversity. The parameters of the agent are updated by reinforcement learning from the game outcomes against competitors. The final agent is sampled (without replacement) from the Nash distribution of the league.

These were then used to seed a multi-agent reinforcement learning process. A continuous league was created, with the agents of the league - competitors - playing games against each other, akin to how humans experience the game of StarCraft by playing on the StarCraft ladder. New competitors were dynamically added to the league, by branching from existing competitors; each agent then learns from games against other competitors. This new form of training takes the ideas of population-based reinforcement learning further, creating a process that continually explores the huge strategic space of StarCraft gameplay, while ensuring that each competitor performs well against the strongest strategies, and does not forget how to defeat earlier ones.

 
Оценка рейтинга подбора игроков (MMR) — приблизительная мера мастерства игрока — для участников лиги AlphaStar на протяжении всего обучения по сравнению с онлайн-лигами Blizzard.

По мере развития лиги и появления новых конкурентов появляются новые контрстратегии, способные победить прежние стратегии. радикально новые стратегии, состоящие из совершенно новых порядков сборки, составов юнитов и планов микроуправления.Например, в начале лиги AlphaStar «дешевые» стратегии, такие какPhoton Cannons or Dark Templars were favoured. These risky strategies were discarded as training progressed, leading to other strategies: for example, gaining economic strength by over-extending a base with more workers, or sacrificing two Oracles to disrupt an opponent's workers and economy. This process is similar to the way in which players have discovered new strategies, and were able to defeat previously favoured approaches, over the years since StarCraft was released.

 
As training progressed, the league creating AlphaStar changed the blend of units that it builds.

To encourage diversity in the league, each agent has its own learning objective: for example, which competitors should this agent aim to beat, and any additional internal motivations that bias how the agent plays. One agent may have an objective to beat one specific competitor, while another agent may have to beat a whole distribution of competitors, but do so by building more of a particular game unit. These learning objectives are adapted during training.

Interactive visualisation which shows the competitors of the AlphaStar league. The agents that played against TLO and MaNa are specifically labelled.

The neural network weights of each agent are updated by reinforcement learning from its games against competitors, to optimise its personal learning objective. The weight update rule is an efficient and novel off-policy actor-critic reinforcement learning algorithm with experience replay,  self-imitation learning and policy distillation.

SC2 progression 
The figure shows how one agent (black dot), which was ultimately selected to play against MaNa, evolved its strategy and competitors (coloured dots) during the course of training. Each dot represents a competitor in the AlphaStar league. The position of the dot represents its strategy (inset), and the size of the dot represents how frequently it is selected as an opponent for the MaNa agent during training.

In order to train AlphaStar, we built a highly scalable distributed training setup using Google's v3 TPUs that supports a population of agents learning from many thousands of parallel instances of StarCraft II. The AlphaStar league was run for 14 days, using 16 TPUs for each agent. During training, each agent experienced up to 200 years of real-time StarCraft play. The final AlphaStar agent consists of the components of the Nash distribution of the league - in other words, the most effective mixture of strategies that have been discovered - that run on a single desktop GPU.

A full technical description of this work is being prepared for publication in a peer-reviewed journal.

 
The Nash distribution over competitors as the AlphaStar league progressed and new competitors were created. The Nash distribution, which is the least exploitable set of complementary competitors, weights the newest competitors most highly, demonstrating continual progress against all previous competitors.

How AlphaStar plays and observes the game

Professional StarCraft players such as TLO and MaNa are able to issue hundreds of actions per minute (APM) on average. This is far fewer than the majority of existing bots, which control each unit independently and consistently maintain thousands or even tens of thousands of APMs.

In its games against TLO and MaNa, AlphaStar had an average APM of around 280, significantly lower than the professional players, although its actions may be more precise. This lower APM is, in part, because AlphaStar starts its training using replays and thus mimics the way humans play the game. Additionally, AlphaStar reacts with a delay between observation and action of 350ms on average.

 
Распределение APM AlphaStar в матчах против MaNa и TLO и общая задержка между наблюдениями и действиями.

Во время матчей против TLO и MaNa AlphaStar напрямую взаимодействовала с игровым движком StarCraft через необработанный интерфейс. перемещать камеру - эффективно играть с уменьшенным изображением игры. Напротив, игроки-люди должны явно управлять «экономией внимания», чтобы решить, на чем сфокусировать камеру. Однако анализ игр AlphaStar показывает, что он управляет неявным фокусом внимания.В среднем агенты «переключали контекст» около 30 раз в минуту, подобно MaNa или TLO.

Additionally, and subsequent to the matches, we developed a second version of AlphaStar. Like human players, this version of AlphaStar chooses when and where to move the camera, its perception is restricted to on-screen information, and action locations are restricted to its viewable region.

 
Performance of AlphaStar using the raw interface and the camera interface, showing the newly trained camera agent rapidly catching up with and almost equalling the performance of the agent using the raw interface.

We trained two new agents, one using the raw interface and one that must learn to control the camera, against the AlphaStar league. Each agent was initially trained by supervised learning from human data followed by the reinforcement learning procedure outlined above. The version of AlphaStar using the camera interface was almost as strong as the raw interface, exceeding 7000 MMR on our internal leaderboard. In an exhibition match, MaNa defeated a prototype version of AlphaStar using the camera interface, that was trained for just 7 days. We hope to evaluate a fully trained instance of the camera interface in the near future. 

Эти результаты показывают, что успех AlphaStar против MaNa и TLO на самом деле был обусловлен превосходным принятием макро- и микростратегических решений, а не превосходной частотой кликов, более быстрым временем реакции или необработанным интерфейсом.

Evaluating AlphaStar against professional players

Игра StarCraft позволяет игрокам выбрать одну из трех инопланетных рас: терранов, зергов или протоссов.Мы решили, что AlphaStar пока специализируется на игре с одной расой — протоссами — чтобы сократить время обучения и вариативность при сообщении результатов от наша внутренняя лига. Обратите внимание, что один и тот же процесс обучения может быть применен к любой расе. Наши агенты были обучены играть в StarCraft II (v4.6.2) в играх протоссов против протоссов на карте рейтинга CatalystLE. Чтобы оценить производительность AlphaStar, мы сначала оцениваем Производительность AlphaStar проверили наши агенты против​TLO: a top professional Zerg playerи игрок протоссов уровня гроссмейстера. AlphaStar выиграл матч со счетом 5: 0, используя самые разные юниты и порядок сборки. «Я был удивлен тем, насколько силен был агент, — сказал он. — AlphaStar берет хорошо известные стратегии и использует их. их голова Агент продемонстрировал стратегии, о которых я раньше не думал, а это значит, что могут быть новые способы игры, которые мы еще не полностью изучили».

AlphaStar: The inside story

After training our agents for an additional week, we played against MaNa, один из сильнейших игроков мира в StarCraft II, и среди 10 сильнейших игроков протоссов. AlphaStar снова выиграл со счетом 5: 0, продемонстрировав сильные микро- и макростратегические навыки. «Я был впечатлен, увидев, что AlphaStar реализует сложные ходы и различные стратегии почти в каждой игре, используя очень Я не ожидал такого человеческого стиля геймплея, — сказал он. — Я понял, насколько мой геймплей зависит от принуждения к ошибкам и способности использовать человеческие реакции, поэтому для меня игра предстала в совершенно новом свете. Мы все рады видеть что будет дальше».

AlphaStar and other complex problems

Хотя StarCraft — это всего лишь игра, пусть и сложная, мы считаем, что методы, лежащие в основе AlphaStar, могут быть полезны при решении других задач.Например, его архитектура нейронной сети способна моделировать очень длинные последовательности вероятных действий. - с играми часто продолжительностью до часа с десятками тысяч ходов - на основе несовершенной информации Каждый кадр StarCraft используется как один шаг ввода, а нейронная сеть предсказывает ожидаемую последовательность действий для остальных игра после каждого кадра. Фундаментальная проблема создания сложных прогнозов на основе очень длинных последовательностей данных возникает во многих реальных задачах, таких как прогнозирование погоды, моделирование климата, понимание языка и многое другое. в восторге от возможности добиться значительных успехов в этих областях, используя знания и разработки проекта AlphaStar.

Мы также думаем, что некоторые из наших методов обучения могут оказаться полезными при изучении безопасного и надежного ИИ.Одной из самых больших проблем в ИИ является количество способов, в которых системы могут дать сбой, и профессионалы StarCraft ранее с легкостью превзошли ИИ. системы находя изобретательные способы спровоцировать эти ошибки. Инновационный тренировочный процесс AlphaStar, основанный на лиге, находит подходы, которые наиболее надежны и с наименьшей вероятностью ошибаются. Мы воодушевлены потенциалом такого подхода, чтобы помочь повысить безопасность и надежность систем ИИ в целом, особенно в критически важных областях, таких как энергетика, где важно решать сложные пограничные случаи.

Achieving the highest levels of StarCraft play represents a major breakthrough in one of the most complex video games ever created. We believe that these advances, alongside other recent progress in projects such as AlphaZero and AlphaFold, представляют собой шаг вперед в нашей миссии по созданию интеллектуальных систем, которые однажды помогут нам найти новые решения для некоторых из самых важных и фундаментальных научных исследований в мире. проблемы.

Мы благодарны за поддержку и огромное мастерство TLO и MaNa из Team Liquid, а также за постоянную поддержку Blizzard и сообщества StarCraft, которые сделали эту работу возможной.


AlphaStar Team:

Oriol Vinyals, Igor Babuschkin, Junyoung Chung, Michael Mathieu, Max Jaderberg, Wojtek Czarnecki, Andrew Dudzik, Aja Huang, Petko Georgiev, Richard Powell, Timo Ewalds, Dan Horgan, Manuel Kroiss, Ivo Danihelka, John Agapiou, Junhyuk Oh, Valentin Dalibard, David Choi, Laurent Sifre, Yury Sulsky, Sasha Vezhnevets, James Molloy, Trevor Cai, David Budden, Tom Paine, Caglar Gulcehre, Ziyu Wang, Tobias Pfaff, Toby Pohlen, Dani Yogatama, Julia Cohen, Katrina McKinney, Oliver Smith, Tom Schaul, Timothy Lillicrap, Chris Apps, Koray Kavukcuoglu, Demis Hassabis, David Silver

With thanks to:

Ali Razavi, Daniel Toyama, David Balduzzi, Doug Fritz, Eser Aygün, Florian Strub, Guillaume Alain, Haoran Tang, Jaume Sanchez, Jonathan Fildes, Julian Schrittwieser, Justin Novosad, Karen Simonyan, Karol Kurach, Philippe Hamel, Ricardo Barreira, Scott Reed, Sergey Bartunov, Shibl Mourad, Steve Gaffney, Thomas Hubert, Yuhuai Wu, the team that created PySC2 and the whole DeepMind Team, with special thanks to the RPT, comms and events teams.