Из DeepMind
Сборник "Сердце машины"
После победы над Кэ Цзе в мае этого года AlphaGo не остановилась в своем развитии. Вчера DeepMind опубликовала статью в журнале Nature, официально запустив AlphaGo Zero, последнюю версию программы Go с искусственным интеллектом. Говорят, что эта версия AlphaGo не требует каких-либо аннотаций человеческих знаний, и после трех дней и миллионов игр против самой себя она может легко победить версию AlphaGo Ли Седоля со счетом 100: 0. Хассабис, основатель DeepMind, сказал: «Zero — это самая мощная, эффективная и универсальная версия AlphaGo на сегодняшний день, и вскоре мы увидим, как эта технология применяется в других областях».
Исследования искусственного интеллекта быстро развиваются в самых разных областях, от распознавания речи и классификации изображений до геномики и открытия лекарств. Во многих случаях это экспертные системы, использующие огромное количество человеческого опыта и данных.
Однако человеческие знания слишком дороги, чтобы быть надежными, или их просто трудно получить. Таким образом, давняя цель исследований в области ИИ состоит в том, чтобы выйти за границы, создавая алгоритмы, которые могут достигать сверхчеловеческой производительности без участия человека в самых сложных областях. В нашей недавней статье, опубликованной в Nature, мы показываем ключевой шаг к этой цели.
В этой статье представлена AlphaGo Zero, последняя версия AlphaGo. AlphaGo обыграл чемпиона мира по го, а Зеро оказался еще сильнее, возможно, самым сильным игроком в го в истории.
Предыдущие версии AlphaGo сначала обучали тому, как изучать Го, основываясь на тысячах человеческих игр в Го. Но AlphaGo Zero пропустила этот шаг и начала изучать го, играя в него совершенно случайным образом. Таким образом, он быстро превзошел уровень игроков-людей и победил AlphaGo, предыдущего чемпиона мира, со счетом 100:0.
AlphaGo Zero использует новый тип обучения с подкреплением, чтобы совершать такие подвиги, где он сам является учителем во время обучения. Нейронная сеть системы изначально ничего не знала о Go, а затем сыграла против самой себя, объединив эту нейронную сеть с мощным алгоритмом поиска. Нейронная сеть настраивается и обновляется во время игры, чтобы предсказывать ходы и окончательного победителя игры.
Обновленная нейронная сеть повторно подключается к алгоритму поиска для создания нового и более мощного AlphaGo Zero, и процесс повторяется. В каждой итерации производительность системы немного улучшалась, а качество самостоятельных игр продолжало улучшаться, в результате чего появилась более точная нейронная сеть и самая сильная версия AlphaGo Zero в истории.
Эта техника более мощная, чем предыдущие версии AlphaGo, потому что она больше не ограничена рамками человеческих знаний. Вместо этого он начинает с чистого листа и учится играть в шахматы с лучшим в мире игроком в го, AlphaGo (сама).
Он отличается от предыдущей версии следующими особенностями:
- AlphaGo Zero требует в качестве входных данных только черные и белые камни с доски Го, тогда как предыдущие версии AlphaGo также включали небольшое количество функций, разработанных вручную.
- У него только одна нейронная сеть, а не две. В более ранних версиях AlphaGo использовалась «сеть решений» для выбора следующего хода и «сеть ценности» для прогнозирования победителя каждой позиции. Две сети были объединены в AlphaGo Zero, что сделало обучение и оценку игровых ситуаций более эффективным.
- AlphaGo Zero не использует «развертки» (быстрые, случайные ходы, используемые другими программами Go для предсказания того, какой игрок выиграет на основе текущего распределения позиций на доске), а вместо этого полагается на свою превосходную нейронную сеть для оценки позиций.
Все эти различия помогают улучшить производительность системы и сделать ее более универсальной, однако алгоритмические изменения являются важной причиной того, что система становится более мощной и эффективной.
AlphaGo продолжает становиться все более и более эффективной благодаря достижениям в области аппаратного обеспечения и алгоритмов — версия Zero работает всего на 4 TPU.
Всего через три дня самостоятельных тренировок AlphaGo Zero просто обыграл предыдущую версию AlphaGo (которая 18 раз обыграла чемпиона мира Ли Седоля) со счетом 100:0. Еще через 40 дней обучения самопротиворечивости AlphaGo Zero стала сильнее, даже лучше, чем версия AlphaGo «Master», которая победила игрока номер один в мире Ке Цзе.
Рейтинг (показатель относительного уровня навыков игрока в соревновательной игре, такой как го): показывает, насколько AlphaGo становилась сильнее с течением времени.
После миллионов самостоятельных соревнований AlphaGo система постепенно научилась игре в го методом проб и ошибок, накопив тысячи лет человеческих знаний всего за несколько дней. AlphaGo Zero также открыла для себя новые знания и разработала нетрадиционные и творческие приемы, которые превзошли уровни, ранее продемонстрированные AlphaGo против Ли Седоля и Ке Цзе.
Креативность, проявленная AlphaGo, дает нам основания полагать, что искусственный интеллект станет усилителем человеческого интеллекта, помогая нам выполнять нашу миссию и решать самые сложные проблемы, стоящие перед человечеством.
Хотя AlphaGo Zero все еще находится на ранних стадиях разработки, она уже сделала важный шаг на пути к этой цели. Если аналогичная технология может быть применена к другим структурным проблемам, таким как сворачивание белка, снижение потребления энергии или поиск новейших материалов, прорыв, который она принесет, может оказать положительное влияние на общество в целом.
Диссертация: Овладение игрой Го без человеческого ведома.
Адрес статьи: https://deepmind.com/documents/119/agz_unformatted_nature.pdf
Одна из целей искусственного интеллекта долгое время заключалась в том, чтобы алгоритмы могли с нуля обучаться сверхчеловеческой производительности в сложных областях. Недавно AlphaGo стала первой программой, победившей чемпиона мира по игре в го. Поиск по дереву в AlphaGo использует глубокие нейронные сети для оценки позиций и выбора ходов. Эти нейронные сети учатся на действиях людей-экспертов посредством обучения с учителем, а затем играют против самих себя посредством обучения с подкреплением. В этой статье мы представляем алгоритм, основанный исключительно на обучении с подкреплением и не использующий человеческие данные, рекомендации или знания предметной области помимо правил игры. AlphaGo становится своим собственным учителем: мы обучаем нейронную сеть предсказывать следующий ход AlphaGo и победителя игры AlphaGo. Эта нейронная сеть улучшает возможности поиска по дереву, что приводит к более качественному выбору ходов и более мощной самостоятельной игре в следующей итерации. Новая программа, AlphaGo Zero, научилась с нуля и достигла сверхчеловеческой производительности, победив AlphaGo, когда-то чемпиона мира среди людей, со счетом 100-0.
Нейронная сеть, используемая в AlphaGo Zero, представляет собой новый алгоритм обучения с подкреплением, известный как соревновательная тренировка с самостоятельной игрой. Ранее OpenAI опубликовал документ, показывающий, что самопротиворечивое обучение может привести к поведению, намного превышающему сложность среды в простой среде. Большая разница между этим временем AlphaGo Zero и предыдущими AlphaGo Fan и AlphaGo Lee заключается в принятии этой стратегии обучения самоконфронтации.
Рисунок 1: Самосостязательное обучение с подкреплением в AlphaGo Zero
a: AlphaGo Zero играет s_1,...,s_T против себя. Поиск по дереву Монте-Карло (MCTS) α_θ выполняется с использованием последней нейронной сети f_θ в каждой позиции s_t (см. рис. 2). Ход (a_t ∼ π_t) выбирается в соответствии с вероятностью поиска, рассчитанной MCTS. Счет для конечной позиции s_T рассчитывается в соответствии с правилами игры, которые, в свою очередь, определяют победителя игры z. б: Обучение нейронной сети в AlphaGo Zero. Нейронная сеть принимает исходную позицию доски s_t в качестве входных данных, распространяет ее через несколько сверточных слоев, используя параметр θ, и выводит вектор p_t, представляющий распределение вероятности хода, и скалярное значение v_t, представляющее вероятность того, что текущий игрок выиграет при с_т. Параметры θ нейронной сети обновляются, чтобы максимизировать сходство между вектором политики p_t и вероятностью поиска π_t, а также минимизировать ошибку между предсказанным победителем v_t и победителем z (см. уравнение 1). Новые параметры будут использованы в следующей итерации самопротивостояния.
Поиск MCTS выполняется в каждой позиции s в соответствии с нейронной сетью f_θ.
Рисунок 2: MCTS в AlphaGo Zero.
a: каждая симуляция проходит все дерево, выбирая ребро, которое максимизирует значение действия Q, плюс указанное выше (в зависимости от сохраненной априорной вероятности P) доверительную границу U и посещает общее количество ребер N (каждый обход добавляет 1) .
б, листовые узлы расширяются, и соответствующие позиции оцениваются нейронной сетью (P(s, ),V(s)) = f_θ(s); вектор значений P хранится в исходящих ребрах s .
c, значение действия Q обновляется для отслеживания среднего значения всех оценок V поддерева при текущем действии.
г. После завершения поиска возвращается значение вероятности поиска (вероятности поиска) π, пропорциональное N^(1/τ), где N — общее количество посещений с момента исходного состояния для каждого действия, а τ — параметр контроля температуры (температуры).
Оригинальная ссылка:глубокий разум.com/blog/alpha G…
Эта статья составлена для ядра машины, пожалуйста, свяжитесь с этой общедоступной учетной записью для разрешения на перепечатку.