Почему AlphaGo Zero?

Google машинное обучение искусственный интеллект Нейронные сети

19 октября 2017 года Google Deepmind запустила новое поколение искусственного интеллекта Go, AlphaGo Zero.В день выпуска AlphaGo Zero были проверены все социальные платформы, такие как My Moments, Weibo и т. д. Основные социальные форумы Новости AlphaGo Zero полон новостей.Почему AlphaGo Zero так влиятельна и может взорвать банк в мире ИИ?Чем она отличается от предыдущих поколений AlphaGo?

Примечание: эта статья не является подробной технической статьей! Она не будет включать в себя математические выводы! Эта статья предназначена для быстрого понимания AlphaGo Zero.

Математика — это инструмент для достижения цели, а понимание — это мост к этой цели, поэтому в этой статье объясняются сложные концепции машинного обучения с помощью простых для понимания анимаций.Для более знакомых знаний, пожалуйста, посетите:Не заморачивайтесь с Python

AlphaGo производит фурор

В 2016 году первая версия AlphaGo была опубликована в журнале Nature Natural Impurities. Это потрясающий журнал. Если кто-то сможет опубликовать журнал в Nature, ха-ха, он будет обеспечен едой и одеждой до конца своей жизни. И теперь это только что прошел год, Google DeepMind опубликовал улучшенную версию AlphaGo на Nature, AlphaGo нулевой, тот же Go AI, фактически дважды размещенный на природных примесях!Хвалите их силу!Чтобы понять AlphaGo нулевой, прежде всего, мы должны понять AlphaGo Как победить людей. AlphaGo обыграла чемпиона Европы Фань Хуэя, корейского игрока с девятью данами Ли Седоля и недавно чемпиона мира Ке Цзе. Есть признаки того, что человечество потеряло свою лучшую игру в го. Эти мастера го один за другим Они все сказали, что AlphaGo побывала в местах, которые они не могли себе представить, превзойдя биологические пределы человеческих существ, не чувствуя усталости и т. д. Действительно, это большое преимущество машин над людьми. Как AlphaGo победила людей в стратегии? Очень просто , он будет делать планирование.

Поиск дерева Монте-Карло

Он может использовать эту древовидную структуру, чтобы попробовать множество стратегий, каждая ветвь дерева представляет собой возможную тенденцию развития, но тенденция игры в шахматы признана больше, чем звезды на небе, текущий человеческий компьютер не в состоянии. эта бесконечная тенденция на каждом шагу.

Поэтому он использует форму под названием «Поиск по дереву Монте-Карло» для изучения неизвестных аспектов.

И именно эта форма используется в шахматном ИИ. В то время шахматный искусственный интеллект Deep Blue, разработанный IBM, победил людей в 1997 году с помощью этого поиска по дереву. Однако та же самая древовидная структура будет использоваться в следующие 20 лет. особого развития в середине года не было, иначе Go давно бы покорили.В чем проблема?

Это структура дерева поиска, используемая в шахматах в то время, потому что в шахматах может произойти гораздо меньше ситуаций, чем в го, и это вполне осуществимо с помощью расширенного компьютерного поиска.Но в го та же процедура не применяется, поэтому , команда DeepMind отказалась от расширенного поиска и заменила его глубоким поиском. Такой поиск экономит вычислительные ресурсы, а анализ является более точным для ограниченных ситуаций. Однако такого поиска по дереву далеко не достаточно.

Нейронные сети

Поэтому мы также добавим быстро развивающуюся нейросетевую структуру для оценки текущего состояния и принятия решений.

Простая нейронная сеть включает в себя три аспекта: она принимает информацию из внешнего мира, например счет в шахматах, а затем обрабатывает полученную информацию через миллионы нейронных узлов внутри нейронной сети и заменяет ее на нас, людей.Этот процесс называется «понимание». Конечным результатом того, что понято, может быть следующее действие, которое необходимо предпринять, или оценка текущего состояния шахмат. В AlphaGo используются два набора систем нейронных сетей. Одна нейронная сеть основана на текущем состоянии , Учитывая следующий ход, нейронная сеть используется для оценки того, выгодно ли нам текущее состояние.Используйте нейронную сеть с деревом поиска, чтобы обеспечить хорошее поведение в шахматах, и используйте эти хорошие поведения в качестве обучающих данных для обучения нейронной сети в повернуть, Таким образом, при непрерывном обучении с использованием обучения с подкреплением наша нейронная сеть может продолжать улучшать свою способность играть в шахматы.Это основная причина, по которой AlphaGo может побеждать людей.

AlphaGo Zero

Но почему была предложена новая версия AlphaGo, AlphaGo Zero, и почему она вызвала бурю негодования после того, как была предложена?Очевидно, что она должна быть лучше, чем предыдущая AlphaGo, прежде всего, она никогда не училась никаким человеческим шахматам.

Людям важно научиться играть в шахматы и изучить превосходные шахматные повторы, оставленные их предшественниками, поэтому последние несколько версий AlphaGo также унаследовали эту идею. Я хочу изучить принципы игры в шахматы у людей и у хорошего учителя. будет Гораздо проще, чем самоучка.

Если бы вы играли против такого AlphaGo с учителем-человеком, вы могли бы также увидеть за ним тень человека, играющего в шахматы, но AlphaGo Zero, парень, который полностью самоучка, играет с ним в шахматы, и вы можете почувствовать его запах. сильный механический аромат.С другой стороны, такой AlphaGo сломал ограниченность человеческого мышления в шахматах в течение тысяч лет, исследовал царство шахмат, о котором люди не могли думать, и научился новому способу игры в шахматы.

На техническом уровне AlphaGo Zero больше не использует две системы нейронных сетей, а объединяет их в одну систему нейронных сетей, которая может более эффективно использовать ресурсы и лучше учиться.

И он больше не использует только GPU, а добавляет свой собственный TPU, специально разработанный для машинного обучения. И количество используемого оборудования постепенно уменьшается, но эффект обучения продолжает расти. Всего за 40 дней нет учителя, который мог бы преподавать. обучения, AlphaGo Zero превзошла всех своих предшественников, и на данный момент я считаю, что она действительно достигла непревзойденного в области го. Наконец, как сказал Дэвид Сильвер, отец AlphaGo, поколение AlphaGo-самоучка означает не только что наш ИИ может побеждать людей в игре Го. Глядя в будущее, это также означает, Во многих отношениях мы можем использовать такой ИИ для создания новых глав в истории человечества.

Наконец, прилагается документ Nature об AlphaGo Zero:https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html