Сегодняшняя природа: искусственный интеллект от 0 до 1

искусственный интеллект глубокое обучение алгоритм Нейронные сети

В прошлом году жил-был ребенок, который прочитал все учебники по шахматам в мире, много играл, много думал, улучшал свои шахматные навыки, победил чемпиона мира Ли Шиши со счетом 4:1 и с тех пор непобедим. Его зовутАльфа-собака.

В этом году его младший брат полагался только на шахматную доску и две черно-белые фигуры.Он не читал шахматный учебник, и ему не с кем было дать совет.Он начал с нуля, развлекался, учился сам и победил своего брата AlphaGo со счетом 100-0. Его зовутАльфа Юань.

Этот великий прорыв DeepMind сегодня — это освоение игры в го.without human knowledgeЗа название, опубликованное в Nature, произвело фурор. Жише специально пригласил нескольких экспертов по искусственному интеллекту в стране и за рубежом для углубленного анализа и комментариев. В конце статьи эксклюзивное видео-интервью с доктором DeepMind Дэвидом Сильвером. Специальная благодарностьNatureиDeepMindПредоставление информации и авторизация данных.

В этом блокбастере, опубликованном сегодня журналом Nature, подробно описаны последние результаты исследований команды Google DeepMind.Важной целью искусственного интеллекта является достижение сверхчеловеческого статуса в чрезвычайно сложных областях путем полного самообучения без каких-либо предварительных знаний.. В прошлом году AlphaGo представляла искусственный интеллект и впервые победила чемпиона мира среди людей в области го, но ее улучшение шахматных навыков основано на изучении компьютером и понимании человеческих шахматных навыков через массивные исторические шахматные рекорды, а затем и на самих себя. -обучение, достижение трансцендентности.

 

Рост силы Альфа Гоу Юаньци и сравнение баллов

Но сегодня мы обнаружили, чтоНа самом деле люди плохо научили Альфа-псов!Новое поколение AlphaGo Zero, которое начинается с нуля, не требует ни исторического руководства по шахматам, ни каких-либо предварительных знаний о людях, и полностью полагается на собственное обучение с подкреплением и понимание.Рост шахматных навыков намного превзошел рост AlphaGo, победа во всех битвах и победа над AlphaGo со счетом 100-0.

Чтобы достичь такого уровня, Alpha Yuan нужно провести всего три дня на 4 TPU, сыграв 4,9 миллиона шахматных партий налево и направо. А его старший брат, AlphaGo, должен провести несколько месяцев на 48 TPU и изучить 30 миллионов шахматных партий, прежде чем победить людей.

Первым и соответствующим автором этой статьи является доктор Дэвид Сильвер из DeepMind, руководитель проекта AlphaGo. он представилАльфа-Юань намного мощнее, чем Альфа-Собака, потому что он больше не ограничен человеческим познанием, но может открывать новые знания и разрабатывать новые стратегии.:

This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledgeВместо этого он может выучить tabula rasa у сильнейшего игрока в мире: самой AlphaGo.discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.

Соучредитель и генеральный директор DeepMind сказал, что новую технологию можно использовать для решения важных проблем, таких как сворачивание белков и разработка новых материалов:

AlphaGo Zero is now the strongest version of our program and shows how much progress we can make even with less computing power and zero use of human dataВ конечном счете, мы хотим использовать алгоритмические прорывы, подобные этому, чтобы помочь решить все виды неотложных реальных проблем, таких как свертывание белков.or designing new materials.

Два американских шахматиста прокомментировали шахматную партию Альфа Юаня в журнале Nature: «Ее открытие и закрытие ничем не отличаются от таковых у профессиональных шахматистов.Кристаллизация человеческой мудрости на протяжении тысячелетий, похоже, не так уж и плоха.. А вот середина таблицы выглядит очень странно:

выбор ИИ в начале игры и методы эндшпиля совпали с нашими — то, что он приходит к нашим последовательностям из первых принципов, говорит о том, что мы не совсем ошиблись путем. загадочный.

Чтобы глубже понять технические детали Alpha Yuan, Чжише взял интервью у профессора Чен Ираня, эксперта по искусственному интеллекту из Университета Дьюка в США. Он представил агентству:

Последний AlphaGo Zero от DeepMind снижает сложность обучения, избавляется от зависимости от образцов, помеченных людьми (исторические шахматные позиции людей), и делает глубокое обучение более удобным и выполнимым для принятия сложных решений. на мой взглядСамое интересное — доказать, что из-за ограниченности размера выборочного пространства человеческий опыт часто сходится к локальному оптимуму, не зная (или не имея возможности обнаружить), и машинное обучение может преодолеть этот предел. Раньше все смутно чувствовали, что так и должно быть, но теперь перед вами твердые количественные факты!

Далее он пояснил:

Данные в этой статье показывают, что, хотя изучение того, как играют игроки-люди, может улучшить шахматную силу в начале обучения, шахматная сила, которая может быть достигнута на более позднем этапе обучения, может быть только аналогична исходной версии AlphaGo и AlphaGo. Зеро, который не учится играть у игроков-людей, в конце концов становится лучше. Это может указывать на то, что шахматные данные человека приводят алгоритм к локальным оптимумам, и есть некоторые существенные различия между реальной лучшей или оптимальной игрой и игрой человека.Люди на самом деле «ввели в заблуждение» AlphaGo. Интересно, что если бы AlphaGo Zero отказалась от обучения людей и использовала совершенно случайное начальное движение, процесс обучения двигался бы к конвергенции без каких-либо трудностей с конвергенцией.

Как Альфа Юань добился самообучения без учителя? Ву Чунпэн, докторант Университета Дьюка, познакомил Чжише с техническими подробностями:

AlphaGo, которая ранее победила Ли Шиши, в основном использовала традиционную технологию обучения с подкреплением плюс глубокую нейронную сеть DNN для завершения построения, в то время как AlphaGo Zero вобрала в себя последние достижения и внесла серьезные улучшения.

  • Прежде всего, до появления AlphaGo Zero методы обучения с подкреплением, основанные на глубоком обучении, можно было разделить на две категории в зависимости от количества используемых сетевых моделей: Один тип использует DNN для завершения всего процесса принятия решений «от начала до конца». -end» (например, DQN), этот тип метода относительно легкий и больше подходит для дискретного принятия решений; другой тип использует несколько DNN для изучения политики и значения соответственно (например, AlphaGoGo, который победил Ли Шиши до ), что является более сложным и более общим для различных решений. На этот раз AlphaGo Zero сочетает в себе преимущества обоих, использует сеть DNN, аналогичную DQN, для реализации процесса принятия решений и использует эту DNN для получения двух выходных политик и значений, а затем использует дерево поиска Монте-Карло для завершения текущего выбор шага.

  • Во-вторых, AlphaGo Zero не использует повторно исторические шахматные позиции человека, а процесс обучения начинается с совершенно случайной.С углублением исследований и приложений глубокого обучения в последние годы,Один недостаток DNN становится все более очевидным: в процессе обучения используется большое количество аннотированных человеком выборок, что невозможно для приложений с небольшими выборками (таких как обработка медицинских изображений).. Таким образом, широкое внимание получили методы сокращения выборок и человеческих аннотаций, такие как обучение за несколько выстрелов и обучение с переносом. AlphaGo Zero пытается решить зависимость от помеченных человеком образцов в процессе обучения игре между двумя сторонами, чего раньше не было.

  • В-третьих, AlphaGo Zero вобрала в себя последние достижения в структуре сети DNN и приняла остаточную структуру в сети ResNet в качестве базового модуля. В последние годы популярный ResNet увеличил глубину сети, а GoogLeNet увеличил ширину сети. Большое количество предыдущих статей показало, что структура Residual, используемая ResNet, работает быстрее, чем структура Inception, используемая GoogLeNet, для достижения той же точности прогнозирования. AlphaGo Zero использует остаточную скорость.

Се Чжияо, докторант Университета Дьюка, подробно остановился на этом:

Новый алгоритм DeepMind AlphaGo Zero начинает избавляться от своей зависимости от человеческих знаний: ему не нужно запоминать ходы игроков-людей в начале обучения, а на входе нет искусственно извлеченных признаков.

В дизайне сетевой структуры новый алгоритм имеет два основных отличия от предыдущего AlphaGo. Прежде всего, в отличие от предыдущего обучения сети политик и сети ценности по отдельности, новая структура сети может выводить политику шага и значение винрейта в текущей ситуации одновременно. Фактически сети политик и создания стоимости эквивалентны совместному использованию большинства предыдущих уровней извлечения признаков, а последние несколько уровней выходного этапа по-прежнему независимы друг от друга. Функция потерь при обучении также включает в себя как политику, так и значение. Это, очевидно, может сэкономить время на обучение, и, что более важно, смешанная политика и сеть ценностей могут адаптироваться к большему количеству различных ситуаций.

Еще одно большое отличие состоит в том, что слой извлечения признаков использует 20 или 40 остаточных модулей, каждый из которых содержит 2 сверточных слоя. По сравнению с предыдущими 12 или около того сверточными слоями использование остаточного модуля значительно увеличивает глубину сети. Тот факт, что AlphaGo Zero больше не требует извлеченных человеком функций, также должен быть связан с тем, что более глубокие сети могут более эффективно извлекать функции непосредственно с шахматной доски. Согласно данным, приведенным в статье, эти два структурных улучшения примерно в равной степени способствуют повышению шахматной мощи.

Благодаря этим усовершенствованиям производительность и эффективность обучения AlphaGo Zero значительно улучшились: имея всего 4 TPU и 72 часа обучения, он может превзойти исходный AlphaGo, на обучение которого ушло несколько месяцев. Отказавшись от изучения ходов шахматистов-людей и извлечения признаков вручную, алгоритм может достичь более высокой производительности, что отражает мощную способность глубоких нейронных сетей извлекать признаки и способность находить лучшие решения. важнее,Отказавшись от человеческого опыта и помощи, аналогичные алгоритмы глубокого обучения с подкреплением могут быть более широко использованы в других областях, где людям не хватает понимания или большого количества размеченных данных..

В чем смысл этой работы? Эксперт по искусственному интеллекту и профессор Хун Тао из Университета Северной Каролины в Шарлотте также высказал свое мнение о Чжише:

Я очень внимательно прочитал эту статью от корки до корки. Во-первых, подтвердите ценность самой работы. От использования шахматных заметок (контролируемое обучение) до бросания шахматных заметок — это большой вклад! Убит нынешний лучший шахматист (AlphaGo до трансформации), который продвигается по последнему слову техники. Дизайн и методы обучения нейронных сетей улучшились, что является новинкой. С точки зрения применения, в будущем, возможно, больше не потребуется проводить большую подготовительную работу для продуктов ИИ, что важно!

Затем профессор Хонг также кратко рассказал об истории искусственных нейронных сетей:

Искусственная нейронная сеть появилась в 1940-х годах, и она не выдержала после небольшого пожара: одна из причин заключалась в том, что все поняли, что эта штука не может решить «проблему исключающего ИЛИ» и слишком хлопотна в обучении. В 1970-х Пол Вербос использовал алгоритм обратного распространения для обучения нейронной сети, когда он был аспирантом, что повысило эффективность, решило проблему исключающего ИЛИ с многослойной нейронной сетью и перевело нейронную сеть на новый уровень. эпоха. В 1980-х и 1990-х годах исследования искусственных нейронных сетей вызвали бурю, и в академических кругах были опубликованы тысячи статей о нейронных сетях, от проектирования до обучения, оптимизации и приложений во всех сферах жизни.

Профессор Джим Берк, член IEEE Life Fellow, вышедший на пенсию пять лет назад, однажды рассказал историю той эпохи: приходите на научную конференцию по энергосистемам, и каждый раз, когда обсуждается инженерная проблема, какой бы она ни была, всегда будет группа людей, которые говорят, что это можно сделать с помощью нейронной сети, решается, конечно, это будет в конце концов. Проще говоря, все роют яму для полива и пускания пузырей, в конце концов, нечего там морочить голову, так что просто найдите другое место и продолжайте рыть ямку и пускать пузыри. В академическом кругу в конце прошлого века, если ты выйдешь и не скажешь, что занимаешься нейросетями, тебе будет стыдно здороваться с людьми, как сегодня это глубокое обучение и анализ больших данных.

Затем профессор Хонг высказал не слишком оптимистичный взгляд на искусственный интеллект:

Возвращаясь к AlphaGo, играющей в шахматы, с волной больших данных, интеллектуального анализа данных, машинного обучения, нейронных сетей и искусственного интеллекта внезапно снова стали популярными. Вы ожидали пожара на этот раз? Я думаю, что есть, есть огромное количество данных, улучшение вычислительной мощности, улучшение алгоритмов. Это похоже на использование обратного распространения в нейронных сетях того времени, что действительно является прорывом.

Как долго будет продолжаться этот огонь?Это также зависит от того, сколько практических задач может решить нейронная сеть.. После пожара 20 лет назад практических задач, которые «решали» нейронные сети, было очень мало, одной из наиболее известных задач было прогнозирование мощностей, то есть прогнозирование потребления электроэнергии, которое оказалось моей специальностью. Из-за популярности нейронных сетей в то время в центре внимания научных исследований почти полностью ушли традиционные статистические методы. Когда я впервые пришел в эту область, чтобы написать докторскую диссертацию, я использовал традиционную модель множественной регрессии, чтобы убить все виды генетических алгоритмов нейронных сетей на рынке. мое обычное мнение,За тем, что перед вами популярно, не гонитесь за этим слепо, надо сначала оценить ситуацию, посмотреть, в чем вы хороши и что накопили, а уж потом прыгать, увидев дыру..

Сатиндер Сингх, директор Лаборатории искусственного интеллекта в Мичиганском университете, также высказал то же мнение, что и профессор Хонг:Это не начало конца,так какИскусственный интеллект по сравнению с людьми и даже животными,То, что мы знаем, все еще крайне ограничено:

This is not the beginning of any end because AlphaGo Zero, like all other successful AI so far, is extremely limited in what it knows and in what it can do compared with humans and even other animals.

Тем не менее, профессор Сингх по-прежнему высоко оценивает Афа Юань: это большое достижение, показывающее, что обучение с подкреплением можно проводить лучше, не полагаясь на человеческий опыт:

Сокращение времени обучения и вычислительной сложности AlphaGo Zero по сравнению с AlphaGo, достигнутое примерно за год, является крупным достижением… результаты показывают, что ИИ, основанные на обучении с подкреплением, могут работать намного лучше, чем те, которые полагаются на человеческий опыт. .

Профессор Чен Иран далее размышлял о будущем искусственного интеллекта:

AlphaGo Zero не использует человеческие аннотации и может делать умные ходы, только полагаясь на правила Го, данные людьми. Интересно, что в статье мы также видели, как AlphaGo Zero осваивает го. Например, как постепенно выучить некоторые распространенные формулы и приемы открытия, такие как пункт 33 из первых рук. Я считаю, что это также может вдохновить поклонников го на понимание стиля игры AlphaGo.

В дополнение к технологическим инновациям AlphaGo Zero еще раз поднимает вопрос, достойный внимания всех исследователей ИИ:Как именно мы должны рассматривать роль человеческого опыта в будущем?. Среди движений, которые AlphaGo Zero выучила автономно, некоторые согласуются с движениями человека, и разница в основном заключается в средней стадии. AlphaGo Zero уже может быть учителем го для людей, помогая людям думать о движениях, которые они никогда раньше не видели, не будучи полностью привязанными к опыту мастеров го. Другими словами, AlphaGo Zero в очередной раз приоткрыла тайну человеческого опыта, а опыт, сформированный в мозгу людей, также можно обнаружить и изучить.

Наконец профессор Чен выдвинул интересное предложение:

Одной из проблем, с которыми мы столкнемся в будущем, может быть следующее: в некоторых вопросах принятия решений, связанных с повседневной жизнью, сосуществуют человеческий и машинный опыт.И машинный опыт очень отличается от человеческого опыта, как мы должны его выбирать и использовать??

Но Дэвида Сильвера это не беспокоит, и он полон уверенности в завтрашнем дне. Он указал:

If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.

Ниже приводится эксклюзивное интервью с доктором Дэвидом Сильвером из DeepMind с китайскими субтитрами, подготовленное шанхайским офисом Nature:

Интервью 1 Интервью 2

Какой прорыв вы считаете более важным?Это AlphaGo поклоняется людям как учителю и в конце концов побеждает учителя, или это Alphayuan побеждает AlphaGo без учителя?? Дайте нам знать в комментариях и поделитесь своими мыслями о том, куда движется искусственный интеллект.

Для получения дополнительной информации см. ссылку на документ Nature http://nature.com/articles/doi:10.1038/nature24270.