Об AlphaGo Zero - Тянь Юандун

искусственный интеллект глубокое обучение алгоритм Нейронные сети

Честно говоря, этот Nature намного лучше предыдущего, метод очень чистый и стандартный, а результат очень хороший, в будущем это определенно станет классической статьей.

Нет ничего нового в том, что сеть политик и сеть значений совместно используют параметры.В основном это делают современные алгоритмы обучения с подкреплением, включая Doom Bot, который занял первое место в прошлом году, и миниатюрную версию в ELF для обучения.Веб-дизайн, используемый Межзвездный. Кроме того, я помню, что они неоднократно упоминали, что использование сети Value для оценки ситуации будет более стабильным, поэтому разумно использовать развертывание политики по умолчанию, которое вообще не требует ручного проектирования.

Что меня поражает, так это то, что со всего 4,9 миллионами самостоятельных игр и всего 1600 развертываний MCTS за ход Zero превзошел уровень марта прошлого года. И значительная часть этих самостоятельных игр полностью слепа. Это число довольно интересно. Учтите, что порядок всех допустимых состояний в Go равен 10^170 (см.Counting Legal Positions in Go), количество состояний, которые могут быть охвачены пятью миллионами шахматных партий, составляет порядка 10^9, и отношение между этими двумя числами намного больше, чем общее количество всех атомов во Вселенной. Вы можете очень хорошо учиться только с этими примерами. Это только показывает, что структура сверточной нейронной сети (CNN) очень подходит для игры в го. На языке ML индукционное смещение CNN (сфера применения модель) чрезвычайно подходит для игры в го. Красивые и деликатные правила, так что уровень небольшого образца повысится. Наоборот, в человеческих шахматных учебниках много неестественных мест, и CNN нелегко выучить. Мы часто видим, что при запуске KGS или GoGoD последние один-два процента тратятся на босса, а может быть, последнее время и вовсе уходит на переобучение странных ходов.

Если этот вывод верен, то есть несколько выводов. Не следует слишком оптимистично относиться к этому результату. Давайте предположим другую проблему (например, сворачивание белка), нейронная сеть не может хорошо с ней справиться и может использовать только механический метод, тогда способность к обобщению очень слабая, и игра с самим собой не будет эффективной. На самом деле, это также является причиной того, что в прошлом Go не добился большого прогресса даже с самостоятельной игрой.Все используют настраиваемые вручную функции и линейные классификаторы.Если модель неверна, они не узнают много хорошего. Одним словом, акцент делается не на борьбе друг с другом, а на правильном пути модели.

Во-вторых, успех серии алгоритмов сверточной нейронной сети (CNN) в го объясняется не тем, что они достигли уровня бога го, а тем, что игроки-люди также используют CNN для обучения и игры в шахматы. В дороге или при том же смещении индукции компьютеры работают намного быстрее, чем все люди. Предположим, что какое-то инопланетное существо учится играть в шахматы так же, как это делает RNN, но с другим смещением индукции, оно может найти другой (возможно, более сильный) способ играть в шахматы. Zero использует структуру CNN и ResNet, чтобы иметь много общего с эволюцией Go в человеческом мире в процессе самообучения, что подтверждает эту идею со стороны. На данный момент определенно слишком рано говорить, что Go исчерпан.

В-третьих, доказать важность теоретического понимания алгоритмов глубокого обучения. Проблемы, которые может решить человеческая интуиция, машины могут решить, приняв модели с такой же или похожей структурой смещения индукции. Но люди не знают, как это делается, поэтому, кроме проб и ошибок, люди не знают, как улучшить его для ключевых особенностей новой задачи. Если мы сможем теоретически и количественно понять, как глубокое обучение работает с различными распределениями данных, то я полагаю, что, когда мы оглянемся назад, нам будет легко оглянуться на то, какую проблему, какие данные и какую структуру использовать. Я твердо верю, что структура данных — это ключ к раскрытию магии глубокого обучения.

Также подумайте, почему вы используете MCTS вместо других методов обучения с подкреплением (я не являюсь DM, поэтому могу только строить догадки). MCTS на самом деле является своего рода онлайн-планированием.Начиная с текущей ситуации, локальная функция Q оценивается непараметрическим способом, а затем оценка локальной функции Q используется для определения того, как перейти к следующему развертыванию. Поскольку это планирование, ограничение MCTS состоит в том, чтобы знать всю информацию об окружающей среде и иметь совершенную упреждающую модель, чтобы знать, каким будет состояние после одного шага. В Go есть фиксированные правила, четкие состояния и идеальная модель быстрой перемотки вперед, поэтому MCTS — хороший выбор. Но если вы используете его на Atari, вам придется встроить в алгоритм обучения симулятор Atari, или выучить форвардную модель (forward model). модель), по сравнению с субъектом-критиком или градиентом политики, гораздо сложнее использовать текущий путь состояния для локального рисования. Но если его можно поставить, то это должно быть хорошо. Для такой игры, как Atari, если все используют MCTS, я думаю, можно напрямую планировать на месте, не изучая политику. Это будет иметь хороший эффект. Многие статьи не сравниваются, потому что сравнивать неинтересно.

Кроме того, эта статья кажется гораздо менее сложной в реализации и требует меньше вычислительных ресурсов, чем предыдущая, я думаю, что скоро кто-то ее повторит, и инсайтов должно быть больше. Будем все с нетерпением ждать.