Выбрано с pnas.org, автор: М. Митчелл Уолдроп, составлено Heart of Machines, участие: Чжан Цянь, Сяокунь.
В этой статье, недавно опубликованной в PNAS, обсуждаются достижения, благоприятные условия и широкие проблемы глубокого обучения, а также исследуется направление улучшения методов исследования искусственного интеллекта на основе аргумента «дополнения», а не «отмены». В статье цитируется большое количество статей, опубликованных DeepMind.Основная идея состоит в том, чтобы отстаивать продолжение методологии символического ИИ 1980-х годов и сочетать глубокое обучение с графовыми сетями для достижения полного человеческого интеллекта.
Автор этой статьи, М. Митчелл Уолдроп, доктор философии в области физики элементарных частиц из Университета Висконсина, работал писателем и редактором в ведущих журналах, таких как Nature и Science, и опубликовал такие научные работы, как как Сложность.
На картинке выше банан, но искусственный интеллект распознает его как тостер., несмотря на то, что он использует мощные методы глубокого обучения, которые отлично подходят для автономного вождения, понимания речи и нескольких приложений ИИ. Это означает, что ИИ видел тысячи бананов, слизняков, улиток и похожих объектов, а затем предсказывает класс объекта на новом входном изображении. Однако такую систему легко ввести в заблуждение: еще одна наклейка на изображении может серьезно отклониться от прогноза системы.
Вышеупомянутый случай того, что исследователи глубокого обучения называют «состязательной атакой», был предложен Google Brain, и это намекает на то, что ИИ еще предстоит пройти долгий путь, чтобы достичь человеческого интеллекта. "Я сначала подумалсостязательный примерПросто небольшое раздражение, — говорит Джеффри Хинтон, ученый-компьютерщик из Университета Торонто и один из пионеров глубокого обучения, — но теперь я думаю, что этот вопрос, вероятно, очень важен и говорит нам, что мы делаем неправильно».
Это симпатия многих практиков ИИ, и любой может легко назвать длинный список недостатков глубокого обучения. Например, глубокое обучение не только уязвимо для обмана, но и серьезно неэффективно. «Чтобы ребенок научился распознавать корову, — говорит Хинтон, — его матери не нужно говорить «корова» 10 000 раз», но системе глубокого обучения требуется столько раз, чтобы выучить «корова». Люди часто изучают новые понятия всего на одном или двух примерах.
Тогда есть проблема непрозрачности. После обучения системы глубокого обучения мы не можем быть уверены, как она принимает решения. «Во многих случаях это неприемлемо, даже если ответ правильный», — сказал Дэвид Кокс, вычислительный нейробиолог, возглавляющий лабораторию искусственного интеллекта MIT-IBM Watson в Кембридже. Предположим, банк использует искусственный интеллект, чтобы оценить вашу кредитоспособность и отказать вам в кредите.«В нескольких штатах США есть законы, которые должны объяснять, почему», — сказал он.
Пожалуй, самое главное здесь — отсутствие здравого смысла. Системы глубокого обучения могут хорошо распознавать закономерности в распределении пикселей, но они не могут понять, что означают эти закономерности, не говоря уже о причинах, лежащих в их основе. «По моему мнению, современные системы еще не знают, что диваны и кресла предназначены для сидения», — сказал Грег Уэйн, исследователь ИИ в DeepMind.
Растущее число недостатков, выявленных глубоким обучением, привлекает внимание общественности к искусственному интеллекту. Особенно в области беспилотных автомобилей, которые используют аналогичные методы глубокого обучения для навигации, привели к широко разрекламированным катастрофам и смертельным случаям.
Тем не менее нельзя отрицать, что глубокое обучение — очень мощный инструмент. Глубокое обучение сделало очень распространенным развертывание приложений, таких как распознавание лиц и речи, которые были почти невозможны десять лет назад. «Поэтому мне трудно представить, что глубокое обучение может быть заброшено в такое время, — сказал Кокс. «Большая возможность — это модификация или усовершенствование методов глубокого обучения».
мозговая война
Сегодняшняя революция глубокого обучения уходит своими корнями в «мозговые войны» 1980-х годов, когда две разные школы искусственного интеллекта противостояли друг другу.
Один подход, ныне известный как «старомодный ИИ», который доминировал в этой области с 1950-х годов, также известен как символический ИИ, который использует математическую нотацию для представления объектов и их взаимосвязей. В сочетании с обширной базой знаний, созданной людьми, эти системы доказали свою эффективность в рассуждениях. Но к 1980-м годам становилось все более очевидным, что символический ИИ плохо справляется с динамикой реальных символов, концепций и рассуждений.
В ответ на эти недостатки другая группа исследователей, пионеров современных систем глубокого обучения, начала выступать за искусственные нейронные сети или подключенный искусственный интеллект. Основная идея такой системы состоит в том, чтобы обрабатывать ее, распространяя сигналы в сети смоделированных узлов (аналогов нейронов в человеческом мозгу). Сигналы проходят от узла к узлу по связям (аналогам синапсов). Подобно реальному мозгу, обучение — это вопрос настройки «весов», которые усиливают или подавляют сигналы, передаваемые каждым соединением.
На практике в большинстве сетей узлы располагаются в виде ряда слоев, которые примерно напоминают различные центры обработки данных в коре головного мозга. Таким образом, сеть, специализирующаяся на изображениях, будет иметь слой входных узлов, которые реагируют на отдельные пиксели так же, как палочки и колбочки реагируют на попадание света на сетчатку. После активации эти узлы распространяют свой уровень активации через взвешенные соединения с другими узлами на следующем уровне, которые объединяют входные сигналы и активируются (или не активируются) по очереди. Этот процесс продолжается до тех пор, пока сигнал не достигнет выходного слоя узла, где режим активации обеспечивает окончательный прогноз. Например, входным изображением является число «9». Если ответ неверный, скажите, что входное изображение равно «0». Сеть выполняет алгоритм обратного распространения для спуска по слоям, корректируя веса, чтобы в следующий раз получить лучшие результаты.
К концу 1980-х нейронные сети оказались намного лучше символического ИИ при работе с зашумленными или неоднозначными входными данными. Однако противоречие между двумя подходами оставалось нерешенным, в основном потому, что системы ИИ, которые могли вместить компьютеры, были в то время очень ограниченными. Невозможно точно узнать, на что способны эти системы.
Революция вычислительной мощности
Это понимание изменилось в 21 веке с появлением компьютеров и более мощных сайтов социальных сетей, обеспечивающих постоянный поток изображений, звуков и других обучающих данных.
Хинтон был соавтором алгоритма обратного распространения и лидером коннекционистского движения в 1980-х годах. Он и его ученики продолжали пытаться обучать более крупные сети, чем раньше, увеличивая количество слоев с одного или двух до примерно шести (сегодня коммерческие сети обычно используют сети с более чем 100 слоями).
В 2009 году Хинтон и двое его аспирантов показали, что это «глубокое обучение» может превзойти любой другой известный метод распознавания речи. В 2012 году Хинтон и двое других студентов опубликовали статью, показывающую, что глубокие нейронные сети могут намного лучше распознавать изображения, чем стандартные системы зрения. «Мы почти вдвое сократили количество ошибок», — сказал он. После этого началась революция в приложениях глубокого обучения.
По словам Мэтью Ботвиника, вначале исследователи больше сосредоточились на масштабировании обучения систем глубокого обучения. Он покинул группу нейробиологов в Принстоне в 2015 году, взяв годичный творческий отпуск, чтобы присоединиться к DeepMind, и с тех пор не покидал ее. Он сказал, что системы распознавания речи и изображений используют обучение с учителем: «Это означает, что каждое изображение имеет правильный ответ, например, изображение кошки должно иметь класс «кошка». Если сеть предсказывает неправильно, вы говорите ей, что что-то не так. правильный ответ.» Затем сеть использует алгоритм обратного распространения, чтобы улучшить свое следующее предположение.
По словам Ботвиник, контролируемое обучение хорошо работает с тщательно промаркированными обучающими примерами. Но, вообще говоря, это не так. Это просто не работает для таких задач, как игра в видеоигры, где нет правильных или неправильных ответов, где есть только стратегии успеха или неудачи.
Для таких ситуаций (на самом деле, в реальной жизни), объяснил Ботвиник, вам нужно обучение с подкреплением. Например, системы обучения с подкреплением, которые играют в видеоигры, учатся искать награды и избегать наказания.
Глубокое обучение с подкреплением было впервые успешно реализовано в 2015 году, когда группа DeepMind обучила сеть играть в классическую аркадную игру для Atari 2600. «Сеть будет получать изображение экрана в качестве входных данных в игре, — говорит Ботвиник, который позже присоединился к компании, — со слоями на выходе, которые определяют действия, например, как перемещать джойстик». как или превзошли людей-игроков Atari. В 2016 году исследователи DeepMind победили чемпиона мира среди людей в го, используя более совершенную версию AlphaGo, которая освоила ту же сеть.
Помимо глубокого обучения
К сожалению, ни одно из этих выдающихся достижений не решает фундаментальных проблем глубокого обучения. Например, в системе Atari агент должен сыграть тысячи раундов, чтобы освоить игру, которую большинство людей может освоить за считанные минуты. Но даже в этом случае сеть не могла понять или интерпретировать такие объекты, как биты на экране. Так что и здесь можно использовать вопрос Хинтона: что еще не сделано?
Может быть, в этом нет ничего плохого. Возможно, все, что нам нужно, — это больше связей, больше слоев и более сложные методы обучения. В конце концов, как указывает Ботвиник, нейронная сеть математически эквивалентна универсальному компьютеру, а это означает, что пока вы можете найти правильные веса соединений, нет вычислений, с которыми нейронная сеть не справилась бы — по крайней мере, в теории.
Но на практике ошибки могут быть фатальными — вот почему растет ощущение, что недостатки глубокого обучения необходимо устранять в корне.
Расширение диапазона тренировочных данных — это простое решение. Например, в статье, опубликованной в мае 2018 года, команда DeepMind Ботвиника рассмотрела, что происходит, когда нейронные сети обучаются нескольким задачам. Они обнаружили, что при наличии достаточного количества «повторяющихся» соединений, которые проходят с более поздних уровней вперед (функция, которая позволяет сети помнить, что она делает в любое время), сеть может автоматически учиться на предыдущих задачах, тем самым ускоряя последующие. задачи скорость обучения. Это как минимум человекметаобучение(обучение тому, как учиться), и метаобучение — одна из причин, по которой люди могут учиться так быстро.
Более радикальная возможность состоит в том, чтобы отказаться от обучения только одной большой сети для решения проблемы и вместо этого заставить несколько сетей работать вместе. В июне 2018 года команда DeepMind опубликовала новый метод —Создать сеть запросов(Generative Query Network), которая использует две разные сети для обучения в сложных виртуальных средах без участия человека. Одна из них — репрезентативная сеть, которая по существу использует стандартное обучение распознаванию изображений, чтобы определить, что ИИ может видеть в любой момент. В то же время генеративная сеть учится брать выходные данные первой сети и генерировать 3D-модель всей среды — по сути, делая прогнозы об объектах и функциях, которые ИИ не может видеть. Например, если бы у стола были видны только три ножки, приведенная выше 3D-модель привела бы к появлению четвертой ножки того же размера, формы и цвета.
По словам Ботвиника, эти прогнозы, в свою очередь, позволяют системе учиться быстрее, чем при использовании стандартных методов глубокого обучения. «Агент, пытающийся что-то предсказать, автоматически получает обратную связь на каждом временном шаге, потому что он может видеть, как оправдались его собственные прогнозы». Таким образом, агент может постоянно обновлять и оптимизировать модель. Более того, это обучение осуществляется под самоконтролем: исследователю не нужно маркировать что-либо в окружающей среде или даже предлагать поощрения или наказания.
Более радикальный подход — перестать позволять сети учиться с нуля в каждой проблеме. Подход «с чистого листа» действительно дает сети возможность обнаруживать объекты, представления действий, о которых исследователь никогда не думал, и, возможно, некоторые совершенно неожиданные игровые стратегии. Но люди никогда не начинают с нуля: в любом случае люди, по крайней мере, используют предварительные знания, полученные из предыдущего опыта или оставшиеся в мозгу в ходе эволюции.
Младенцы, например, рождаются с рядом врожденных «индуктивных предубеждений», которые позволяют им усваивать определенные основные понятия с угрожающей скоростью. К 2-месячному возрасту они начинают постигать некоторые интуитивные законы физики, в том числе представление о существовании объектов, которые имеют тенденцию следовать непрерывному пути, который не пересекает друг друга, когда они соприкасаются. У этих младенцев также появилась некоторая базовая умственная интуиция, в том числе способность распознавать лица и распознавать, что в мире есть другие автономные агенты.
Наличие этой встроенной предвзятости интуиции может помочь глубоким нейронным сетям учиться с той же скоростью, поэтому многие исследователи в этой области отдают приоритет этому направлению мышления. На самом деле, только за последние 1-2 года метод, называемый графовыми сетями, произвел настоящий фурор в сообществе, и это многообещающий метод. По словам Ботвиника, «таким системам глубокого обучения свойственна склонность к представлению вещей в виде объектов и отношений». отношения между ними: «А является частью Б». Точно так же отношения между «шаром А и блоком В» могут быть «смежными», «землей», вращающейся вокруг «солнца»… во множестве других примеров, каждый из которых можно охарактеризовать как абстрактный граф, в котором узлы соответствуют к объектам, а связи соответствуют отношениям.
Графовая сеть — это нейронная сеть, которая принимает в качестве входных данных граф (а не необработанные пиксели или звуковые волны), а затем учится рассуждать и предсказывать, как объекты и их отношения развиваются с течением времени. (Некоторые приложения могут использовать автономную стандартную сеть распознавания изображений для анализа сцены и предварительного выбора объектов.)
Было показано, что сетевые графовые методы быстро обучаются и достигают производительности на уровне человека в различных приложениях, включая сложные видеоигры. Если он продолжит развиваться, как надеются исследователи, это может облегчить проблему огромного спроса на данные, связанную с глубоким обучением, за счет увеличения скорости и эффективности обучения, а также может сделать сеть менее уязвимой для атак злоумышленников. Поскольку система характеризует объекты, а не шаблоны пикселей, ее нельзя легко ввести в заблуждение из-за небольшого количества шума или посторонних помех.
Ботвиник признает, что фундаментальный прогресс не будет достигнут легко и быстро ни в одной области. Но даже при этом он убежден: «Эти вызовы реальны, но не тупиковые».
Оригинальная ссылка:woohoo.parnas.org/content/116…