Статья Хинтона «Капсула» наконец опубликована, и нейронные сети открывают новые исследования

Google искусственный интеллект Нейронные сети Набор персонала
Ся И и Вэнь Гэн Компиляция и расстановка кубитов Произведено | Публичный аккаунт QbitAI

«Моя цель — бросить все это и начать все сначала».

На конференции в сентябре этого года великий бог Джеффри Хинтон еще раз призвал к революции ИИ.

Куда мы должны пойти? На самом деле, в последние годы Хинтон много сил посвятил исследованиям капсул. Он хотел делать капсулы и хотел свергнуть бэкпроп почти по той же причине: в отличие от мозга.

Капсула призвана справиться с несходством между нейронными сетями и мозгом, а также с «проблемой нейронных сетей», о которой Хинтон говорит уже три года: слишком мало слоев в структуре.

Хинтон предложил добавить капсульный слой на основе существующей структуры нейронной сети.Нейроны каждого слоя сети формируют капсулу, выполняют внутренние вычисления, а затем выводят сжатый результат.

Что такое капсула?

В прошлогоднем выпуске AMA Хинтон рассказал о «нейронной сети на основе капсул», заявив, что он вложил много энергии в это фундаментальное исследование за три года работы в Google.

В этом году исследование, похоже, совершило большой прорыв.

Когда Хинтон говорил о «Проблемах и мерах противодействия сверточных нейронных сетей» в Университете Торонто в прошлом месяце, он говорил о добавлении уровня капсулы к существующей структуре нейронной сети.Нейроны в каждом слое сети образуют капсулу.Выполните вычисления. внутри и вывести сжатый результат.

Сара Сабур, Николас Фросс и Джеффри Э. Хинтон также совместно работали над списком принятых статей, только что опубликованным NIPS.Dynamic Routing Between Capsules.

В этом году есть много пользователей сети, которые заботятся о капсулах, и даже прямо назвали Хинтон, чтобы спросить:

Как капсула?

Согласно предыдущим заявлениям, Хинтон и коллеги из Google Brain Сара Сабур и Николас Фросс совместно работали над документом под названием «Динамическая маршрутизация между капсулами» для подробного обсуждения, и этот документ будет опубликован в центре внимания на конференции NIPS 2017 в декабре этого года.

Хотя Хинтон неоднократно говорил о своей капсуле, документ так и не был показан.

Теперь эта долгожданная статья наконец-то официально выпущена, и адрес здесь:

https://arxiv.org/abs/1710.09829

Аннотация статьи:

Капсула — это набор нейронов, векторы активности которых представляют собой конкретизированные параметры объекта определенного типа, такого как объект или часть объекта. Мы используем длину вектора активности, чтобы представить вероятность существования объекта, и его направление, чтобы представить заданный параметр. Активная капсула предсказывает параметры реализации капсул более высокого уровня на одном уровне с помощью матрицы преобразования. Когда несколько прогнозов совпадают, капсула более высокого уровня становится активной. В этой статье показано, что многослойная капсульная система с дискриминационным обучением достигает самых современных результатов в MNIST, значительно превосходя сверточные нейронные сети в распознавании сильно перекрывающихся цифр. Чтобы достичь этого результата, мы используем механизм итеративного протокола маршрутизации: капсула более низкого уровня желает отправить свой вывод вектору активности с большим скалярным произведением, предсказывая капсулу более высокого уровня из капсулы более низкого уровня.

Что такое Капсула?

В зрительной системе человека существует понятие «точка фиксации», которое позволяет людям выполнять обработку с высоким разрешением только очень небольшой части изображения в пределах поля зрения. В этой статье предполагается, что точка фиксации приносит нам больше, чем просто распознанный объект и его свойства, также предполагается, что наша многоуровневая система зрения создает что-то вроде дерева синтаксического анализа в каждой точке фиксации и игнорирует эти анализы того, как деревья координируются между несколькими точками взгляда.

Деревья синтаксического анализа обычно строятся путем динамического выделения памяти, но в этой статье предполагается, что для единичной фиксации дерево синтаксического анализа «высекается» из фиксированной многослойной нейронной сети, подобно статуе, вырезанной из камня. Каждый слой нейронной сети разбит на множество групп нейронов, каждая группа называется капсулой, а каждый узел дерева разбора соответствует активной «капсуле».

Капсульный вход и выход

Капсула заключается в том, что выход представляет собой вектор, В этой статье нелинейность применяется для уменьшения его величины при сохранении неизменного направления, гарантируя, что нелинейный выход не превышает 1. Именно потому, что вывод капсулы является вектором, можно использовать мощный механизм динамической маршрутизации, чтобы гарантировать, что вывод может быть отправлен соответствующему родителю на верхнем уровне.

Поскольку авторы хотят, чтобы длина выходного вектора капсулы представляла вероятность того, что объект, представленный капсулой, присутствует в текущем входе, они используют нелинейную функцию «сжатия», чтобы гарантировать, что длина конечного вектора укорачивается до закрытия. к 0, а длина длинного вектора чуть меньше 1. В этой статье используется дискриминативное обучение для полного использования нелинейных функций.

формула

Как показано в приведенной выше формуле, vjпредставляет выход капсулы j, а sjявляется его входом.

Архитектура

Простой CapsNet имеет 3 слоя. Два сверточных слоя и один полносвязный слой. Сверточный слой Conv1 имеет 256 армейских наборов 9×9 с шагом 1 и функцией активации ReLU. Этот слой преобразует интенсивность пикселей в информацию об обнаружении локальных признаков, которая затем передается в основные капсулы.

Второй слой (основные капсулы) представляет собой сверточный капсульный слой с 32 каналами сверточных капсул 8D.

Разделить перекрывающиеся числа

Тесты в статье показывают, что CapsNet может восстанавливать перекрывающиеся числа в два исходных числа.

обсуждать

В течение 30 лет современное распознавание речи использовало скрытые марковские модели с гауссовскими смесями в качестве выходных распределений, которые имеют фатальные репрезентативные ограничения.

Капсулы позволяют избежать экспоненциальной неэффективности за счет преобразования интенсивности пикселей в конкретизированные векторы параметров, которые идентифицируют фрагменты. Капсулы делают очень сильное репрезентативное предположение: в каждом месте изображения капсула представляет не более одного типа объекта.

Стадия исследования Capsules похожа на стадию применения RNN для распознавания речи в начале 2000-х. Есть очень репрезентативные причины полагать, что это лучший подход, но все еще необходимо учитывать многие детали.

Тот факт, что простая система Capsules уже продемонстрировала непревзойденную производительность при сегментировании перекрывающихся чисел, напоминает нам, что Capsules — это направление, которое стоит изучить.

В последний раз изучите этот документ, расположенный здесь:

https://arxiv.org/abs/1710.09829

Заканчивать

присоединиться к сообществу

Начался набор в 10 групп сообщества qubit AI.Студенты, интересующиеся ИИ, могут добавить в группу небольшого помощника WeChat qbitbot4;

Кроме того, профессиональная подгруппа кубитов (Автономное вождение, резюме, НЛП, машинное обучениеи т. д.) набирают инженеров и исследователей, которые занимаются смежными областями.

Чтобы присоединиться к группе, добавьте небольшой аккаунт помощника WeChat qbitbot4 и обязательно обратите внимание на ключевые слова соответствующей группы~ После прохождения проверки мы пригласим вас присоединиться к группе. (Профессиональная групповая проверка более строгая, пожалуйста, поймите)

Искренняя вербовка

Qubit набирает редакторов/репортеров для работы в Zhongguancun, Пекин. Надеемся, что к нам присоединятся талантливые и целеустремленные студенты! Чтобы узнать подробности, ответьте на слово «вербовка» в диалоговом интерфейсе QbitAI.

КубитQbitAI

վ'ᴗ' ի Отслеживание новых разработок в области технологий и продуктов ИИ