Краткий анализ недавно предложенного Хинтоном капсульного плана.

искусственный интеллект глубокое обучение алгоритм Нейронные сети

Последнее обновление 17-09-22 15:00 (по китайскому времени). Исправлены некоторые опечатки, добавлено больше вводного контента о неконтролируемом обучении и сделана идея более полной, а также несколько сообщений о фактическом эффекте Capsule.

Это также может быть одна из самых полных статей о глубоком обучении, которая проанализирована и представлена ​​на Zhihu. Я надеюсь, что те, кто занимается физикой, математикой, биологией, химией, компьютерами и научной фантастикой, получат удовольствие от просмотра.

Хинтон известен как «отец глубокого обучения» и «пионер нейронных сетей» за его исследования в области глубокого обучения и многих основных алгоритмов и структур нейронных сетей (включая само название «глубокое обучение», алгоритм обратного распространения, Restricted Restricted). Машина Бора-Змана, сеть глубокого убеждения, алгоритм контрастивной дивергенции, блок активации ReLU, Dropout для предотвращения переобучения и ранние прорывы в глубоком обучении речи) внесли фундаментальный вклад. Хотя он посвятил большую часть своей жизни нейронным сетям, старик не собирается уходить на пенсию.

Хинтон сделал несколько докладов на тему «Что не так со свёрточными нейронными сетями?» в последние годы [1] [2] и предложил своюCapsule план. Хинтон, кажется, не скрывает своего желания разрушить империю глубокого обучения, которую он пытался построить более 30 лет [3]. Его дух был также подтвержден Feifei Tong (основателем ImageNet) и другими [4].

Почему Хинтон вдруг захотел начать сначала? Это точно не совпадение и не внезапная прихоть, ведь не каждый, будучи первооткрывателем в какой-либо области, ставит под сомнение созданную вами теорию. (Представьте, если вы везде будете делать доклады и говорить, что в вашей сфере есть разные проблемы, даже если это вас не касается, то вам будет некомфортно быть равным в этой сфере и людям, которые полагаются на эту сферу для пропитания)

Это слишком много, чтобы сказать, что все снова и снова.Хинтон не все отрицает, а его главная цель атаки — теория глубокого обучения в компьютерном зрении. Но, судя по нескольким выступлениям, егоCapsule План действительно сильно отличается от предыдущего метода. Речь Хинтона более интересна, но есть и такие проблемы, как скачки в мышлении и слишком большой диапазон сложности. Эти вопросы в егоCapsuleпо-прежнему занимает видное место в отчете. Можно сказать, что трудно полностью понять мысли Хинтона, просто взглянув на отчет. За последние несколько дней я объединил различные материалы, чтобы разобраться в идеях и мотивах Хинтон, и поделиться ими с вами.


Хинтон и нейронные сети

(Здесь и далее NN относится к искусственной нейронной сети, CNN относится к (глубокой) сверточной нейронной сети, а DNN относится к глубокой нейронной сети)

Чтобы глубоко понять идеи Хинтона, нужно понять историю развития нейронных сетей, которая является почти академической историей Хинтона.

Когда искусственный интеллект только зарождался, у ученых была естественная идея моделирования человеческого мозга (известная как коннекционизм), потому что человеческий мозг — это единственная известная нам сущность с развитым интеллектом.

NN возникла из моделирования нервной системы, самая ранняя форма — персептрон, а метод обучения — знаменитое правило Хебба в теории нейронного обучения. NN стала популярным направлением исследований искусственного интеллекта, когда она была впервые предложена..Однако правило Хебба может обучать только однослойную НС, а однослойная НС не может даже обучиться простой логике «исключающее ИЛИ», а обучение многослойной нейронной сети по-прежнему безнадежно, что приводит к первой зиме НС. .

Хинтон понял, что искусственные нейронные сети не обязательно должны следовать биологическим путям. В 1980-х Хинтон и ЛеКун создали и обобщили методы, которые можно было использовать для обучения многослойных нейронных сетей.Обратное распространение. NN снова встретил весну.

Алгоритм обратного распространения, грубо говоря, представляет собой набор алгоритмов быстрого нахождения градиента целевой функции.

Для самого простого градиентного спуска (Gradient Descent):

\theta_i \leftarrow \theta_{i-1}-\nabla_{\theta} \mathrm{Loss}, обратное распространение является эффективным вычислением\nabla_{\theta} \mathrm{Loss}Путь

Но в это время Н.Н. посадил отраву.

Во-первых, алгоритм обратного распространения сложно установить биологически, и трудно поверить, что нервная система может автоматически формировать структуру обратного распространения, соответствующую прямому распространению (для этого требуется точная производная, транспонирование матрицы и использование цепное правило, и анатомически никаких признаков такой системы никогда не было найдено). Алгоритмы обратного распространения больше похожи на алгоритмы, разработанные специально для обучения многослойных нейронных сетей. НС, лишившиеся биологической поддержки, несомненно, намного менее уверены в себе, и как только они сталкиваются с проблемами, у людей появляется больше причин отказаться от них (это также имеет место в истории).

Во-вторых, алгоритм обратного распространения необходимо оптимизировать с помощью SGD, который является очень невыпуклой задачей, его математическая природа вызывает беспокойство и он зависит от тонкой настройки. Напротив, (тогда) восходящие звезды SVM и тому подобное использовали методы выпуклой оптимизации, и это было притяжением, которое удерживало людей от NN. Когда люди в то время думали, что для обучения DNN нет никакой надежды (обратное распространение могло обучать только неглубокие сети в то время), NN снова ушла в низшую точку.

Ступенька в эпоху глубокого обучения — RBM

Во время второй впадины NN Хинтон не сдался и вместо этого щелкнул по другому технологическому дереву: термодинамической статистической модели.

Хинтон нашел новую модель нейронной сети: машину Больцмана (BM). Хинтон использует функцию энергии для описания некоторых характеристик НС, надеясь, что это может дать больше статистической поддержки.

Вскоре Хинтон обнаружил, что многослойные нейронные сети можно описать как частный случай машин Больцмана.Ограниченная машина Больцмана (RBM). Хинтон в недавнем интервью Эндрю Нг (https://www.youtube.com/watch?v=-eyhCTvrEtE), назвал его «Самая красивая работа, которую я сделал».

Когда я впервые увидел соответствующую математическую теорию RBM, я был очень взволнован и почувствовал, что это немного неразумно, что такая теория не работает. Здесь я привожу соответствующие математические формулы, чтобы показатьНС может иметь совершенно отличные от биологии интерпретации.

В статистической механике распределение Больцмана (или распределение Гиббса) может использоваться для описания распределения квантовых состояний квантовой системы и имеет следующую форму:

P(s)\propto e^{-{\frac {E(s)}{kT}}}

где s — некоторое квантовое состояние,E(s)для энергии этого состояния,P(s)вероятность возникновения этого состояния.

k - постоянная Больцмана, которая является константой. T — температура системы, которая также является константой в конкретной задаче. Таким образом, мы могли бы также принять kT=1, исходное выражение можно упростить до

P(s)\propto e^{-E(s)}

это

P(s_i)= \frac{e^{-E(s_i)}}{\sum_s{e^{-E(s)}}}

Разве это неsoftmax? На самом деле это естественным образом появилось в распределении статистической механики (неудивительно, что раньше ЛеКун разрешал всем изучать физику).

Для упрощения еще раз определимZ := \sum_s{e^{-E(s)}}, так что есть

P(s)= \frac1 Z{e^{-E(s)}}, (поскольку на данный момент в формуле есть только одна буква s, нет необходимости писать нижний индекс)

Вот вопрос,Eчто это?sЧто это должно быть?

Хинтон рассмотрел слой нейронной сети, который разделен на видимый слой (входной слой) и скрытый слой (средний слой). Согласно определению классической сети, нейроны имеют два состояния: активированное и неактивированное. тогда просто позвольsравный видимому слоюvи переходим на скрытый слойhСостояние нейрона (представлено вектором по умолчанию):

тогдаs = (v, h),P(v,h)= \frac1 Z {e^{-E(v,h)}}

(Принципиальная схема RBM, взята из Википедии)

ТакEЧто это?

Так совпало, что в квантовой физике есть модель, которая настолько похожа на нейронную сеть, что, пока вы ее понимаете, вы будете почти поражены сходством между ними. Эта модель известнаМодель Изинга.Модель Изинга (распространенная шутка в сообществе физиков: сможете ли вы решить трехмерную модель Изинга?) описывает фазовые переходы в системе решетки и объясняет проблему ферромагнетизма (вы, возможно, задавались вопросом, почему существует так много металлов, только железо и т. д. Некоторые металлы особенно чувствительны и также могут намагничиваться (эта модель дает объяснение).

Хинтон помещает смещение нейрона (для видимого слоя какa, для скрытого слоя, обозначенного какb) как «дальнее поле» модели Изинга, веса НСWВ качестве «внутреннего коэффициента связи» модели Изинга (чем больше вес между двумя нейронами, тем сильнее связь и сильнее ассоциация), энергия может быть записана в очень простой форме:

E(v,h) = -a^{\mathrm{T}} v - b^{\mathrm{T}} h -h^{\mathrm{T}} W v

Удивительная вещь в этой форме заключается в том, что она достигает простейшей и очень разумной интуиции без потери каких-либо параметров в NN: смещение нейрона напрямую связано с самим нейроном через умножение, в то время как два веса между нейронами связаны только напрямую к соответствующим двум нейронам умножением, а общий вклад соединяется сложением.

Мы можем быть определенными нейронамиh_iСвязанные энергии разделены, т.е.

E(v,h) = -a^{\mathrm{T}} v - b'^{\mathrm{T}} h' -h'^{\mathrm{T}} W' v -h_i(W_iv+b_i)W_iда и нейронh_iсвязанные веса,h'это удалитьh_iвектор.

Для удобства положим иh_iнерелевантная часть

E(v,h’) = -a^{\mathrm{T}} v - b'^{\mathrm{T}} h' -h'^{\mathrm{T}} W' v

тогда,

P(v,h) =\frac1Z e^{-E(v,h')}e^{h_i(W_iv+b_i)}

Так легко получить

P(h_i=1|v)=\frac{\sum_{h',h_i=1}{P(v,h)}}{\sum_{h',h_i=0}{P(v,h)}+\sum_{h',h_i=1}{P(v,h)}} =\frac1{1+\frac{\sum_{h',h_i=0}{P(v,h)}}{\sum_{h',h_i=1}{P(v,h)}}}

=\frac{1}{1+\frac{\sum_{h'}{E(v,h')}}{\sum_{h'}{E(v,h')}e^{W_iv+b_i}}} =\frac{1}{1+e^{-(W_iv+b_i)}}

Разве это не сигмовидная функция? это

P(h_i=1|v)=\sigma(W_iv+b)

На этот раз сигмовидная функция имеет естественное объяснение: функция активации условной вероятности активации нейронов скрытого слоя при распределении Больцмана.

Если вы Хинтон, вы определенно почувствуете, что получение этого шага — это очень радостный результат.

Целью оптимизации является оценка максимального правдоподобия, то есть максимизация

P(v)= \frac1 Z \sum_h{e^{-E(v,h)}}, что на самом деле очень интересно здесь, потому что это очень связано со свободной энергией в термодинамической статистике.

Определить свободную энергию как\mathcal{F}(v)=-\ln{\sum_h{e^{-E(v,h)}}}("Свободу" можно понимать какhимеет дополнительную степень свободы, и заключенная в нем энергия может быть использована для совершения внешней работы в системе), тоZ=\sum_ve^{-\mathcal F(v)}

Так что естьP(v)= \frac1Z{e^{-\mathcal{F}(v)}} ,Сейчасvесть больцмановское распределение свободной энергии. То есть параметры, которые мы ищем, представляют собой набор параметров, которые минимизируют свободную энергию (в распределении с ограничениями по параметрам) возникающих образцов. Таким образом, выбор параметра связан с распределением образца по наименьшей энергии.

Короче говоря, это выглядит очень разумно. Хинтон демонстрирует поразительную связь между NN и распределением Больцмана (которое в статье названо удивительно простым [7], а коннотация, стоящая за этим, завораживает. Кто-то даже после того, как прослушал лекции Хинтона, был назначен режим обучения RBM и шаг реорганизации группы квантовой реорганизации [6].

Проблема, однако, в том, что оптимизация всей сети сложна, и считается, что ее основная причина кроется в функции разделения.Z. Структура, соответствующая наименьшей энергии, обычно получается как\mathrm {\#P-Hard}Если будет действительно эффективный алгоритм, то многие термодинамические системы, включая модель Изинга, будут решены.

Хинтон используетжадныйспособ уменьшить сложность алгоритма:Многоуровневая обучающая сеть, а не общую оптимизацию. Для обучения каждого слоя RBM Хинтон разработал так называемый алгоритм контрастивной дивергенции.

Алгоритм CD использует выборку Гиббса, но алгоритм сходится очень медленно (это уже жадная задача, которая показывает, насколько сложна исходная задача). Снова приближение Хинтона, фиксированное количество шагов выборкиk,называетсяCD_kалгоритм.Неожиданное открытие Хинтонаk=1(очевидно, очень грубое приближение), алгоритм работает достаточно хорошо.

Хинтон обнаружил, что после предварительного обучения сети с помощью этого грубого алгоритма (на этот раз обучение без учителя, то есть только данные, без меток; будет упомянуто ниже) ее можно настроить путем настройки (добавления меток, использования обратного распространения, Продолжить обучение или просто следовать с новым классификатором) для эффективного и стабильного обучения глубоких нейронных сетей.

После этого термин «глубокое обучение» постепенно вышел на передний план истории, хотя само понятие было введено в 1986 г. [8]. Можно сказать, что RBM является предшественником этой волны искусственного интеллекта.

Это напоминает другой довольно грубый, но еще более удачный алгоритм — SGD. Можно сказать, что трудно использовать градиентные алгоритмы, которые проще, чем SGD, но SGD (после добавления импульса) работает очень хорошо. Остается очень интересный открытый вопрос, почему очень грубый алгоритм хорошо работает для очень сложной задачи, такой как оптимизация NN.

Благодаря свойствам самой машины Больцмана ее можно использовать для решенияПроблемы, связанные с «неконтролируемым обучением».Даже без меток сеть может самостоятельно изучить некоторые хорошие представления, например следующие представления, полученные из набора данных MNIST:

Когда мы сравниваем человеческий интеллект с нынешней искусственной умственной отсталостью, то часто приводим в пример «сейчас машинное обучение опирается на большие данные, а человеческое наоборот, опирается на малые данные». Это утверждение не совсем точно. У людей слишком много органов чувств, и они постоянно получают огромные объемы данных: при разрешении человеческого глаза лишь немногие практические модели машинного обучения в настоящее время обучаются с использованием данных такого высокого разрешения. Когда мы что-то наблюдаем, все восприятия тонко подпитывают нас огромными объемами данных, чтобы мы могли учиться, рассуждать и судить. То, что мы называем «малыми данными», на самом деле в основном делится на две части:

  • Меньше ярлыков. Мы сталкиваемся со многими «вопросами» и постоянно получаем информацию, но наши «ответы» немногочисленны, мы могли видеть самых разных людей, всех видов животных, пока в один прекрасный день никто не использовал 3 Слово говорит нам: Это кот». В вашей жизни может быть всего несколько раз, когда другие указывали вам, что это кошка. Но всего с одной или двумя подсказками (эквивалентными ярлыку или двум) вы можете запомнить эти понятия на всю оставшуюся жизнь. Даже если люди никогда не говорят, что это кошка, вы знаете, что это не собака или какое-либо другое животное. Это обучение «без ответа» называется«Обучение без учителя» (которое Янн ЛеКун сравнил с основой для торта из-за его фундаментальной роли), машинное обучение мало продвинулось в обучении без учителя.
  • Логический вывод, причинно-следственный анализ. Можно также сказать, что доказательств мало. Если вы читали романы, связанные с детективными делами, эти детективы могут построить полную логическую цепочку из очень небольшого количества доказательств; в действительности физики, такие как Эйнштейн, могут построить целый набор физических явлений из очень небольшого количества предположений. Большая часть ранних исследований ИИ была сосредоточена на схожих аспектах (жанр назывался «символизм»), но большинство этих исследований оказалось трудно применить к практическим задачам. Один из наиболее критикуемых аспектов NN в настоящее время заключается в том, что трудно решать логические проблемы и проблемы, связанные с причинно-следственными выводами (хотя в последнее время были достигнуты некоторые успехи, такие как визуальные ответы на вопросы VQA).

(Торт Яна Лекуна, фотографии из РРТ Яна Лекуна, опубликованные в Интернете)

Неконтролируемое обучение и предварительные знания

Этот подраздел вставлен в середине для облегчения понимания. В этом разделе подчеркивается важность предварительных знаний для неконтролируемого обучения, что помогает понять, почему Хинтон навязывает воплощение в модели так называемой «системы координат», поскольку «система координат» является разновидностью предварительных знаний, и она Предварительные знания, полученные из когнитивной нейробиологии.

Неконтролируемое обучение — это обучение без ответов. Ключевой момент в том, как узнать, если ответа нет?

Учитель сказал: Учиться без размышлений бесполезно, думать без учения опасно. Обучение без учителя похоже на студента, который «думает, не учась» («обучение» здесь относится к изучению книг (т. е. к более прямым ответам), а не к обучению в широком смысле). Очевидно, что если у студента нетПравильный образ мышления и руководство, я думал из воздуха, 80% станет сумасшедшим темным гражданским.

Эта «идея и руководящее направление» является нашим предварительным знанием. Предыдущие знания не ограничивают область мышления, но дают некоторые «предлагаемые направления». Это важно как для обучения с учителем, так и для обучения без учителя, но может быть более важным для обучения без учителя.

Мы можем рассмотреть, почему та же самая нейронная сеть, CNN на изображении, даже голосовые и другие поля превосходят такую ​​«простую» плотно связанную сеть (меньше параметров, быстрое обучение, высокие баллы, простота переноса)?

(Схема CNN, из Википедии)

Очевидно, что у CNN есть сильное предварительное отношение: местоположение. Он очень озабочен локальными отношениями и переходом от локального к целому.

(Использование CNN в AlphaGo для извлечения особенностей Go, взято из статьи DeepMind об AlphaGo)

Это также очень очевидно в Go, где AlphaGo, использующая CNN, может «видеть» локальные отношения и иметь хорошее общее представление.

В другой области Kaggle, такой как изучение вышеприведенных табличных данных, намного хуже, чем CNN, В это время часто выигрывают различные методы интеграции, такие как Gradient Boosting и Random Forest. Потому что эти данные редко локально коррелируются.

Большинство более зрелых алгоритмов в неконтролируемой области представляют собой алгоритмы кластеризации, такие как k-Means и так далее.

Отличительной чертой этих алгоритмов кластеризации является то, что они подчеркивают априорную пространственную корреляцию и считают, что те, которые ближе, являются одним классом.

(На рисунке показан эффект двух разных алгоритмов кластеризации, взятых со страницы k-Means в Википедии)

Несмотря на это, разные предварительные знания о двух алгоритмах кластеризации по-прежнему приводят к разным результатам. На приведенном выше рисунке априор k-средних подчеркивает однородность размера кластера (потери равны квадрату расстояния от центра кластера до членов класса), поэтому есть большие и средние кластеры; в то время как гауссовский При ЭМ-кластеризации больше внимания уделяется плотности (потеря - это показатель расстояния от центра до члена), поэтому есть кластеры разного размера, но плотные. (Большинство людей более предвзято относятся к результатам ЭМ, в основном из-за нашего предварительного знания Микки Мауса или головы животного, надеясь разделить «уши» и «лица»)

Предыдущие человеческие знания — это то, о чем мы больше всего заботимся, и это может лежать в основе ИИ. Было довольно много недавних работ по RL (обучению с подкреплением), пытающихся исследовать это. Например, в следующей статье делается попытка смоделировать предварительное знание о «любопытстве» и предлагается модели самостоятельно исследовать особенности, что все еще имеет некоторые чудесные эффекты.

(Изображение взято из статьи «Исследование, основанное на любопытстве, с помощью предсказания с самоконтролем»)

Позже мы увидим некоторые из предварительных знаний, которые Хинтон обобщил с помощью когнитивной науки и графики, и то, как он добавил эти предварительные знания в модель.

Обратное распространение, это просто работает

Но вскоре выяснилось, что с помощью ReLU и подходящего метода инициализации, с использованием CNN и мощного графического процессора,Обнаружено, что исходную глубокую нейронную сеть можно обучить как обычно, вообще без предварительного обучения RBM.. Хотя RBM математически красив, он сильно ограничен своей структурой и часто не может выполнять прямое насильственное обратное распространение в обучении с учителем. Несколько лет назад, когда Эндрю Й. Нг из Google позволил нейронной сети автоматически обнаруживать кошек в видео, внутренняя структура глубокого обучения Google почти использовалась для поддержки RBM и другого обучения. Теперь в основных фреймворках, таких как TensorFlow с открытым исходным кодом от Google, нет и тени RBM. Многие новички, начинающие с TensorFlow, вероятно, не слышали об RBM.

Ну, а теперь, за исключением различных мелких модификаций (остаточная сеть, оптимизатор Adam, ReLU, Batchnorm, Dropout, GRU и чуть более креативный GAN), мейнстримный алгоритм обучения нейронной сети вернулся на 30 лет назад (в то время CNN, LSTM уже есть) обратное распространение.

В настоящее время многие вклады в NN (особенно основной вклад) заключаются в градиентном потоке NN, таком как

  • Сигмовидная будет насыщена, в результате чего градиент исчезнет. Итак, есть РеЛУ.
  • Отрицательная полуось ReLU является мертвой зоной, в результате чего градиент становится равным 0. Итак, есть LeakyReLU, PReLU.
  • Акцент на стабильность градиента и распределения веса, что приводит к ELU и более новой SELU.
  • Слишком глубоко, уклон не пройти, поэтому есть шоссе.
  • Просто даже не нужны параметры шоссе, а непосредственно измените остаток, поэтому есть редакция.
  • Принудительно стабилизируйте среднее значение и дисперсию параметров, поэтому есть BatchNorm.
  • Добавьте шум к потоку градиента, и вы получите Dropout.
  • Градиент RNN нестабилен, поэтому добавляется несколько путей и ворот, поэтому есть LSTM.
  • LSTM упрощенный, с ГРУ.
  • Существует проблема с JS-расхождением GAN, из-за которого градиент исчезнет или станет недействительным, поэтому есть WGAN.
  • У WGAN проблема с клипом градиента, поэтому есть WGAN-GP.

В конце концов, по сравнению с 1980-х и 1990-х годов (уже есть алгоритмы CNN, LSTM и обратных ход), нет особых существенных изменений.

Но почему этот нынешний подход так хорошо работает? Я думаю, что основные из них:

  • Полная оптимизация параметров, end-to-end. Обратное распространение (замененное BP ниже) может оптимизировать все параметры одновременно, в отличие от некоторых алгоритмов послойной оптимизации, оптимизация нижнего уровня не зависит от верхнего уровня.Чтобы в полной мере использовать ценность владения , BP, наконец, используется для тонкой настройки; в отличие от ансамблевых алгоритмов, таких как случайные леса, которые имеют относительно дискретные параметры. Во многих работах показано, что сквозные системы работают лучше.
  • Гибкая форма. Почти любую форму NN можно обучить с помощью BP, можно использовать CNN, можно использовать LSTM, его можно превратить в двунаправленный Bi-LSTM, можно добавить внимание, можно добавить остаток, его можно превратить в пирамида как DCGAN, или ее можно сделать Сложная структура Inception. Если НС выгодна определенная структура, ее можно добавлять по желанию, также очень удобно добавлять обученную часть в другую НС. Таким образом, с течением времени структура NN будет оптимизироваться вручную, чтобы становиться все лучше и лучше. Требования к BP очень низкие: пока он непрерывен, градиент можно пройти как провод; даже если он не непрерывен, большая его часть может быть сведена к дискретной задаче обучения с подкреплением для обеспечения потерь. Это также привело к рождению большого количества фреймворков NN, поскольку создатели фреймворков знают, что эти фреймворки можно использовать для всех задач, требующих вычислительных графов (например, универсальный движок), и они широко используются, и большинство проблем можно решить. в рамках, так что есть необходимо сделать.
  • Эффективен в вычислительном отношении. Большинство расчетов, требуемых BP, являются тензорными операциями, GPU работает очень быстро, а форма графа расчета NN естественно подходит для распределенных вычислений, имеется большое количество фреймворков с открытым исходным кодом и поддержка крупных компаний.

Нейроанатомия и происхождение Капсулы

Но Хинтон, похоже, не удовлетворен текущими результатами. В 2011 году он впервые предложил структуру Capsule [9] (мы объясним, что такое Capsule позже). Но тот бой с Хинтоном был явно неудачным.

Хинтон недавно захватил самую успешную CNN в NN, раскритиковал ее и повторно предложил структуру Capsule. Понятно, что Хинтон был вдохновлен следующими 3 направлениями:

  • нейроанатомия
  • Когнитивная неврология
  • Компьютерная графика

Первые два, очевидно, связаны с человеческим мозгом. У многих читателей могут возникнуть вопросы: Должна ли NN идти по пути биологии?

Ответ: это зависит.

Структуры и явления, которые существуют в человеческом мозге, можно рассматривать с разных перспектив:

  1. Это компромисс, вызванный биологической основой, эволюционным бременем. Поскольку биологические системы, состоящие из клеток, изо всех сил пытаются выполнять определенные задачи, они едва ли делают это существенно неэффективным образом. В настоящее время правильно не подражать человеческому мозгу. Типичными примерами являются арифметические вычисления и хранение данных. Биологическим структурам трудно развивать точные вычислительные элементы, а также элементы хранения большой емкости и позволять им непрерывно работать на частотах порядка ГГц. Мы можем использовать только абстрактные методы высокого уровня для выполнения вычислений и запоминания, точность которых не гарантируется, что намного медленнее, чем современные компьютеры, и не так точно, как компьютеры. Например, этот вопрос на ZhihuДолжен ли я использовать компьютер для майнинга биткойнов? Можно ли считать ручкой и бумагой?, есть много сложенных ответов "этого ребенка можно использовать для видеокарты". Хотя эти реакции навязчивы, они иллюстрируют поразительную слабость биологической структуры в этих областях.
  2. Это нейтральная функция в эволюции. Эволюция требует только «достаточно», а не «лучше». Некоторые структуры и функции человеческого мозга могут быть заменены совершенно другими реализациями. Вот пример: AlphaGo играет в го. Мастера го могут хорошо играть в го, а обычные люди — нет. Игра в го действительно связана с человеческой интуицией, но эта интуиция не является ни обязательной, ни врожденной: неспособность играть в го не означает, что вы будете исключены в ходе эволюции, и в человеческом мозгу нет специального «модуля го». В настоящее время мы можем разработать систему, сильно отличающуюся от механизма человеческого мозга, такую ​​как AlphaGo, которая может играть лучше, чем люди.
  3. Это крупный прорыв в эволюции, и эти функции создают наше «человеческое» существование. Например, различные системы человеческого восприятия, системы анализа причинно-следственных связей человека, системы обучения, системы планирования и системы управления движением. Это то, чего не хватает искусственному интеллекту.

Но первый вопрос заключается в том, откуда мы знаем, что функция или структура человеческого мозга относится к вышеперечисленнымпункт 3Шерстяная ткань? Согласно изложенной выше точке зрения, очевидно, что появление определенного строения и функции у живых существ не означает, что они очень полезны. Нам нужно больше доказательств.

Важным статистическим доказательством является универсальность. Почему у нас возникла идея использовать NN в качестве ИИ? Поскольку NN сама по себе является крупным прорывом в биологической эволюции, мы обнаружили, что у всех организмов с NN играет ключевую роль в регуляции их поведения, особенно у людей. Вот почему мы готовы в это поверить сегодня, а не только потому, что у людей есть мозг, поэтому мы должны его получить (точно так же, как мы не даем ИИ печень).

Реальная нервная система человека многослойна (например, зрительная система имеет слои V1, V2 и т. д.), но количество слоев не может быть сотнями или тысячами слоев, как в современной большой нейронной сети (особенно после ResNet). не поддерживается в биологии. Скорость нервной проводимости очень низкая. В отличие от вычислений на GPU, один слой нейронной сети может быть порядка микросекунд. Проводимость биологической системы обычно составляет порядка мс за раз. Это невозможно для так много слоев нас сейчас поддерживает.такая скорость реакции,а с синхронизацией проблемы).

(Аналогия между слоями зрительного пути человеческого мозга и слоями DNN. Изображение (c)Jonas Kubilias)

Интересный факт, отмеченный Хинтоном, заключается в том, что большинство нейроанатомических исследований на сегодняшний день подтверждают (у большинства млекопитающих, особенно приматов) наличие обильныхCortical minicolumnСтолбчатая структура (корковые микроколонки) содержит сотни нейронов и имеет внутренние слои. Это означает, что слой в человеческом мозгу не является слоем, подобным текущей НС, а имеет сложную внутреннюю структуру.

(картинка в мини-колонке, цитата изminicolumn hypothesis in neuroscience | Brain | Oxford Academic)

Почему миниколонка преобладает в коре головного мозга? Это явно важное статистическое свидетельство, которое заставляет Хинтона поверить в то, что мини-колонка должна была сыграть свою роль. Поэтому Хинтон также предложил соответствующую структуру, названнуюcapsule(капсула, соответствующая микроколонке). Тут на помощь приходят капсулы.

Но что делает капсула? Что не так с предыдущим CNN? Статистические данные не могут дать эти ответы. Эта часть ответа Хинтона исходит из когнитивной нейробиологии.

Когнитивная неврология и «Бесплатных обедов не будет»

Существует важный закон о машинном обучении, который должен знать каждый новичок в машинном обучении — «Бесплатных обедов не бывает» [10].

Это можно понять, обратившись к примеру из фантастического романа «Задача трех тел»:

Гипотеза фермеров имеет пугающе-ужасающий оттенок: на ферме есть стая индюков, и фермер приходит кормить их каждый день в 11 часов дня. Ученый из Турции наблюдал за этим явлением почти год без исключения, так что он также открыл великий закон своей собственной вселенной: «Каждый день в одиннадцать часов приходит еда». объявил индюкам утром, но еда не прибыла в одиннадцать часов утра, и пришел фермер и убил их всех.

В этом примере вопрос в том, глупа ли индейка?

  • Пункт 1: Индейки умные. Он может обнаруживать и обобщать закономерности. Только не повезло на ферме.
  • Мнение 2: Индейки тупые. Во всяком случае, спастись от участи смерти не удалось. И именно «законы», которые он принимает, отправляют их по дороге к смерти.

Точка зрения 2: «Бесплатных обедов не бывает». Это устанавливается в «математической реальности», где существуют все возможности: индюка можно убить в День Благодарения, его могут оставить в качестве домашнего питомца дети фермера, или фермер может решить вырастить несколько цыплят еще на один год, а затем убить их. Какую бы догадку ни делала курица, она может потерпеть неудачу. Можно показать, что независимо от того, что мы узнаем или какие законы мы постигаем, мы всегда можем (математически) построить контрпример (например, пусть солнце взойдет на западе, пусть золото обратится в грязь), который несовместим с нашим суждением. . Это то же самое для машин, что и для людей. То есть в «общем» смысле или в математическом смысле ни одно существо или алгоритм не лучше предсказывает, чем угадывает.

Однако кажущаяся противоречивой точка зрения 1 верна в физической реальности. Можно сказать,Законы физики — это часть истины, которую нельзя доказать математически. Мы верим этим законам, потому что еще не нашли нарушения, и потому что какая-то интуиция подсказывает нам, что это, вероятно, правда. Почему мы можем обобщать эти законы — вопрос сбивающий с толку, потому что кажется, что люди не способны обобщать различные законы от природы. Но что несомненно, так это то, что мы являемся продуктом эволюции, подчиняющейся законам Хотя понимание физических законов не является нашим инстинктом, многие «квазизаконы» стали нашими инстинктами, и они сформировали наш инстинктивный образ мышления. проблемы Понимание симметрии, бла-бла-бла.

На самом деле ситуация находится между View 1 и View 2. Есть много вещей, которые не являются ни полностью случайными, ни физическими законами, но важны для нашей эволюции и выживания (так называемые «квазизаконы», как упоминалось выше), они представляют собой очень сильное «априорное распределение», или говоря, это наш здравый смысл. , и мы часто не осознаем этого.

Так как это не физический закон, согласно пункту 2 мы можем найти несколько контрпримеров. Эти контрпримеры для нас какая-то "ошибка",Эта ошибка является очень, очень веским доказательством. Причина в том, что мы редко совершаем ошибки (с точки зрения познания и работы мозга). Человеческий мозг — это черный ящик, который большую часть времени работает нормально, и количество информации, которое мы из него получаем, невелико. Но когда что-то пойдет не так, это может дать нам много информации, потому что у нас есть возможность наблюдать некоторые странные явления, такие как полное солнечное затмение, которое происходит раз в столетие. Многие нейробиологические открытия основаны на ошибках (таких как повреждение мозга, ведущее к открытию языковых областей, подтверждение функции левого и правого полушарий и т. д.). Он раскрывает некоторые из наших инстинктов или наше априорное знание.

Как упоминалось выше, эти предварительные знания чрезвычайно важны для машинного обучения, особенно обучения без учителя.

И когнитивная нейробиология может выявить эти ошибки с помощью некоторых экспериментов. Некоторые примеры приведены ниже:

Первый пример — это следующее лицо:

Как выглядит этот человек? Смотреть вверх ногами?

Этот пример показывает, что люди плохо распознают выражения перевернутых лиц. В процессе долгосрочной эволюции мы вызвали «переоснащение» лица, к которому обращены, и информация «положительного» стала менее важной. Причина иллюзии на картинке выше в том, что, хотя лицо перевернуто, мы наблюдаем за глазами на картинке с идеей «вверх», а линии глаз дают нам информацию о выражении:

(Даже несколько простых линий заставят нас подумать, что это человеческое лицо, и получить его выражение. Линии глаз и рта играют важную роль в нашем распознавании выражений)

Это говорит нам о том, что распознавание человеческого лица на самом деле осуществляется через несколько ключевых структур (глаза, брови, рот, нос). Сегодня многие алгоритмы имитируют это, аннотируя ключевые структуры лица с высокой вероятностью успеха.

Кроме того, люди чрезмерно подгоняют форму лица, что также заставляет нас чувствовать себя нормально, когда мы смотрим на лица анимационных персонажей во втором измерении.На самом деле это сильно отличается от реального лица, но наш мозг не думаю так, потому что этот механизм распознавания стал нашим инстинктом.

Второй пример — это карта иллюзий:

(Фото взято из википедии)

сложно представить,А и В одного цвета.

Причина этой иллюзии в том, что в ответ на побочные эффекты теней на распознавание цветов в природе наш мозг произвольно «вычитает» влияние теней на цвета. В эволюции мы, подобно индюкам, чувствуем, что «каждый день в одиннадцать часов будет приходить пища»; точно так же мы чувствуем, что «если можно устранить интерференцию теней на цветах, мы сможем лучше распознавать». стал Нашим «квазизаконом». Однако в приведенной выше иллюзии, которая просит нас сравнить цвета A и B, как День Благодарения с индейкой, наш мозг все еще непослушно меняет цвета, заставляя нас неправильно оценивать этот чрезвычайно специфический вопрос. Просто эта ошибка не приводит ни к каким последствиям.Конечно, если инопланетяне планируют использовать эту ошибку как нашу слабость, чтобы расправиться с нами, это уже другая история.

Изображение ниже — более экстремальный случай. Средняя полоса фактически не имеет градиента.

Третья иллюзия связана с линиями:

Людям покажется белый треугольник посередине, потому что наш мозг «лжет», дайте нам почувствовать, что там как бы есть какое-то «невидящее».

Чтобы сделать эффект немного более преувеличенным:

Глядя на изображение с определенного расстояния, мы почувствуем, что есть «изюминка» или «изюминка». На самом деле это концентрические круги. Причина иллюзии в том, что мозг «наполняет» нас множеством скошенных краев (квадраты наклонены, а для усиления эффекта краев используются разные цвета), причем форма этих краев отличается от их расположения. направлении, так что он будет чувствовать себя "Twist". Если бы мы вошли в мир таких паттернов, наша нынешняя зрительная система с трудом функционировала бы должным образом.

Большинство объектов в нашей жизни имеют четкие границы. Это не физический закон, но он достаточно общий, чтобы быть «квазизаконом». Так что зрительная кора головного мозга человека и животных имеет структуру, специализирующуюся на распознавании границ:

Одна из причин, по которой CNN считается биологически поддерживаемой, заключается в том, что она может обучаться фильтрам, которые автоматически получают такие функции, как края (во многом подобно так называемымGabor filter):

Успех CNN заключается в том, что он может очень успешно извлекать особенности изображения. Это очень хорошо работает при передаче стиля проекта Neural Style (оригинал + стиль -> оригинал со стилем):

Эти человеческие иллюзии также подразумевают, что люди ограничены теоремой о «бесплатных обедах», как и алгоритмические модели. Человеческое познание не особенно отличается от алгоритмов и может быть воспроизведено алгоритмами.

Аргумент Хинтона против CNN из когнитивной нейробиологии

Сказать, что Хинтон — когнитивный нейробиолог, не проблема. Хинтон провел множество когнитивных экспериментов и опубликовал множество статей в области когнитивной науки.

По собственному признанию Хинтона, у CNN дела идут очень хорошо. Но когда Хинтон провел серию экспериментов в области когнитивной нейробиологии, Хинтон почувствовал себя немного потрясенным, и теперь он выступает против CNN.

Первый эксперимент называетсяголоволомка тетраэдрЭто также Хинтон считает самым убедительным экспериментом.

Как показано на рисунке, есть два полных простых строительных блока, которые просят вас объединить их в четырехгранное тело (не смотрите на ответ, попробуйте сами).

Предполагается, что это очень, очень простая задача, которую люди могут решить в среднем за 5 секунд для подобных задач. Но Хинтон был удивлен, обнаружив, что среднее время решения этой задачи было неожиданно долгим, часто занимая десятки секунд или даже минут.

(Интересно, как Хинтон лично демонстрирует этот эксперимент на видео, взятом с Youtube[2])

Хинтон без ума от MIT, говоря, что количество минут, в течение которых профессора MIT решают эту задачу, в основном такое же, как количество лет, которые они проработали в MIT, и даже профессор MIT, кажется, написал доказательство того, что это невозможно ( а потом студенты Массачусетского технологического института очень рады это слышать, им нравится взламывать своих профессоров).

Но два типа людей решают ее очень быстро: во-первых, они уже очень хорошо знают конфигурацию тетраэдра; Но решать задачи с помощью зрительной интуиции очень сложно, если вы хотите на них смотреть.

Это означает, что у нас есть иллюзия, и это оптическая иллюзия..

Хинтон в ходе экспериментов с людьми обнаружил, что иллюзия возникает из-за того, что люди бессознательно создают своего родасистема координат

Люди невольно используют одну и ту же систему координат для двух конгруэнтных геометрий. Эта система координат вводит в заблуждение, заставляя людей всегда сначала пробовать какое-то неправильное решение.

Если вы дадите двум геометриям разные системы координат

можно решить почти сразу

Второй эксперимент посвященрукость, структуры с непостоянной хиральностью не могут совпадать при плоском вращении. Этот студент, изучающий органическую химию, должен быть лучше всего знаком с (различными хиральными атомами углерода), такими как страх перед контролем хиральности (позвольте мне сообщить название ИЮПАК токсина каменной песчаной анемоны?):

Простейшая хиромантия состоит в том, чтобы различать левое и правое, что сейчас многие путают. Судить по хиромантии человеку сложно. Пример, приведенный Хинтоном, - это «мысленное вращение», проблема состоит в том, чтобы определить, согласована ли хиральность двух фигур:

(Изображение взято из публичного PPT лекции Хинтона в Университете Торонто под названием «Делает ли мозг обратную графику?»)

Мы не можем ответить прямо, но нам нужно «покрутить» определенное R в нашем сознании, чтобы судить о том, соответствует ли пальма. И чем больше разница углов, тем больше времени требуется людям, чтобы судить.

«Вращение сознания» также подчеркивает существование «системы координат». Нам трудно судить о хиромантии, потому что они имеют противоречивые системы координат. Нам нужно сделать системы координат согласованными посредством вращения, чтобы интуитивно знать, согласуются ли они.

Третий эксперимент касался карт. Нужен человек, не особо разбирающийся в географии, но имеющий азы, чтобы ответить на простой вопрос:

Какой континент изображен на рисунке ниже?

Довольно много людей (особенно те, кто отвечал интуитивно) ответили, как Австралия.

Это связано с тем, что для нерегулярных шаблонов мы считаем само собой разумеющимся, что система координат устанавливается следующим образом:

Но если вы строите так:

Вы сразу обнаружите, что это Африка, и она совсем не похожа на Австралию.

В результате этих экспериментов Хинтон пришел к следующим выводам:

Зрительная система человека установит «систему координат», и разница в системе координат сильно изменит сознание людей.

Но трудно увидеть что-либо похожее на «координатную рамку» на CNN.

Хинтон сделал предположение:

Связь между объектом и наблюдателем (например, поза объекта) должна быть представлена ​​набором активированных нейронов, а не отдельным нейроном или набором грубо закодированных, а не тонко организованных) нейронных представлений. Такое представление больше подходит для реализации таких принципов, как «системы координат».

И весь этот набор нейронов, по мнению Хинтона, и есть Капсула.

Эквивариантность и инвариантность

Другая причина, по которой Хинтон возражал против CNN, заключалась в том, что цель CNN была неверной. Проблема в основном сосредоточена на аспекте объединения (я думаю, что это можно обобщить до понижения дискретизации, поскольку многие CNN теперь используют сверточный понижение частоты дискретизации вместо слоев объединения). Хинтон считает, что в прошлом люди воспринимали Пулинг так, что он может принести эффект инвариантности, то есть, когда контент немного меняется (и некоторый перевод и ротация), CNN все еще может стабильно идентифицировать соответствующий контент.

Но эта цель неверна, потому что в конечном итоге наша идеальная цель — не «скорость распознавания», а хорошее представление контента. Если мы находим хорошее представление содержания, то мы «понимаем» содержание, потому что его можно использовать для идентификации, для семантического анализа, для построения абстрактной логики и так далее. И теперь CNN слепо гонится за уровнем узнаваемости, а это не то, чего хочет Хинтон, Хинтон хочет «чего-то большого».

Хинтон считает, что нам нужна Эквивариантность, а не Инвариантность.

Так называемая инвариантность означает, что представление не меняется при преобразовании, например, результаты классификации и так далее.

Инвариантность в основном достигается за счет процессов понижающей дискретизации, таких как объединение. Если у вас есть опыт обучения нейронных сетей, вы можете подумать, что когда мы делаем предобработку изображений и аугментацию данных, некоторые изображения будут повернуты на некоторые углы как новые образцы для распознавания нейронной сетью. Таким образом, CNN может добиться инвариантности вращения, и это «интуитивная» инвариантность. Ему вообще не нужно вращать изображение, как человеку. Он напрямую «игнорирует» вращение, потому что мы хотим, чтобы он имел инвариантность вращения.

CNN также подчеркивает инвариантность пространства, то есть нечувствительность к переводу объектов (различное положение объектов не влияет на его распознавание). Это конечно значительно повышает точность распознавания, но для движущихся данных (таких как видео), или когда нам нужно определить конкретное положение объекта, саму CNN сделать сложно, и какие-то скользящие окна, или методы типа R- CNN необходимы, эти методы аномальны (в биологии почти наверняка нет соответствующей структуры), и крайне сложно объяснить, почему мозг использует почти одну и ту же зрительную систему для очень разных зрительных функций распознавания статичных изображений и наблюдения движущихся сцен .

Для инвариантности переноса и вращения фактически отбрасывается «система координат». Хинтон считает, что это важная причина, по которой CNN не может отражать «систему координат».

И эквивариантность не теряет эту информацию, это просто преобразование содержания:

Хинтон считает, что части без объединения перед CNN работают хорошо, потому что они являются эквивариантными.

Итак, в рамках Capsule, как должна быть отражена эквивариантность?

Хинтон считает, что существует две эквивалентности:

  • Place-coded: если расположение содержимого в визуальном элементе сильно изменится, его содержимое будет представлено другой капсулой.
  • Rate-coded: содержимое в визуальном элементе имеет небольшое изменение положения, и его содержимое представлено той же капсулой, но содержимое изменилось.

Кроме того, связь между ними заключается в том, что капсулы высокого уровня имеют более широкие домены, поэтому информация с позиционным кодированием низкого уровня становится кодированной по скорости на высоких уровнях.

Хотя Хинтон не уточнил это здесь, я чувствую, что Хинтон надеется объединить статическое и динамическое видение (с помощью двух методов кодирования одновременно воспринимать движение и содержание). Пути обработки статического и динамического контента в человеческом мозгу существенно не изменились, но разница между рамками для понимания видео и понимания изображений по-прежнему невелика.

Однако ведь инвариантность существует, например, наше распознавание объектов не связано с расположением объектов. Вот Хинтон объясняет это:

знание, а не деятельность должны быть инвариантны к точке зрения

То есть проблема, о которой говорит Хинтон, связана с активацией, а инвариантность CNN, о которой говорили раньше, связана с активацией нейронов. Хинтон хочет, чтобы инвариантность основывалась только на знаниях (в случае Capsule — на вероятностной части ее вывода). Отсюда видно, что одна из причин, по которой Хинтон использует капсулу, заключается в том, что капсула больше подходит для представления, чем отдельный нейрон.

Капсульная фильтрация и фильтрация совпадений

Так как же Capsule высокого уровня получает информацию от нижележащей Capsule?

Во-первых, каков вывод капсулы?

Хинтон предполагает, что выход Capsuleпараметры инстанцирования, который является многомерным вектором:

  1. Его модуль представляет собой вероятность того, что объект (объект или его часть) появится
  2. Его ориентация/положение представляет сущностьобобщенная поза, включая положение, направление, размер, скорость, цвет и т. д.

Основная идея Capsule заключается в том, что сущность представлена ​​набором нейронов, а не одной и только одной сущностью.

Затем решите, какую высокоуровневую капсулу активировать, выполнив фильтрацию совпадений для базовой капсулы. Фильтрация совпадений — это способ оценки достоверности путем кластеризации многомерных векторов.Хинтон приводит пример:

Например, если вы слышите, как кто-то на улице говорит о «Нью-Йорк Таймс» 11-го числа, поначалу вам может быть все равно; может сразу осознать Пока не случилось что-то необычное

Наши (небытовые) предложения подобны векторам в многомерном пространстве, появление группы подобных предложений в естественных условиях очень маловероятно, и мы инстинктивно отсеиваем такие совпадения.

Фильтрация совпадений позволяет избежать некоторого шума и сделать результаты более надежными.

Это напоминает мне о проблеме, заключающейся в том, что в наши дни CNN легко обмануть состязательными примерами. Хотя почти все модели машинного обучения имеют проблему состязательных примеров, CNN можно обмануть некоторыми состязательными примерами, которые неразличимы для человека, что является серьезной проблемой (это также то, что CNN отличается от нашей визуальной системы). Частично причина в линейной структуре NN, которая не очень устойчива к шуму. Я не знаю, может ли фильтрация совпадений решить эту проблему.

Графически это выглядит так:

Подход к кластеризации, который использовал Хинтон (он назвал его «Согласен»), заключался в использовании следующей оценки:

score_i=\sum{\log{p(x_i|mixture)}}-\sum{\log{p(x_i|uniform)}}

где смесь — это гауссова смесь, которую можно получить с помощью алгоритма ЕМ. То есть, если форма кластера ближе к распределению Гаусса (то есть более концентрированная), оценка выше; в противном случае, чем более рассеяно и ближе к равномерному распределению, тем ниже оценка:

(Изображение взято с Youtube [2])

Капсула верхнего уровня, соответствующая классификации кластера с высокой оценкой, примет обобщенную позу, обеспечиваемую капсулой нижнего уровня, что эквивалентно маршрутизации. Это потому, что эти выходы нижнего слоя «выбирают» капсулу верхнего слоя,«поиск лучшего пути (обработки) эквивалентен (правильной) обработке изображения»,Хинтон объяснил это так. Хинтон называет этот механизм «routing by agreement".

Эта маршрутизация не статическая, а динамическая (в зависимости от ввода), которая недоступна в таких методах, как Pooling:

Использование этого подхода, похожего на кластеризацию, имеет потенциальные возможности обучения без учителя, хотя Хинтон не раскрыл конкретный алгоритм. Однако Хинтон упомянул в [2], что для набора данных MNIST после неконтролируемого обучения требуется всего 25 примеров для достижения точности распознавания 98,3%, и проблема сложности CNN в распознавании перекрывающихся изображений решена. Они должны быть недавно приняты NIPS наCapsules бумагаDynamic Routing between Capsules (еще не опубликовано)https://research.google.com/pubs/pub46351.htmlможно увидеть в . давайте подождем и посмотрим.

Графика и линейные коллекторы

На этот раз Хинтон явно вдохновлялся компьютерной графикой. В своем докладе [2] он сказал буквально, буквально, обратную графику (я очень и очень серьезно хочу «обратную» графику).

Очень важным свойством компьютерной графики является то, что в ней используется линейное многообразие, имеющее хорошую инвариантность угла обзора.

Чтобы было ясно, это означает использовать матрицу преобразования перспективы для воздействия на сцену без изменения относительного отношения объектов в сцене.

Поэтому Хинтон решил использовать матрицу для связи между двумя объектами.

Согласно вышеизложенному routing by agreementалгоритм, если мы хотим получить лицо изо рта и носа, нам нужно сделать вектор ртаT_iвектор носаT_hВ основном то же самое.

Сами по себе они определенно не будут непротиворечивыми, потому что рот и нос — не одно и то же; чтобы сделать их непротиворечивыми, нам нужно найти такой класс функций, чтоF_{ij}(T_i)\approx F_{hj}(T_h).

Но выбор какой функции? Ответ HINTON - это многолинейная функция (матрица), потому что она позволяет их просматривать преобразованные из отношения (угол обзора предоставляется матрицу для преобразования W) влияния, потому что

T_iT_{ij}\approx T_hT_{hj}\rightarrow T_iT_{ij}W\approx T_hT_{hj}W\rightarrow T_iWT_{ij}\approx T_hWT_{hj}\rightarrow T_i'T_{ij}\approx T_h'T_{hj}

(Изображение взято из публичного PPT лекции Хинтона в Университете Торонто под названием «Делает ли мозг обратную графику?»)

И это также справедливо для 3D, где здесь видно стремление Хинтона повлиять на 3D-видение.

Удастся ли волна Хинтона?

Хинтон очень «упрямый» человек, в интервью Эндрю Нг он высказал свои мысли:

If your intuitions are good, you should follow them and you will eventually be successful; if your intuitions are not good, it doesn't matter what you do. You might as well trust your intuitions there's no point not trusting them.

(То есть, если интуиция всегда хороша, то, конечно, придерживайтесь ее; если интуиция плоха, то все равно, что вы делаете (все равно не разберетесь, да и вряд ли у вас что-то получится, даже если вы передумай)). Когда вторая половина предложения может быть продвинутым черным Хинтона.

Но Хинтон действительно верит в свою интуицию: от предложения обратного распространения до популярности глубокого обучения Хинтон придерживается этого уже 30 лет и не собирается сдаваться.

Теперь Capsule дала Хинтону много интуиции, и Хинтон считает, что он пойдет до конца. Цель Хинтона также очень велика.Из его введения в капсулы мы видим, что существует несколько «больших проблем», таких как влияние динамического визуального контента, 3D-зрение, неконтролируемое обучение и надежность НС.

Если Хинтон потерпит неудачу (я не отношусь к Хинтону оптимистично, а просто делаю предположение), в основном возможны две ситуации:

Во-первых, из-за различных преимуществ обратного распространения сейчас, которые были обобщены выше. Чтобы модель была успешной, требуется не только хорошая производительность, но и гибкость (чтобы ее можно было применять к реальным проблемам), эффективность и поддержка сообщества (принятие и популярность в промышленности и научных кругах). Нынешнее обратное распространение очень перспективно в этих точках, и уступить место другим моделям непросто.

Во-вторых, потому что даже у человека с особенно хорошей интуицией может быть день, когда его интуиция особенно плоха, особенно в более поздние годы. Очень известным примером этого является Эйнштейн. Личность Эйнштейна очень похожа на личность Хинтона, у него очень острая интуиция, и он охраняет свою интуицию до почти упрямого уровня. В более поздние годы Эйнштейн хотел разработать единую теорию поля, что было большой целью, точно так же, как Хинтон теперь надеется создать цель разрушить механизм BP; Эйнштейн также приобрел много интуиции, например, он чувствовал, что электромагнитные поля и Гравитация очень похожи, оба тесно связаны с теорией относительности, все они обратные квадраты, все они бозоны, передающие силу, а масса покоя бозона равна 0, диапазон действия силы бесконечен и т. д. , как сейчас Хинтон находит всевозможные убедительные аргументы, так и решение Эйнштейна сначала объединить электромагнетизм и гравитацию потерпело неудачу. Вместо этого сначала были объединены две, казалось бы, несовместимые силы — сила слабого взаимодействия (три бозона размером с атомное ядро) и электромагнитная сила (единая теория электрослабости). А гравитацию как раз сложнее всего объединить в настоящее время, а значит, интуиция Эйнштейна ошиблась. Я беспокоюсь Как и Хинтон.

Однако, даже если Эйнштейну это не удалось, будущие поколения вдохновлялись им и продолжали нести знамя ТВО, чтобы раздвигать границы физики; я думаю, то же самое относится и к Хинтону.

концевые сноски

Хинтон однажды изобрел алгоритм рециркуляции вместо BP для обучения нейронных сетей примерно в 1987 году. Хотя он не был особенно успешным, он предсказал пластичность, не зависящую от времени, которая позже была обнаружена нейробиологами.

Когда Хинтон впервые предложил капсулу (5 лет назад), она была чуть ли не «забракована», в это никто не поверил, но сам Хинтон свято верил в это, и упорствует до сих пор.

В интервью Эндрю Нг Хинтон дал интересное описание будущей тенденции (для практиков CS): демонстрация компьютеров будет так же важна, как и их программирование.

Reference

[1] 17 августа 2017 г., презентация в Филдсовском институте Университета Торонто, Хинтон, Канада.https://www.youtube.com/watch?v=Mqt8fs6ZbHk

[2] Отчет о мозге и когнитивных науках Массачусетского технологического института, Хинтон, опубликован 3 апреля 2017 г.https://www.youtube.com/watch?v=rTawFwUvnLE

[3] СМИ сообщают, что Хинтон хочет отменить текущий базовый алгоритм глубокого обучения.Artificial intelligence pioneer says we need to start over

[4] Комментарии Fei-Fei Li в Твиттере:Echo Geoff's sentiment no tool is eternal, even backprop or deeplearning. V. important to continue basic research.

[5] Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE.

[6] Bény, C. (2013). Deep learning and the renormalization group. arXiv preprint arXiv:1301.3124.

[7] Hinton, G. (2010). A practical guide to training restricted Boltzmann machines. Momentum, 9(1), 926.

[8] Rina Decher (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.

[9] Hinton, G. E., Krizhevsky, A., & Wang, S. D. (2011, June). Transforming auto-encoders. In International Conference on Artificial Neural Networks (pp. 44-51). Springer Berlin Heidelberg.

[10] Wolpert, D. H. (1996). The lack of a priori distinctions between learning algorithms. Neural computation, 8(7), 1341-1390.

[11] Hinton, G. E., & McClelland, J. L. (1988). Learning representations by recirculation. In Neural information processing systems (pp. 358-366).

[12] Pathak, D., Agrawal, P., Efros, A. A., & Darrell, T. (2017). Curiosity-driven exploration by self-supervised prediction. arXiv preprint arXiv:1705.05363.