Презентация Hinton AAAI2020 - Capsule Networks

9 февраля 2020 года на трибуне главного конференц-зала AAAI 2020 приветствовали трех важных гостей. Эти трое также являются пионерами эпохи глубокого обучения, с которыми мы знакомы и поддерживаем: Джеффри Хинтон, Янн ЛеКун, Йошуа Бенжио. .

На самом деле всего несколько лет назад мы редко видели их на академических конференциях в компьютерном сообществе, Хинтон даже говорил, что давно не участвовал в конференции AAAI — ведь десять лет назад нейронные сети были еще Исследователи компьютерных наук коллективно сопротивляются, и даже если есть прогресс, статьи не будут приниматься на различных научных конференциях. Сегодня, когда глубокое обучение становится абсолютным мейнстримом исследований в области машинного обучения и основной технологией массового искусственного интеллекта, премия Тьюринга 2018 года, наконец, была присуждена этим троим, что является (запоздалым) признанием их вклада.

В ходе двухчасового специального мероприятия в этот день каждый из троих выступил с тридцатиминутной речью, а в конце состоялся тридцатиминутный круглый стол, в ходе которого также были даны ответы на вопросы аудитории.

Хинтон был первым, кто произнес речь, и обычно перед тем, как выступающие выходят на сцену, делают краткое вступление. Винсент Конитцер, один из двух председателей программы на AAAI 2020, сказал: «Мы все знаем, что то, что случилось с этими тремя, — это история таланта и настойчивости. Сегодня это может быть трудно представить, но в то время направление исследований нейронных сетей было просто невозможно. Еще более непопулярные Джефф, Янн, Йошуа добились многих ключевых достижений в это время. Их истории побуждают нас следовать собственному академическому направлению, а не бросаться на самые горячие темы».

Винсент также рассказал интересную историю о Хинтон, которую сам Хинтон рассказал другим. Мы все знаем, что Хинтон задавался вопросом, как работает человеческий мозг. Однажды Хинтон сказал своей дочери: «Я знаю, как работает мозг». годы.

Публика рассмеялась, а Джеффри Хинтон поднялся на подиум под аплодисменты. AI Technology Review приводит полный текст его выступления ниже.

Сегодня я собираюсь рассказать о некоторых недавних исследованиях, проведенных с Адамом, Сарой и Йи-Уай. Сегодня я не буду говорить о философии и не буду объяснять, почему я давно не посещал конференции AAAI или что-то еще (смех в зале), поэтому расскажу об этом исследовании.

Все еще начиная с критики CNN

Существует две основные категории методов для задачи распознавания объектов.Одна из них — это старомодные модели на основе частей, которые используют модульные, перцептивные представления, но обычно требуют много ручной разработки признаков, поэтому их обычно не изучают. частей. Другой класс методов — это сверточные нейронные сети, которые изучаются полностью сквозным образом. Существует основное правило распознавания объектов. Если детектор признаков действителен в этой позиции на изображении, он также действителен в другой позиции (Аннотация: трансляционная инвариантность).CNN обладает этим свойством, поэтому он может комбинировать разные сигналы, хорошо обобщает на разные позиции, с достойной производительностью.

Но есть большая разница между CNN и человеческим восприятием. Первая часть моего сегодняшнего выступления почти полностью посвящена Яну ЛеКуну, и я собираюсь указать на проблемы CNN и рассказать вам, почему CNN — дерьмо. (аудитория смеется)

CNN предназначены для обработки переводов, но плохо справляются с другими типами перспективных преобразований, такими как повороты и масштабирование, но все же немного лучше, чем мы обычно думаем. Один из способов справиться с этим — заменить двухмерную карту признаков на четырехмерную или шестимерную, но слишком сильно возрастают вычислительные затраты. Таким образом, обучение CNN с использованием множества различных точек зрения, чтобы позволить модели научиться обобщать различные точки зрения, неэффективно. Идеальная нейронная сеть не должна требовать никаких дополнительных усилий и может естественным образом обобщать новые перспективы — научившись распознавать объект, вы можете увеличить его в десять раз, повернуть на 60 градусов и все равно распознать. Мы знаем, что компьютерная графика такая, и мы надеемся разработать нейронные сети, которые ближе к этому.

Позвольте мне сначала объяснить эквивалентность и инвариантность. Типичная CNN, особенно сеть с пулом, получает представление, которое не меняется с изменением точки зрения, это «неизменная инвариантность», а получение представления «эквивалентность эквивалентности» - это две разные вещи. «Эквивалентность» означает, что по мере изменения точки зрения меняется и представление. Во что я верю, так это в то, что в системе человеческого восприятия, когда меняется ваша точка зрения, меняется и паттерн нейронной активности; я не говорю, что распознаваемый ярлык должен измениться, очевидно, что ярлык должен оставаться прежним, но вы должны перцептивная активность может варьироваться в широких пределах. Что не меняется с точки зрения, так это вес связи, а вес кодирует отношения между разными вещами. Я расскажу об этом позже.

CNN не анализирует изображения. Когда вы позволяете CNN идентифицировать изображение, он не будет делать никакого явного разрешения и не будет пытаться отличить что-то, что не является его частью. Мы можем понять CNN, которая заботится о самых разных положениях пикселей, основываясь на все большем количестве информации об окружающей среде, иметь все более и более подробные описания в каждом местоположении пикселя; наконец, когда ваше описание очень обогащено, вы знаете, что находится в нем. изображение. Однако CNN не анализирует изображения явно.

То, как CNN распознает объекты, тоже, очевидно, сильно отличается от человеческого: добавьте к изображению немного шума, и CNN распознает его как нечто совершенно другое, но мы, люди, почти не видим изменений в изображении. Это явление очень странное. На мой взгляд, это свидетельство того, что CNN распознают изображения с совершенно другой информацией, чем мы, люди. Это не означает, что CNN делает это неправильно, но это действительно сильно отличается от того, что делают люди.

Одна из моих претензий к CNN заключается в том, что он вычисляет скалярное произведение нижележащих слоев, умноженное на веса, и используется для принятия решения, активировать его или нет. Это процесс поиска подсказок, а затем их складывания; для активации достаточно наложенных подсказок. Это особый метод активации для поиска совпадений. Совпадение на самом деле очень важно, точно так же, как физика в значительной степени изучает совпадения между двумя различными физическими величинами; совпадения могут формировать обе стороны уравнения, а также могут формировать как теорию, так и эксперимент. В многомерном пространстве очень примечательно, если есть совпадение, например, вы слышите «9 февраля, Нью-Йорк» по радио, а затем несколько раз видите «9 февраля, Нью-Йорк» в других сообщениях», это все 9 февраля и Нью-Йорк, вы будете шокированы, это совпадение в многомерном пространстве, это довольно примечательно.

Ну, нейрон, который мы сейчас используем, не ищет совпадений, но все меняется, и мы начинаем использовать модели Трансформеров, а Трансформеры ищут совпадения, я объясню это позже. Вычислите скалярное произведение двух векторов активности, что намного сильнее исходного подхода, то есть вычислите, совпадают ли два вектора активности, и если да, активируйте. Так работают трансформеры, что приводит к лучшим фильтрам. Это также приводит к моделям, которые лучше реагируют на ковариационные структуры и изображения. Что действительно важно здесь, так это ковариационная структура, ковариационная структура пикселей.

Последний момент и самая серьезная проблема с CNN заключается в том, что CNN не используют системы координат. Когда мы, люди, смотрим на вещи, всякий раз, когда мы видим форму, мы принимаем для нее систему координат. Это фундаментальная особенность человеческого восприятия. Я попытаюсь убедить вас принять это на примере, но у меня мало времени, и я постараюсь быстро убедить вас на примере.

Поскольку у нас нет времени смотреть на красивые демо, давайте взглянем на эти две формы. Эта слева выглядит как карта страны, вроде Австралии, но если я скажу вам, что форма не прямая, а наклонная, то она похожа на Африку. Как только вы увидите, что это похоже на Африку, это полностью отличается от зеркального отражения Австралии, которое вы чувствовали сначала. Но на первый взгляд мы не видим ее африканской, если вы скажете ей, что это определенная страна, то вы увидите ее только как определенную страну.

Если вы посмотрите на фигуру справа, то это либо очень позитивный ромб, либо квадрат, повернутый на 45 градусов; в зависимости от того, как вы себе это представляете, ваше восприятие будет совершенно разным. Если вы думаете о нем как о ромбе, вы можете заметить, пока есть небольшая разница в высотах двух углов слева и справа, но вы не заметите, являются ли четыре угла прямыми углами, и ваше наблюдение неважно, здесь будет все равно. То есть, если я немного удлиню его вверх и вниз так, чтобы четыре угла внутри не были прямыми углами, он все равно будет выглядеть для вас очень положительным ромбом.

Но, с другой стороны, если вы посмотрите на него как на квадрат, повернутый на 45 градусов, вы заметите, что все четыре угла прямые; даже если угол просто изменится с 90 градусов на 88 градусов, вы увидите, что это уже не угол. прямые углы. Но в то же время вас уже не будет волновать, имеют ли два угла слева и справа одинаковую высоту или нет.

Поэтому в зависимости от выбранной вами системы координат ваше внутреннее восприятие будет совершенно разным. Дизайн CNN не может объяснить это явление, для каждого входа есть только одно восприятие, и это восприятие не зависит от выбора системы координат. Я думаю, что это как-то связано с состязательными примерами, которые CNN и люди воспринимают совершенно по-разному.

Я думаю, что хороший способ сделать компьютерное зрение — это рассматривать его как обратную сторону компьютерной графики, идея, которая уходит корнями в далекое прошлое. Иерархические модели используются в программах компьютерной графики, которые моделируют структуру пространства, используя матрицы для представления преобразования между системой координат, встроенной в целое, и собственной системой координат каждой части.

Для всего объекта он имеет свою, заложенную систему координат, мы тоже можем ее указать, тогда у каждой части целого тоже будет своя система координат. После выбора всех систем координат можно определить связь между частью и целым, что представляет собой простую матричную операцию, для твердых тел это линейная связь.

Итак, это очень простая линейная структура, которая является способом мышления в компьютерной графике. Для того, кто занимается компьютерной графикой, если вы попросите его показать вам что-то с другого ракурса, он не скажет: «Я бы с удовольствием, но мы не тренировались с другого ракурса, поэтому нам может исполниться только 15 лет». Они могут идти прямо под любым углом, потому что у них есть настоящая 3D-модель, они моделируют пространственную структуру, отношения между частями и целым. Эти отношения также полностью независимы от перспективы.

Я думаю, что это действительно проблема, если вы не используете эту замечательную структуру при работе с изображениями 3D-объектов. Одна из причин заключается в том, что если экстраполяция должна производиться на большие расстояния, линейные модели могут быть легко экстраполированы, а модели более высокого порядка экстраполировать трудно. И мы также искали линейные неявные многообразия, и в компьютерном зрении мы знаем, что они из себя представляют; перспективное преобразование оказывает большое влияние на изображения, и на самом деле в нем присутствует неявная линейная структура, и мы не можем использовать это. структура.

Последняя капсульная сеть для выпуска 2019 года

Теперь я хочу подробно представить систему, она называется Stacked Capsule Auto-Encoders. Некоторые из вас, возможно, читали что-то о капсульных сетях, здесь я должен сказать, что это другая версия капсул. Каждый год я буду проектировать совершенно другую капсульную сеть, та, что на NeurIPS 2017, посвящена маршрутизации, та, что на ICLR 2018, использует алгоритм EM, а затем на NeurIPS 2019 будет новая, которую я собираюсь представить сейчас это.

Так что, во-первых, забудьте все о предыдущих версиях капсульной сети, все они были неправильными, только эта правильная (смех в зале). В предыдущих версиях использовалось дискриминационное обучение, которое, как я знал в то время, было плохим, и я всегда чувствовал, что обучение без учителя было бы правильным, поэтому предыдущие версии пошли в неправильном направлении; и все они использовали отношение «компонент-общее». , эффект не очень. Гораздо лучше использовать отношение «целое-часть». При использовании отношения «часть-целое», если степень свободы части меньше степени свободы целого, например, часть является точкой, а затем вы используете точку для формирования созвездия, то трудно предсказать положение всего созвездия по положению одной точки, нужно использовать положения многих точек, поэтому нельзя делать предсказания о целом по одной части.

В этой новой версии мы используем обучение без учителя и отношения «целое-часть».

Отправной точкой «капсулы» является создание дополнительных структур в нейронной сети, а затем надежда, что эти новые структуры помогут модели лучше обобщать. Это также вдохновлено CNN, где Янн разработал лишь несколько очень простых структур, которые позволяют реплицировать детекторы признаков между различными преобразованиями перевода, улучшение, которое дает огромные преимущества. Итак, мой следующий вопрос: можем ли мы продолжать двигаться в этом направлении, можем ли мы разработать еще какие-то модульные структуры, чтобы мы могли анализировать деревья и так далее.

Ну, капсула будет представлять, существует ли что-то, она узнает, какую сущность она должна представлять, и у нее будут некоторые параметры для этой сущности. В капсуле 2019 года, которая является последней, правильной капсулой, она будет иметь логическую единицу, которая представляет собой светло-голубую вещь в крайнем левом углу, которая используется для указания, существует ли эта сущность в текущем изображении, независимо от того, находится ли сущность. в любом месте диапазона изображения, охватываемого этой капсулой. То есть сама капсула может быть сверточной.

В капсуле будет матрица, красная справа, используется для представления пространственных отношений между объектом, представленным капсулой, и наблюдателем, или пространственных отношений между внутренней системой координат, встроенной в объект, и наблюдателем. ; таким образом мы знаем, в каком направлении, насколько большой, где и т. д. Также есть вектор с другими атрибутами, который будет содержать такие вещи, как деформация; если вы имеете дело с видео, он также будет содержать такую информацию, как скорость, цвет и так далее.

Я повторяю главное: капсулы используются для фиксации присущих им геометрических свойств. Следовательно, капсула, представляющая объект, может предсказывать положение своих частей на основе своей собственной позы, и отношение между самим объектом и частями объекта не меняется при изменении перспективы. Это то, что нам нужно хранить в нейросети в виде весов, это знания, которые стоит хранить, а затем мы можем использовать эти знания независимо от перспективы для распознавания объектов.

Сконцентрируйтесь, поймите этот PPT, и вы поймете эту новую капсулу. Идея здесь в том, что у нас есть какой-то автоэнкодер, и сначала мы обучаем его жадным способом — получаем части из пикселей, получаем большие части из частей, получаем большие части из больших частей. Этот процесс обучения является жадным, то есть после того, как части будут получены из пикселей, пиксели и части не будут перевыбираться в обратном направлении, а будут использоваться полученные результаты напрямую, а затем переходить на более высокий уровень, пытаясь объединить эти части в более привычное целое.

Этот PPT показывает декодер в двухуровневом автоэнкодере, но единицей является уже не традиционный нейрон, а более сложная капсула. В этом слое ниже находятся некоторые капсулы, информацию о которых мы собрали с изображения — это индуктивная интерпретация — у нас есть некоторые капсулы низкого уровня, мы уже знаем, существуют ли они, их векторные свойства. Что такое, какова поза и взаимосвязь. между наблюдателем, теперь на их основе изучаются капсулы более высокого уровня. Мы надеемся, что каждая капсула более высокого уровня может объяснить несколько капсул более низкого уровня, то есть целая капсула соответствует нескольким составным капсулам, и происходит процесс обучения.

В таких генеративных моделях мы не генерируем данные низкого уровня напрямую, мы генерируем прогнозы того, «какими могут быть данные низкого уровня» на основе капсул высокого уровня. Первое, что нам нужно сделать, это найти вектор параметров в защечном мешке, а затем зеленая пунктирная линия здесь указывает, что с помощью этих параметров, извлеченных из этого объекта, пространственные отношения между целым и частями предсказываются для каждой части соответственно. .

Если это твердое тело, то эти зеленые пунктирные линии не нужны, и соответствующая матрица постоянна, если это переменный объект, то эти зеленые пунктирные линии нужны. Для каждой капсулы высокого уровня — и я объясню, как они создаются, — каждая созданная капсула высокого уровня предсказывает позу для каждой капсулы низкого уровня, извлеченной из изображения. Три красных квадрата, обведенных эллипсом, — это прогнозы, сделанные тремя капсулами высокого уровня для положения капсулы низкого уровня соответственно.

Что нас интересует здесь, так это то, что одна из капсул высокого уровня должна быть интерпретируемой. Поэтому здесь будет использоваться гибридная модель. Использование смешанной модели предполагает неявное предположение, что одно из них является правильным объяснением, но в целом вы не знаете, какое из них правильное.

Целевая функция, которую мы выбираем, состоит в том, чтобы максимизировать логарифмическую вероятность поз, уже наблюдаемых на капсулах более низкого уровня, созданных капсулой высокого уровня через смешанную модель. В рамках этой смешанной модели можно вычислить логарифмическое правдоподобие. Эти структуры обучаются методом обратного распространения, изучая, как создавать экземпляры капсул высокого уровня.

При обратном распространении через смешанную модель апостериорная вероятность элементов, которые плохо объясняют данные, почти равна нулю. Затем, когда вычисляется обратное распространение, обратное распространение не изменяет их, потому что они не имеют никакого эффекта; те элементы, которые обеспечивают наилучшее объяснение, получают наибольшую производную и могут быть изучены и оптимизированы.

Это дизайн этой генеративной модели. Следует отметить, что в генеративных моделях есть две идеи. Во-первых, каждая низкоуровневая капсула интерпретируется только одной высокоуровневой капсулой — это формирует дерево синтаксического анализа, в котором каждый элемент имеет только одного родителя. Во-вторых, положение низкоуровневой капсулы может быть получено из высокоуровневой капсулы, то есть матрицей, умножающей положение высокоуровневой капсулы относительно наблюдателя и положение целого относительно компонента, т.е. получается низкоуровневая капсула относительно наблюдателя поза человека. Две очень важные вещи в видении, связанные с изменением перспективы и построением деревьев синтаксического анализа, заложены в модель.

Сейчас я не показывал, как сделать кодировщик, часть восприятия. Это сложная проблема рассуждений. В предыдущей версии капсулы мы выполняли некоторую ручную разработку кодировщика. Нам нужно было голосовать за капсулу высокого уровня и смотреть, были ли результаты голосования согласованными. Этот метод особенно сложен для выполнения. , Делайте это правильно. Сара потратила много времени, работая над этим, и ей было трудно заставить его работать.

К счастью, пока мы их пробовали, появился Трансформер. Transformer предназначен для обработки языков, но он очень продуман. Затем мы сталкиваемся с ситуацией, когда у нас есть некоторые части, и мы хотим вывести целое из частей, что является очень трудной задачей рассуждения. Но с Transformer мы можем попытаться ввести все части непосредственно в Transformer и позволить им соприкасаться друг с другом.

Мы использовали многоуровневую модель Transformer и в итоге объединили простую генеративную модель со сложной моделью кодирования. Эта многослойная модель Transformer решит, как поступить с согласованностью, как организовать различные части, нам просто нужно найти способ ее обучить.

Чтобы обучить Трансформера, в общем случае нам нужен правильный ответ. Но вам на самом деле не нужен здесь правильный ответ, вам просто нужно обучить его производную, просто посмотреть на ответ, который он дает, и пусть он даст лучший ответ, чем сейчас. Это получается из генеративной модели.

Метод заключается в том, чтобы узнать все извлеченные капсулы и ввести их в многослойную модель набора трансформаторов (Set Transformer).Слой поднимается вверх, а векторное описание постоянно обновляется информацией о других капсулах в качестве фоновой среды. Когда описания этих частей обновлены достаточно хорошо, они преобразуются в прогнозы на последнем уровне, предсказывая, где должен находиться объект в целом.

Эту многоуровневую модель набора трансформеров легко обучить, потому что у нас есть соответствующая генеративная модель, которая может передавать производную в трансформер. Цель обучения модели Transformer такая же, как и обучение генеративной модели, которая состоит в том, чтобы максимизировать логарифмическую вероятность фактического положения наблюдаемой части с учетом положения, предсказанного капсулой высокого уровня. Мы также разрабатываем разреженную древовидную структуру внутри, побуждая ее активировать только несколько высокоуровневых капсул за раз.

Для этого набора моделей многослойного трансформера заинтересованные лица могут прочитать эту статью, я не буду вводить более подробные сведения.

Я уверен, что многие из вас знают, как работают Трансформеры, а у меня мало времени, я очень быстро расскажу о том, как работают Трансформеры.

Это случай обработки предложений, не так ли?Способ обработки предложений состоит в том, чтобы получить пакет векторов слов, а затем запустить на нем сверточную сеть, чтобы каждый вектор слова мог быть обновлен в соответствии с векторами рядом с ним. Весь этот дизайн можно обучить в режиме обучения без присмотра, где цель обучения состоит в том, чтобы реконструировать взятые из него векторы слов.

Это эквивалентно разработке автоэнкодера сверточным способом, и в Transformer есть несколько более сложных ручных конструкций: в дополнение к тому, что вектор слов напрямую влияет на векторы слов того же слоя и более высоких слоев, каждый вектор слова также генерирует ключ, запрос и значение. В соответствии с состоянием преобразователя, показанным в моем PPT, вектор слов проверит свой собственный запрос, который является изученным вектором, а затем сравнит его с ключом соседнего вектора слов. Если есть совпадение, он будет использовать часть значения соседнего вектора слова в качестве своего нового значения. Процесс заключается в том, чтобы продолжать искать похожие вещи, а затем комбинировать их, чтобы получить новые представления. В основном так работают трансформеры.

Позвольте мне показать вам результаты использования комбинированной модели Transformer и простой генеративной модели с системой координат и деревом синтаксического анализа для простого набора данных.

Не смейтесь, это образцы цифр MNIST 1980-х годов. Я взял несколько сложных образцов, неоднозначных. Я собираюсь разобраться с этим с разработанной моделью, чтобы проверить, верна ли идея. Эти данные MNIST моделируются следующим образом: сначала есть слой частей, которые могут быть частью штрихов, затем есть целый слой, капсулы высокого уровня, которые могут быть целым числом, но не точно соответствовать номер.

Каждая часть представляет собой небольшой шаблон 11x11, который выучивает.Я не буду подробно объяснять здесь, как выучивается часть, потому что это в основном то же самое, что и метод заучивания целого числа, поэтому я в основном говорю о том, как выучивается целое число . Суть здесь заключается в моделировании плотности пикселей с помощью набора прогнозов из различных частей, каждая из которых может быть профилируемой, то есть ее матрица позы позволяет получить разные результаты экземпляров.

Здесь несколько цифр, например, давайте посмотрим на «4». Красная часть получается путем извлечения частей из изображения и последующей реконструкции пикселей; зеленая часть получается путем извлечения частей из изображения, активации капсул более высокого уровня, а затем реконструкции капсул низкого уровня и реконструкции пикселей. генерируется шаг за шагом с высокого уровня. Та часть, где красный и зеленый перекрываются, окрашена в желтый цвет. Видно, что большинство из них желтые, а и красный, и зеленый имеют лишь небольшую часть края, а это значит, что разница между восстановленными результатами двух методов очень мала.

Справа показана активация 24 капсул высокого уровня. Эти капсулы высокого уровня изучают такие вещи, как целые числа, или они могут быть больше и не совсем соответствовать числам.

Теперь давайте посмотрим, как части составляют целое число. Четвертая и пятая сетки числа 4, то есть части 4 и 5, представляют собой одну и ту же часть, но с разными аффинными преобразованиями. Затем, в зависимости от аффинного преобразования, он конкретизируется совершенно по-разному, поэтому одна и та же часть может служить разным целям.

Далее я собираюсь показать, что, научившись извлекать части, изучать целое и объяснять комбинацию этих частей. Затем извлеките векторы, состоящие из режимов активации 24 высокоуровневых капсул, и используйте t-SNE для их отображения, то есть для встраивания этих многомерных векторов в двумерное пространство. , тем меньше их расстояние. Перед тем, как посмотреть на картинку, хочу пояснить, что эти капсулы никогда не обучались меткам, они полностью обучаются без присмотра, и тогда результаты такие:

Он разделен на 10 категорий, между этими 10 категориями есть очевидные различия, а также есть некоторые неверные классификации. Теперь, если я добавлю к ним метки, просто возьму образец из каждого класса, использую его метку как метку класса, к которому он принадлежит, и я смогу напрямую получить точность MNIST 98,7% — можно сказать, что это не используется. Результат обучения любой метки, скажем, используется 10 меток.

В общем, изучайте MNIST с помощью этой генеративной модели, которая позволяет частям иметь системы координат, и тогда естественным образом возникают естественные классификации в MNIST. На самом деле числа в MNIST деформированы, и связь между целым числом и его составляющими не фиксирована, а зависит от каждого конкретного числа. Этот подход работает.

Однако у этого подхода есть две проблемы. Первая проблема заключается в том, что вместо того, чтобы брать целое изображение и обрабатывать его напрямую, наше человеческое зрение имеет крошечную ямку и выбирает, на что смотреть с ее помощью. Итак, то, что мы видим, на самом деле является процессом сэмплирования, и не все, что мы видим, имеет высокое разрешение.

С другой стороны, человеческое зрение также зависит от точки зрения. Я всегда считал, что формы, которые мы видим, также видят некоторый контекст. Так что будут различные оптические иллюзии, это может быть ваза, это может быть два лица. Итак, если с психологической точки зрения зрение заключается в наблюдении за определенной фигурой на определенном фоне, эта капсульная модель также является моделированием восприятия фигуры, а не восприятия фона; вы хотите смоделировать фон. , вам нужно что-то вроде моделирования материалов, и вам не нужно разбирать весь объект на разные части. Вариационный автоэнкодер хорошо справится с этой задачей.

Итак, чтобы интерпретировать цифры MNIST на текстурированном фоне, Сара обучила комбинацию автоэнкодеров сложенных капсул + вариационных автоэнкодеров, что намного лучше, чем простое использование вариационных автоэнкодеров для моделирования фона. Хотя она по-прежнему работает не так хорошо, как отсутствие контекста вообще, я думаю, что если вы хотите решить проблемы с контекстом, это правильная теория. Как и люди, когда есть фон, мы относимся к фону как к фону и не моделируем фон высокоуровневыми моделями на основе частей, которые зарезервированы для моделирования форм.

Другая проблема заключается в том, что все это только что рассмотренные двумерные случаи, а нам действительно нужно иметь дело с трехмерными изображениями. Предыдущая версия капсульной сети, разработанная Сарой, использовала данные 3D-изображения, разработанные Яном, чтобы увидеть, может ли она обрабатывать реальную 3D-графику напрямую без помощи контурных линий.

Чтобы сделать это таким образом, нам нужно, чтобы передняя часть, то есть самая основная капсула, представляла воспринимаемые части объекта. Думайте о зрении как о обратном проектировании компьютерной графики.В графике сначала строится весь объект, затем части, части частей, части частей, вплоть до треугольника и, наконец, рендеринг. Так что с идеей реверс-инжиниринга только капсулы самого низкого уровня имеют дело со свойствами света, отражательной способности и т. д., в то время как капсулы высокого уровня отвечают за геометрические формы. То, о чем я здесь говорю, в первую очередь связано со слоями геометрии.

Прямо сейчас мы работаем над обратным рендерингом, извлечением из пикселей в воспринимаемые части. Мы разработали множество различных методов, вы можете использовать поверхностные сетки, вы можете ссылаться на известную геометрию, или вы можете использовать сечения полупространства и т. д. Существует множество методов.

Окончательный вывод:

Предварительные знания о преобразованиях системы координат и деревьях синтаксического анализа можно легко интегрировать в простую генеративную модель. Интересным преимуществом помещения знаний в генеративную модель является то, что сложность вашей когнитивной модели, вашего кодировщика, не влияет на сложность генеративной модели. Вы можете сделать кодировщик чрезвычайно сложным, но насколько короткой может быть длина описания, зависит от сложности вашей генеративной модели.

Итак, спроектируйте генеративную модель с определенной структурой, а затем включите обратный процесс (распознавание) в этот большой набор трансформеров. Если ваша модель Transformer достаточно велика, имеет достаточно слоев и обучена на достаточном количестве данных, можно сказать, что хорошая производительность гарантирована.

(Конец речи)

Капсульная сеть, о которой столько лет размышлял и говорил Хинтон, наконец-то получила хороший ответ.В конце речи старик тоже изобразил на лице удовлетворенную улыбку.