Пятнадцать вопросов сверточных нейронных сетей: исследование и исследование CNN и системы биологического зрения

Из неотесанности, составленной Сердцем Машины.

Разработка CNN во многом была вдохновлена нейронной сетью мозга на ранней стадии, и теперь некоторые идеи и методы в смежных исследованиях, в свою очередь, также помогают исследованиям в области нейробиологии, например, недавнее использование DeepMind ИИ для изучениямозговая навигацияидофаминовая функцияРабота. Недавно Грейс Линдсей, доктор нейробиологии и поведения в Колумбийском университете, опубликовала в своем блоге статью, в которой в формате вопросов и ответов обсуждаются различия и связи между CNN и биологическими зрительными системами. «Сердце машины» составлено и представлено.

Как и большинство моих недавних сообщений в блоге, я написал этот пост в результате недавней дискуссии в Твиттере о том, как соединить компоненты глубоких сверточных нейронных сетей (CNN) с мозгом. Тем не менее, большая часть мыслей здесь — это то, что я рассматривал и обсуждал раньше. Когда кто-то использует CNN в качестве модели системы машинного зрения, я обычно (в научных дискуссиях и других беседах) должен поощрять и поддерживать этот выбор. Отчасти потому, что это (в некоторой степени) относительно новые подходы в нейробиологии, а отчасти потому, что люди относятся к ним скептически. Вычислительные модели, как правило, развиваются в нейронауке медленно, и большая их часть (но не все) исходит от людей, которые не используют и не строят вычислительные модели; их часто описывают как непрактичные или бесполезные. На фоне общего отвращения к технарям и разрекламированной атмосферы глубокого обучения/ИИ (сколько это будет стоить?), какую бы модель вы ни выбрали, некоторые люди будут ее ненавидеть.

Поэтому здесь я надеюсь использовать простой (но очень длинный) формат вопросов и ответов, чтобы проиллюстрировать относительно разумное и точное использование CNN для моделирования биологических зрительных систем. Эта подобласть все еще находится в разработке, поэтому в тексте не будет слишком много неопровержимых фактов, но я буду цитировать их как можно больше. Кроме того, это, очевидно, мои личные ответы на эти вопросы (и те, которые я задавал лично), поэтому, пожалуйста, примите во внимание то, что в них содержится.

Я фокусируюсь на CNN как на моделях зрительной системы, а не на более широких вопросах, таких как «Может ли глубокое обучение помочь нам понять мозг?», потому что я считаю, что эта область является наиболее разумной, информативной и наиболее продуктивной (а также моей область исследования). Но этот общий процесс — определение архитектуры на основе биологической информации и последующее ее обучение на соответствующих данных — можно также использовать для понимания и воспроизведения других областей и функций мозга. Конечно, это уже было сделано, см.:woohoo.frontier sin.org/articles/10…(Я надеюсь, что читатели в области машинного обучения и науки о данных смогут прочитать эту статью, но в ней есть некоторые термины нейробиологии, которые не определены.)

1. Что такое CNN?

Сверточные нейронные сети (CNN) — это класс искусственных нейронных сетей. Таким образом, они состоят из единиц, называемых «нейронами», которые выдают уровень активности на основе взвешенной суммы входных данных. Этот уровень активности обычно является нелинейной функцией входа, обычно просто выпрямленной линейной единицей (ReLU), где активность равна входу, когда все входы положительные, и равна 0, когда все входы неположительны.

Уникальным для CNN является способ построения связей между нейронами. В нейронной сети с прямой связью блоки организованы в слои, и блоки в данном слое получают входные данные только от нижнего уровня (т. е. никаких входных данных от других блоков в том же или последующих слоях, больших). ввод из более чем 1 предыдущего слоя). CNN — это сеть прямой связи. Но в отличие от стандартной чистой сети с прямой связью, блоки в CNN имеют пространственное расположение. На каждом уровне ячейки организованы в двумерную сетку, которая называется картой объектов. Каждая карта объектов является результатом свертки нижележащего слоя (отсюда и название CNN). Это означает, что один и тот же сверточный фильтр (набор весов) применяется в каждой позиции слоя ниже него. Следовательно, ячейка в определенном месте на этой 2D-сетке может получать входные данные только от ячеек в аналогичном месте на один слой ниже нее. Кроме того, веса, прикрепленные к входным данным, одинаковы для каждой единицы на карте объектов (и варьируются от карты объектов к карте объектов).

После свертки (и нелинейности) обычно выполняются некоторые другие вычисления. Одним из возможных вычислений является нормализация между функциями (хотя этот подход вышел из моды в современных высокопроизводительных CNN). Среди них активность объекта в определенном пространственном местоположении на карте объектов делится на активность объекта в том же месте на других картах объектов. Более распространенной операцией является объединение. где максимальная активность в небольшой пространственной области каждой 2D-карты объектов используется для представления этой области. Это уменьшает размер карты объектов. Этот набор операций (свертка + нелинейность → нормализация → объединение) в совокупности называется слоем. Архитектура сети определяется количеством уровней и выбором различных связанных параметров, таких как размер сверточных фильтров.

Большинство современных CNN имеют несколько (не менее 5) таких уровней, где последний уровень передает данные на полностью подключенный уровень. Полносвязные слои похожи на стандартные сети с прямой связью, в которых нет пространственного расположения или ограниченных связей. Обычно 2-3 полносвязных слоя используются вместе, а последний слой сети выполняет классификацию. Например, если сеть выполняет классификацию объектов по 10 классам, то на последнем уровне будет 10 объектов, и к их уровням активности будет применена операция softmax, чтобы получить вероятности, связанные с каждым классом.

Эти сети в основном обучаются посредством контролируемого обучения и обратного распространения. В этом случае входом в сеть является парный набор изображений и связанных с ними меток классов. Значения пикселей изображения передаются в первый слой сети, а затем последний слой сети выводит прогнозируемый класс. Если эта предсказанная метка не соответствует предоставленной метке, то вычисляется градиент, чтобы определить, как следует изменить веса (т. е. значения в фильтре свертки), чтобы сделать классификацию правильной. Повторите это много-много раз (многие сети обучаются на базе данных ImageNet, которая содержит более 1 миллиона изображений 1000 целевых классов), чтобы получить модель с высокой точностью на сохраненных тестовых изображениях. Некоторые варианты CNN теперь могут достигать коэффициента ошибок 4,94% или меньше, что лучше, чем человеческий уровень. Для достижения хороших результатов обычно требуется множество тренировочных «трюков», таких как интеллектуальный выбор скорости обучения и регуляризация веса (в основном за счет исключения, т. е. случайного отключения половины веса в каждую тренировочную эпоху).

Исторически неконтролируемое предварительное обучение использовалось для инициализации весов, а затем обучение с учителем использовалось для их улучшения. Однако это больше не кажется необходимым для превосходной производительности.

Введение в глубокие CNN, которые могут понять нейробиологи, можно найти в Deep Neural Networks: A New Framework for Modeling Biological Vision and Brain Information Processing:woohoo.annualreviews.org/do i/10.1146…

2. Был ли CNN когда-либо вдохновлен визуальной системой?

да. Во-первых, как следует из названия, искусственные нейронные сети в целом вдохновлены нейробиологией, которая начала развиваться в середине 20 века. Искусственные нейроны предназначены для имитации основных свойств нейронов, которые получают и преобразуют информацию.

Во-вторых, основные функции и вычисления, выполняемые свёрточными сетями, были вдохновлены некоторыми ранними открытиями в области зрительной системы. В 1962 году Хьюбел и Визель обнаружили, что нейроны первичной зрительной коры реагируют на специфические простые особенности (особенно направленные края) в зрительной среде. Кроме того, они заметили два различных типа клеток: простые клетки (они наиболее сильно реагируют на предпочтительное для них направление только в очень специфических пространственных положениях) и сложные клетки (их ответы обладают большей пространственной инвариантностью). Они пришли к выводу, что сложные клетки достигают этой инвариантности за счет объединения входных данных от нескольких простых ячеек, каждая из которых имеет свое предпочтительное положение. Эти две функции (избирательность к конкретным функциям и повышение пространственной инвариантности за счет прямых связей) составляют основу систем искусственного зрения, таких как CNN.

Нейрокогнитивная машина (неокогнитрон)

Развитие CNN можно проследить непосредственно до этого открытия с помощью моделей, известных как нейрокогнитивные машины. Нейрокогнитивная машина была разработана Кунихико Фукусима в 1980 году, включив в себя то, что тогда было известно о биологическом зрении, в надежде построить работающую систему искусственного зрения. Нейрокогнитивная машина состоит из «S-клеток» и «C-клеток» и может научиться распознавать простые изображения посредством обучения без учителя. Янн ЛеКун, первый исследователь ИИ, разработавший CNN, прямо заявил, что их разработка была основана на нейрокогнитивных машинах, см.:У-у-у. В это время. Торонто. Quota/~Hinton/ABS…

3. Когда CNN стал популярным?

На протяжении всей истории компьютерного зрения большая часть исследовательской работы была сосредоточена на искусственном создании признаков, которые должны быть обнаружены в изображении, на основе восприятия людьми наиболее информативных частей изображения. После фильтрации этих созданных вручную функций обучение происходит только на последнем этапе, чтобы сопоставить функции с целевым классом. CNN, обученная сквозному обучению с учителем, предоставляет способ автоматически генерировать эти функции, которые лучше всего подходят для этой задачи.

Самый ранний крупный пример этого появился в 1989 году. В то время ЛеКун и др. использовали обратное распространение, чтобы обучить маленькую CNN распознавать рукописные цифры. Возможности CNN получили дальнейшее развитие и проверку с введением набора данных MNIST в 1999 году. Несмотря на этот успех, этот подход потерял свои позиции из-за того, что исследовательское сообщество считало такое обучение сложным, и ненейросетевые методы, такие как машины опорных векторов, набрали обороты.

Следующее большое событие произошло только в 2012 году, когда глубокая CNN, обученная полностью с помощью контролируемых методов, выиграла конкурс ImageNet в том же году. В то время хорошая частота ошибок для классификации объектов по 1000 классам составляла около 25%, но AlexNet достиг уровня ошибок 16%, что является огромным улучшением. Методы победы до этой задачи основывались на более старых методах, таких как неглубокие сети и SVM. Этому прогрессу в CNN способствует использование некоторых совершенно новых методов, таких как ReLU (вместо сигмовидной или гиперболической касательной нелинейности), распределение выполнения сети на 2 графических процессора и регуляризация отсева. Но это произошло не на пустом месте, ренессанс нейронных сетей начал формироваться еще в 2006 году. Однако в большинстве этих сетей используется неконтролируемое предварительное обучение. Эта разработка в 2012 году определенно стала важным моментом в развитии современного глубокого обучения.

См. Глубокие сверточные нейронные сети для классификации изображений: всесторонний обзор:Woohoo. MIT Press journals.org/do i/ABS/10. …

4. Когда возникла нынешняя связь CNN со зрительной системой?

Большая часть шумихи вокруг CNN в нейробиологии сегодня связана с несколькими исследованиями, опубликованными примерно в 2014 году. В этих исследованиях явно сравнивалась нейронная активность, зарегистрированная у людей и макак, с искусственной активностью в CNN, когда одно и то же изображение видели разные системы.

Первый — Яминс и др. (2014). В этом исследовании было изучено множество различных архитектур CNN, чтобы определить, что привело к превосходной способности прогнозировать реакцию IT-клеток обезьяны. Для заданной сети подмножество данных использовалось для обучения модели линейной регрессии, которая сопоставляет активность в искусственной сети с активностью отдельных ИТ-ячеек. Для оценки модели использовалась предсказательная сила данных удержания. Используется и другой подход: анализ репрезентативного сходства. Этот подход не предполагает прямого прогнозирования нейронной активности, но задается вопросом, могут ли две системы представлять информацию одинаково. Это достигается путем построения матрицы для каждой системы, где значения представляют сходство ответов на два разных входа. Если эти матрицы выглядят одинаково в разных системах, то способ представления информации в них также одинаков.

Репрезентативная матрица различий для разных систем

По обоим показателям СНС, оптимизированная для распознавания объектов, превосходит другие методы. Кроме того, уровень 3 сети лучше предсказал активность клеток V4, а уровень 4 (последний слой) лучше предсказал активность клеток IT. Это указывает на то, что существует соответствие между слоями модели и областями мозга.

Другой вывод заключается в том, что сети, которые лучше распознают объекты, также лучше фиксируют ИТ-активность без необходимости оптимизации непосредственно ИТ-данных. Эта тенденция примерно сохраняется в более крупных и качественных сетях до тех пор, пока не возникнут определенные ограничения (см. вопрос 11).

Более поздние уровни CNN имеют более схожие представления с человеческими ИТ.

В другой статье, Khalig-Razavi and Kriegeskorte (2014), также использовался анализ репрезентативного сходства, в котором сравнивались 37 различных моделей с ИТ человека и обезьяны. Они также обнаружили, что модели, которые лучше распознавали объекты, также лучше соответствовали представлениям ИТ. Кроме того, глубокая CNN (AlexNet), обученная с помощью обучения с учителем, является наиболее эффективной и наиболее подходящей, когда более поздние уровни сети работают лучше, чем предыдущие уровни.

5. Использовали ли нейробиологи в прошлом методы, подобные CNN?

Да! Нейрокогнитивная машина, упомянутая в вопросе 2, была вдохновлена открытиями Хьюбела и Визеля и, в свою очередь, вдохновила современные CNN, но она также породила несколько направлений исследований в области визуальной нейробиологии, в первую очередь исследования в лабораториях Томазо Поджо. , Томас Серр, Максимилиан Ризенхубер и Джим ДиКарло. Модели на основе сверточного наложения и максимального объединения используются для объяснения различных свойств зрительной системы. В этих моделях обычно использовалось нелинейное и неконтролируемое обучение, отличное от современных CNN (также популярных в области машинного обучения в то время), и они не достигли масштаба современных CNN.

Пути, выбранные визуальными нейробиологами и исследователями компьютерного зрения, имеют различные совпадения и расхождения, поскольку они преследуют разные, но связанные цели. Но в целом CNN вполне можно рассматривать как продолжение пути моделирования для визуальных нейробиологов. Вклад в области глубокого обучения включает в себя вычислительную мощность и методы обучения (и данные), которые в конечном итоге заставляют эти модели работать.

6. Какие у нас есть доказательства того, что CNN работают «как мозг»?

Сверточные нейронные сети обладают тремя основными характеристиками, поддерживающими их использование в качестве моделей биологического зрения: (1) они могут выполнять зрительные задачи на уровне, близком к человеческому, и (2) их рабочая архитектура воспроизводит основные функции, известные о зрительной системе, (3) ) деятельность, которую они производят, может быть напрямую связана с активностью различных областей зрительной системы.

Характеристики визуальной иерархии

Во-первых, корень и архитектура, они имеют два важных компонента визуальной иерархии. Во-первых, размер рецептивного поля отдельной единицы увеличивается с последовательными слоями в сети, точно так же, как рецептивное поле увеличивается от V1 до IT. Во-вторых, по мере продвижения слоя функции изображения, на которые реагирует нейрон, становятся все более и более сложными, точно так же, как процесс настройки идет от простой линии в V1 к целевой части в IT. Это увеличение сложности функций можно увидеть непосредственно с помощью методов визуализации, доступных для CNN.

Визуализация функций, изученных сетью на разных уровнях

При более внимательном рассмотрении пункта (3) многие исследования, следующие за первоначальным исследованием 2014 года (Q4), дополнительно выявляют взаимосвязь между активностью в CNN и зрительной системой. Все они демонстрируют один и тот же общий вывод: активность в искусственных сетях может быть коррелирована с активностью зрительной системы при просмотре одних и тех же изображений. Кроме того, более поздние слои в искусственной сети могут соответствовать более поздним областям вентрального зрительного потока (или более поздним временным точкам в ответах, полученных с использованием таких методов, как МЭГ).

Для получения этих точек можно использовать множество различных методов и наборов данных, например, следующие исследования: Seibert и др. (2016 г.), Cadena и др. (2017 г.), Cichy и др. (2016 г.), Wen и др. (2018 г.) , Эйкенберг и др. (2017 г.), Гючлю и ван Гервен (2015 г.) и Зелигер и др. (2017 г.).

Соответствие между представлениями различных слоев CNN и областей мозга (из Cichy et al.)

Эти исследования обычно сосредоточены на начальных нейронных реакциях, полученных при простом представлении естественных изображений различных целевых классов. Таким образом, эти CNN достигают того, что называется «распознаванием основных объектов» или «способностью быстро различать данный визуальный объект и все другие объекты, даже при наличии сохраняющих идентичность преобразований (положения, размера, перспективы и визуального восприятия). фон меняется)". В общем, стандартные CNN с прямой связью лучше всего фиксируют ранние компоненты зрительного ответа, предполагая, что они воспроизводят начальную информативную саккаду с прямой связью от сетчатки к более высоким областям коры.

Тот факт, что ряд нейронных репрезентаций, созданных зрительной системой, может быть воспроизведен CNN, предполагает, что они выполняют один и тот же процесс «распутывания», то есть обе системы выбирают разные цели, которые неразделимы на уровне изображения/сетчатки. и создавать представления, допускающие линейную разделимость.

Помимо сравнения действий, мы также можем углубиться в (1) производительность сети. Подробные сравнения между этими сетями и поведением людей и животных могут быть дополнительно использованы для проверки их использования в качестве моделей и для определения областей, в которых все еще необходим прогресс. Результаты этого типа исследований показали, что эти сети могут фиксировать модели поведения человека при классификации (и даже предсказывать/манипулировать им) лучше, чем предыдущие модели из нескольких областей, но плохо работают в определенных областях, таких как На изображении есть шум или разница в изображении очень небольшая, но точность сильно падает.

Исследования этого поведенческого эффекта включают: Rajalingham et al. (2018), Kheradpishesh et al. (2015), Elsayed et al. (2018), Jozwik et al. (2017), Kubilius et al. (2016), Dodge and Karam (2017), Berardino и др. (2017) и Geirhos и др. (2017).

Все ли они соответствуют критериям хорошей модели мозга? Нам лучше посмотреть, что люди в поле зрения говорят, что хотят от модели зрительной системы:

"Достижения в понимании решений по распознаванию объектов в мозге требуют создания систем искусственного распознавания (часто биологически вдохновленных, таких как [2-6]), конечной целью которых является моделирование наших собственных зрительных способностей. Такие вычислительные подходы имеют решающее значение. Важно, потому что они обеспечивают гипотезы, которые можно проверить экспериментально, и потому что создание эффективных систем распознавания является особенно эффективным показателем успеха в понимании распознавания объектов ». — Пинто и др., 2007 г.

С этой точки зрения ясно, что CNN — это не передача целей в области видения науки, а способ достижения ее целей.

7. Существуют ли другие модели, которые лучше предсказывают поведение зрительных областей?

В целом, нет. В нескольких исследованиях было проведено прямое сравнение способности CNN фиксировать нейронную активность с предыдущими моделями зрительных систем, такими как HMAX. CNN выделяется. К таким исследованиям относятся: Yamins и др. (2014 г.), Cichy и др. (2017 г.) и Cadieu и др. (2014 г.).

8. Является ли CNN механистической моделью или описательной моделью зрительной системы?

Разумное определение модели механизма состоит в том, что внутренние части модели могут быть сопоставлены с соответствующими внутренними частями системы. Описательные модели, с другой стороны, соответствуют только их общим отношениям ввода-вывода. Таким образом, описательная модель зрительной системы может быть моделью, которая берет изображение и выводит целевые метки, которые соответствуют меткам, заданным людьми, но она может работать таким образом, что не имеет очевидной связи с мозгом. Однако, как упоминалось выше, слои CNN могут быть сопоставлены с областями мозга. Следовательно, когда CNN выполняет распознавание объектов, это механистическая модель репрезентативного преобразования, выполняемого вентральной системой.

В целом, если мы хотим, чтобы CNN была моделью механизма, нам не нужно иметь механизмы для всех компонентов. Возьмем, к примеру, использование нейронов, основанных на частоте, в традиционных моделях мозговых цепей. Нейронная модель, основанная на частоте стрельбы, — это просто простая функция, которая сопоставляет входную интенсивность с выходной частотой стрельбы. Следовательно, они являются только описательными моделями нейронов: в модели нет внутренних компонентов, связанных с нейронными процессами, которые приводят к частоте импульсов (более точные биофизические модели, такие как нейроны Ходжкина-Хаксли, являются механистическими). Тем не менее, мы все еще можем использовать нейроны, основанные на частоте возбуждения, для моделирования механизма цепи (случай, который мне нравится:Woohoo. Достаньте ручку. Женский хулиган. hello.gov/universal/2561…). Все механистические модели полагаются на модель описания как на свою основную единицу (иначе нам всем пришлось бы углубляться в квантовые механизмы для построения моделей).

Итак, являются ли компоненты CNN (то есть слои, состоящие из сверток, нелинейностей, возможной нормализации и объединения) механистической моделью области мозга или моделью описания? На этот вопрос ответить сложнее. Хотя эти слои состоят из искусственных нейронов, которые разумно сопоставляются с реальными нейронами (или группами нейронов), многие вычисления не реализуются биологически. Например, нормализация (в сети, которая ее использует) реализуется с помощью сильно параметризованного уравнения деления. Мы считаем, что эти вычисления могут быть реализованы с использованием реалистичных нейронных механизмов (см. исследование, процитированное выше), но в современных моделях это не используется (хотя я и еще несколько человек работают над этой проблемой... см. вопрос 12).

9. Как мы должны интерпретировать, как различные части CNN связаны с мозгом?

Для нейробиологов, привыкших иметь дело с вещами на клеточном уровне, такие модели, как CNN, могут счесть, что абстрактная ценность перевешивает практическую ценность (хотя ученые-когнитивисты, работающие над абстрактным мультирегиональным моделированием, могут быть более знакомы с ними).

Связывание CNN с областями мозга и обработка

Но даже без точных биологических деталей мы можем сопоставить компоненты CNN с компонентами зрительной системы. Во-первых, на вход CNN обычно поступают трехмерные (RGB) значения пикселей, которые подверглись некоторой нормализации или отбеливанию, чтобы примерно соответствовать вычислениям, выполняемым сетчаткой и дорсолатеральным коленчатым ядром. Карта признаков, созданная с помощью свертки, имеет пространственное расположение, аналогичное топологической карте сетчатки (ретинотопии), обнаруженной в зрительной области, что означает, что каждый искусственный нейрон имеет пространственно ограниченное рецептивное поле. Сверточные фильтры, связанные с каждой картой признаков, определяют модуляцию признаков нейронов в этой карте признаков. Отдельный искусственный нейрон не предназначен для непосредственного сопоставления с одним реальным нейроном; может быть, имеет больше смысла думать об отдельной единице как о корковой колонке.

Какие слои CNN соответствуют каким областям мозга? Более ранние исследования с использованием моделей, содержащих всего несколько слоев, обеспечивали поддержку одного слоя для картирования области мозга. Например, в Yamins и др. (2014) последний сверточный слой является лучшим предиктором активности ИТ, а предпоследний слой — лучшим предиктором V4. Однако точное соотношение будет зависеть от используемой модели (более глубокие модели допускают большее количество слоев на область мозга).

Полносвязный слой в конце сверточной сети имеет более сложную интерпретацию. Их тесная связь с окончательным решением классификатора и тот факт, что они больше не имеют топологии сетчатки, позволяют предположить, что они больше похожи на префронтальную кору. Но они также могут быть хороши в прогнозировании ИТ-активности.

10. Чего нет у CNN в системах машинного зрения?

Есть много. Спайки, саккады, отдельные возбуждающие и тормозные клетки, динамика, обратные связи, прямые связи, пропускающие определенные слои, осцилляции, дендриты, слои коры, нейромодуляторы, фовеа, латеральные связи, разные типы клеток, бинокулярное зрение, адаптация, шум и другие детали мозга.

Конечно, есть некоторые функции, которые большинство стандартных CNN, используемых сегодня в качестве моделей, не имеют по умолчанию. Но многие из них были изучены в более новых моделях, таких как: скиповые соединения, обратные связи, саккады, спайки, латеральные соединения и фовеа.

Таким образом, очевидно, что CNN не является прямой копией зрения приматов. Также должно быть ясно, что это не означает, что модель неприемлема. Модель не может (и не должна) быть полным воспроизведением соответствующей системы. Наша цель — иметь модель с необходимыми свойствами, объясняющими то, что мы хотим знать о зрении, поэтому отсутствие определенного свойства важно для разных людей. Например, какие свойства необходимы для предсказания средней реакции ИТ-нейрона на изображение в первые 100 мс или около того? Это вопрос, требующий доказательств. Мы не можем заранее сказать, что какая-то биологическая характеристика необходима или что модель без этой характеристики плоха.

Можно сказать, что модель без деталей спайков, типов E-I и других особенностей реализации более абстрактна, чем модель с этими деталями. Но в абстракции нет ничего плохого. Это просто означает, что мы готовы разделить проблемы на разные слои и решать их индивидуально. Когда-нибудь мы сможем объединить эти разные уровни объяснения, чтобы получить копии, воспроизводящие мозг как в крупном, так и в мелком масштабе. Но мы должны помнить, что совершенство не должно быть врагом успеха.

11. Что может CNN, чего не может система технического зрения?

Для меня это более актуальный вопрос. Использование небиологической модели для решения сложных проблем более проблематично, чем использование модели, в которой отсутствует какое-либо конкретное биологическое свойство.

Первый вопрос: веса свертки могут быть положительными или отрицательными. Это означает, что прямые связи могут быть как возбуждающими, так и тормозящими (тогда как связи между областями мозга в основном являются возбуждающими), и один искусственный нейрон может возбуждать или тормозить. Это не такая уж большая проблема, если мы думаем о весе только как о чистом эффекте, который на самом деле может быть усилен связями возбуждения с прямой связью, соединяющими тормозящие клетки.

Далее: веса распределяются. Это означает, что нейрон где-то на карте объектов будет использовать те же веса на входе, что и другой нейрон на той же карте объектов. Хотя такие функции, как настройка ориентации, характерны для топологии сетчатки в V1, мы не верим, что нейроны, предпочитающие вертикальные линии в одном визуальном пространстве, будут иметь абсолютно одинаковые входные веса. Не существует «призрачного действия на расстоянии», которое гарантирует, что все веса связаны и разделены. Следовательно, разделение веса, используемое в настоящее время для обучения этих сетей, должно быть заменено методами, более близкими к биологическим созданиям пространственно-инвариантных настроек.

В-третьих: как насчет максимального объединения? С точки зрения нейронауки операция максимального объединения аналогична скорости возбуждения нейрона, которая равна частоте возбуждения его самого высокого входного импульса. Поскольку нейроны агрегируют сигналы от многих нейронов, сложно спроектировать нейрон, который бы делал это напрямую. Но операция объединения была вдохновлена открытием сложных клеток и впервые использовалась как операция усреднения, которую нейроны могут легко реализовать. Но максимальное объединение оказалось более успешным в распознавании объектов и сопоставлении биологических данных, и теперь оно широко используется.

Дальнейшая разработка CNN исследователями машинного обучения вывела их далеко за пределы системы машинного зрения (поскольку исследователи машинного обучения нацелены только на уровень самой производительности). Некоторые наиболее эффективные CNN теперь имеют множество биологически странных особенностей. Кроме того, чрезвычайная глубина (около 50 слоев) этих обновленных моделей снизила актуальность их деятельности для зрительной системы.

Конечно, есть проблемы и с тем, как эти сети обучаются (через обратное распространение). Это будет обсуждаться в вопросе 13.

12. Может ли CNN больше походить на человеческий мозг?

Одна из основных причин, по которой я занимаюсь вычислительной нейробиологией, заключается в том, что (без ограничений экспериментальной установки) мы можем делать все, что захотим. Так да! Мы можем сделать стандартные CNN более биологически вдохновленными. Давайте посмотрим, чего мы достигли:

Как упоминалось в вопросе 10, к различным вариантам CNN было добавлено множество архитектурных элементов, которые приближают их к вентральному потоку. Кроме того, были проведены некоторые исследования по повышению легитимности процесса обучения (см. вопрос 13).

Помимо этих усилий, конкретные исследования по воспроизведению биологических деталей включают:

Вдохновленный биологией Spoerer et al. (2017) показал, что боковые и обратные связи позволяют моделям лучше идентифицировать окклюзированные и шумные объекты.

Добавление биологически вдохновленных связей из Spoerer et al. (2017)

Некоторые из моих собственных исследований (представленные на Cosyne 2017 и представленные в журнал точно) включают включение стабилизированной супралинейной сети (модели биомиметической схемы, реализующей нормализацию) в архитектуру CNN. Это вводит типы клеток E и I, динамику и повторение в CNN.

Коста и др. (2017) реализовали сеть долговременной кратковременной памяти (LSTM) с использованием биологически вдохновленных компонентов. LSTM обычно используются при добавлении петель в искусственные нейронные сети, поэтому было бы полезно определить, как этого можно достичь биологически.

13. Имеет ли значение, как CNN использует обратное распространение для получения весов?

Обратное распространение включает расчет того, как должны измениться веса в любом месте сети, чтобы уменьшить ошибку, создаваемую классификатором. Это означает, что синапс на первом уровне будет иметь некоторую информацию об ошибке и передать ее на верхний уровень. Но настоящие нейроны часто полагаются на локальные правила обучения (такие как пластичность Хебба), где изменения веса в первую очередь определяются синапсами до и после нейрона и не зависят от каких-либо удаленных факторов. Поэтому обратное распространение не должно имитировать биологические способы.

Это не должно влиять на нашу модель полностью обученной CNN как системы машинного зрения. Параметры в вычислительных моделях часто согласовываются с методами, которые не имеют ничего общего с тем, как обучается мозг, например, с байесовским выводом для определения функциональной связности. Но это не делает результирующую схемную модель неинтерпретируемой. В крайних случаях мы можем думать об обратном распространении как о чистом инструменте подбора параметров, как и любой другой метод. А Яминс и др. (2014) используют другой метод подбора параметров (не обратное распространение).

Однако принятие этой точки зрения не означает, что отдельные аспекты модели не могут быть интерпретированы. Например, мы не ожидаем, что кривая обучения (изменение ошибки по мере обучения модели) будет коррелировать с тем, как люди или животные учатся, когда совершают ошибки.

Расчет локальной ошибки с использованием разделенных дендритов, Guerguiev et al.

Хотя текущая реализация обратного распространения неправдоподобна с биологической точки зрения, ее можно рассматривать как абстрактную версию того, как на самом деле работает мозг. Несколько исследований в настоящее время работают над тем, чтобы сделать обратное распространение биологически правдоподобным, например, обратное распространение через локальные вычисления и реалистичные типы клеток, например, «На пути к глубокому обучению с сегрегированными дендритами» и «Приближение алгоритма обратного распространения ошибки в сети прогнозирующего кодирования с локальной синаптической пластичностью Хебба». Это позволило бы лучше биологическое объяснение этого процесса обучения. Дает ли использование более биологически правдоподобного процесса обучения нейронную активность, которая лучше соответствует данным? Это все еще вопрос, на который необходимо ответить эмпирическим путем.

С другой стороны, неконтролируемое обучение похоже на мозговой механизм, потому что оно не требует явной обратной связи по ярлыкам, а использует естественную статистику об окружающей среде для создания представлений. До сих пор обучение без учителя не достигло такой же высокой эффективности классификации целей, как обучение с учителем. Но успехи в том, чтобы сделать неконтролируемое обучение и методы биологически правдоподобными, могут в конечном итоге привести к созданию более совершенных моделей зрительной системы.

14. Что мы можем узнать о зрительной системе с помощью CNN?

Только с CNN ничего нельзя узнать. Все идеи и разработки должны быть проверены и расширены за счет взаимодействия с экспериментальными данными. Тем не менее, CNN могут внести три вклада в то, как мы понимаем зрительную систему.

Во-первых, проверить наше интуитивное понимание. Как сказал Фейнман: «Мы не можем понять, что мы не можем создать». Со всеми собранными данными и разработанной теорией зрительной системы, почему нейробиологи не могут создать работающую зрительную систему? Это должно разбудить нас и осознать, что мы упускаем что-то важное. Теперь мы можем сказать, что наше интуитивное понимание зрительной системы в основном правильное, нам просто не хватает вычислительной мощности и обучающих данных.

Во-вторых, обеспечить реализацию идеальной платформы для экспериментальной проверки. Это распространенный в научном сообществе подход к механистическим моделям. Мы можем использовать существующие данные для построения разумной модели, которая имитирует то, что нас интересует. Затем мы тестируем его различные части, чтобы увидеть, какие части важны для реализации функции. Это можно использовать для выдвижения гипотез для будущих экспериментов и/или для интерпретации данных, ранее не использовавшихся для построения модели.

Третий способ внести свой вклад — математический анализ. Это всегда относится к вычислительному моделированию: интеграция наших представлений о том, как работает зрительная система, в конкретные термины данных открывает новые направления исследований. Хотя анализ модели часто требует дальнейшего упрощения, это все же дает полезную информацию об общих тенденциях и ограничениях поведения модели. В этом конкретном случае есть некоторый дополнительный импульс, поскольку некоторое машинное обучение также заинтересовано в математическом анализе этих моделей. так что их идеи могут стать нашими в соответствующих обстоятельствах, таких какУуху. В это время. Торонто. Quota/~Вэньцзе/Боится...

15. Чему мы научились, используя CNN в качестве моделей систем машинного зрения?

Во-первых, мы подтверждаем это интуитивное понимание, показывая, что наше интуитивное понимание действительно может быть использовано для создания работающих систем машинного зрения. Кроме того, этот подход помог нам определить (в терминологии Марра) вычислительные и алгоритмические аспекты зрительной системы. Способность получать так много нейронных и поведенческих данных путем обучения обнаружению объектов предполагает, что это центральная вычислительная роль вентрального потока. И ряд сверток и объединений является частью алгоритма, необходимого для этого.

Я считаю, что успех этих сетей также поможет нам изменить наше представление об основной единице исследования в области визуальной нейробиологии. В значительной части области визуальной нейробиологии (да и вообще во всей ней) исторически доминировали подходы, сосредоточенные на индивидуальных клетках и их предпочтениях в настройке. Абстрактная модель сбора данных без строго одного нейрона к одному нейрону фокусирует внимание на кодировании популяции. Возможно, когда-нибудь попытки понять отдельные функции модуляции дадут тот же результат, но современные подходы на групповом уровне кажутся более эффективными.

Кроме того, рассмотрение зрительной системы как целостной системы, а не отдельных областей, меняет наше понимание этих областей. Много работы ушло на изучение V4, например, на попытки описать словами или простой математикой, что заставляет клетки в этой области реагировать. Когда V4 рассматривается как промежуточный плацдарм на пути распознавания объектов, кажется еще более невозможным описать его изолированно. Как эта обзорная статья «Глубокие нейронные сети: новая структура для моделирования

биологическое зрение и обработка информации мозгом» говорит: «Вербальная функциональная интерпретация единицы (такой как детектор глаз или лица) может помочь нам напрямую понять что-то важное. Однако такая вербальная интерпретация может преувеличить степень классификации и локализации, и недооценивают статистический и распределительный характер этих представлений». Действительно, анализ обученных сетей показал, что сильная и интерпретируемая модуляция отдельных единиц не связана с превосходной производительностью, предполагая, что историческая единица фокусируется в неправильном направлении.

Есть и более конкретные разработки в изучении различных архитектур. Изучив, какие детали и какие элементы необходимы для фиксации нейронных и поведенческих реакций, мы можем установить прямую связь между структурой и функцией. В исследовании «Глубокая рекуррентная нейронная сеть раскрывает иерархию памяти процессов во время динамического естественного зрения» боковые связи, присоединяющиеся к сети, играли большую роль в объяснении временного хода ответов дорсального потока, чем вентрального потока. Другие исследования предполагают, что связи обратной связи важны для регистрации динамики вентрального потока. Есть также исследования, показывающие, что определенные компоненты нейронных ответов могут быть зафиксированы моделями со случайными весами, предполагая, что сами многоуровневые архитектуры могут объяснить их. Другие компоненты необходимо обучать на естественных и действительных классах изображений.

Кроме того, мы заметили, что некоторые хорошо работающие CNN не могут точно предсказать поведение нейронов (см. вопрос 11). Это наблюдение важно, потому что оно показывает, что не все модели со зрительными способностями являются хорошими моделями мозга. Это наводит нас на мысль, что причина, по которой мы видим архитектуры, которые хорошо предсказывают нейронную активность (благодаря соответствию между областями и слоями мозга), заключается в том, что они работают хорошо, потому что они фиксируют некоторые преобразования, которые выполняет мозг.

Поскольку CNN обеспечивают «вычисляемый по изображению» способ генерировать реалистичные нейронные ответы, их также можно использовать для корреляции менее понятных сигналов с визуальной обработкой, как, например, в этих двух исследованиях по контекстуализации колебаний: «Использование DNN в качестве критерия для оценки репрезентативных значение колебательных сигналов мозга» и «Активации глубокой сверточной нейронной сети выровнены с активностью гамма-диапазона зрительной коры человека».

У меня есть собственное исследование «Понимание биологического визуального внимания с использованием сверточных нейронных сетей» с использованием CNN в качестве модели зрительной системы. Мое исследование в основном направлено на то, чтобы доказать, что модель усиления сходства признаков (которая описывает влияние внимания на нейроны) может объяснить эффект механизма внимания на производительность благотворное влияние.

Наконец, в некоторых исследованиях задокументированы нейронные или поведенческие элементы, не реализуемые CNN (см. вопрос 6). Эти исследования помогают определить области, которые требуют дальнейших экспериментальных и вычислительных исследований.

Есть еще много случаев. В целом, учитывая, что исследования в этой области начались примерно в 2014 году, я бы сказал, что объем исследований довольно приличный.

Оригинальная ссылка:NES от Eur: .WordPress.com/2018/05/17/…