Предел компьютерного зрения для глубокого обучения приближается, как нам найти прорыв?

глубокое обучение компьютерное зрение

From the Gradient, Алан Л. Юилль, Ченкси Лю, составлено Heart of the Machine.

Глубокое обучение является основой развития технологий искусственного интеллекта в последние годы, хотя оно и достигло больших успехов, но имеет очевидные ограничения. По сравнению со зрительной системой человека глубокое обучение гораздо менее универсально, гибко и адаптируемо, а также может столкнуться с механическими трудностями при столкновении со сложными естественными изображениями. В этой статье ученые из Университета Джона Хопкинса знакомят нас с ограничениями глубокого обучения и идеями о том, как решить эти проблемы.

Глубокие нейронные сети в их нынешнем виде вряд ли станут лучшим решением для создания универсальных интеллектуальных машин или понимания разума/человеческого мозга в будущем, но многие механизмы глубокого обучения продолжат свое существование в будущем, считают исследователи. сказал.

Эта статья представляет собой сжатую версию статьи «Глубокие сети: что они когда-либо делали для Vision?».

  • Ссылка на статью: https://arxiv.org/pdf/1805.04025.pdf

История глубокого обучения

То, что мы сейчас наблюдаем, — это третий подъем искусственного интеллекта. Первые две волны произошли в 1950–1960-х и 1980–1990-х годах — обе оказали значительное влияние в то время, но также медленно охлаждались. Это связано с тем, что нейронные сети того времени не достигли должного прироста производительности и не помогли нам понять биологические зрительные системы. Третья волна: начало 21 века — пока что на этот раз, в отличие от двух предыдущих, глубокое обучение значительно превзошло биологические возможности во многих бенчмарках и реальных приложениях. Хотя большинство фундаментальных идей глубокого обучения были разработаны во время второй волны, его возможности не могут быть раскрыты до тех пор, пока не будут разработаны большие наборы данных и вычислительные мощности (особенно графические процессоры).

Взлеты и падения глубокого обучения отражают популярность школы и популярность различных алгоритмов. Вторая волна позволила нам увидеть ограничения классического ИИ в разработках с высокими ожиданиями и низкими результатами, поэтому в середине 1980-х наступила зима ИИ. Отступление второй волны приводит кОпорные векторные машины, появление методов ядра и связанных с ними методов. Мы были поражены результатами исследователей нейронных сетей, и, хотя их результаты разочаровывают, со временем они вновь всплыли на поверхность. Сегодня нам трудно найти исследования, которые не имеют ничего общего с нейронными сетями, и это тоже нехорошее явление. Мы не можем не задаться вопросом: если бы ученые в области искусственного интеллекта использовали больше разных подходов, а не следовали популярным тенденциям, отрасль могла бы расти быстрее. К сожалению, студенты, изучающие ИИ, часто полностью игнорируют старые технологии и сосредотачиваются на погоне за новыми тенденциями.

успех и неудача

До появления AlexNet сообщество компьютерного зрения скептически относилось к глубокому обучению. В 2011 году AlexNet обошла всех конкурентов в конкурсе по распознаванию изображений ImageNet, и в последующие годы исследователи предлагали все более эффективные архитектуры нейронных сетей для классификации объектов. В то же время глубокое обучение также быстро адаптировали к другим задачам зрения, таким как обнаружение объектов, когда изображения содержат один или несколько объектов. В этой задаче нейронная сеть определяет конечную категорию и местоположение объекта, дополняя информацию на начальном этапе, которая предлагает возможное местоположение и размер объекта. Эти методы превзошли предыдущий лучший метод, модель деформируемой детали, в самом важном соревновании по распознаванию объектов, предшествующем ImageNet, PASCAL Object Recognition Challenge. Другие архитектуры глубокого обучения также значительно улучшили некоторые классические задачи, как показано ниже:

Рисунок 1. Глубокое обучение может выполнять множество различных задач машинного зрения. включая обнаружение границ,Семантическая сегментация, семантические границы, нормали поверхности, значимость, люди и обнаружение объектов.

Но хотя глубокое обучение превосходит некоторые предыдущие методы, их нельзя использовать для общих задач. Здесь мы можем определить три основных ограничения.

Во-первых, для глубокого обучения почти всегда требуются большие объемы размеченных данных. Это приводит к тому, что исследователи компьютерного зрения склонны решать простые для решения, а не действительно важные проблемы.

Существуют способы уменьшить потребность в надзоре, в том числепередача обучения, малократное обучение, обучение без учителя и обучение со слабым учителем. Но пока их достижения не столь впечатляющи, как контролируемое обучение.

Во-вторых, глубокое обучение хорошо работает на эталонных наборах данных, но может плохо работать на реальных изображениях за пределами набора данных. Все наборы данных имеют свои собственные смещения. Эта предвзятость была очевидна в наборах данных о раннем зрении, когда исследователи обнаружили, что нейронные сети будут использовать предвзятость набора данных для «оппортунистических целей», таких как использование контекста для вынесения суждений (например, обнаружение рыбы в Калифорнийском технологическом институте101 раньше было очень простым, потому что изображения рыб были единственными). с водой в качестве фонового изображения). Хотя это явление можно уменьшить, используя большие наборы данных и глубокие нейронные сети, проблема остается.

На изображении ниже глубокая нейронная сеть была обучена на ImageNet для распознавания дивана, но может не получиться из-за недостаточного количества примеров изображений. Глубокие нейронные сети предвзято относятся к «особым случаям», и модель не принимает во внимание меньшие случаи в наборе данных. Но в реальных приложениях эти предубеждения проблематичны, и использование такой системы для визуального контроля может иметь серьезные последствия. Например, наборы данных, используемые для обучения самоуправляемых автомобилей, редко включают младенцев, сидящих посреди дороги.

Рисунок 2: UnrealCV позволяет исследователям зрения легко манипулировать синтетическими сценами, например, изменять перспективу дивана. Мы обнаружили, что Faster-RCNN обнаруживает диваны со средней точностью (AP) в диапазоне от 0,1 до 1,0, демонстрируя исключительную чувствительность к углу обзора. Это может быть связано с предвзятостью в обучении, из-за которой Faster-RCNN отдает предпочтение определенной точке зрения.

В-третьих, глубокие сети чрезмерно чувствительны к изменениям в изображении, которые могут показаться людям не влияющими на оценку изображения. Глубокие сети не только чувствительны к стандартным атакам со стороны противника (которые вызывают незаметные изменения изображения), они также чрезмерно чувствительны к изменениям в окружающей среде. На рис. 3 показано влияние PS гитары на обезьяну в тропическом лесу. Это привело к тому, что глубокая сеть ошибочно идентифицировала обезьян как людей, а гитары как птиц, предположительно потому, что люди чаще держали гитару, чем обезьяны, а птицы чаще, чем гитары, появлялись рядом с обезьянами в тропическом лесу. Недавние исследования выявили множество случаев, когда глубинные сети были слишком чувствительны к окружающей среде, например, помещая слона в комнату.

Рисунок 3: Добавление окклюзии приводит к сбою глубоких сетей. Слева: после окклюзии мотоциклом глубокая сеть распознает обезьяну как человека. Середина: после окклюзии велосипедом глубокая сеть идентифицирует обезьяну как человека, а джунгли вводят сеть в заблуждение, идентифицируя руль как птицу. Справа: после окклюзии гитарой глубокая сеть распознает обезьяну как человека, а джунгли вводят сеть в заблуждение, распознав гитару как птицу.

Сверхчувствительность к фону можно объяснить ограниченным размером набора данных. Для любого объекта в набор данных может быть включено только ограниченное количество фонов, поэтому предпочтение отдается нейронной сети. Например, в первом наборе данных аннотаций к изображениям мы заметили, что жирафы появлялись только рядом с деревьями, поэтому в сгенерированных аннотациях не упоминались жирафы без деревьев на изображении, хотя они были наиболее доминирующими объектами.

Сложность захвата больших вариаций фона и необходимость изучения большого количества шумовых факторов являются большой проблемой для методов, основанных на данных, таких как глубокие сети. Кажется, что для того, чтобы сеть могла решить все эти проблемы, требуются бесконечные наборы данных, что, в свою очередь, создает огромные проблемы для обучения и тестирования наборов данных.

«Большие наборы данных» недостаточно велики

комбинаторный взрыв

Все упомянутые выше проблемы не обязательно являются сутью глубокого обучения, но они являются ранними признаками реальных проблем. Тем не менее, наборы данных изображений реального мира очень велики, поэтому наборы данных, независимо от того, насколько они велики, не могут охарактеризовать сложность реального мира.

Что значит отличная композиция? Представьте, что вы создаете визуальную сцену, выбирая цели из словаря целей и размещая их в различных конфигурациях. Количество способов выполнить эту задачу может быть экспоненциальным. Даже изображения, содержащие один объект, могут иметь одинаковую сложность, поскольку мы можем скрыть его бесконечным числом способов. Есть также бесчисленные возможности для его фона.

В то время как люди могут естественным образом адаптироваться к изменениям в визуальной среде, глубокие нейронные сети более чувствительны и подвержены ошибкам, как показано на рисунке 3. Мы отмечаем, что этот комбинаторный взрыв может не происходить в некоторых задачах, связанных со зрением, и что применение глубоких нейронных сетей к медицинским изображениям часто бывает очень успешным, потому что фон меняется относительно мало (например, поджелудочная железа и двенадцатиперстная кишка всегда очень близко). Но для многих приложений мы не можем зафиксировать реальную сложность без экспоненциально большого набора данных.

Этот недостаток создает некоторые существенные проблемы, поскольку стандартная парадигма обучения и тестирования моделей на конечных случайных выборках становится непрактичной. Эти размеры выборки никогда не могут быть достаточно большими, чтобы охарактеризовать основное распределение данных. Таким образом, мы должны столкнуться со следующими двумя новыми проблемами:

1. В задачах, требующих огромных наборов данных для охвата реальной комбинаторной сложности, как можно обучить алгоритм на наборе данных ограниченного размера, чтобы он работал хорошо?

2. Как мы можем эффективно протестировать эти алгоритмы, чтобы убедиться, что они хорошо работают на больших наборах данных, если их можно протестировать только на ограниченном подмножестве?

Преодоление комбинаторных взрывов

В своем нынешнем виде такие методы, как глубокие нейронные сети, скорее всего, не смогут преодолеть комбинаторный взрыв. Будь то обучение или тестирование, набор данных никогда не кажется достаточно большим. Вот несколько возможных решений.

композиционность

Композиционность - это фундаментальный принцип, который можно поэтически выразить как «воплощение веры в то, что мир познаваем и что люди могут разбирать, понимать и собирать вещи по своему желанию». Ключевым предположением здесь является то, что структуры иерархичны, состоят из более фундаментальных подструктур в соответствии с набором грамматических правил. Это означает, что подструктуры и грамматики можно изучать на основе ограниченных данных, а затем обобщать на комбинированные сценарии.

В отличие от глубоких сетей, композиционные модели требуют структурированных представлений, однозначно указывающих на их структуру и подструктуры. Комбинаторные модели способны рассуждать за пределами данных, которые они видят, рассуждать о системах, вмешиваться, выполнять диагностику и решать множество различных проблем на основе одной и той же базовой структуры знаний. Стюарт Геман однажды сказал: «Мир составной, или Бог существует», иначе Бог вручную сварил бы человеческий разум. Хотя глубокие нейронные сети обладают некоторой сложностью, поскольку функции высокого уровня состоят из ответов от функций низкого уровня, это не композиционность, упомянутая в этой статье.

Рисунок 4: От (а) до (с), увеличение вариативности и использование окклюзии. (c) является примером огромного комбинированного набора данных, по сути, такого же, как капча. Интересно, что исследование капчи показывает, что композиционные модели работают хорошо, а глубокие нейронные сети — плохо.

Рисунок 4 представляет собой пример композиционности применительно к синтетическому анализу.

Некоторые концептуальные преимущества компонуемых моделей были продемонстрированы в некоторых проблемах со зрением, таких как использование одной и той же базовой модели для выполнения нескольких задач и распознавания CAPTCHA. Другие невизуальные примеры демонстрируют тот же аргумент. Попытки обучить глубокие сети тестированию IQ не увенчались успехом. Цель этой задачи - предсказать отсутствующее изображение в сетке 3x3, изображения других 8 сеток заданы, а основные правила в задаче являются комбинаторными (могут существовать помехи). И наоборот, для некоторых приложений на естественном языке динамическая архитектура сетей нейронных модулей кажется достаточно гибкой, чтобы охватить некоторые значимые комбинации, которые превосходят традиционные сети глубокого обучения. Фактически, мы недавно подтвердили, что после совместного обучения отдельные модули действительно выполняют свои ожидаемые комбинированные функции (например, И, ИЛИ, ФИЛЬТР (КРАСНЫЙ) и т. д.).

Комбинаторные модели обладают многими желаемыми теоретическими свойствами, такими как интерпретируемость и генерация выборки. Это облегчает диагностику ошибок, поэтому их труднее обмануть, чем методы черного ящика, такие как глубокие сети. Но изучение композиционной модели сложно, поскольку требует изучения строительных блоков и грамматики (даже природа грамматики спорна). А для анализа путем синтеза им нужны генеративные модели со структурой объектов и сцен. За некоторыми исключениями, такими как лица, буквы и обычные текстурированные изображения, поставить дистрибутивы на изображения сложно.

Что еще более важно, работа с комбинаторными взрывами требует изучения каузальных моделей трехмерного мира и того, как эти модели генерируют изображения. Исследования человеческих младенцев показывают, что они учатся, строя причинно-следственные модели, которые предсказывают структуру их окружения. Это причинно-следственное понимание позволяет им учиться на ограниченных данных и обобщать их в новых условиях. Это аналогично сравнению законов Ньютона с моделью Солнечной системы Птолемея. Законы Ньютона дают причинное понимание с наименьшим количеством свободных параметров, в то время как модель Птолемея дает очень точные предсказания, но требует большого количества данных для определения ее деталей.

Тест на комбинированных данных

Потенциальная проблема при тестировании алгоритмов зрения на реальной комбинаторной сложности заключается в том, что мы можем делать это только на ограниченных данных. Теория игр решает эту проблему, сосредотачиваясь на наихудшем, а не на общем случае. Как мы уже говорили, если набор данных не отражает комбинаторную сложность задачи, результаты для общего случая на наборе данных ограниченного размера могут не иметь смысла. Понятно, что если целью является разработка алгоритмов зрения для диагностики рака в беспилотных автомобилях или на медицинских изображениях, имеет смысл сосредоточиться на наихудших случаях, когда сбой алгоритма может иметь серьезные последствия.

Если режимы отказов, такие как стереоскопические факторы риска, можно зафиксировать в низкоразмерном пространстве, мы можем изучить их с помощью компьютерной графики и поиска по сетке. Но для большинства задач, связанных со зрением, особенно для тех, которые связаны с комбинированными данными, трудно определить несколько факторов риска, которые можно выделить или протестировать. Одна из стратегий состоит в том, чтобы расширить концепцию стандартных состязательных атак, включив в нее нелокальные структуры, чего можно добиться, допуская сложные манипуляции (такие как окклюзия или изменение физических свойств наблюдаемого объекта), которые вызывают изменения в изображении или сцене без значительных изменений. воздействующие на человеческое восприятие. Применение этой стратегии к алгоритмам машинного зрения, которые обрабатывают комбинированные данные, остается сложной задачей. Однако, если алгоритмы разработаны с учетом композиционности, их явная структура может позволить диагностировать и определять виды их отказов.

резюме

Несколько лет назад Од Олива и Алан Юйлль (первый автор) совместно организовали финансируемый NSF симпозиум «Границы в компьютерном зрении» (MIT CSAIL 2011). Встреча способствовала откровенному обмену мнениями. Среди участников были большие разногласия по поводу потенциала глубоких сетей для компьютерного зрения. Янн ЛеКун смело предсказывает, что скоро все будут использовать глубокие сети. Его предсказание было правильным. Успех глубоких сетей впечатляет, и он также сделал компьютерное зрение очень популярным, значительно расширив взаимодействие между академическими кругами и промышленностью, способствуя применению компьютерного зрения во многих областях и принося многие другие важные результаты исследований. Тем не менее, глубокие сети представляют собой огромные проблемы, которые необходимо преодолеть, если мы хотим достичь общего искусственного интеллекта и понять системы биологического зрения. Некоторые из наших опасений аналогичны тем, которые упоминались в недавней критике глубоких сетей. По мере того, как исследователи начинают решать все более сложные задачи зрения во все более реалистичных условиях, возможно, самой сложной задачей является разработка алгоритмов, способных справиться с комбинаторным взрывом. Хотя частью решения станут глубокие сети, мы считаем, что для захвата базовой структуры данных также необходимы дополнительные подходы, включающие комбинаторные принципы и причинно-следственные модели. Кроме того, перед лицом комбинаторного взрыва нам необходимо переосмыслить, как обучать и оценивать алгоритмы зрения.

Исходная ссылка: https://thegradient.pub/the-limitations-of-visual-deep-learning-and-how-we-might-fix-them/