Нажмите на оригинальную английскую ссылку
CNN 擅长对乱序图像进行分类,但人类并非如此.
В этом посте я покажу, почему современные глубокие нейронные сети по-прежнему так хорошо идентифицируют искаженные изображения, и как это помогает раскрыть загадочно простые стратегии, которые, по-видимому, используют ГНС для классификации естественных изображений. эти выводыОпубликовано в ICLR 2019, разногласий много: во-первых, они показывают, что решить ImageNet намного проще, чем многие думают. Во-вторых, эти результаты позволяют нам создавать более интерпретируемые и прозрачные конвейеры классификации изображений. В-третьих, они объясняют некоторые явления, наблюдаемые в современных СНС, такие как их уклон в сторону текстуры (См. другую нашу статью на ICLR 2019с намиСоответствующая запись в блоге) и игнорируют пространственное упорядочение части объекта.
старый добрый макет пакета
В прошлом, до глубокого обучения, распознавание объектов на естественных изображениях было довольно простым: определить набор ключевых визуальных признаков («слов»), определить, как часто каждый визуальный признак присутствует в изображении («мешки») и числа. классифицировать изображения. Поэтому эти модели называются моделями «набора функций» (модели BoF). Например, у нас есть только два визуальных признака, человеческий глаз и перо, и мы хотим разделить изображение на классы «люди» и «птицы». Простейшая модель BoF будет работать следующим образом: для каждого глаза на изображении она увеличивает свидетельство «человек» на +1. И наоборот, за каждое перо на изображении это добавит +1 к свидетельству "птица". Независимо от накопления классов, большинство доказательств на изображении являются прогностическими.
Приятным свойством этой простейшей модели BoF является ее интерпретируемость и прозрачное принятие решений: мы можем точно проверить, какие функции изображения несут свидетельство для данного класса, а пространственная интеграция доказательств очень проста (с глубиной нелинейной интеграции признаков по сравнению с) глубокая нейронная сеть), поэтому легко понять, как модель принимает решения.
Традиционные модели BoF были очень популярными и современными до начала глубокого обучения, но быстро потеряли популярность из-за их низкой эффективности классификации. Но уверены ли мы, что глубокие нейронные сети действительно используют совсем другие стратегии принятия решений, чем модели BoF?
Глубокая, но объяснимая сеть пакетов функций (BagNet)
Чтобы проверить это, мы объединили интерпретируемость и прозрачность модели BoF с производительностью DNN. Стратегия высокого уровня выглядит следующим образом:
- Разделите изображение на небольшие фрагменты изображения q x q.
- Пропустите патчи изображения через DNN, чтобы получить свидетельство класса (логиты) для каждого патча изображения.
- Суммируйте данные по всем участкам изображения, чтобы принять решение на уровне изображения.
BagNets的分类策略:对于每个图像块,我们使用DNN提取类证据(logits)并总结所有图像块的总类证据。
Чтобы максимально просто и эффективно реализовать эту стратегию, мы берем стандартную архитектуру ResNet-50, заменяя большинство (но не все) сверток 3x3 на свертки 1x1. В этом случае каждый из скрытых блоков в последнем сверточном слое «видит» только небольшую часть изображения (т. е. их рецептивное поле намного меньше размера изображения). Это позволяет избежать явного разделения изображения и максимально приблизиться к стандартной CNN, но при этом реализовать изложенную стратегию. мы называем это модельной структуройBagNet-q, где q представляет размер самого верхнего рецептивного поля (мы проверяем q =9,17и 33). Время работы BagNet-q примерно в 2,5 раза меньше, чем у ResNet-50.
在ImageNet上具有不同贴片尺寸的BagNets的性能。
Производительность BagNets в BagNet впечатляет даже для патчей очень маленького размера: элементов изображения размером 17 x 17 пикселей достаточно для достижения производительности на уровне AlexNet, а элементов размером 33 x 33 пикселей достаточно для достижения ~ 87%. точность. Более высоких значений производительности можно добиться при более тщательном размещении сверток 3 x 3 и дополнительной настройке гиперпараметров.
Это наш первый основной результат: вы можете решить проблему ImageNet с помощью небольшого набора функций изображения. Удаленные пространственные отношения, такие как формы объектов или отношения между частями объектов, могут быть полностью проигнорированы и не требуются для решения задачи.
Отличительной особенностью BagNets является их прозрачное принятие решений. Например, теперь мы можем увидеть, какая характеристика изображения наиболее предсказуема для данного класса (см. ниже). Например, стринги (очень крупная рыба) обычно обозначаются пальцами на зеленом фоне. Зачем? Потому что на большинстве изображений в этой категории рыбак держит крест как трофей. Всякий раз, когда BagNet неправильно классифицирует изображение как линь, обычно это происходит потому, что где-то на изображении есть несколько пальцев на зеленом фоне.
图像功能具有最多的类证据。我们展示了正确预测类(顶行)的功能和预测错误类(底行)的分散注意力的功能。
Точно так же мы получаем точно определенную тепловую карту, показывающую, какие части изображения влияют на определенное решение.
来自BagNets的热图显示了确切的图像部分对决策的贡献。热图不是近似的,而是显示每个图像部分的真实贡献
.ResNet-50 поразительно похож на BagNets
BagNets показывают, что высокая точность может быть достигнута в ImageNet на основе слабой статистической корреляции между локальными особенностями изображения и категориями объектов. Если этого достаточно, то зачем стандартной глубокой сети, такой как ResNet-50, узнавать что-то принципиально иное? Если для решения задачи достаточно богатых локальных изображений, почему ResNet-50 должен понимать сложные крупномасштабные отношения, такие как форма объекта?
Чтобы проверить предположение о том, что современные DNN следуют той же стратегии, что и простые сети с набором функций, мы тестируем различные ResNet, DenseNet и VGG на следующих «сигнатурах» BagNet:
- Решения инвариантны к пространственному перетасовыванию признаков изображения (проверено только на моделях VGG).
- Модификации различных частей изображения должны быть независимыми (с точки зрения их влияния на общий класс доказательств).
- Ошибки, создаваемые стандартными CNN и BagNet, должны быть одинаковыми.
- Стандартные CNN и BagNet должны быть чувствительны к схожим функциям.
Во всех четырех экспериментах мы обнаружили очень похожее поведение CNN и BagNet. Например, в последнем эксперименте мы показали, что те части изображения, к которым BagNets наиболее чувствительны (например, если вы закрываете эти части), в основном такие же, как и те, к которым наиболее чувствительны CNN. На самом деле тепловые карты BagNets (пространственные карты чувствительности) лучше предсказывают чувствительность DenseNet-169, чем тепловые карты, созданные методами атрибуции, такими как DeepLift (который вычисляет тепловые карты непосредственно для DenseNet-169). Конечно, DNN не совсем похожи на модели наборов функций, но они демонстрируют некоторую предвзятость. В частности, мы обнаружили, что чем глубже сеть, тем она более функциональна и тем больше дальнодействующих зависимостей.
Помимо классификации пакетов функций
Рассмотрение решения о CNN как о стратегии избранных пакетов может объяснить несколько странных наблюдений о CNN. Во-первых, это объяснит, почему CNN имеют такиесильное отклонение текстуры. Во-вторых, это может объяснить, почему CNNчасть изображенияизспутанность сознаниятакой бесчувственный. Это может даже объяснить существование враждебных наклеек и враждебных возмущений в целом: можно размещать вводящие в заблуждение сигналы в любом месте изображения, и CNN по-прежнему может надежно получать сигналы независимо от того, вписываются ли эти сигналы в остальную часть изображения.
Суть нашей работы заключается в том, что CNN используют множество слабых статистических закономерностей, присутствующих в естественных изображениях, для классификации и не переходят к интеграции частей изображения на уровне объекта, как это делают люди. То же самое касается других задач и сенсорных модальностей.
Мы должны серьезно подумать о том, как мы структурируем нашу архитектуру, задачи и методы обучения, чтобы противодействовать этой тенденции слабых статистических корреляций. Один из аспектов заключается в том, чтобы улучшить индуктивное смещение CNN от небольших локальных функций к более глобальным функциям. Другой аспект заключается в удалении или замене тех функций, на которые сеть не должна полагаться, что мы и делаем в другом случае.В публикациях ICLR 2019Используйте предварительную обработку передачи стиля, чтобы удалить то, что делают текстуры естественных объектов.
Однако одной из самых больших проблем является, конечно, сама задача классификации изображений: если для решения задачи достаточно локальных признаков изображения, нет никакого стимула изучать истинную «физику» природы. Мы должны реконструировать саму задачу таким образом, чтобы модель могла изучить физическую природу объекта. Это может быть больше, чем просто наблюдение за корреляцией между входными и выходными функциями, чтобы позволить модели извлечь причинно-следственные зависимости.
В совокупности наши результаты показывают, что CNN могут следовать чрезвычайно простой стратегии классификации. Тот факт, что такое открытие все еще может быть сделано в 2019 году, подчеркивает, как мало мы знаем о внутренней работе глубоких нейронных сетей. Отсутствие понимания не позволяет нам разрабатывать принципиально лучшие модели и архитектуры, чтобы сократить разрыв между людьми и машинами. Углубление нашего понимания позволит нам найти способы преодолеть этот разрыв. Это может быть очень плодотворным: когда мы пытаемся сместить CNN в сторону большего количества физических свойств объекта, мы внезапно достигаемУстойчивость к человеческому шуму. Я с нетерпением жду более интересных результатов, когда наш подход CNN действительно понимает физическую и причинную природу нашего мира.
Нажмите на оригинальную английскую ссылку
Для получения дополнительных статей, пожалуйста, посетите: http://www.apexyun.com
Контактный адрес электронной почты: public@space-explore.com
(Пожалуйста, не перепечатывайте без разрешения)