Изменение одного пикселя может заставить нейронную сеть распознать ошибку изображения

искусственный интеллект алгоритм Нейронные сети модульный тест

от arXiv

Автор: Су Цзявэй и др.

Сердце Машины Редакционный отдел


Нейронные сети, используемые для распознавания объектов на изображениях, могут быть обмануты тщательно разработанными состязательными примерами — проблема, которой в настоящее время уделяется большое внимание в области компьютерного зрения. Раньше для создания враждебных примеров часто требовалось добавить определенный шум к исходному изображению (см. Проверенные «фальшивые изображения»: создание враждебных примеров для нейронных сетей с помощью TensorFlow). Однако недавно исследование, опубликованное Су Цзявэем и его коллегами из Университета Кюсю в Японии, показало, что изменение пикселя в изображении также может сделать глубокую нейронную сеть совершенно неправильной.

В области распознавания изображений методы на основе DNN выходят за рамки традиционных методов обработки изображений и достигают результатов, сравнимых с человеческими [9]. Тем не менее, многочисленные исследования показали, что искусственные возмущения в естественных изображениях могут легко заставить DNN неправильно классифицировать изображения, и исследователи предложили эффективные алгоритмы для создания таких «состязательных изображений» [1, 2, 3, 4]. Основным способом создания состязательных изображений является добавление тщательно разработанных дополнительных возмущений к точно классифицированным естественным изображениям, которые не влияют на распознавание изображений человеком. Такие модификации заставляют классификатор маркировать измененное изображение как нечто совершенно другое. Однако в большинстве предыдущих атак не учитывалось очень ограниченное количество враждебных примеров, т. е. степень возмущения иногда влияет на способность человеческого глаза распознавать (см. пример на Рисунке 2). Более того, более интересно изучать состязательные образы, созданные в ограниченных сценариях, поскольку они могут быть ближе к границе между исходным классом и целевым классом, а изучение таких ключевых точек может позволить людям больше узнать о геометрии входного пространства DNN. особенность [23].

Рис. 1. Враждебные изображения, сгенерированные с помощью алгоритма исследования, успешно вводят в заблуждение целевую DNN всего за одно изменение пикселя. Метка в скобках — это идентификационная категория, а метка вне скобок — исходная категория. Измененные пиксели могут быть неочевидными, и читатель должен внимательно присмотреться.


В этой статье, воздействуя на небольшое количество пикселей (только 1, 3 или 5 пикселей из 1024) с помощью дифференциальной эволюции, исследователи предлагают DNN-атаку черного ящика, которую исследователи называют «атакой нескольких пикселей», при которой получается только информация о вероятности меток. Преимущества предложенного исследователями метода по сравнению с предыдущими исследованиями заключаются в следующем:

  • Нецелевые атаки могут быть запущены с изменением только 1, 3 или 5 пикселей с вероятностью успеха 73,8%, 82,0% и 87,3% соответственно, а доверительная вероятность метки предсказания целевого класса достигает в среднем 98,7%.
  • Требуется только обратная связь черного ящика (вероятности меток), и не требуется никакой внутренней информации целевой DNN, такой как градиенты и структура сети. Наш подход проще, так как он не требует формализации проблемы поиска возмущений в какую-либо точную целевую функцию, а вместо этого фокусируется непосредственно на улучшении значения вероятности метки целевого класса.
  • Возможность атаковать больше типов DNN (например, в случае, когда сеть не дифференцируема или вычисление градиента затруднено).

Авторы этой статьи считают, что малопиксельные атаки осуществляются по двум причинам. 1) На практике малопиксельные атаки могут эффективно скрывать модификации. Предыдущие исследования не могли гарантировать, что возмущения будут полностью невидимы. Прямое решение этой проблемы состоит в том, чтобы попытаться ограничить величину возмущения. В частности, вместо использования дополнительных ограничений, предложенных теорией, или рассмотрения более сложных функций стоимости возмущения, управление количеством пикселей для изменения, например изменение 1, 3 и 5 пикселей в изображении 32 X 32, т. е. использование пикселей. чем длина вектора возмущения измеряет силу возмущения. 2) С геометрической точки зрения многочисленные предыдущие исследования анализируют окрестности естественных изображений, ограничивая модификацию пикселей. Например, общее возмущение добавляет небольшое значение к каждому пикселю, заставляя его искать враждебные изображения в сферических областях вокруг естественных изображений [24]. Кроме того, небольшое количество возмущений пикселей может уменьшить входное пространство, используя очень низкоразмерное подпространство, что также является другим способом изучения характеристик входного пространства DNN.

Согласно экспериментальным результатам, основные вклады этого исследования включают:

  • Нецелевые атаки могут быть эффективно реализованы с использованием возмущений в несколько пикселей. Исследование показало, что для искажения 73,8% изображений одного или нескольких целевых классов требовалась только модификация 1 пикселя, с модификациями 3 и 5 пикселей соотношение составляло 82,0% и 87,3% соответственно. Это говорит о том, что нечувствительные изображения более разрежены, чем чувствительные, даже несмотря на то, что возмущение было ограничено таким небольшим диапазоном. Потому что малопиксельная модификация является эффективным способом поиска состязательных изображений, которые на практике не так легко распознаются человеческим глазом.
  • Количество классов объектов, которые могут скрывать естественные изображения. При возмущении в 1 пиксель каждое естественное изображение в среднем может быть искажено до 2,3 других классов. В частности, 18,4%, 17,2% и 16,6% изображений искажены до 1, 2 и 3 классов объектов соответственно. При 5-пиксельных возмущениях количество изображений, искаженных от 1 до 9 классов объектов, почти одинаково.

Рисунок 2. Иллюстрация генерации состязательных изображений с использованием [1]. Возмущения реализованы в пределах 4% всех пикселей, которые легко распознаются человеческим глазом. Так как возмущение состязательных пикселей стало распространенным способом создания состязательных изображений, такой аномальный «шум» может быть распознан профессионалами.


Аналогичные направления возмущения для возмущения для определенного целевого класса. Эффективность общего возмущения доказывает, что многие изображения могут быть возмущены в одинаковых направлениях, так что граница решения может генерировать разнообразие (разнообразие с утечкой) [24], а результаты этого исследования доказывают, что точки данных одного и того же класса легче возмущаются. чтобы иметь то же возмущение Определенная категория (например, 1, 3 или 5 модификаций пикселей).

Геометрическое понимание распределения точек данных в многомерном входном пространстве. С геометрической точки зрения информацию, полученную при реализации атаки с несколькими пикселями, можно использовать как количественный результат изменения меток классов на сечении, полученном путем нарезки входного пространства с использованием только низкоразмерных подпространств. В частности, результаты показывают, что некоторые области принятия решений могут быть очень глубокими, ведущими во множество различных направлений, но в этих глубоких областях области принятия решений довольно узки. То есть эти домены могут иметь множество длинных и узких синапсов, простирающихся в разные стороны во входном пространстве.

В дальнейшем исходный реальный класс враждебного изображения называется «исходным классом», класс враждебного изображения, распознаваемый DNN, является «целевым классом», а классификатор DNN, который враждебное изображение хочет обмануть, называется «целевым классом». система».» (целевая система).

Рисунок 3: Схематическая иллюстрация атаки возмущением с использованием 1 и 2 пикселей в трехмерном входном пространстве (т. е. изображение имеет 3 пикселя), зеленые точки представляют естественное возмущение изображения. При возмущении одного пикселя пространство поиска представляет собой три пересекающиеся линии естественного изображения, причем каждая линия перпендикулярна друг другу, что на рисунке представлено красной и черной линиями. В случае с 2 пикселями пространство поиска представляет собой три пересекающихся двумерных плоскости, каждая из которых перпендикулярна друг другу и представлена ​​синими плоскостями на рисунке. Таким образом, 1- и 2-пиксельные атаки ищут возмущения в 1- и 2-мерных подпространствах трехмерного входного пространства. Кроме того, желтые кружки обозначают использование нормы L^p для регуляризации ранее определенного пространства поиска для управления общим пространством коррекции. Напротив, несколько атак на пиксели могут обследовать больше областей.

Рисунок 4: Эти гистограммы подсчитывают количество изображений, которые успешно искажают определенное число (от 0 до 9) с использованием возмущений на 1, 3 и 5 пикселей соответственно. Вертикальная ось — это количество нормализованных изображений, а горизонтальная ось — это количество целевых категорий.


Тезис: Атака одним пикселем для обмана глубоких нейронных сетей

Ссылка на бумагу:АР Вест V.org/ABS/1710.08…


Аннотация: Недавние исследования показали, что выходные данные DNN не являются непрерывными, они также очень чувствительны к небольшим возмущениям во входном векторе, и мы эффективно возмущали нейронные сети в соответствии с несколькими методами. В этой статье мы предлагаем новый подход к состязательному возмущению (атака несколькими пикселями) для минимальных визуальных вычислений, основанных на дифференциальной эволюции. Для этого требуется очень мало информации о противнике, и его можно использовать для более широкого спектра моделей DNN. Результаты показывают, что 73,8% тестовых изображений могут быть преобразованы в противоборствующие изображения с модификацией только одного пикселя со средней достоверностью 98,7%. Кроме того, известно, что исследование надежности ГНС дает ключевые подсказки для понимания геометрических особенностей графов решений ГНС в многомерных входных пространствах. По сравнению с предыдущей работой результаты выполнения нескольких пиксельных атак помогают количественно измерить и проанализировать геометрическое понимание с разных точек зрения.


Эта статья составлена ​​для ядра машины, пожалуйста, свяжитесь с этой общедоступной учетной записью для разрешения на перепечатку.