из архива
Автор: Эндрю Ильяс и др.
Сборник "Сердце машины"
Участие: Лу Сюэ, Сиюань
Являются ли враждебные примеры ошибкой в модели? Можем ли мы полностью решить эту проблему с помощью противоборствующей подготовки или иным образом? Исследователи Массачусетского технологического института говорят, что состязательные примеры — это лишь некоторые из особенностей, и с точки зрения контролируемого обучения эти надежные или ненадежные функции одинаково важны.
состязательный примерМашинному обучению уделяется много внимания, но причины их существования и популярности не ясны. Исследование Массачусетского технологического института показывает, что генерация состязательных примеров может быть напрямую связана с появлением ненадежных функций: некоторые функции, полученные из шаблонов распределения данных, обладают высокой степенью предсказуемости, но хрупки и непонятны людям.
Мы создаем теоретическую основу, в которой можно зафиксировать эти особенности, тем самым установив их широкое присутствие в стандартных наборах данных. Наконец, мы демонстрируем простую постановку задачи, в которой мы строго сравниваем явление состязательности, наблюдаемое на практике, с несоответствием между (заданным человеком) понятием надежности и внутренней геометрией данных. Свяжитесь с нами.
Тезис: состязательные примеры — это не баги, а фичи
Адрес статьи: https://arxiv.org/pdf/1905.02175.pdf
Что такое состязательный пример?
В последние годы хрупкость глубоких нейронных сетей привлекла большое внимание, особенно озабоченность по поводу феномена состязательных примеров: небольшие возмущения естественных входных данных могут привести к тому, что современные классификаторы будут давать неверные прогнозы, и это возмущение в Кажется, что люди не влияют на целое.
Имея изображение панды, как показано на рисунке ниже, злоумышленник добавляет к изображению небольшое шумовое возмущение.Хотя человеческому глазу трудно различить, модель с очень высокой вероятностью ошибочно классифицирует его как гиббона. При широкомасштабном применении машинного обучения такие ошибки особенно важны для безопасности системы.
На картинке выше показан состязательный пример, показанный Яном Гудфеллоу в 2014 году и полученный с помощью алгоритма под названием FGSM.
Поскольку враждебные примеры так вредны, важно понять, почему. В целом, в большинстве предыдущих исследований в этой области состязательные примеры рассматривались как искажения, возникающие из-за многомерных входных пространств, или погрешности, вызванные статистическими колебаниями обучающих данных.
С этой точки зрения вполне логично иметь в качестве цели состязательную устойчивость, которую можно решить или достичь просто за счет максимизации точности модели, чего можно добиться за счет улучшения стандартных методов регуляризации или сетевых входов/выходов, предварительной обработки и постобработки.
Новый взгляд на понимание состязательных примеров
Так почему же есть состязательные примеры? Это ошибка в глубоких нейронных сетях? Есть также много предыдущих исследований, объясняющих различные явления состязательных примеров из теоретических моделей, но они не объясняют всего наблюдаемого.
Новое исследование Массачусетского технологического института предлагает новую перспективу. В отличие от предыдущих моделей, исследователи рассматривают уязвимость со стороны злоумышленников как фундаментальное следствие основных механизмов контролируемого обучения. В частности, они заявили:
Уязвимость со стороны злоумышленников является прямым следствием чувствительности модели к особенностям данных, которые хорошо обобщаются.
Их гипотеза также объясняет враждебную переносимость, когда враждебные возмущения, вычисленные одной моделью, часто могут быть перенесены в другую независимо обученную модель. Поскольку для любых двух моделей возможно изучение сходных неустойчивых функций, возмущения, управляющие такими функциями, могут быть применены к обеим. Наконец, новая точка зрения, представленная в этом исследовании, рассматривает состязательную уязвимость как явление, полностью ориентированное на человека, поскольку ненадежные и надежные функции одинаково важны с точки зрения стандартного контролируемого обучения.
В статье показано, что метод повышения интерпретируемости модели путем введения «априорных» фактически скрывает действительно «содержательные» и прогностические признаки. Следовательно, создание объяснений, которые имеют смысл для людей, но при этом остаются верными базовой модели, не может быть получено только на основе обучения модели.
Ключевые практики Массачусетского технологического института
Чтобы подтвердить эту теорию, исследователи показывают, что можно разделить ненадежные и надежные функции в стандартных наборах данных классификации изображений. В частности, учитывая произвольный набор обучающих данных, исследователи могут построить:
«Надежная» версия надежной классификации (см. рис. 1а): исследователи показали, что можно эффективно удалять ненадежные функции из набора данных. Это делается путем создания обучающего набора данных, который семантически подобен исходному набору данных, и после стандартного обучения на нем модель достигает надежной точности на исходном немодифицированном тестовом наборе. Этот вывод свидетельствует о том, что уязвимость со стороны злоумышленников не обязательно связана со стандартными системами обучения, но также может быть связана со свойствами набора данных.
«Ненадежная» версия стандартной классификации (см. рис. 1b): исследователь строит обучающий набор данных с входными данными, которые почти идентичны исходному набору данных, но все входные данные помечены неправильно. На самом деле связь между входными данными в новом обучающем наборе данных и его меткой поддерживается только небольшими враждебными возмущениями (таким образом, используются только ненадежные функции). Несмотря на отсутствие прогностической информации, видимой человеку, после обучения на этом наборе данных модель достигает приличной точности на исходном немодифицированном тестовом наборе.
Рисунок 1: Концептуальная схема экспериментов в главе 3 статьи. В a исследователь разбивает признаки на надежные и ненадежные. В b исследователи создают набор данных, который неправильно помечен для людей из-за враждебных примеров, но который обеспечивает приличную точность на исходном тестовом наборе.
Наконец, мы тщательно исследуем связь между состязательными примерами и ненадежными функциями, используя конкретную задачу классификации. Эта задача включает в себя сегментацию распределения Гаусса с использованием модели, основанной на модели Ципраса и др., Но исследователи Массачусетского технологического института расширили эту модель следующим образом.
-
Во-первых, в этой исследовательской обстановке уязвимость злоумышленника может быть точно определена количественно как разница между внутренней геометрией данных и геометрией ансамбля возмущений враждебной выборки.
-
Во-вторых, надежно обученный классификатор использует геометрию, соответствующую их комбинации.
-
Наконец, градиенты Стандартной модели создают большее несоответствие внутриклассовой ориентации, фиксируя то, что наблюдается на практике в более сложных сценариях.
эксперимент
Основная предпосылка теоретической основы, предложенной в этом исследовании, заключается в том, что в стандартных задачах классификации есть надежные и ненадежные функции, каждая из которых может предоставить полезную информацию для классификации. Чтобы подтвердить это, исследователи провели несколько экспериментов, концептуальное описание экспериментов представлено на рисунке 1.
Разложение надежных и ненадежных функций
дать новый тренировочный набор(надежный обучающий набор, см. рис. 2а ниже), исследователь использует стандартное (ненадежное) обучение для получения классификатора. Затем его производительность проверяется на исходном тестовом наборе (D), и результаты показаны на рисунке 2b. Это показывает, что классификатор, обученный с новым набором данных, может достичь хорошей точности как в стандартной, так и в противоборствующей среде.
дать новый тренировочный набор(ненадежный обучающий набор, надежный обучающий набор, см. рис. 2а ниже), исследователи используют тот же метод для получения классификатора. Экспериментальные результаты показывают, что классификатор, обученный на этом наборе данных, также может достигать хорошей точности, но он почти не является надежным (см. рис. 2b ниже).
Эти результаты подтверждают гипотезу о том, что состязательные примеры получены из (ненадежных) характеристик данных.
Ненадежных функций достаточно для поддержки стандартной классификации
Может ли модель, обученная только на ненадежных функциях, хорошо работать на стандартном тестовом наборе? Исследователи провели эксперименты.
Используя враждебное возмущение x и целевой класс t, создайте набор данных и , затем используйте стандартную (неробастную) модель в D, и Классификатор получается путем обучения на трех наборах данных, а затем на тестовом наборе Точность достигается тестированием на D, как показано в Таблице 1 ниже. Экспериментальные результаты показывают, что модели, полученные после стандартного обучения на этих наборах данных, могут обобщаться на исходный тестовый набор, предполагая, что ненадежные функции действительно полезны в стандартных условиях.
портативность
исследователи в наборе данныхБыло обучено пять разных архитектур, и было обнаружено, что точность тестирования каждой архитектуры пропорциональна переносу состязательных примеров из исходной модели в стандартный классификатор с этой архитектурой. Это подтверждает гипотезу исследователей о том, что враждебная переносимость возникает, когда модель изучает схожие хрупкие особенности базового набора данных.
Основная теоретическая основа диссертации
Мы предлагаем теоретическую основу для изучения (не)надежных признаков, но основной предпосылкой этой основы является наличие надежных и ненадежных признаков в стандартных задачах классификации, которые могут предоставить полезную информацию для классификации. В главе 3 оригинальной статьи исследователи приводят некоторые доказательства в поддержку этой гипотезы, показывая, что эти две характеристики различимы.
Эксперименты в главе 3 оригинальной статьи показывают, что концептуальная основа надежных и ненадежных функций в значительной степени предсказывает эмпирическое поведение современных современных моделей, а также на реальных наборах данных. Чтобы улучшить наше понимание этих явлений, исследователи Массачусетского технологического института используют эту структуру в конкретных контекстах для теоретического изучения различных свойств соответствующих моделей.
Модель исследователей Массачусетского технологического института аналогична модели Ципраса и др. [Tsi+19] в том смысле, что модель содержит дихотомию надежных и ненадежных функций, но модель, предложенная в этом исследовании, была расширена:
-
Ненадежная производительность враждебных примеров явно выражается как разница между внутренней метрикой данных и метрикой L2.
-
Надежное обучение точно соответствует обучению комбинации этих двух показателей.
-
После состязательного обучения градиенты модели больше соответствуют метрике злоумышленника.
Уязвимость из-за несоответствия метрик (ненадежные функции)
надежное обучение
На рис. 4 ниже показана визуализация надежной оптимизации и ее влияния при состязательном ограничении L2.
Рисунок 4: Эмпирическая демонстрация влияния теоремы 2: по мере роста состязательного возмущения ε изученное среднее µ остается постоянным, но изученная ковариационная «смесь» представляет собой единичную матрицу, эффективно добавляя все больше и больше к ненадежным функциям все больше и больше больше неопределенности.
Интерпретируемость градиента
Эта статья составлена для сердца машины,Для перепечатки, пожалуйста, свяжитесь с этим официальным аккаунтом для авторизации .
✄------------------------------------------------
Присоединяйтесь к сердцу машины (штатный репортер/стажер): hr@jiqizhixin.com
Чтобы внести свой вклад или получить покрытие:content@jiqizhixin.com
Реклама и деловое сотрудничество: bd@jiqizhixin.com