Механизмы внимания недавно подтолкнули к разработке ряда задач НЛП. Поскольку уровень внимания может вычислять вес представления уровня, считается, что он также полезен для обнаружения информации, которую модель считает важной (например, контекстно-зависимые слова). Исследователи проверили эту гипотезу, изменив веса внимания в обученных моделях классификации текста. И анализируются причины изменения предсказаний модели. Исследователи заметили, что, хотя в некоторых случаях высокие веса внимания оказывали большее влияние на прогнозы модели, они также обнаружили много случаев, которые отличались от этого явления. Исследователи утверждают, что, хотя механизм внимания предсказывает важность входной части по отношению к модели в целом, это небезопасный способ учета важности.
из arXiv,Авторы: София Серрано, Ной А. Смит, составлено Heart of the Machine.
Кроме того, можно ли улучшить внимание по сравнению с предыдущими отчетами от Heart of the Machine?статья об интерпретируемости модели, в этой статье исследуется, можно ли объяснить механизм внимания на уровне контекстуализированных слов. К сожалению, автор этой статьи также считает, что уровня внимания недостаточно для объяснения фокуса модели.
Ссылка на сайт:АР Вест V.org/ABS/1906.03…
Интерпретируемость является насущной проблемой для многих моделей НЛП. Поскольку модели становятся более сложными и учатся на данных, важно убедиться, что мы понимаем, почему модель приняла определенное решение.
Существующие работы, говорящие об интерпретируемости, только начинают оценивать, какую информацию передают рассчитанные веса внимания. В этой статье мы применяем другой метод анализа, основанный на стирании промежуточных представлений, чтобы оценить, можно ли полагаться на веса внимания для объяснения относительной важности входных данных для самого слоя внимания. Что они обнаружили: веса внимания — это всего лишь шумные прогнозы важности промежуточных компонентов, и их не следует рассматривать как причину для принятия решений.
тестовый набор
Исследователи уделяют внимание моделям классификации текстов с 5 и 10 классами, поскольку объяснение причин классификации текстов всегда представляло интерес для исследования интерпретируемости (Янг и др., 2016; Рибейро и др., 2016; Лей и др., 2016; Фэн и др., 2018).
Интерпретируемая модель должна не только давать правдоподобные объяснения, но и гарантировать, что эти объяснения являются реальными причинами решений модели. Обратите внимание, что этот анализ не опирается на истинные метки данных; если модель дает неправильный результат, но также дает правдоподобное объяснение того, какие факторы играют важную роль в расчетах, мы также считаем, что модели поддаются интерпретации.
Стирание промежуточного представления
Исследователя интересует влияние некоторых контекстуализированных входных данных (I′ ⊂ I) слоя внимания на выходные данные модели. Чтобы проверить важность I', мы дважды запустили классификационный слой модели (см. рис. 1): один раз без каких-либо изменений и один раз, чтобы перенормировать распределение внимания с обнуленными весами внимания I', аналогично другим основанным на стирании. Работа. Затем исследователи рассмотрели влияние результатов на выходные данные модели. Они стирают слой внимания, чтобы изолировать эффект слоя внимания от кодировщика перед ним. Причина перенормировки заключается в том, чтобы избежать искусственного сокращения представлений выходных документов близко к 0 способами, которые никогда не встречались во время обучения, что может сделать последующие метрики нерепрезентативными для поведения модели в пространстве, в которое она отображает входные данные.
Рисунок 1: Расчет важности представления, соответствующей обнуленным весам внимания, с использованием метода, описанного в этой статье, с учетом четырех выходных классов.
данные и модели
Мы исследуем четыре архитектуры моделей в одном наборе данных классификации тем (Yahoo Answers) и трех наборах данных оценочных рейтингов (IMDB, Yelp 2017, Amazon). Статистика каждого набора данных показана в таблице 1.
Таблица 1: Наборы данных, использованные в экспериментах.
Архитектура модели в этой статье вдохновлена Hierarchical Attention Networks, моделью классификации текста с двумя уровнями внимания, которые сначала обращают внимание на токены слов в каждом предложении, а затем на результирующие представления предложений. Слой, который классифицирует представление документа, является линейным по отношению к конечному слою softmax.
Исследователи протестировали формулу softmax для внимания, которая используется в большинстве моделей, включая HAN. В частности, мы используем аддитивную формулировку, первоначально определенную Бахданау и др. (2015).
Важность отдельных весов внимания
В начале теста исследователи изучили относительную важность веса внимания, когда можно было удалить только один вес. Пусть i^∗ ∈ I — компонент с наибольшим вниманием, а α_i^∗ — его внимание. Исследователи сравнили важность i^∗ с важностью некоторых других элементов внимания двумя способами:
JS расхождение распределения выходных данных модели
Мы хотим сравнить влияние i^∗ на выходное распределение модели с эффектом, соответствующим случайному члену внимания r, равномерно взятому из I. Первый метод заключается в вычислении двух расхождений JS: одно — это расхождение JS от исходного выходного распределения модели до исходного выходного распределения после удаления только i^∗, а другое — выходное распределение модели после удаления только r расхождений JS и Сравните их.
Они вычитают выходное расхождение JS после удаления r из выходного расхождения JS после удаления i^∗:
Формула 1: Формула расчета ΔJS
Интуитивно, если i^∗ действительно является самым важным, то мы ожидаем, что уравнение 1 будет положительным, что верно в большинстве случаев. При этом, как видно из рисунка 3, практически все значения ΔJS близки к 0. Из рисунка 4 видно, что разница между вниманием i^∗ и вниманием r невелика, когда влияние i^∗ невелико. Этот результат обнадеживает, указывая на то, что в этих случаях i^∗ и r почти «связаны» с точки зрения внимания.
Однако, когда начинают рассматривать величину положительных значений ∆JS на рисунке 3, интерпретируемость внимания становится еще более неоднозначной. Исследователи отмечают, что в наборе данных даже при очень больших различиях в весах внимания, скажем, 0,4, многие положительные ∆JS все еще очень близки к нулю. Хотя в конечном итоге было обнаружено, что как только Δα увеличивается, ΔJS резко возрастает, указывая на то, что в распределении присутствует только очень высокий вес внимания, здесь много споров о том, насколько i^∗ и r могут иметь эффект.
Переключение решений, вызванное обнулением собственного внимания
Поскольку веса внимания часто рассматриваются как объяснение решений argmax модели, второй тест фокусируется на другом, более интуитивном изменении в выходных данных модели: переворотах решений. Для ясности здесь обсуждаются только результаты для HANrnn, которые отражают ту же закономерность, что и для других архитектур.
В большинстве случаев стирание i^∗ не изменит решения модели (столбец «нет» на рисунке). Это может иметь какое-то отношение к сигналам, связанным с классификацией, распределенным по документам (например, вопрос о «Спорте» в наборе данных Yahoo Answers может иметь несколько предложений для «спорта», любого из которых достаточно для правильной классификации).
Важность веса слоя внимания
Чтобы решить проблему интерпретируемости уровней внимания и решить проблемы в тестах с одним весом, мы используем новый тест для изучения эффективности весов нескольких уровней внимания на предикторах.
тест с несколькими весами
Исследователи надеются, что для гипотетического упорядочения важности, например, представленного слоями веса внимания, нейроны внимания с наивысшим рангом могут служить кратким объяснением решений модели. Чем менее лаконичны эти объяснения, тем ниже рейтинг нейрона внимания, который действительно определяет решение модели, и тем меньше вероятность того, что она лучше объяснит важность. Другими словами, исследователи надеются, что в эффективном ранжировании важности только небольшая часть важной информации должна использоваться нейронами с наивысшим рангом для принятия решений в модели.
Конкретный метод ранжирования важности
Исследователи предлагают два конкретных метода ранжирования важности.
Первый случайный порядок важности. Исследователи надеются, что такое упорядочивание дает плохой результат, но сравнимый с порядком убывания весов внимания.
Второй метод сортировки заключается в сортировке весов слоя внимания. Этот подход требует убывающего порядка градиента функции решения и каждого веса внимания. Поскольку каждый набор данных имеет 5 или 10 классов, функция принятия решения, основанная на векторном выводе истинной модели, имеет вид:
Внимание не является идеальным способом описания модельных решений.
Согласно анализу результатов на рисунке 5, исследователи обнаружили, что метод ранжирования важности по весу внимания не идеален для модели с кодировщиком. Хотя удаление промежуточных представлений с использованием убывающих весовых коэффициентов внимания приводит к более быстрому переключению решений, чем случайная сортировка, во многих случаях этот подход менее эффективен, чем сортировка по градиенту или сортировка по градиенту-внимание-произведение.
Кроме того, хотя сортировка по продуктам часто (но не всегда) требует немного меньшего удаления нейронов, чем сортировка по градиенту, исследователи обнаружили, что чистая градиентная сортировка без внимания довольно близка к ней и более эффективна, чем чистая градиентная сортировка. лучше. На 10 из 16 моделей с энкодерами было обнаружено, что более чем в 50% тестовых наборов было достигнуто меньшее изменение решений за счет удаления градиентов, чем за счет устранения внимания. Было обнаружено, что на каждой модели с кодировщиком только ранжирование на основе градиента приводило к более быстрому переключению решений, чем на основе внимания. На тестовом наборе таких случаев в 1,6 раза больше, чем его контрпримеров (переключение решений, вызванное вниманием, происходит быстрее).
Отмена решения происходит позже
С каждым механизмом упорядочения и многими моделями исследователи сталкивались с проблемой необходимости удалить большую часть нейронов, чтобы добиться переключения решений. Для HAN это неудивительно, поскольку эти механизмы внимания привлекают внимание к более коротким текстам. Для FLAN этот результат несколько неожиданный. FLAN часто вычисляет внимание к последовательностям из нескольких сотен символов, и вес каждого внимания, вероятно, будет очень мал.
Для изученных моделей, особенно FLAN (использующих сотни символов для вычисления внимания), этот факт может иметь проблемы с интерпретацией. По словам Липтона, «модель прозрачна, если ее увидеть один раз и понять всю модель» (Мифы об интерпретируемости модели. Препринт arXiv arXiv: 1606.03490.). В соответствии с этой интерпретацией, если важная интерпретация должна учитывать веса внимания сотен токенов, даже если каждое внимание невелико, это по-прежнему создает серьезные проблемы с прозрачностью.
Влияние контекстуального охвата на интерпретируемость внимания
Предыдущие исследования в области машинного перевода показали, что в полной последовательности повторяющиеся нейронные кодировщики могут вносить изменения в сигнал токена, в результате чего последующие уровни внимания вычисляются нелогично. Исследователи предполагают, что в экспериментальных условиях классификации текста двунаправленные рекуррентные нейронные сети, такие как кодировщики HANrnn и FLANrnn, могут предпочесть корректировать сигнал распределения из подмножества входных токенов, а не из других контекстных представлений. Сравнение результатов переключения решений FLANconv и FLAN-rnn на рисунке 5 может подтвердить эту теорию. Исследователи отмечают, что переключение решений происходит быстрее, чем в обеих моделях, основанных на rnn, что указывает на то, что двунаправленные рекуррентные сети могут эффективно учиться широко перераспределять категориальные сигналы. И наоборот, сверточные кодировщики изучают контекстуальные представления только из двух символов до и после входного символа.
То же самое можно увидеть при сравнении результатов двух архитектур HAN, хотя это менее очевидно. Это может быть связано с тем, что HAN извлекает контекстуальные представления (представления предложений, а не слов) для меньшей доли токенов, поэтому извлечение контекстных представлений из соседних символов уже составляет большую часть полной последовательности.
Эта разница еще более заметна при сравнении архитектуры модели без энкодера, как показано на рисунке 6. Сравнивая две другие архитектуры моделей, можно увидеть, что скорость переключения решений уменьшается после стирания важных частей модели. Также видно, что случайная сортировка работает лучше, чем раньше, что указывает на то, что граница принятия решения стала более хрупкой, особенно в наборе данных Amazon. Это показывает, что внимание может быть более важным, чем градиенты.
в заключении
Механизмы внимания рассматриваются как инструмент для объяснения моделей, но исследователи обнаружили, что уровни внимания и важность недостаточно соответствуют друг другу.
В некоторых случаях они связаны. Например, при сравнении высоких весов внимания с низкими весами высокие веса внимания, как правило, оказывают большее влияние на модель. Однако картина становится мрачной, если учесть, что в некоторых случаях самый высокий вес внимания не может иметь большого значения.
Из теста с несколькими весами исследователи обнаружили, что веса внимания часто не позволяют обнаружить представление, которое играет наиболее важную роль в окончательном решении модели. Даже в ситуациях, когда переворачивание решений модели, основанное на порядке важности слоев внимания, происходит быстрее, чем в других порядках, количество нулевых участвующих нейронов часто слишком велико, чтобы помочь объяснить (процесс).
Исследователи также заметили, что контекстуальная область влияет на решение модели перед уровнем внимания. Хотя уровень внимания в значительной степени более эффективен в случаях, когда контекстные представления не извлекаются, его плохая эффективность при захвате обоснований решений является проблемой в других случаях. Исследователи полагают, что в тех условиях, которые они тестировали, уровень внимания не был идеальным инструментом для определения того, вызвал ли конкретный вход определенный результат. Слои внимания можно сделать интерпретируемыми другими способами, но не в порядке важности. (в проблеме ранжирования важности) уровень внимания не может объяснить модельные решения.