Взгляд на модель внимания из ведущего доклада конференции 2017 г.

искусственный интеллект глубокое обучение NLP продукт

предисловие: Уже опубликованы документы, принятые на конференциях KDD, Sigir и Recsys в 2017 г. В этой статье организовано 10 статей, связанных с моделью внимания на этих конференциях, в основном включая модификацию и применение модели внимания. Часть содержания в тексте не является оригинальной, пожалуйста, свяжитесь со мной, если есть какие-либо споры.

автор этой статьи: Хуан Цзинь

Список статей:

KDD-2017

«Диполь: прогнозирование диагноза в здравоохранении с помощью двунаправленных рекуррентных нейронных сетей на основе внимания»

«Контекстно-зависимая сеть внимания для интерактивных интерактивных ответов на вопросы»

«Динамическая модель глубокого внимания для рекомендации статьи путем изучения демонстрации редакторов-людей»

«GRAM: графическая модель внимания для обучения представительству в сфере здравоохранения»

«Учимся генерировать описания горных пород из многовариантных каротажных диаграмм с иерархическим вниманием»

SIGIR-2017

«Улучшение рекуррентных нейронных сетей с помощью позиционного внимания для ответов на вопросы»

«Внимательная совместная фильтрация: мультимедийные рекомендации с вниманием на уровне элементов и компонентов»

«Ответы на видео-вопросы с помощью сетевого обучения с расширенным вниманием с помощью атрибутов»

«Использование отношений контекстных предложений для извлечения обобщения с использованием модели нейронного внимания»

Recsys-2017

«Интерпретируемые сверточные нейронные сети с двойным локальным и глобальным вниманием для прогнозирования рейтинга отзывов»

Мотивация к написанию

Модель внимания имеет хорошие результаты в подписях к изображениям, машинном переводе, распознавании речи и других областях. Так что же такое модель внимания? Например, подпишите изображение ниже: Желтый котенок в шапке из оленьего рога лежит на диване. Можно обнаружить, что в процессе перевода наше внимание переключается с котенка на пантовую шапку и на диван (котенок→пановая шапка→диван). На самом деле, во многих вещах, связанных со временем, человеческое внимание не является статичным.По мере развития событий (время) наше внимание постоянно меняется.

Поэтому теоретически полезно ввести модель внимания при использовании глубокого обучения для обучения моделей. На основе 10 статей о модели внимания на трех ведущих конференциях 2017 года эта статья расскажет о разработке и применении модели внимания.

Необходимым условием для этой статьи является модель декодера-кодировщика. Эта статья в основном представляет собой введение, и в ней практически нет вывода формулы, цель которой - дать всем общее представление о модификации и применении модели внимания.

2. Одноуровневая модель внимания

В статье «Нейронный машинный перевод путем совместного обучения выравниванию и переводу», опубликованной в 2014 году, использовалась однослойная модель внимания для решения проблемы выравнивания исходного языка разной длины в машинном переводе. Основная идея использования модели внимания заключается в том, что слова на целевом языке часто связаны только с некоторыми словами на исходном языке. И эта корреляция обычно выражается в виде вероятности. Этот процесс в основном выглядит следующим образом: сначала вычислите корреляцию между текущим контекстом и каждым словом исходного языка (балл), затем используйте формулу softmax, чтобы преобразовать эту корреляцию в форму вероятности, и, наконец, умножьте полученную вероятность на соответствующий источник. Неявное представление конечного слова принимается за вклад слова в цель предсказания, а вклад всех конечных слов исходного языка суммируется как часть входных данных для предсказания следующего слова. Расчет показателя корреляции между контекстом и словами исходного языка представляет собой модель выравнивания (Alignment), разработанную в соответствии с языковыми характеристиками. Модель), заинтересованные друзья могут узнать о ней больше. В общем, разница между одноуровневой моделью внимания в основном заключается в методе расчета показателя корреляции.Далее мы вводим три общих метода расчета. При этом в последующем тексте процесс вычисления выходного вектора по соответствующему баллу в модели внимания повторяться не будет.

В статье «Диполь: прогнозирование диагноза в здравоохранении с помощью двунаправленных рекуррентных нейронных сетей на основе внимания» представлено применение единой модели внимания для прогнозирования медицинского диагноза. Входом в эту модель является пользовательt Следующий медицинский код (каждый медицинский код выражается в виде one-hot), выходом является тип медицинского диагноза пользователя в следующий момент. Используйте внимание Идея Модели заключается в том, что тип заболевания, который диагностируется у пользователя в следующий момент, может быть больше связан с предыдущим медицинским диагнозом один или несколько раз. Модельная основа статьи выглядит следующим образом.

Разница между этой статьей и моделью внимания предыдущей статьи заключается главным образом в вычислении показателя корреляции между каждой исходной единицей ввода и целевым выходом. В этой статье представлены три общие формулы расчета баллов (см. правый верхний угол рисунка ниже): в основном метод расчета, связанный с местоположением (на основе местоположения), метод расчета, связанный с указанной целью и рассчитанный с помощью скалярного произведения (общий ) и метод расчета, связанный с указанной целью.Указывает метод расчета (на основе конкатенации), с которым связана цель и вычисляется путем конкатенации.

В документе «Динамическая модель глубокого внимания для рекомендации статей путем изучения демонстрации редакторов-людей» представлено применение единой модели внимания в области рекомендации / проверки новостей. Входными данными модели являются текст и информация о категории статьи, а выходными данными являются 0/1, указывающие, выбраны ли входные новости (две проблемы классификации). На следующем рисунке показана часть модели «Модель внимания».Не показанная часть представляет собой процесс обработки входных данных.Этот процесс предназначен для обработки текста и функций категорий в представления скрытых векторов фиксированной размерности с помощью таких моделей, как CNN. Общая идея работы такова: по текстовой информации и информации о категории новостей рассмотреть своевременность и временные характеристики новостей. В основном он основан на двух допущениях: во-первых, пользователи могут иметь разные предпочтения в разные дни, например, пользователи предпочитают финансовые новости в понедельник, а могут предпочитать газеты, связанные с развлечениями, в пятницу; во-вторых, разная своевременность новостей. Новости, связанные с финансами, имеют короткую своевременность, в то время как новости, связанные с развлечениями, имеют более длительную актуальность.

Роль модели внимания в этой статье заключается в том, что в первуюt момент, учитывая текстовую и жанровую информацию новости, рассматривать не только первуюtМодель момента (при условии, что учитывается влияние разных дней недели, всего 7 моделей), так же считаем влияние новости в другое время, и далее по изменению степени влияния новости в каждый момент времени всесторонне учитывайте вероятность выбора новостей.

Но в этой модели слишком много частей с искусственными помехами, и модель будет становиться все более и более сложной по мере увеличения допущений.

В статье «Улучшение рекуррентных нейронных сетей с помощью позиционного внимания для ответов на вопросы» модель внимания деформируется, а затем применяется к ответам на вопросы. Входными данными для модели является вектор слов для всех слов в предложении «вопрос», а выходными данными является вектор слов для всех слов в предложении «ответ». Предположение этой статьи с использованием модели внимания: если слово в предложении «вопрос» появляется в предложении «ответ», слова вокруг слова в предложении «ответ» имеют большую степень влияния, а степень влияние меняется с расстоянием, распределение Гаусса. Вероятность влияния всех входных слов получается путем подгонки распределения Гаусса, а затем вероятность влияния используется в качестве веса, а взвешенная сумма входного вектора используется для получения вектора влияния на основе положения Наконец, полученное влияние вектор используется в качестве указанного вектора для вычисления подразумеваемого значения всех входных слов Корреляция между вектором и указанным вектором через внимание Вектор, рассчитанный Моделью, используется в качестве входных данных, чтобы помочь завершить прогноз. В этой статье расчет корреляции не использует три метода, упомянутых выше, а модифицируется в соответствии с реальной ситуацией проблемы и предпосылками модели.

В статье «Ответы на видеовопросы с помощью сетевого обучения внимания с расширенными атрибутами» используется модель внимания, основанная на расширении атрибутов, для решения проблемы использования данного видео в качестве справочного материала. Основная идея этой статьи состоит в том, чтобы выяснить, какая часть видео имеет отношение к вопросу на основе вопроса, чтобы можно было получить более релевантные ответы. Входные данные этой статьи включают многокадровую видеоинформацию (каждый кадр видео представлен в виде фиксированного представления скрытого вектора с помощью таких моделей, как CNN) и вопросы обработки (текстовая информация) для получения представления скрытого вектора, а выходные данные несколько слов в ответе. По сути, в этой статье каждый кадр видео просто обрабатывается в фиксированный вектор, а суммирование и усреднение мультимодальной части слишком просто. Если ключевую информацию, относящуюся к каждому кадру, можно проанализировать более точно, результаты должны быть более оптимизированными.

Далее мы расскажем, как механизм множественного внимания (иерархическое внимание и двойное внимание) выполняет задачу более точно.

3. Механизм множественного внимания (иерархическое внимание и двойное внимание)

В документе «Контекстно-зависимая сеть внимания для интерактивных интерактивных ответов на вопросы» рассказывается, как использовать иерархическую модель внимания для выполнения задач контроля качества. Входные данные этой задачи: все векторы слов для данного документа (несколько предложений, каждое из которых состоит из нескольких слов) и неявное векторное представление данного вопроса; выход: ответ на каждое слово в предложении. Основная идея части этой статьи, посвященной модели внимания, заключается в следующем: сначала в каждом предложении в заданном наборе документов вычислить корреляцию между каждым словом в предложении и заданным вопросом и передать внимание этому слою. Вектор, рассчитанный Моделью, используется как неявное векторное представление каждого предложения; затем в заданном наборе документов вычисляется корреляция между каждым предложением и заданным вопросом, а затем используется вектор, рассчитанный вторым уровнем Модели внимания. как вектор контекста, чтобы генерировать ответы.

В статье «Использование отношений контекстуального предложения для извлечения обобщения с использованием модели нейронного внимания» описывается, как использовать иерархическую модель внимания для завершения абстрактного извлечения статей. Ввод этой задачи абстрактного извлечения — все векторы слов в документе, а вывод — 0/1, указывающий, является ли каждое предложение сводкой. Одним из ключей к абстрактному извлечению является оценка того, какие слова или предложения являются более репрезентативными и могут представлять другие слова или предложения.t,рассчитать[1,t-1]а также[t+1,]иtКосинусное подобие, как суждениеtслужить ли основанием для реферата. Во-первых, рассчитайте коэффициент вклада (вероятность влияния) каждого слова в предложение с помощью уровня внимания на уровне слов. Модель вычисляет сгенерированный вектор как неявный вектор предложения и вычисляет каждое предложение и предшествующее ему предложение на уровне предложения.t-1Сходство каждого предложения с использованием вышеупомянутого вектора корреляции, сгенерированного вторым уровнем внимания, и вычисление сходства каждого предложения и всех предложений, стоящих за ним, с использованием вектора контекстуальной корреляции, сгенерированного вниманием второго уровня; наконец, ввод вектора контекстуальной корреляции как часть окончательного прогноза.

Модель внимания в приведенной выше статье похожа на предыдущую статью тем, что используются иерархические модели внимания как на уровне слов, так и на уровне предложений. Конечно, эту иерархическую модель внимания можно использовать не только в области НЛП, она хорошо развита во многих областях. Следующая статья знакомит с применением иерархической модели внимания в области медицины.

В документе «Обучение генерированию описаний горных пород из многомерных каротажных диаграмм с иерархическим вниманием» описывается, как использовать модель иерархического внимания для помощи в создании описаний горных пород. На вход модели поступают разнотипные данные, полученные при бурении (значение каждого типа данных меняется со временем или другими измерениями) и вектор слов всех слов в наборе словарей, а на выходе — текст описания горной породы. Его первый уровень модели внимания предназначен для оценки при прогнозировании следующего дескриптора, какое конкретное значение в каждом типе данных связано с дескриптором; а второй уровень внимания Смысл модели в том, чтобы определить, какой тип данных относится к дескриптору при прогнозировании следующего дескриптора.

Первые три статьи посвящены иерархической модели внимания, за ними следует статья о двойном внимании. В документе «Интерпретируемые сверточные нейронные сети с двойным локальным и глобальным вниманием для прогнозирования рейтинга отзывов» рассказывается, как использовать модель двойного внимания для систем рекомендаций. Эта модель имеет два входа: вход сети пользователя — все комментарии, данные пользователем; Вход в Сеть — это все отзывы, которые получил продукт. Результатом является рейтинг пользователя для данного продукта. В работе выдвинута гипотеза: Разные пользователи выражают разные эмоции симпатии и антипатии, например, пользователь любит ставить высокие оценки, и он может поставить 4 балла за товары, которые ему не нравятся, а другой пользователь любит ставить низкие оценки, и ему тоже нравятся продукты Дайте только 4 балла, поэтому его следует рекомендовать в соответствии с реальными предпочтениями пользователя, а не только рейтингом пользователя в качестве основы. Модель двойного внимания в этой статье представляет собой параллельную модель, отличную от первых трех статей.Выводом первого уровня модели внимания является второй уровень внимания. Ввод модели. Это двойное внимание состоит из локального внимания (L-Attn) и глобального внимания (G-Attn). L-Attn стремится найти некоторые значимые ключевые слова в скользящем окне (вы можете определить предпочтения пользователя на основе этих ключевых слов, таких как «нравится», «юбка»); в то время как G-Attn стремится уловить общую эмоцию пользователя, выразить ситуацию ( упоминается в гипотезе). Точно так же L- и G-Attn также используются в Item Network для захвата некоторых ключевых слов, связанных с продуктом, и общих предпочтений других пользователей в отношении этого продукта. Тогда ставь Двойной Выходные данные, полученные моделью внимания, объединяются вместе в качестве входных данных для выполнения конечной задачи.

В-четвертых, механизм внимания, основанный на карте знаний или знании предметной области (Внимание из базы знаний).

В статье «Внимательная совместная фильтрация: мультимедийная рекомендация с вниманием на уровне элементов и компонентов» описывается, как механизмы внимания, основанные на знаниях предметной области, используются в рекомендательных системах. Структура модели внимания очень похожа на иерархическую модель внимания, представленную в предыдущем разделе, с той лишь разницей, что ее входные данные используют другую доменную информацию. В отличие от традиционной модели рекомендаций CF, в этой статье используются следующие предположения: два пользователя любят предмет одежды одновременно, некоторым из-за его цвета, а другим из-за его покроя.В реальной рекомендации точный анализ улучшит рекомендацию. точность. Следовательно, неявное векторное представление определенного продукта больше не является фиксированным, оно будет вести себя по-разному в зависимости от предпочтений пользователя. Входными данными для модели являются все продукты, которые пользователь приобрел ранее, и несколько представлений функций для каждого продукта, а выходными данными является вероятность того, что продукт понравится пользователю.

Сначала для каждого входного продукта вычисляется корреляция между вектором характеристик пользователя и каждой характеристикой продукта, и вектор, рассчитанный первым слоем модели внимания, используется в качестве неявного представления продукта; затем вектор характеристик пользователя и рассчитываются все входные продукты.Степень корреляции и вектор, рассчитанный вторым уровнем модели внимания, используются в качестве функции предпочтения пользователя для выполнения окончательной задачи рекомендации.

Когда мы хотим ввести граф знаний или доменные знания, это не означает, что модель будет очень сложной, и не означает, что чем выше количество слоев внимания, тем лучше модель. В статье «GRAM: графическая модель внимания для обучения представлению в здравоохранении» используется простая и красивая модель для выполнения задачи прогнозирования. Подобно дипольной модели, упомянутой в подразделе 2, это проблема прогнозирования медицинского диагноза. Входом в эту модель является пользовательtСледующий медицинский код (каждый медицинский код выражается в виде one-hot), выходом является тип медицинского диагноза пользователя в следующий момент. Однако существует множество медицинских кодов, данные по которым скудны или даже отсутствуют, так что латентное векторное представление медицинских кодов не может хорошо выполнять задачу прогнозирования. Эта статья в некоторой степени улучшает эту ситуацию, вводя информацию графа знаний. Во-первых, вводится внешний граф знаний, который представляет собой направленный ациклический граф, и родительский узел каждого узла представляет связанное, но более широкое определение/понятие. когда медицинский кодc_iКогда информация скудна или отсутствует, можно рассмотреть более широкое определение. Модель внимания используется для оценкиc_i,c_g,c_c,c_a(от листовых узлов ко всем узлам корневого узла) вклад в задачу прогнозирования.

V. Резюме

Представленная выше одноуровневая модель внимания, многоуровневая модель внимания (включая иерархическое внимание и двойное внимание), а также некоторые варианты и приложения модели внимания, которые вводят карту знаний или информацию о предметной области. Можно обнаружить, что для определенной проблемы или задачи временного ряда, если для задачи можно сделать разумные предположения, модель внимания будет иметь много вариантов и приложений.