Автор: Лэн Хайтао, магистрант SCIR Харбинского технологического института.
1. Введение
В области естественного языка модель seq2seq применялась ко многим задачам и достигла определенных результатов. Но для части декодера модели seq2seq пользователь должен предварительно определить выходной словарь фиксированного размера. Это приводит к тому, что модель seq2seq нельзя применить к некоторым задачам, где выходной словарь определяется входными данными, например к задаче комбинирования. Из этого о Виньялс[1]и др. в 2015 году предложили модель Pointer Networks, основанную на механизме внимания, для решения комбинаторной задачи.
2. Введение в модель сетей указателей
По сравнению с обычной моделью seq2seq Pointer Networks в основном изменилась в части декодера. Возьмите LSTM в качестве примера здесь. Для заданной обучающей пары (P,Cp), где P={P1,...Pn} — последовательность n векторов, Cp={C1,…,Сm(P)}, где m(P) имеет размер от 1 до n. В то же время мы определяем скрытые слои кодировщика и декодера как (e1,…,еn) и (д1,…, дm(P)). Следовательно:
И наша цель оптимизации:
где θ в формуле представляет параметры модели.
Рис. 1. Модель seq2seq
Рисунок 2 Модель Ptr-Net
В традиционной модели seq2seq, подобной рисунку 1, мы используем распределение softmax фиксированного размера для вычисления, и такая архитектура модели не может решить проблему комбинирования, когда невозможно определить размер выходного словаря. В Ptr-Net мы можем использовать механизм внимания, как показано на рисунке 2, для решения этой проблемы.
где вектор uяРаспределение вероятностей, полученное после нормализации softmax, представляет собой распределение выходного прогноза на основе входного содержимого. v, W в формуле1, W2все изучаемые параметры. В этом процессе мы напрямую используем полученный результат softmax для копирования входного элемента, соответствующего кодировщику, в качестве входного вектора декодера.
3. Применение сетей указателей в НЛП
Когда Ptr-Net был впервые предложен, он использовался для решения комбинированных задач, таких как коммивояжер и выпуклая оболочка, но в последние два года Ptr-Net также широко используется в различных задачах НЛП.
3.1 Абстрактная задача
Большая часть предыдущего экстрактивного суммирования была сделана на основе искусственных признаков, но в ACL2016 Ченг[2]Нейронное суммирование путем извлечения предложений и слов, опубликованное et al., предложило управляемый данными метод для задачи извлечения суммирования.Модель в этой статье разделена на две степени детализации: уровень предложения, показанный на рисунке 3, и уровень слова, показанный на рисунке 4. . . . где предложение уровень рассматривает проблему как проблему маркировки последовательности, и каждое предложение помечается с извлечением или без извлечения. Для проблемы уровня слов автор считает, что это проблема генерации между абстрактным обобщением и извлеченным обобщением, и сгенерированные слова ограничены словами, которые появляются в исходном документе. В этой статье будет представлена модель уровня слов.
Рисунок 3 уровень предложения
Рисунок 4 уровень слова
Как показано на рисунке 3, часть кодировщика использует иерархическую идею, сначала используя CNN от слов к предложениям, а затем используя RNN (LSTM) от предложений к документам. Часть декодера на фиг.4 подробно описана ниже. На t-м шаге в декодере нам нужно вычислить. использовать
Представляет скрытый уровень этапа кодировщика с
Представляет скрытый уровень стадии декодера. Сначала нам нужно получить скрытый слой сети LSTM t-го шага в части декодера, где
представляет скрытый слой шага t-1,
является входом шага t. Тогда есть:
Затем используйте полученный, выполните операцию внимания над каждым предложением в документе:
Затем используйте результат, полученный операцией внимания, Выполните операцию внимания на основе каждого слова в документе, и операция внимания на этом этапе использует идею Ptr-Net и напрямую использует результат внимания для расчета распределения вероятностей.
В приведенной выше формулесоответствует вложению i-го слова в документ.
Рисунок 5. Генератор указателей
Для абстрактного обобщения в статье Get To The Point: Summarization with Pointer-Generator Networks, опубликованной в ACL 2017, Эбигейл См.[3]et al предложил генератор указателей. Генератор указателей сочетает в себе модель seq2seq+внимание и модель Pointer Networks.По сравнению с обычной моделью seq2seq+внимание, смешанная модель может напрямую копировать слова из исходного текста, тем самым повышая точность реферата и обработки слов OOV, сохраняя при этом Возможность генерировать новые слова. Как показано на рисунке 5, в этой гибридной модели распределение вероятностей слов состоит из двух частей, а именно seq2seq. Результат после того, как модель softmax накладывается на распределение вероятностей, сгенерированное Ptr-Net.
Когда w является OOV,То есть 0, когда w не встречается в исходном тексте,
равно 0. в формуле
является результатом Ptr-Net после нормализации softmax. в то время как ри является масштабным фактором. Этот коэффициент рассчитывается следующим образом:
врезультат, полученный с помощью механизма внимания:
представляет скрытый слой каждого временного узла на этапе кодирования, а sон - состояние декодера, xон является входом декодера.
3.2 Задача извлечения информации
Рисунок 6 Модель извлечения информации
Большинство методов извлечения информации с важными результатами основаны на метках на уровне токенов, но получение этих меток требует много времени и усилий, и эти метки служат промежуточным этапом и не являются желаемым результатом задачи. Так, в 2017 г. RB Palm[4]и др. предложили сквозной метод извлечения информации, основанный на идее Ptr-Net и достигший очень конкурентоспособных результатов без использования меток на уровне токенов. Как показано на рисунке 6, входными данными для модели являются N слов.x = x1,…,ИксN, в модели используется общий кодировщик, но есть несколько декодеров, и каждый декодер соответствует части информации, которую необходимо извлечь. Используйте k=1,…,K для представления серийного номера декодера. На каждом шаге j каждый декодер должен вычислить, что является оценкой внимания до нормализации softmax.
Представляет собой результат работы декодера с порядковым номером k на j-м шаге,
Представляет состояние декодера с порядковым номером k на j-м шаге, поэтому существует
вявляется горячим вектором каждого слова, поэтому
является распределением вероятностей по словам. Таким образом, в отличие от обычного Ptr-Net, обычный указатель Ptr-Net указывает на позицию на входе кодировщика, и вход этой позиции копируется в декодер.В этой модели последним входом в качестве декодера является слово Распределения вероятностей .
3.3 Задача сортировки предложений
Рисунок 7 Модель ранжирования предложений
Задача сортировки предложений состоит в преобразовании ряда предложений в связный и читаемый текст, что является очень важной и сложной задачей в области обработки естественного языка. Хороший документ имеет высокую логическую и тематическую структуру, поэтому во многих задачах требуется упорядоченность предложений. Л Логесваран[5]и Джей Гонг[6]и др. предложили задачу ранжирования предложений на основе Ptr-Net. Как показано на рисунке 7, на вход модели подается несколько предложений.s=s1,…,сn, для обучающей пары (s,o), мы можем получить:
иТогда это можно рассчитать с помощью Ptr-Net:
где еjи дiПредставляет скрытый уровень шага кодера j и шага декодера i соответственно. А v и W — это параметры, которые можно узнать. Часть кодировщика предложений, показанная на рисунке 7, может быть дополнена различными методами, такими как CNN и RNN.
4. Вывод
Предложение Ptr-Net решает проблему фиксированного размера выходного словаря в традиционной модели seq2seq. С момента своего первоначального предложения до настоящего времени он применялся ко многим задачам НЛП.В некоторых задачах Ptr-Net завершил построение сквозной модели, избегая многих промежуточных шагов, таких как извлечение информации и сортировка предложений. других задач Ptr-Net хорошо интегрируется в генеративную модель, внося механизм извлечения в генеративную модель. По имеющимся работам можно ожидать, что Ptr-Net будет иметь более широкую перспективу применения в задачах НЛП.
5. Ссылки
[1] Vinyals O, Fortunato M, Jaitly N.Pointer Networks. Computer Science, 2015.
[2] Cheng J, Lapata M. Neural Summarization by Extracting Sentences and Words. ACL2016.
[3] See A, Liu P J, Manning C D. Get To ThePoint: Summarization with Pointer-Generator Networks. ACL2017.
[4] Rasmus Berg Palm, Dirk Hovy, FlorianLaws, Ole Winther. End-to-End Information Extraction without Token-Level Supervision. SCNLP@EMNLP 2017 2017: 48-52
[5] Logeswaran L, Lee H, Radev D. Sentence Ordering using Recurrent Neural Networks. 2016.
[6] Gong J, Chen X, Qiu X, et al. End-to-EndNeural Sentence Ordering Using Pointer Network. 2016.
Ответственный за этот выпуск редактор: Дин Сяо
Редактор этого номера: Лю Юаньсин
Аккаунт "Харбинский технологический институт SCIR"
Главный редактор: Че Ваньсян
Ассоциированные редакторы: Чжан Вейнань, Дин Сяо
Ответственные редакторы: Чжан Вэйнань, Дин Сяо, Чжао Сендун, Лю Ицзя
Редакторы: Ли Цзяци, Чжао Дэчжи, Чжао Хуайпэн, У Ян, Лю Юаньсин, Цай Бибо
Нажмите и удерживайте изображение и нажмите "Определите QR-код на картинке", вы можете подписаться на публичный аккаунт WeChat Исследовательского центра социальных вычислений и информационного поиска Харбинского технологического института: "Харбинский технологический институт SCIR".