Применение сетей указателей в обработке естественного языка

Автор: Лэн Хайтао, магистрант SCIR Харбинского технологического института.

1. Введение

В области естественного языка модель seq2seq применялась ко многим задачам и достигла определенных результатов. Но для части декодера модели seq2seq пользователь должен предварительно определить выходной словарь фиксированного размера. Это приводит к тому, что модель seq2seq нельзя применить к некоторым задачам, где выходной словарь определяется входными данными, например к задаче комбинирования. Из этого о Виньялс^[1]и др. в 2015 году предложили модель Pointer Networks, основанную на механизме внимания, для решения комбинаторной задачи.

2. Введение в модель сетей указателей

По сравнению с обычной моделью seq2seq Pointer Networks в основном изменилась в части декодера. Возьмите LSTM в качестве примера здесь. Для заданной обучающей пары (P,C^p), где P={P₁,...P_n} — последовательность n векторов, C^p={C₁,…,С_m(P)}, где m(P) имеет размер от 1 до n. В то же время мы определяем скрытые слои кодировщика и декодера как (e₁,…,е_n) и (д₁,…, д_m(P)). Следовательно:

И наша цель оптимизации:

где θ в формуле представляет параметры модели.

Рис. 1. Модель seq2seq

Рисунок 2 Модель Ptr-Net

В традиционной модели seq2seq, подобной рисунку 1, мы используем распределение softmax фиксированного размера для вычисления, и такая архитектура модели не может решить проблему комбинирования, когда невозможно определить размер выходного словаря. В Ptr-Net мы можем использовать механизм внимания, как показано на рисунке 2, для решения этой проблемы.

где вектор u^яРаспределение вероятностей, полученное после нормализации softmax, представляет собой распределение выходного прогноза на основе входного содержимого. v, W в формуле₁, W₂все изучаемые параметры. В этом процессе мы напрямую используем полученный результат softmax для копирования входного элемента, соответствующего кодировщику, в качестве входного вектора декодера.

3. Применение сетей указателей в НЛП

Когда Ptr-Net был впервые предложен, он использовался для решения комбинированных задач, таких как коммивояжер и выпуклая оболочка, но в последние два года Ptr-Net также широко используется в различных задачах НЛП.

3.1 Абстрактная задача

Большая часть предыдущего экстрактивного суммирования была сделана на основе искусственных признаков, но в ACL2016 Ченг^[2]Нейронное суммирование путем извлечения предложений и слов, опубликованное et al., предложило управляемый данными метод для задачи извлечения суммирования.Модель в этой статье разделена на две степени детализации: уровень предложения, показанный на рисунке 3, и уровень слова, показанный на рисунке 4. . . . где предложение уровень рассматривает проблему как проблему маркировки последовательности, и каждое предложение помечается с извлечением или без извлечения. Для проблемы уровня слов автор считает, что это проблема генерации между абстрактным обобщением и извлеченным обобщением, и сгенерированные слова ограничены словами, которые появляются в исходном документе. В этой статье будет представлена модель уровня слов.

Рисунок 3 уровень предложения

Рисунок 4 уровень слова

Как показано на рисунке 3, часть кодировщика использует иерархическую идею, сначала используя CNN от слов к предложениям, а затем используя RNN (LSTM) от предложений к документам. Часть декодера на фиг.4 подробно описана ниже. На t-м шаге в декодере нам нужно вычислить. использоватьПредставляет скрытый уровень этапа кодировщика сПредставляет скрытый уровень стадии декодера. Сначала нам нужно получить скрытый слой сети LSTM t-го шага в части декодера, гдепредставляет скрытый слой шага t-1,является входом шага t. Тогда есть:

Затем используйте полученный, выполните операцию внимания над каждым предложением в документе:

Затем используйте результат, полученный операцией внимания, Выполните операцию внимания на основе каждого слова в документе, и операция внимания на этом этапе использует идею Ptr-Net и напрямую использует результат внимания для расчета распределения вероятностей.

В приведенной выше формулесоответствует вложению i-го слова в документ.

Рисунок 5. Генератор указателей

Для абстрактного обобщения в статье Get To The Point: Summarization with Pointer-Generator Networks, опубликованной в ACL 2017, Эбигейл См.^[3]et al предложил генератор указателей. Генератор указателей сочетает в себе модель seq2seq+внимание и модель Pointer Networks.По сравнению с обычной моделью seq2seq+внимание, смешанная модель может напрямую копировать слова из исходного текста, тем самым повышая точность реферата и обработки слов OOV, сохраняя при этом Возможность генерировать новые слова. Как показано на рисунке 5, в этой гибридной модели распределение вероятностей слов состоит из двух частей, а именно seq2seq. Результат после того, как модель softmax накладывается на распределение вероятностей, сгенерированное Ptr-Net.

Когда w является OOV,То есть 0, когда w не встречается в исходном тексте,равно 0. в формулеявляется результатом Ptr-Net после нормализации softmax. в то время как р_иявляется масштабным фактором. Этот коэффициент рассчитывается следующим образом:

врезультат, полученный с помощью механизма внимания:

представляет скрытый слой каждого временного узла на этапе кодирования, а s_он- состояние декодера, x_онявляется входом декодера.

3.2 Задача извлечения информации

Рисунок 6 Модель извлечения информации

Большинство методов извлечения информации с важными результатами основаны на метках на уровне токенов, но получение этих меток требует много времени и усилий, и эти метки служат промежуточным этапом и не являются желаемым результатом задачи. Так, в 2017 г. RB Palm^[4]и др. предложили сквозной метод извлечения информации, основанный на идее Ptr-Net и достигший очень конкурентоспособных результатов без использования меток на уровне токенов. Как показано на рисунке 6, входными данными для модели являются N слов.x = x₁,…,Икс_N, в модели используется общий кодировщик, но есть несколько декодеров, и каждый декодер соответствует части информации, которую необходимо извлечь. Используйте k=1,…,K для представления серийного номера декодера. На каждом шаге j каждый декодер должен вычислить, что является оценкой внимания до нормализации softmax.Представляет собой результат работы декодера с порядковым номером k на j-м шаге,Представляет состояние декодера с порядковым номером k на j-м шаге, поэтому существует

вявляется горячим вектором каждого слова, поэтомуявляется распределением вероятностей по словам. Таким образом, в отличие от обычного Ptr-Net, обычный указатель Ptr-Net указывает на позицию на входе кодировщика, и вход этой позиции копируется в декодер.В этой модели последним входом в качестве декодера является слово Распределения вероятностей .

3.3 Задача сортировки предложений

Рисунок 7 Модель ранжирования предложений

Задача сортировки предложений состоит в преобразовании ряда предложений в связный и читаемый текст, что является очень важной и сложной задачей в области обработки естественного языка. Хороший документ имеет высокую логическую и тематическую структуру, поэтому во многих задачах требуется упорядоченность предложений. Л Логесваран^[5]и Джей Гонг^[6]и др. предложили задачу ранжирования предложений на основе Ptr-Net. Как показано на рисунке 7, на вход модели подается несколько предложений.s=s₁,…,с_n, для обучающей пары (s,o), мы можем получить:

иТогда это можно рассчитать с помощью Ptr-Net:

где е_jи д_iПредставляет скрытый уровень шага кодера j и шага декодера i соответственно. А v и W — это параметры, которые можно узнать. Часть кодировщика предложений, показанная на рисунке 7, может быть дополнена различными методами, такими как CNN и RNN.

4. Вывод

Предложение Ptr-Net решает проблему фиксированного размера выходного словаря в традиционной модели seq2seq. С момента своего первоначального предложения до настоящего времени он применялся ко многим задачам НЛП.В некоторых задачах Ptr-Net завершил построение сквозной модели, избегая многих промежуточных шагов, таких как извлечение информации и сортировка предложений. других задач Ptr-Net хорошо интегрируется в генеративную модель, внося механизм извлечения в генеративную модель. По имеющимся работам можно ожидать, что Ptr-Net будет иметь более широкую перспективу применения в задачах НЛП.

5. Ссылки

[1] Vinyals O, Fortunato M, Jaitly N.Pointer Networks. Computer Science, 2015.

[2] Cheng J, Lapata M. Neural Summarization by Extracting Sentences and Words. ACL2016.

[3] See A, Liu P J, Manning C D. Get To ThePoint: Summarization with Pointer-Generator Networks. ACL2017.

[4] Rasmus Berg Palm, Dirk Hovy, FlorianLaws, Ole Winther. End-to-End Information Extraction without Token-Level Supervision. SCNLP@EMNLP 2017 2017: 48-52

[5] Logeswaran L, Lee H, Radev D. Sentence Ordering using Recurrent Neural Networks. 2016.

[6] Gong J, Chen X, Qiu X, et al. End-to-EndNeural Sentence Ordering Using Pointer Network. 2016.

Ответственный за этот выпуск редактор: Дин Сяо

Редактор этого номера: Лю Юаньсин

Аккаунт "Харбинский технологический институт SCIR"

Главный редактор: Че Ваньсян

Ассоциированные редакторы: Чжан Вейнань, Дин Сяо

Ответственные редакторы: Чжан Вэйнань, Дин Сяо, Чжао Сендун, Лю Ицзя

Редакторы: Ли Цзяци, Чжао Дэчжи, Чжао Хуайпэн, У Ян, Лю Юаньсин, Цай Бибо

Нажмите и удерживайте изображение и нажмите "Определите QR-код на картинке", вы можете подписаться на публичный аккаунт WeChat Исследовательского центра социальных вычислений и информационного поиска Харбинского технологического института: "Харбинский технологический институт SCIR".