Когда глубокое обучение встречается с автоматическим обобщением текста

глубокое обучение Нейронные сети NLP Архитектура

Приветствую всех вОблако Tencent + сообщество, получить больше крупной технической практики Tencent по галантерее~

Эта статья написанаcolumneditorОпубликован вКолонка «Облако + сообщество»

Автор: Яо Цзюньлинь

Введение. Благодаря стремительному росту объемов текстовой информации в последние годы люди могут каждый день получать доступ к огромным объемам текстовой информации, такой как новости, блоги, чаты, отчеты, документы, Weibo и т. д. Извлечение важного содержимого из больших объемов текстовой информации стало насущной необходимостью, и автоматическое суммирование текста обеспечивает эффективное решение.

вводить

Благодаря стремительному росту объемов текстовой информации в последние годы люди могут каждый день получать доступ к массивной текстовой информации, такой как новости, блоги, чаты, отчеты, документы, Weibo и т. д. Извлечение важного содержимого из больших объемов текстовой информации стало насущной необходимостью, и автоматическое суммирование текста обеспечивает эффективное решение.

Согласно определению Радева [3], реферат — это «фрагмент текста, извлеченный из одного или нескольких текстов, который содержит важную информацию из исходного текста и длина которого не превышает или значительно меньше половины исходного текста». Автоматическое суммирование текста предназначено дляавтоматический выводКраткое, плавное и запоминающееся изложение ключевой информации.

Существует множество сценариев применения автоматического суммирования текста, таких как автоматическое создание отчетов, создание заголовков новостей, предварительный просмотр результатов поиска и т. д. Кроме того, автоматическое суммирование текста также может обеспечить поддержку последующих задач.

Несмотря на огромный спрос на автоматическое суммирование текста, эта область развивается медленно. Создание сводок является сложной задачей для компьютеров. Создать квалифицирующую аннотацию из одного или нескольких текстов, требуя, чтобы компьютер читал исходный текст.пониматьЕго содержимое и выбор содержимого в соответствии с приоритетом, обрезка и объединение содержимого и, наконец, создание гладкого короткого текста. Следовательно, автоматическое реферирование текста должно опираться на соответствующие теории обработки/понимания естественного языка, что является одним из важных направлений исследований в последние годы.

Автоматическое реферирование текста обычно можно разделить на две категории: извлекающее и абстрактное. Извлекающее резюме оценивает важные предложения в исходном тексте,извлекатьЭти предложения становятся резюме. В генеративном методе применяются передовые алгоритмы обработки естественного языка с помощью перефразирования, замены синонимов, сокращения предложений и других технологий.генерироватьБолее краткое и лаконичное резюме. По сравнению с методом извлечения генеративный метод ближе к процессу человеческого обобщения. Исторически так сложилось, что децимация часто опережала генеративную. С появлением и исследованием глубоких нейронных сетей генеративное обобщение текста на основе нейронных сетей быстро развивалось и достигло хороших результатов.

В этой статье в основном представлено генеративное автоматическое реферирование текста на основе глубоких нейронных сетей, основное внимание уделяется типичным моделям реферирования и описывается, как оценивать автоматически сгенерированные рефераты. Учащиеся, заинтересованные в извлечении и генеративном автоматическом обобщении текста, не основанном на глубоких нейронных сетях, могут обратиться к [1][2].

Сгенерированные текстовые резюме

Генеративное суммирование текста создает резюме в более человеческом виде, что требует от генеративных моделей более сильныхпредставлять, понимать, генерироватьумение писать текст. Традиционным методам трудно достичь этих возможностей.В последние годы быстрое развитие глубоких нейронных сетей предоставило больше возможностей благодаря своим мощным возможностям представления и постоянно раздвигало пределы машинного интеллекта в области классификации изображений и машинного анализа. перевод. . С помощью глубоких нейронных сетей генеративное автоматическое суммирование текста также добилось значительного прогресса.Многие модели генеративных нейронных сетей (модели абстрактного суммирования на основе нейронных сетей) превзошли лучшие модели экстрактивного суммирования на тестовом наборе DUC-2004. 4]. Эта часть статьи в основном знакомит с базовой структурой модели генеративной нейронной сети и последними достижениями.

Базовая структура модели

Базовая структура модели генеративной нейронной сети в основном состоит из кодировщика (энкодера) и декодера (декодера), и как кодирование, так и декодирование реализуются нейронной сетью.

img

Кодер отвечает за кодирование входного исходного текста в вектор (контекст), который является представлением исходного текста и содержит текстовый фон. Декодер отвечает за извлечение важной информации из этого вектора, обработку клипов и создание текстовых сводок. Эта архитектура называется Sequence-to-Sequence (далее Seq2Seq) и широко используется в сценариях, где есть входные последовательности и выходные последовательности, такие как машинный перевод (последовательность одного языка в последовательность другого языка), субтитры изображений (пиксельное изображение). от последовательности к языковой последовательности), диалоговые роботы (например, вопрос-ответ) и т. д.

Кодер и декодер в архитектуре Seq2Seq обычно реализуются рекуррентной нейронной сетью (RNN) или сверточной нейронной сетью (CNN).

Модели на основе рекуррентных нейронных сетей

РНС называют рекуррентной нейронной сетью, потому что ее выход зависит не только от входа, но и от выхода в предыдущий момент.

img

Как показано на рисунке выше, выход h в момент времени t зависит не только от входа x в момент времени t, но также зависит от выхода в момент времени t-1, а выход в момент t-1 зависит от входа в момент t- 1 и вывод в t-2, поэтому рекурсивно, временной ряд. Зависимость от вышеизложенного делает RNN теоретически способным выводить в определенное время, учитывая входную информацию обо всех прошлых моментах, особенно подходящую для данных временных рядов, таких как текст , голос, финансовые данные и т. д. Поэтому вполне естественно реализовать архитектуру Seq2Seq на основе RNN для текстовых задач.

Типичная архитектура Seq2Seq на основе RNN показана на следующем рисунке:

img

На рисунке показана модель автоматического ответа на электронные письма, а ее кодировщик и декодер состоят из варианта четырехслойной RNN, LSTM [5] соответственно. Векторный вектор мысли на рисунке кодирует входную текстовую информацию (Ты свободен завтра?), а декодер получает этот вектор и, в свою очередь, декодирует его для генерации целевого текста (Да, как дела?). Вышеупомянутая модель также может быть естественно использована для задач автоматического суммирования текста, где вводом является исходный текст (например, новости), а выводом является сводка (например, заголовки новостей).

Одна из лучших моделей генеративного суммирования текста Seq2Seq на основе RNN в настоящее время исходит от Salesforce, В базовой архитектуре модели используются механизм внимания и обучение с подкреплением. Эта модель будет подробно описана ниже.

Модели на основе сверточных нейронных сетейSeq2Seq также может быть реализован CNN. В отличие от рекуррентных нейронных сетей, которые можно интуитивно применять к данным временных рядов, CNN изначально использовались только для задач с изображениями [6].

img

CNN извлекает функции из изображения с помощью ядер свертки (A и B на приведенном выше рисунке) и применяет максимальное объединение к функциям через определенные промежутки времени для получения различных уровней от простых до сложных функций, таких как линии, поверхности и сложные графические узоры и т. д. ., как показано на рисунке ниже.

img

Преимущество CNN заключается в том, что он может извлекать иерархические признаки и выполнять операции свертки параллельно и эффективно.Так можно ли CNN применять к текстовым задачам? Необработанный строковый текст не дает такой возможности, однако, как только текст представлен как распределенное представление/вложение слов [7], мы можем представить предложение/слово как матрицу/вектор действительных чисел. Такие распределенные векторы позволяют нам применять CNN в текстовых задачах.

img

Как показано на рисунке выше, исходный текст (ждите видео и не берите его напрокат) представлен реальной матрицей. Эта матрица может быть аналогична пиксельной матрице изображения. CNN может «читать» текст только например, «чтение» изображения, изучение и извлечение функций. Хотя текстовые функции, извлеченные CNN, не так интерпретируемы и визуализированы, как функции изображения, текстовые функции, извлеченные CNN, могут быть аналогичны дереву синтаксического анализа при обработке естественного языка, представляя грамматическую иерархию предложения.

img

Наиболее представительной из моделей автоматического реферирования текста на основе сверточных нейронных сетей является модель ConvS2S, предложенная Facebook [9], ее кодировщик и декодер реализованы CNN, а также добавлен механизм внимания, который будет подробно описан ниже. .

Конечно, мы можем не только использовать одну и ту же нейронную сеть для реализации кодировщика и декодера, но и использовать разные сети, например, кодировщик на основе CNN и декодер на основе RNN.

передовой

A Deep Reinforced Model for Abstractive Summarization

Это модель генеративного автоматического суммирования текста на основе RNN, опубликованная Salesforce. Она улучшает способность модели суммировать длинные тексты за счет архитектурных инноваций и нескольких приемов, а также достигает нового уровня развития на CNN/Daily Mail. и наборы данных New York Times.-the-art (лучшая производительность).

Генерация резюме для длинных текстов является сложной задачей в области суммирования текста.Даже лучшие модели глубоких нейронных сетей в прошлом имели такие проблемы, как несоответствие поколений и повторяющиеся слова при решении этой задачи. Для решения вышеуказанных проблем авторы модели предложилимеханизм внутреннего внимания(механизм внутреннего внимания) иновый метод обучения, что эффективно улучшает качество генерации текстовых резюме.

img

В модели применяются два набора механизмов внимания, а именно: 1) классический механизм внимания декодер-кодировщик и 2) механизм внимания внутри декодера. Первый позволяет декодеру динамически получать входную информацию по запросу при генерации результатов, а второй позволяет модели обращать внимание на сгенерированные слова, помогая решить проблему повторения одних и тех же слов и предложений при генерации длинных предложений.

Еще одним нововведением модели является предлагаемая цель смешанного обучения, которая сочетает в себе обучение с учителем (принуждение учителя) и обучение с подкреплением (обучение с подкреплением).

Во-первых, цель обучения содержит традиционную максимальную вероятность. Максимальное правдоподобие (MLE) — это классическая цель обучения в таких задачах, как языковое моделирование, целью которой является максимизация совместного распределения вероятностей слов в предложении, что позволяет модели изучить распределение вероятностей языка.

img

Но для суммирования текста недостаточно учитывать только максимальную вероятность. На это есть две основные причины: во-первых, в обучении с учителем есть справочные «ответы», но их нет, когда оно внедряется в приложение и генерирует резюме. Например, слово, сгенерированное в момент времени t, — это «техника», а сводка ссылок — «наука», тогда, когда слово в момент времени t+1 сгенерировано в ходе обучения с учителем, на входе будет «наука», так что ошибка не исчезнет. накапливать. Но в практических приложениях, поскольку достоверной информации нет, ввод в момент времени t+1 является неправильным «технологическим». Следствием этого является то, что без исправления ошибки будут накапливаться, и эта проблема известна как предвзятость экспозиции. Другая причина заключается в том, что часто при обучении с учителем для текста обычно предоставляется только одно справочное резюме.Обучение с учителем на основе MLE только побуждает модель генерировать точно такое же резюме.Однако, как упоминалось во введении, для текста часто может имеют разные резюме, поэтому требования к обучению с учителем слишком абсолютны. Напротив, метрика ROUGE, используемая для оценки сгенерированных рефератов, допускает эту гибкость, сравнивая эталонные рефераты с сгенерированными рефератами для получения оценки реферата (см. раздел «Оценка рефератов» ниже). Поэтому я надеюсь представить индикатор ROUGE во время обучения. Однако, поскольку ROUGE не является производным, традиционный градиент + обратное распространение не могут быть непосредственно применены к ROUGE. Поэтому естественной идеей является использование обучения с подкреплением, чтобы добавить метрику ROUGE к цели обучения.

Так как же нам оптимизировать модель ROUGE с помощью обучения с подкреплением? Проще говоря, модель сначала генерирует сводную выборку в прямом режиме (вывод), использует индикатор ROUGE для оценки и оценки, а после получения оценки/вознаграждения (вознаграждения) для этой выборки параметры модели обновляются в соответствии с вознаграждение: если выборка, сгенерированная моделью, более вознаграждается, высокая, модель поощряется; если сгенерированные выборки имеют низкий рейтинг, модель не может выводить такие выборки.

img

Конечная цель обучения — средневзвешенное значение максимальной вероятности и функций, основанных на ROUGE.Эти две подцели выполняют свои обязанности: максимальная вероятность берет на себя ответственность за создание хорошей языковой модели, чтобы модель могла генерировать грамматически правильный и беглый текст , а индикатор ROUGE уменьшает погрешность экспозиции, делая сводку более гибкой, а оптимизация для ROUGE также напрямую улучшает показатель ROUGE модели.

Чтобы построить хорошую модель, помимо новаторства в архитектуре, также требуются некоторые небольшие навыки, и эта модель не является исключением. В работе авторы используют следующие приемы:

  1. Обработка проблем неизвестного слова (OOV) с указателями;
  2. Общие веса декодера для ускорения сходимости модели во время обучения;
  3. Ручные правила, которые гласят, что три последовательных слова не могут повторяться.

Таким образом, глубокое обучение + обучение с подкреплением - хорошая идея.Эта модель впервые применяет обучение с подкреплением к задачам суммирования текста и показала хорошие результаты. Я считаю, что ту же идею можно использовать и в других задачах.

Convolutional Sequence to Sequence Learning

Модель ConvS2S была предложена лабораторией искусственного интеллекта Facebook, а ее кодировщик и декодер основаны на сверточных нейронных сетях. Эта модель в основном используется для задач машинного перевода.Когда статья была опубликована, она достигла современного уровня как в задачах англо-немецкого, так и англо-французского перевода. В то же время автор также попытался использовать модель для автоматического суммирования текста.Экспериментальные результаты показывают, что модель Seq2Seq на основе CNN также может достичь почти современной производительности в задаче суммирования текста.

Архитектура модели показана на рисунке ниже. На первый взгляд модель сложная, но на самом деле каждая ее часть относительно интуитивно понятна.Ниже приводится подробное введение в ConvS2S с разбивкой на подмодули.

img

Сначала посмотрите на встроенную часть.

img

Встраивание этой модели является относительно новым.В дополнение к традиционному семантическому встраиванию/встраиванию слов также добавлено встраивание позиции для представления порядка слов в виде распределенного вектора, так что модель может получать информацию о порядке слов и положении, а также имитировать RNN. Восприятие порядка слов. Окончательное вложение представляет собой простую сумму семантических вложений и вложений порядка слов.

После этого вложение слова используется в качестве входных данных для модуля свертки модели.

img

Этот модуль свертки можно рассматривать как классическую свертка плюс нелинейное преобразование. Хотя на рисунке изображен только один слой, на самом деле его можно накладывать слой за слоем, как классический слой свертки.

Здесь мы сосредоточимся на нелинейных преобразованиях.

img

Это нелинейное преобразование называется Gated Linear Unit (GLU) [10]. Он делит результат свертки на две части, и к одной части применяет сигмовидное преобразование, то есть после отображения на интервал от 0 до 1, а с другой частью вектора выполняет поэлементное произведение.

img

Этот дизайн напоминает структуру ворот в LSTM. В определенной степени GLU имитирует структуру ворот в LSTM и GRU, так что сеть имеет возможность управлять передачей информационного потока.Доказано, что GLU очень эффективен в языковом моделировании [10].

Помимо объединения архитектуры вентилей и сверточных слоев, авторы также используют остаточные соединения [11]. Остаточное соединение может помочь построить более глубокие сети и решить такие проблемы, как исчезновение/взрыв градиента.

В дополнение к использованию усовершенствованной сверточной сети в модели также представлен многоэтапный механизм внимания с многоступенчатой ​​структурой. В отличие от предыдущих механизмов внимания, многоскачковое внимание не только требует, чтобы последний слой сверточных блоков декодера обращал внимание на входную и выходную информацию, но также требует, чтобы каждый слой сверточных блоков реализовывал один и тот же механизм внимания. Такой сложный механизм внимания позволяет модели получать больше исторической информации, например, на какие входные данные было обращено внимание.

img

Как и в случае с глубоко укрепленной моделью для абстрактного обобщения, успех ConvS2S заключается не только в инновационной структуре, но и в хитросплетениях с нюансами. В ConvS2S авторы используют очень тщательную инициализацию и нормализацию параметров, что стабилизирует дисперсию и процесс обучения.

Успех этой модели доказывает, что CNN также можно применять к текстовым задачам, представляя долгосрочные зависимости через иерархии. В то же время, поскольку CNN обладает высокой степенью параллелизации, обучение CNN более эффективно, чем обучение RNN. По сравнению с RNN недостатком CNN является то, что нужно настроить больше параметров.

Резюме оценки

Оценка качества реферата – сложная задача.

Трудно сказать, что есть стандартный ответ на реферат. В отличие от многих задач, имеющих объективные критерии, оценка рефератов в некоторой степени опирается на субъективные суждения. Даже в задаче на обобщение такие критерии, как грамматическая правильность, беглость языка и полнота ключевой информации, имеют свои ориентиры.

С конца 1990-х годов некоторые конференции или организации начали работу над разработкой стандартов оценки рефератов, и они также будут участвовать в оценке некоторых автоматических текстовых рефератов. Более известные конференции или организации включают SUMMAC, DUC (Конференция по пониманию документов), TAC (Конференция по анализу текста) и т. д. Среди них широко изучается задача суммирования DUC, и большинство абстрактных моделей суммирования тестируются на наборе данных DUC-2004.

В настоящее время существует два основных метода оценки качества автоматического реферирования текста: методы оценки человека и методы автоматической оценки. Оба типа методов оценки должны отвечать следующим трем пунктам:

  1. Определить наиболее важные части исходного текста, которые необходимо сохранить;
  2. Части в 1 идентифицируются при автоматическом суммировании текста;
  3. Оценивайте удобочитаемость абстракций на основе синтаксиса и согласованности.

Ручной метод оценки

Самый простой способ оценить качество реферата — пригласить нескольких экспертов, чтобы вручную оценить его по критериям. Этот метод близок к человеческому чтению, но требует много времени и труда и не может использоваться для оценки крупномасштабных данных автоматического суммирования текста, что несовместимо со сценарием применения автоматического суммирования текста. Поэтому исследовательская группа по резюмированию текста активно исследует методы автоматической оценки.

метод автоматической оценки

Для более эффективной оценки автоматического реферирования текста можно выбрать одну или несколько метрик, на основе которых сгенерированные рефераты сравниваются с справочными рефератами (написанными человеком рефератами, которые считаются правильными) для автоматической оценки. В настоящее время наиболее часто используемым и признанным индикатором является ROUGE (Recall-Oriented Understudy for Gisting Evaluation). ROUGE представляет собой набор индикаторов, предложенный Линем, включающий некоторые производные индикаторы, наиболее часто используемые ROUGE-n, ROUGE-L, ROUGE-SU:

  • ROUGE-n: этот показатель предназначен для оценки качества сводок путем сравнения n-грамм (n последовательных слов) сгенерированных сводок с эталонными сводками. Обычно используются ROUGE-1, ROUGE-2, ROUGE-3.
  • ROUGE-L: В отличие от ROUGE-n, этот показатель основан на сводке оценки самой длинной общей подпоследовательности (LCS). Если LCS сгенерированного реферата и ссылочного реферата длиннее, то сгенерированный реферат считается более качественным. Недостатком этой метрики является то, что она требует, чтобы n-граммы были последовательными.
  • ROUGE-SU: эта метрика учитывает униграммы (n = 1) и биграммы (n = 2), позволяя вставлять другие слова между первым и вторым словами биграмм, поэтому она более эффективна, чем ROUGE-L более гибкий. В качестве индекса автоматической оценки ROUGE имеет высокую корреляцию с ручной оценкой и может дать эффективную ссылку в сводке автоматической оценки. С другой стороны, из вышеприведенного описания индикатора ROUGE видно, что ROUGE основан на соответствии слов, а не на семантике, чем ближе сгенерированный реферат к эталонному реферату по словам, тем выше его ROUGE. значение будет. Однако, если слова разные, даже если они семантически похожи, результирующее значение ROUGE будет ниже. Иными словами, если в сгенерированном реферате произойдет подстановка синонимов на основе эталонного реферата и перепишется в реферат с совершенно другими словами, хотя это все еще реферат высокого качества, то значение ROUGE покажет обратное. вывод. Как видно из этого крайнего, но возможного примера, в метриках, необходимых для автоматизированных методов оценки, все еще есть некоторые недостатки. В настоящее время, чтобы избежать описанной выше ситуации, при оценке обычно используются несколько рефератов в качестве эталонов и эталонов, что эффективно повышает доверие к ROUGE, а также учитывает неуникальность рефератов. Исследование и изучение методов автоматического суммирования оценок также является горячим направлением исследований в области автоматического суммирования текста.

Суммировать

В этой статье в основном представлено обобщение генеративного текста на основе глубокой нейронной сети, включая базовые модели и недавний прогресс, а также описывается, как оценивать автоматически сгенерированные сводки. Автоматическое обобщение текста является одним из горячих направлений исследований НЛП в настоящее время.От исследования до реального бизнеса еще далеко.Возможные направления развития в будущем: 1) Имитация способа написания резюме человеком и интеграция экстрактивные и генеративные модели 2) Исследование лучших метрик сводной оценки. Я надеюсь, что эта статья поможет вам лучше понять применение глубоких нейронных сетей в задачах автоматического реферирования текста.

Reference

[1] Text Summarization Techniques: A Brief Survey

[2] A Survey on Automatic Text Summarization

[3] Introduction to the Special Issue on Summarization

[4] A Deep Reinforced Model for Abstractive Summarization

[5] Understanding LSTM Networks

[6] LeNet5, convolutional neural networks

[7] What is word embedding in deep learning

[8] A Deep Reinforced Model for Abstractive Summarization

[9] Convolutional Sequence to Sequence Learning

[10] Language Modeling with Gated Convolutional Networks

[11]Deep Residual Learning for Image Recognition

вопросы и ответы

Каков принцип и конкретная реализация глубокого обучения?

Связанное Чтение

Перспектива глубокого обучения | Куда пойдет распознавание изображений?

Классификация текстов на основе глубокого обучения?

10 минут, чтобы приступить к работе, обнаружение текста в естественной сцене OpenCV (код Python + реализация)

[Ежедневная рекомендация курса] Машинное обучение в действии! Быстрый старт бизнеса в сфере онлайн-рекламы и знание CTR

Эта статья была разрешена автором для публикации в сообществе Tencent Cloud + Для получения дополнительных оригинальных текстов, пожалуйстанажмите

Найдите и подпишитесь на общедоступную учетную запись «Сообщество Yunjia», получите технические галантереи как можно скорее и ответьте на 1024 после подписки, чтобы отправить вам подарочный пакет технических курсов!

Огромный технический практический опыт, все вСообщество Юнцзя!