ACL 2021 | Подробное объяснение 7 избранных документов технической группы Meituan

искусственный интеллект алгоритм задняя часть
ACL 2021 | Подробное объяснение 7 избранных документов технической группы Meituan

ACL — самая важная международная конференция на высшем уровне в области компьютерной лингвистики и обработки естественного языка, организованная Международной ассоциацией компьютерной лингвистики и проводимая ежегодно. Согласно индексу публикаций Google Scholar Computational Linguistics, ACL занимает первое место по влиянию и является рекомендованной конференцией CCF-A. Техническая группа Meituan имеет в общей сложности 7 документов (в том числе 6 длинных документов и 1 короткий документ), принятых ACL 2021. Эти документы являются результатами работы технической группы Meituan по извлечению событий, распознаванию сущностей, распознаванию намерений, обнаружению новых слотов и неконтролируемое представление предложений Некоторые передовые исследования и приложения в задачах обработки естественного языка, таких как семантический анализ и поиск документов.

Ежегодное собрание Ассоциации компьютерной лингвистики (ACL 2021) пройдет в Бангкоке, Таиланд, с 1 по 6 августа 2021 года (виртуальная виртуальная конференция). ACL — самая важная международная конференция на высшем уровне в области компьютерной лингвистики и обработки естественного языка, организованная Международной ассоциацией компьютерной лингвистики и проводимая ежегодно. Согласно индексу публикаций Google Scholar Computational Linguistics, ACL занимает первое место по влиянию и является рекомендованной конференцией CCF-A. Тема ACL этого года — «НЛП для общественного блага». Согласно официальной статистике, на конференцию поступило в общей сложности 3350 действительных материалов, в том числе 710 основных докладов конференции (коэффициент принятия 21,3%) и 493 итоговых доклада (коэффициент принятия 14,9%).

Техническая команда Meituan имеет в общей сложности 7 документов (в том числе 6 длинных документов и 1 короткий документ), принятых ACL 2021. Эти документы представляют собой исследование Meituan по извлечению событий, распознаванию сущностей, распознаванию намерений, обнаружению новых слотов, неконтролируемому представлению предложений, семантике. осадков и приложений в задачах обработки естественного языка, таких как синтаксический анализ и поиск документов.

Для извлечения событий мы явно используем информацию о роли аргумента семантического уровня окружающих сущностей, чтобы предложить двунаправленный декодер на уровне сущностей (BERD) для постепенной генерации последовательностей ролей аргументов для каждой сущности. предложена мобильность, а также предложен метод расчета межслотовой мобильности.Сравнивая подвижность целевого слота и исходного слота задачи, находят соответствующий исходный слот задачи для разных целевых слотов.В качестве его исходных слотов заполняется слот модель строится для целевого слота только на основе обучающих данных этих исходных слотов; для распознавания намерений мы предлагаем метод обучения признакам намерения, основанный на контролируемом контрастивном обучении, путем максимизации межклассового расстояния и минимизации внутриклассовой дисперсии. улучшено, чтобы улучшить различение намерений; для обнаружения новых слотов мы впервые определяем новую задачу идентификации слота (Novel Slot Detection, NSD). В отличие от традиционной задачи идентификации слота, новый слот Задача распознавания пытается для обнаружения новых слотов в данных реального диалога на основе существующих данных аннотаций слотов в домене, чтобы постоянно улучшать и расширять возможности диалоговой системы.

Кроме того, чтобы решить проблему «коллапса» собственного представления предложения BERT, мы предлагаем метод переноса представления предложения, основанный на контрастном обучении — ConSERT, с помощью точной настройки неконтролируемого корпуса целевого домена, так что представление предложения генерируемая моделью, согласуется с последующими задачами.Распределение данных является более подходящим. Мы также предлагаем новый метод неконтролируемого семантического анализа, одновременное семантическое декодирование (SSD), который может одновременно решить проблему семантического разрыва и структурного разрыва, используя совместное декодирование парафраз и синтаксических ограничений. Мы также улучшаем способность семантического представления кодирования документов путем улучшения кодирования документов, что не только улучшает эффект, но и повышает эффективность поиска.

Далее мы дадим более подробное введение в эти 7 академических статей, надеясь помочь или вдохновить тех студентов, которые занимаются соответствующими исследованиями.Вы также можете оставить сообщение в области комментариев в конце статьи, чтобы пообщаться вместе .

01 Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder

| Скачать статью| Авторы: Си Сянюй, Е Вэй (Пекинский университет), Чжан Тонг (Пекинский университет), Чжан Шикунь (Пекинский университет), Ван Цюаньсю (RICHAI), Цзян Хуиксин, Увэй | Тип доклада: Длинный доклад основной конференции (устный)

Извлечение событий является важной и сложной задачей в области извлечения информации.Он широко используется в автоматическом обобщении, автоматических ответах на вопросы, поиске информации, построении графа знаний и других областях.Он направлен на извлечение структурированных событий из неструктурированной текстовой информации. Извлечение аргументов событий — важная и чрезвычайно сложная задача извлечения событий для извлечения информации описания (называемой информацией аргументов) конкретных событий, включая участников события, атрибуты события и другую информацию. Большинство методов извлечения аргументов обычно моделируют извлечение аргументов как задачу классификации ролей аргументов для сущностей и связанных событий, а также обучают и тестируют отдельно каждую сущность в наборе сущностей в предложении, игнорируя аргументы-кандидаты. не полностью использовать информацию о роли аргумента семантического уровня окружающих сущностей, игнорируя шаблон распределения с несколькими аргументами в определенных событиях.

Стремясь к проблемам, существующим при обнаружении аргумента текущего события, в этой статье предлагается явно использовать информацию о роли аргумента семантического уровня окружающих сущностей. С этой целью в этой статье сначала моделируется обнаружение аргументов как проблема декодирования на уровне объекта.Для заданных предложений и известных событий модель обнаружения аргументов должна генерировать последовательности ролей аргументов.В то же время, в отличие от традиционной модели Seq2Seq на уровне слов, В этой статье предлагается двунаправленный декодер уровня объекта (BERD), разработанный для постепенного создания последовательностей ролей аргументов для каждого объекта. В частности, в этой статье разрабатывается модуль цикла декодирования на уровне объекта, который может одновременно использовать информацию о текущем экземпляре и информацию об окружающем аргументе, а также принимает как прямой, так и обратный декодеры, которые можно использовать слева направо и справа налево. соответственно Предсказать текущий объект и использовать информацию аргумента слева/справа в процессе одностороннего декодирования, наконец, после завершения двустороннего декодирования в этой статье используется классификатор в сочетании с функциями двустороннего декодирования. способ кодировщика сделать окончательный прогноз, так что информация аргумента на левой и правой сторонах может использоваться одновременно.

В этой статье проводятся эксперименты с общедоступным набором данных ACE 2005, и он сравнивается с различными существующими моделями и современными методами взаимодействия аргументов. Экспериментальные результаты показывают, что производительность метода выше, чем у существующих методов взаимодействия аргументов, а эффект улучшения более значителен в случае большого количества сущностей.

02 Slot Transferability for Cross-domain Slot Filling

| Скачать статью| Авторы: Лу Хэнтун (Пекинский университет почты и телекоммуникаций), Хань Чжуосинь (Пекинский университет почты и телекоммуникаций), Юань Цайся (Пекинский университет почты и телекоммуникаций), Ван Сяоцзе (Пекинский университет почты и телекоммуникаций), Лэй Шую, Цзян Хуиксин, У Вэй | Тип статьи: Результаты ACL 2021, длинная статья

Заполнение слотов направлено на выявление информации о слотах, связанных с задачей, в высказываниях пользователя и является ключевой частью диалоговых систем, основанных на задачах. Когда для определенной задачи (или предметной области) имеется больше обучающих данных, существующая модель заполнения слотов может повысить эффективность распознавания. Однако для новой задачи часто имеется всего несколько корпусов с маркировкой слотов или их нет вообще Как использовать размеченный корпус одной или нескольких существующих задач (исходных задач) для обучения модели заполнения слотов в новой задаче (целевой задаче) , что очень важно для поставленной задачи. Большое значение имеет быстрое расширение применения типа диалоговой системы.

Существующие исследования по этой проблеме в основном делятся на два типа.Первый заключается в непосредственном применении модели, обученной с данными исходной задачи, к цели путем установления неявного семантического выравнивания между представлением информации о слоте исходной задачи и представлением информации о слоте целевой задачи. Эти методы взаимодействуют с содержимым информации о слоте, например описаниями слотов, примерами значений слотов и представлениями слов, определенным образом для получения представлений слов, связанных с слотами, а затем выполняют аннотацию слотов на основе «BIO». Вторая идея использует двухэтапную стратегию.Все значения слотов рассматриваются как сущности.Сначала общая модель распознавания сущностей обучается с данными исходной задачи, чтобы идентифицировать все значения слотов-кандидатов целевой задачи, а затем Значения слота-кандидата представлены информацией о слоте целевой задачи.Сравнение подобия выполняется для классификации слота целевой задачи.

Большая часть существующей работы сосредоточена на построении модели передачи между задачами, которая использует информацию о корреляции между исходными и целевыми задачами, а данные всех исходных задач обычно используются для построения модели. Однако на практике не все данные исходной задачи будут иметь переносимое значение для идентификации слота целевых задач, или значение различных данных исходной задачи для конкретной целевой задачи может сильно отличаться. Например, задача резервирования авиабилетов и задача резервирования билетов на поезд очень похожи, обучающие данные по заполнению слотов первой помогут последней, в то время как задача резервирования авиабилетов и задача запроса погоды сильно различаются, обучающие данные первой не различаются. имеющийся у последнего или только Он имеет небольшое опорное значение и даже играет мешающую роль.

Идя дальше, даже если исходная и целевая задачи очень похожи, не каждый слот исходной задачи будет полезен для всех слотов целевой задачи, например, обучающие данные временного интервала вылета задачи бронирования рейса могут Заполнение временного интервала для запланированных задач помогает, но не для слота типа поезда, а вместо этого мешает. Поэтому мы надеемся найти один или несколько слотов исходных задач, которые могут предоставить эффективную информацию о передаче для каждого слота в целевой задаче, и построить модель переноса между задачами на основе обучающих данных этих слотов, которая может использовать данные исходной задачи. более эффективно.

Для этого сначала предлагается понятие межслотовой переносимости, а для этого предлагается метод расчета межслотовой переносимости На основе расчета переносимости предлагается метод выбора исходной задачи для целевой Задача Метод в слоте, который может предоставить эффективную информацию о миграции. Сравнивая переносимость целевого слота и слота исходной задачи, соответствующий слот исходной задачи находится для разных целевых слотов в качестве его исходного слота, и модель заполнения слота строится только для целевого слота на основе обучающих данных этих исходных. слоты. В частности, переносимость сочетает в себе сходство распределения представления значения слота между целевым слотом и исходным слотом и сходство распределения представления контекста значения слота как переносимость между двумя слотами, а затем назначает слот исходной задачи в соответствии с его переносимостью. целевой слот, обучить модель заполнения слота с помощью обучающего корпуса, соответствующего слоту с наивысшей переносимостью, получить его производительность в наборе проверки целевого слота и добавить новый в соответствии с переносимостью.Слот исходной задачи соответствует обучающему корпуса для обучения модели и получения соответствующей производительности набора проверки.В качестве исходного слота выбирается слот исходной задачи, соответствующий точке с наивысшей производительностью, и слот исходной задачи с переносимостью выше, чем у этого слота. Используйте выбранные исходные слоты, чтобы создать модель заполнения целевых слотов.

Модель заполнения слота идентифицирует значение слота на основе информации о значении слота и контекстной информации значения слота, поэтому, когда мы вычисляем мобильность между слотами, мы сначала измеряем сходство между распределением представления значения слота и распределением представления контекста, и затем мы используем метод слияния значения F для точности и полноты, значение слота представляет сходство распределения, а контекст значения слота представляет сходство распределения, и, наконец, используем Tanh для нормализации полученного значения до 0-1, а затем вычитаем полученное значение от 1, чтобы соответствовать интуитивному познанию того, что чем больше вычисленное значение, тем выше переносимость. Следующая формула представляет собой метод расчета предлагаемой нами межслотовой мобильности:

sim(pv(sa),pv(sb))sim(p_v(s_a),p_v(s_b))иsim(pc(sa),pc(sb))sim(p_c(s_a),p_c(s_b))соответственно представляют сходство слота a и слота b в распределении представления значения слота и распределения представления контекста, и мы используем максимальную среднюю разницу (MMD) для измерения сходства между распределениями.

Мы не предлагаем новую модель, но предлагаемый нами метод выбора исходного слота можно комбинировать со всеми известными моделями. Эксперименты с несколькими существующими моделями и наборами данных показывают, что предлагаемый нами метод может заполнить слот целевой задачи. Модель обеспечивает последовательное улучшение производительности ( В столбце ALL представлена ​​исходная производительность существующей модели, а в столбце STM1 представлена ​​производительность модели, обученная на данных, выбранных нашим методом.)

03 Modeling Discriminative Representations for Out-of-Domain Detection with Supervised Contrastive Learning

| Скачать статью| Авторы: Цзэн Чжиюань (Пекинский университет почты и телекоммуникаций), Хэ Кэцин, Янь Юаньмэн (Пекинский университет почты и телекоммуникаций), Лю Цзыцзюнь (Пекинский университет почты и телекоммуникаций), У Яньань (Пекинский университет почты и телекоммуникаций), Сюй Хун (Пекинский университет почты и телекоммуникаций), Цзян Хуиксин, Сюй Вейран (Пекинский университет почты и телекоммуникаций) | Тип статьи: короткая статья основной конференции (плакат)

В реальной диалоговой системе, основанной на задачах, обнаружение вне домена является ключевым звеном, которое отвечает за идентификацию ненормального запроса, введенного пользователем, и выдачу ответа об отклонении. По сравнению с традиционными задачами распознавания намерений обнаружение аномальных намерений сталкивается с проблемами разреженного семантического пространства и отсутствия помеченных данных. Существующие методы обнаружения аномальных намерений можно разделить на две категории: одна из них - обнаружение аномальных намерений под наблюдением, которое относится к существованию контролируемых данных о намерениях OOD в процессе обучения.Преимущество этого метода заключается в том, что эффект обнаружения лучше, но недостаток заключается в том, что, опираясь на большое количество аннотированных данных OOD, это невозможно на практике. Другим типом является неконтролируемое обнаружение аномальных намерений, при котором используются только данные о намерениях в домене для выявления образцов намерений вне домена.Поскольку предварительные знания о помеченных образцах OOD не могут быть использованы, неконтролируемые методы обнаружения аномальных намерений сталкиваются с более серьезными проблемами. Поэтому в этой статье в основном изучается неконтролируемое обнаружение аномальных намерений.

Основная проблема неконтролируемого обнаружения аномальных намерений заключается в том, как изучить дискриминационные семантические представления из данных о намерениях внутри домена.Мы надеемся, что представления образцов в одной и той же категории намерений близки друг к другу, а образцы в разных категориях намерений находятся далеко друг от друга. друг от друга. Исходя из этого, в этой статье предлагается метод намеренного изучения признаков, основанный на контролируемом контрастном обучении, который улучшает различение признаков за счет максимального расстояния между классами и минимизации внутриклассовой дисперсии.

В частности, мы используем кодировщик контекста BiLSTM/BERT для получения представлений намерений в предметной области, а затем используем две разные целевые функции для представлений намерений: традиционную категориальную кросс-энтропийную потерю и контролируемое контрастивное обучение (контролируемое контрастное обучение). потеря. Контролируемое контрастивное обучение основано на контрастивном обучении, которое устраняет недостаток исходного контрастивного обучения только с одним положительным якорем.В нем используются образцы того же типа, что и положительные образцы, и образцы разных классов в качестве отрицательных образцов, чтобы максимизировать корреляцию между положительными образцами. В то же время, чтобы улучшить разнообразие представления выборки, мы используем метод состязательной атаки для выполнения виртуальной аугментации данных (состязательная аугментация), добавляя шум в скрытое пространство для достижения традиционного аугментации данных, такого как замена символов, вставка и удаление и обратный перевод Эффект. Структура модели следующая:

Мы проверяем влияние модели на два общедоступных набора данных, и экспериментальные результаты показывают, что предложенный нами метод может эффективно улучшить производительность обнаружения аномальных намерений без присмотра, как показано в следующей таблице.

04 Novel Slot Detection: A Benchmark for Discovering Unknown Slot Types in the Task-Oriented Dialogue System

| Скачать статью| Авторы: У Яньань (Пекинский университет почты и телекоммуникаций), Цзэн Чжиюань (Пекинский университет почты и телекоммуникаций), Хэ Кэцин, Сюй Хун (Пекинский университет почты и телекоммуникаций), Янь Юаньмэн (Пекинский университет почты и телекоммуникаций), Jiang Huixing, Xu Weiran (Пекинский университет почты и телекоммуникаций) | Тип доклада: Длинный доклад основной конференции (устный)

Slot Filling — важный модуль в диалоговой системе, который отвечает за идентификацию ключевой информации при вводе пользователем. Существующие модели заполнения слотов могут идентифицировать только предопределенные типы слотов, но в практических приложениях существует большое количество внедоменных типов сущностей, и эти неопознанные типы сущностей имеют решающее значение для оптимизации диалоговых систем.

В этой статье мы впервые определяем задачу обнаружения новых слотов (NSD).В отличие от традиционной задачи идентификации слотов, новая задача идентификации слотов пытается добывать и обнаруживать правду на основе существующих данных аннотаций слотов в домене. В диалоговых данных появляются новые слоты, а затем постоянно совершенствуются и расширяются возможности диалоговой системы, как показано на следующем рисунке:

Сравнивая существующие задачи распознавания OOV и задачи обнаружения намерений вне предметной области, предложенная в данной статье задача NSD имеет существенные отличия: с одной стороны, по сравнению с задачей распознавания OOV объекты, распознаваемые OOV, представляют собой новые слотовые значения. которые не появлялись в обучающей выборке, но тип сущности, к которой относятся эти значения слота, фиксирован, и задача НСД не только должна решать проблему ООВ, но и более серьезную проблему - отсутствие предварительного знание неизвестного типа объекта, полагаясь только на информацию о слоте в домене, чтобы вывести информацию об объекте за пределами домена; с другой стороны, по сравнению с задачей обнаружения намерений вне домена, которая должна идентифицировать только уровень предложения информацию о намерениях, в то время как задача NSD сталкивается с влиянием контекста между объектами в домене и объектами вне домена, а также интерференцией слов, не являющихся объектами, для новых слотов. В целом, задача обнаружения новых слотов (NSD), предложенная в этой статье, сильно отличается от традиционной задачи заполнения слотов, задачи распознавания OOV и задачи обнаружения намерений вне домена и сталкивается с большим количеством проблем. для будущего развития диалоговой системы.

На основе существующих общедоступных наборов данных ATIS и Snips, заполняющих слоты, мы создаем два новых набора данных идентификации слотов, ATIS-NSD и Snips-NSD. В частности, мы случайным образом выбираем некоторые типы слотов в обучающем наборе как категории вне предметной области, а остальные резервируем как категории внутри предметной области.Для примеров, когда в предложении присутствуют как внедоменные, так и внутридоменные категории, мы используем стратегию прямого удаления всей выборки, чтобы избежать предвзятости, вызванной тегом O, и гарантировать, что информация о объектах вне домена появляется только в тестовом наборе, который ближе к реальной сцене. В то же время мы предлагаем ряд базовых моделей для задач NSD, общая схема которых показана на рисунке ниже. Модель состоит из двух этапов:

  • фаза обучения: на основе данных аннотаций слотов в предметной области мы обучаем модель аннотаций последовательностей на основе BERT (мультиклассовую или бинарную) для получения представлений сущностей.
  • тестовая фаза: Во-первых, используйте обученную модель аннотации последовательности, чтобы предсказать тип объекта в предметной области, и на основе полученного представления объекта используйте алгоритм MSP или GDA, чтобы предсказать, принадлежит ли слово слоту Novel, т. е. тип домена и, наконец, объединить два выходных результата, чтобы получить окончательный вывод.

Мы используем F1 распознавания объектов в качестве индекса оценки, включая Span-F1 и Token-F1. Разница между ними заключается в том, рассматривается ли граница объекта. Экспериментальные результаты следующие:

Мы изучаем проблемы распознавания новых слотов с помощью обширных экспериментов и анализов: 1. Путаница между словами, не являющимися сущностями, и новыми сущностями, 2. Недостаток контекстной информации, 3. Зависимости между слотами, 4. Открытые слоты (открытые словарные слоты).

05 ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

| Скачать статью| Авторы: Янь Юаньмэн, Ли Румей, Ван Сируй, Чжан Фучжэн, У Вэй, Сюй Вейран (Пекинский университет почты и телекоммуникаций) | Тип доклада: Длинный доклад основной конференции (плакат)

Обучение представлению векторов предложений занимает важное место в области обработки естественного языка (NLP), и успех многих задач NLP неотделим от обучения высококачественным векторам представления предложений. Особенно в таких задачах, как семантическое сходство текста и поиск плотного текста, модель измеряет семантическую релевантность двух предложений, вычисляя степень сходства закодированных вложений двух предложений в пространстве представления, чтобы определить его оценку совпадения. Хотя модель на основе BERT показала хорошую производительность во многих задачах NLP (посредством тонкой настройки с учителем), ее собственные производные векторы предложений (среднее значение всех векторов слов без тонкой настройки) имеют низкое качество. Она даже не сравнима с моделью Glove. результат, поэтому трудно отразить смысловое сходство двух предложений.

Чтобы решить проблему «коллапса» представления собственного предложения BERT, в этой статье предлагается метод передачи представления предложения, основанный на контрастном обучении - ConSERT, Путем точной настройки неконтролируемого корпуса в целевой области представление предложения, сгенерированное моделью, согласуется с последующей задачей.Распределение данных является более подходящим. В то же время в этой статье предлагаются четыре различных метода увеличения данных для задач НЛП: состязательная атака, нарушение порядка слов, обрезка и отсев. Экспериментальные результаты по задаче Sentence Semantic Matching (STS) показывают, что ConSERT значительно улучшается на 8% по сравнению с предыдущей SOTA (BERT-Flow) при тех же настройках и по-прежнему демонстрирует сильное улучшение производительности в сценариях с небольшим количеством примеров.

В неконтролируемых экспериментах мы напрямую выполняем точную настройку немаркированных данных STS на основе предварительно обученного BERT. Результаты показывают, что наш метод значительно превосходит предыдущий SOTA-BERT-Flow при полностью согласованных настройках, достигая относительного улучшения производительности на 8%.

06 From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding

| Скачать статью| Авторы статьи: У Шань (Институт программного обеспечения Академии наук Китая), Чен Бо (Институт программного обеспечения Академии наук Китая), Синь Чунлей (Институт программного обеспечения Академии наук Китая), Хань Сяньпей (Институт программного обеспечения) Программное обеспечение, Китайская академия наук), Сунь Ле (Институт программного обеспечения, Китайская академия наук), Чжан Вейпэн, Чен Цзяньсун, Ян Фань, Цай Сюньлян | Тип бумаги: Длинная бумага для основной конференции

Семантический анализ — одна из основных задач обработки естественного языка, цель которой — преобразовать естественный язык в компьютерный язык, чтобы компьютер действительно мог понимать естественный язык. Основной проблемой, с которой в настоящее время сталкивается семантический анализ, является отсутствие размеченных данных. Большинство методов нейронных сетей в значительной степени полагаются на контролируемые данные, а аннотация данных для семантического анализа требует много времени и сил. Таким образом, как изучить модель семантического анализа без наблюдения, становится очень важной и сложной проблемой.Проблема заключается в том, что семантический анализ должен охватывать как естественный язык, так и семантическое представление в случае неразмеченных данных, семантических и структурных пробелов. Предыдущие подходы обычно использовали перефразирование как метод переупорядочения или перезаписи для уменьшения семантического разрыва. В отличие от предыдущих методов, мы предлагаем новый метод неконтролируемого семантического разбора, одновременное семантическое декодирование (SSD), который может совместно использовать декодирование с перефразированием и синтаксическим ограничением для одновременного устранения как семантического, так и структурного разрыва.

Основная идея семантического синхронного декодирования состоит в том, чтобы преобразовать семантический разбор в задачу перефразирования. Мы пересказываем предложения в стандартные шаблоны предложений и анализируем семантические представления. Среди них есть взаимно однозначное соответствие между стандартными моделями предложений и логическими выражениями. Чтобы обеспечить генерацию действительных шаблонов стандартных предложений и семантических представлений, стандартные шаблоны предложений и семантические представления декодируются и генерируются в рамках ограничений синхронной грамматики.

Мы декодируем ограниченную синхронную грамматику с помощью модели перефразирования и используем модель генерации текста для оценки канонических шаблонов предложений, чтобы найти канонические шаблоны предложений с наивысшей оценкой (пространство также ограничено грамматикой, как описано выше). В этой статье представлены два разных алгоритма: вывод на уровне правил использует правила грамматики в качестве единиц поиска, а вывод на уровне слов использует слова в качестве единиц поиска.

Мы используем GPT2.0 и T5 для обучения модели перефразирования последовательности к последовательности на наборе данных перефразирования, а затем нужно только использовать алгоритм синхронного семантического декодирования для выполнения задачи семантического анализа. Чтобы уменьшить влияние смещения стиля на создание стандартных шаблонов предложений, мы предлагаем адаптивные методы предварительного обучения и переупорядочивания предложений.

Мы проводим эксперименты на трех наборах данных: Overnight (λ-DCS), GEO (FunQL) и GEO Granno. Данные охватывают различные домены и семантические представления. Экспериментальные результаты показывают, что наша модель достигает наилучших результатов для всех наборов данных без использования контролируемых данных семантического анализа.

07 Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval

| Скачать статью| Авторы статьи: Тан Хунъинь, Сунь Синву, Цзинь Бейхун (Институт программного обеспечения Китайской академии наук), Ван Цзинган, Чжан Фучжэн, Увэй | Тип доклада: Длинный доклад основной конференции (устный)

Цель задач поиска документов состоит в том, чтобы извлечь тексты, которые семантически похожи на заданный запрос из массивной текстовой библиотеки. В сценариях практического применения количество библиотек документов будет очень большим.Чтобы повысить эффективность поиска, задача поиска обычно делится на два этапа, а именно этап первичного скрининга и этап точной сортировки. На этапе предварительного отбора модель выбирает часть документов-кандидатов с помощью некоторых эффективных методов поиска, которые используются в качестве входных данных для последующего этапа уточнения. На этапе точной сортировки модель использует метод высокоточной сортировки для сортировки документов-кандидатов для получения окончательного результата поиска.

С разработкой и применением моделей предварительного обучения многие работы начали одновременно отправлять запросы и документы на предварительное обучение для кодирования и выводить результаты сопоставления. Однако из-за высокой вычислительной сложности предварительно обученной модели выполнение одного вычисления для каждого запроса и документа занимает много времени, и этот метод применения обычно можно использовать только на этапе уточнения. Чтобы ускорить скорость поиска, в некоторых работах начинают использовать предварительно обученные модели для кодирования документов и запросов отдельно, а также кодировать документы в библиотеке документов в векторную форму заранее перед запросом.Сокращение затрат времени. Поскольку таким образом документы и запросы кодируются в форме плотного вектора, этот поиск также известен как плотный поиск.

Базовый метод плотного поиска кодирует документ и запрос в вектор. Однако, поскольку документ содержит много информации, легко потерять информацию. Чтобы улучшить это, были начаты некоторые работы по улучшению векторного представления запросов и документов.Существующие методы улучшения можно условно разделить на три типа, как показано на следующем рисунке:

Наша работа начинается с улучшения кодирования документов для улучшения семантического представления кодировок документов. Прежде всего, мы считаем, что основным узким местом плотного поиска является то, что при кодировании кодировщик документа не знает, какая часть информации в документе может быть запрошена. друг друга, что приводит к изменению или потере информации. Поэтому в процессе кодирования документов мы строим несколько «векторов псевдозапросов» (Pseudo Query Embeddings) для каждого документа, и каждый вектор псевдозапроса соответствует информации, которую может запрашивать каждый документ.

В частности, мы кластеризуем векторы токенов в кодировке BERT с помощью алгоритма кластеризации и сохраняем векторы кластеризации Top-k для каждого документа, которые содержат существенную семантику в векторах токенов нескольких документов. Кроме того, поскольку мы храним несколько фиктивных векторов запросов для каждого документа, это может привести к неэффективности вычисления подобия. Мы используем операцию Argmax вместо Softmax, чтобы повысить эффективность вычисления подобия. Эксперименты с несколькими крупномасштабными наборами данных для поиска документов показывают, что наш метод может повысить как производительность, так и эффективность поиска.

написать на обороте

Вышеупомянутые статьи представляют собой научно-исследовательскую работу, выполненную технической группой Meituan в сотрудничестве с различными университетами и научно-исследовательскими институтами в области извлечения событий, распознавания сущностей, распознавания намерений, обнаружения новых слотов, представления предложений без присмотра, семантического анализа и поиска документов. . . . Диссертация является отражением конкретных проблем, с которыми мы столкнулись и решили в реальной работе, и я надеюсь, что она может быть полезной или поучительной для всех.

Научно-исследовательское сотрудничество Meituan направлено на создание моста и платформы для сотрудничества между различными отделами Meituan и университетами, научно-исследовательскими институтами и аналитическими центрами.Опираясь на богатые бизнес-сценарии Meituan, ресурсы данных и реальные промышленные проблемы, оно является открытым и инновационным, и собирает восходящие силы.Разведка, большие данные, Интернет вещей, беспилотное вождение, операционная оптимизация, цифровая экономика, связи с общественностью и другие области, совместное изучение передовых технологий и макроэкономических вопросов, ориентированных на промышленность, содействие сотрудничеству и обмену между промышленностью, университетом и исследованиями. и преобразование достижений, а также способствовать развитию выдающихся талантов. Заглядывая в будущее, мы надеемся на сотрудничество с преподавателями и студентами из других университетов и научно-исследовательских институтов.Вы можете связаться с нами (meituan.oi@meituan.com).

Прочтите другие подборки технических статей от технической команды Meituan

внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

| Эта статья подготовлена ​​технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.

Категории