Краткое изложение метода чемпиона конкурса по оценке диалогов в открытом домене DSTC10

В этом документе представлен MME-CRS, лучший метод оценки диалога в открытом домене международного конкурса DSTC 10. Этот метод разрабатывает множество показателей оценки и использует алгоритм перенормировки корреляции для интеграции оценок различных показателей, чтобы разработать более расширенное поле оценки диалога.Эффективные индикаторы оценки обеспечивают ссылку. Связанные методы были одновременно опубликованы на семинаре AAAI 2022. Я надеюсь, что это может вдохновить или помочь студентам, работающим в этой технической области.

1. Предпосылки

Dialog System Technology Challenge DSTC (The Dialog System Technology Challenge) был запущен в 2013 году учеными из Microsoft и Университета Карнеги-Меллона Авторитет и популярность. Конкурс Dialogue System Challenge проводится уже десятый год (DSTC10) в этом году, в нем принимают участие всемирно известные компании, ведущие университеты и учреждения, такие как Microsoft, Amazon, Университет Карнеги-Меллона, Facebook, Исследовательская лаборатория электроники Mitsubishi, Meituan, Baidu и т. д. Легкая атлетика.

DSTC10 содержит в общей сложности 5 дорожек, и каждая дорожка содержит несколько подзадач в определенном диалоговом поле. Среди них Track5 Task1 Automatic Open-Domain Dialogue Evaluation систематически и всесторонне представляет задачу автоматической оценки открытого диалога в конкурсе DSTC10. Автоматическая оценка открытого диалога является важной частью диалоговых систем, которая предназначена для автоматического предоставления результатов оценки качества диалога, соответствующих человеческой интуиции. По сравнению с медленным и дорогостоящим ручным аннотированием, автоматизированный метод оценки может эффективно и с меньшими затратами оценивать различные диалоговые системы, что эффективно способствует развитию диалоговых систем.

В отличие от диалогов на основе задач, которые имеют фиксированную цель оптимизации, диалоги с открытым доменом ближе к реальным человеческим диалогам и их сложнее оценить, что привлекает всеобщее внимание. Конкурс DSTC10 Track5 Task1 содержит в общей сложности 14 проверочных наборов данных (всего 37 различных параметров оценки диалога) и 5 тестовых наборов данных (всего 11 параметров оценки). Команда Meituan Voice, наконец, заняла первое место в соревновании со средней корреляцией 0,3104.Эта часть работы завершила документ MME-CRS: мультиметрическая оценка, основанная на повторном масштабировании корреляции для оценки диалога в открытом домене, и Включено в семинар AAAI2022.

图1 DSTC10对话系统挑战赛

2 Введение в конкурс

Конкурс по оценке диалога в открытой области собирает классические наборы данных в документах в области диалога, включая 14 наборов данных для проверки (12 наборов данных на уровне поворота и 2 набора данных на уровне диалога) и 5 наборов данных для тестирования.

Каждый разговор в наборе данных в основном содержит следующую информацию:

Контекст: вопрос в беседе или контекст беседы.
Ответ: ответ на контекст, то есть конкретный оцениваемый объект; ответ в наборе данных диалога обычно генерируется различными моделями генерации диалога, такими как GPT-2 и T5.
Ссылка: Вручную заданные справочные ответы на Контекст, обычно около 5.

Каждый диалог содержит несколько параметров оценки, таких как корреляция между контекстом и ответом, беглость самого ответа и т. д. Параметры оценки каждого набора данных различны, и 14 наборов проверки содержат в общей сложности 37 различных параметров оценки, включая «Общее», «Грамматика», «Релевантность», «Уместность», «Интересность» и т. д. Каждое измерение оценки имеет аннотированную вручную оценку в диапазоне от 1 до 5, причем более высокие оценки указывают на более высокое качество текущего измерения оценки.

Статистика набора проверки и набора тестов показана на рисунке 2 и рисунке 3:

图2 DSTC10 Track5 Task1验证集数据统计信息

图3 DSTC10 Track5 Task1测试集数据统计信息

Повороты представляют собой количество раундов диалога в соответствующем наборе данных; Качество представляет собой измерение оценки каждого диалога в наборе данных, и каждое измерение оценки имеет соответствующую оценку аннотаций, сделанных вручную; Annos представляет количество аннотаций в каждом наборе данных.

В этом конкурсе каждый набор данных, каждый разговор и каждый параметр оценки имеют вручную помеченный балл, и диапазон баллов обычно составляет от 1 до 5, а среднее значение обычно используется для расчета корреляции. Команды должны разработать индикаторы оценки, чтобы прогнозировать баллы по различным параметрам оценки каждого диалога. Оценка прогнозирования каждого оценочного измерения каждого набора данных будет рассчитываться с помощью корреляции Спирмена с оценкой ручной аннотации, а окончательные результаты конкурса будут усредняться на основе оценочных измерений всех наборов тестовых данных.

3 Существующие методы и проблемы

3.1 Существующие методы

Существует три основных категории автоматических методов оценки открытого диалога.

Метод на основе перекрытия

Ранние исследователи сравнивали Ссылку и Ответ в диалоговой системе с исходными предложениями и переведенными предложениями в машинном переводе и использовали оценочные показатели машинного перевода для оценки качества диалога. Метод на основе перекрытия вычисляет перекрытие слов между ответом и ссылкой в диалоге.Чем выше перекрытие слов, тем выше оценка. Классические методы включают BLEU^[1]и РУЖ^[2]и т. д., где BLEU измеряет качество оценки с точки зрения точности, а ROUGE измеряет качество с точки зрения отзыва. Оценка ответа зависит от данной ссылки, а подходящий ответ в открытом домене бесконечен, поэтому метод, основанный на перекрытии, не подходит для оценки диалога в открытом домене.

Подход, основанный на встраивании

Благодаря быстрому развитию векторов слов и предварительно обученных языковых моделей методы оценки на основе встраивания достигли хороших результатов. Ответ и ссылка кодируются соответственно на основе глубокой модели, а показатель корреляции рассчитывается на основе их кодирования. Основные методы включают жадное сопоставление.^[3]、Встраивание усреднения^[4]и BERTscore^[5-6]Ждать. По сравнению с методом, основанным на перекрытии, метод, основанный на встраивании, имеет большое улучшение, но он также зависит от эталона, и остается еще много возможностей для оптимизации.

Подход, основанный на обучении

Существует «один ко многим» для оценки диалога в открытом домене на основе ссылок.^[7]Дилемма: То есть соответствующий ответ для диалога в открытом поле неограничен, но искусственно созданная ссылка ограничена (обычно около 5). Таким образом, существуют большие ограничения при разработке методов оценки открытой области, основанных на сходстве (буквальном перекрытии или семантическом сходстве) между эталоном и ответом. По сравнению с существующими методами, основанными на перекрытии, и методами, основанными на встраивании, метод ADEM^[8]Впервые для кодирования контекста и ссылки используется иерархический кодировщик, а входной ответ оценивается. Метод ADEM оптимизирует параметры модели на основе среднеквадратичной ошибки оценки модели и оценки вручную, и ожидается, что он приблизится к оценке человека. По сравнению с методом, основанным на перекрытии, и методом, основанным на внедрении, модель ADEM добилась больших успехов, а метод, основанный на обучении, постепенно стал основным методом автоматической оценки в открытом поле.

Чтобы постоянно повышать точность и полноту оценки диалога, один за другим появляются различные параметры оценки. В ответ на проблемы, связанные с увеличением числа параметров оценки, USL-H^[9]Параметры оценки делятся на три категории: понятность, осмысленность и привлекательность, как показано на рисунке 4. USL-H предлагает три индикатора: VUP (прогнозирование действительного высказывания), NUP (прогнозирование следующего высказывания) и MLM (модель языка маски) соответственно для измерения диалога:

Является ли ответ гладким.
Степень корреляции между Context и Respose.
Является ли сам ответ подробным, более человечным и т. д.

图4 USL-H评估算法的分层次模型

3.2 Вопрос

Существующие методы оценки в основном имеют следующие проблемы:

Разработанные индикаторы диалога недостаточно полны, чтобы всесторонне измерить качество диалога.

Существующие методы автоматической оценки в основном сосредоточены на некоторых параметрах оценки отдельных наборов данных. Взяв текущий всеобъемлющий USL-H в качестве примера, этот метод учитывает беглость и богатство ответа и корреляцию пар предложений контекст-ответ, но USL-H игнорирует:

Более детальная согласованность темы в паре предложений «контекст-ответ».
Вовлеченность респондента в текущий разговор.

Эксперименты показывают, что упущение этих показателей серьезно влияет на эффективность метода оценки. Для более всесторонней и стабильной оценки множественных наборов данных диалогов необходимо разработать индикаторы, которые учитывают больше аспектов оценки.

Отсутствие эффективных методов интеграции метрик

Большинство существующих методов, как правило, разрабатывают показатель оценки для каждого параметра оценки, что недостаточно ввиду все большего числа параметров оценки (учитывая, что набор тестов для соревнований содержит в общей сложности 37 различных параметров оценки). Оценка каждого параметра диалога может зависеть от нескольких показателей оценки.Например, параметр логической оценки требует диалога: 1) ответ плавный; 2) ответ и контекст связаны. Разработка базовых подпоказателей оценки, а затем объединение нескольких подпоказателей для подсчета баллов с помощью соответствующих методов интеграции может более полно и эффективно представить различные аспекты оценки диалога.

4 Наш подход

Поскольку индикаторы оценки недостаточно полны, в этом документе разработано в общей сложности 7 индикаторов оценки (Многометрическая оценка, MME) в 5 категориях, чтобы всесторонне измерить качество диалога. Основываясь на разработанных 5 категориях и 7 основных показателях, мы также предлагаем метод повторного масштабирования корреляции (CRS) для интеграции оценок различных показателей оценки. Мы называем предложенную модель MME-CRS, а общая архитектура модели показана на рисунке 5:

图5 模型总体架构设计图

4.1 Основные показатели

Чтобы решить первую проблему существующих методов, а именно, разработанные индикаторы диалога недостаточно полны, мы разработали в общей сложности 7 субиндексов оценки в 5 категориях в конкурсе.

4.1.1 Fluency Metric (FM)

Цель: Проанализируйте, является ли сам ответ достаточно беглым и понятным.

содержание: сначала на основе набора данных Dailydialog.^[10]Чтобы построить набор данных беглости ответов, процесс выглядит следующим образом:

Случайным образом выберите ответ в наборе данных Dailydialog и решите, является ли r положительной или отрицательной выборкой с вероятностью 0,5.
Если выборка r является положительной выборкой, случайным образом выберите корректировку: а) без корректировки; б) для каждого стоп-слова удалите его с вероятностью 0,5.
Если выборка r является отрицательной выборкой, случайным образом выберите корректировку: а) случайным образом перетасуйте порядок слов, б) случайным образом удалите определенную часть слов, в) случайным образом выберите несколько слов и повторите.

После построения набора данных о беглости на основе вышеуказанных правил модель предварительного обучения SimCSE модель^[11]настроить. Точно настроенная модель может рассчитать показатель беглости ответа для любого диалога, который записывается как показатель FM.

4.1.2 Relevance Metric (RM)

Цель: проанализируйте корреляцию между контекстом и ответом.

содержание: Создайте набор корреляционных данных в виде пар предложений контекст-ответ на основе набора данных Dailydialog, в котором пары предложений коррелируются как положительные образцы и нерелевантные как отрицательные образцы. Обычная идея построения отрицательных образцов состоит в том, чтобы случайным образом заменить ответ ответом других диалогов. PONE-метод^[12]Отмечается, что случайно выбранные Respose и Context в основном не имеют значения, а польза от обучения модели невелика. Поэтому практика здесь заключается в том, чтобы случайным образом выбрать 10 ответов, вычислить семантическую корреляцию с реальным ответом и выбрать предложение со средним рейтингом в качестве псевдовыборки. После создания набора данных настройте его на модели SimCSE.Настроенную модель можно использовать для расчета показателя корреляции между контекстом и ответом в диалоге, который записывается как показатель RM.

4.1.3 Topic Coherence Metric (TCM)

Цель: проанализируйте согласованность темы контекста и ответа.

содержание: метод GRADE^[13]Строится графическое представление контекста и ответа на уровне темы, и вычисляется релевантность контекста и ответа на уровне темы. По сравнению с индикаторами грубой корреляции, GRADE уделяет больше внимания степени корреляции тем на мелкозернистом уровне, что является эффективным дополнением к индикаторам корреляции. Индикатор TCM основан на методе GRADE.

Конкретный процесс выглядит следующим образом: сначала извлеките ключевые слова из контекста и ответа, чтобы построить график, в котором каждое ключевое слово является узлом, а между ключевыми словами контекста и ответа есть только ребро. На основе ConceptNet получается представление каждого узла, а затем сеть внимания графа (GAT) используется для агрегирования информации о соседних узлах по ключевым словам и итерации представления каждого узла Наконец, представление всех узлов синтезируется для получения Графическое представление диалога. Полносвязный слой подключается к представлению графа на уровне темы для классификации, а точно настроенная модель может использоваться для расчета оценки TCM диалога.

4.1.4 Engagement Metric (EM)

Цель: проанализируйте, насколько человек или модель диалога, генерирующая ответ, готовы участвовать в текущем разговоре.

содержание: все упомянутые выше показатели оценивают качество разговоров с точки зрения контекста и реакции, а вовлеченность пользователей оценивается на основе точки зрения пользователей. Оценка вовлеченности пользователей обычно равна 05. Чем больше оценка, тем выше заинтересованность пользователя в участии в текущем разговоре. Мы будем набор данных ConvAI^[10]оценка вовлеченности от 15 масштабируется до 0 ~ 1 как набор данных для оценки вовлеченности. Предварительно обученная модель по-прежнему использует SimCSE для прогнозирования оценки вовлеченности в разговор. Предварительно обученную модель можно использовать для прогнозирования оценки вовлеченности пользователя в разговор, обозначаемой как EM.

4.1.5 Specificity Metric (SM)

Цель: Проанализируйте, достаточно ли подробен сам ответ.

содержание: Индикатор SM используется, чтобы избежать двусмысленности ответа и недостатка информации.

Конкретный метод заключается в следующем: Маска последовательности отбрасывает каждый маркер в ответе и вычисляет потерю отрицательного логарифмического правдоподобия на основе задачи MLM модели SimCSE.Результирующая оценка называется SM-NLL. Функциями потерь замещения являются отрицательная перекрестная энтропия и растерянность, а также могут быть получены оценки SM-NCE и SM-PPL соответственно, и в общей сложности оцениваются 3 показателя SM. Баллы трех индикаторов SM должны быть нормализованы между 0 и 1 соответственно.

4.2 Комплексный подход CRS

Интеграция оценки различных показателей оценки является эффективным средством повышения эффективности автоматизированной оценки диалогов.

Для каждого оцениваемого диалога можно получить 7 различных баллов на основе вышеуказанных 5 категорий и 7 основных показателей. Для оценки определенного оценочного параметра набора данных необходимо всесторонне оценить 7 показателей, чтобы получить комплексную оценку, которая используется для расчета корреляции с оценкой человека. Наш метод ансамбля разделен на следующие два шага.

4.2.1 Расчет распределения веса различных оценочных размеров

Во-первых, рассчитываются показатели корреляции семи показателей оценки для каждого измерения оценки каждого набора данных в наборе проверки.Чем выше показатель корреляции, тем более важным считается показатель для измерения оценки. Больший вес присваивается более важному индексу оценки, и полученный вес повторно нормализуется в измерении индекса, так что получается распределение весов различных индексов оценки в каждом измерении оценки каждого набора данных:

в $S_{ijk}$ первый $i$ набор данных № $j$ по оценочному аспекту $k$ Показатель корреляции каждого индекса оценки, $d_{ij}$ - мощность показателя корреляции, $d_{ij}$ Чем больше индекс, тем выше вес индекса с более высокой оценкой корреляции. Обычно, когда макс ( $S_{ijk}^{d_{ij}}$ ) лучше всего интегрируется между 1/3 и 1/2, что рассчитывается $d_{ij}$ простой и действенный метод. В эксперименте $d_{ij}$ Установите константу для лучшего обобщения, мы будем $d_{ij}$ Установите его на 2 и рассчитайте распределение веса на проверочном наборе, а затем перенесите его на тестовый набор и добейтесь наилучших результатов среди конкурентов.

В измерении набора данных веса одного и того же оценочного измерения в разных наборах данных усредняются для получения распределения весов каждого оценочного измерения по разным показателям оценки:

Обратите внимание, что полученное здесь распределение веса не имеет ничего общего с конкретным набором данных, и распределение веса может быть перенесено на тестовый набор.

4.2.2 Расчет взвешенной суммы баллов индикаторов

Для каждого параметра оценки каждого набора тестов подсчитайте баллы по 7 индикаторам и рассчитайте взвешенную сумму на основе весов первого шага, чтобы получить комплексный балл:

Взвешенная комплексная оценка и ручная оценка используются для расчета корреляции, и получается оценка корреляции между модельной оценкой и ручной оценкой по каждому параметру оценки.

Наш метод ансамбля взвешивается и перенормируется на основе оценки корреляции показателей, поэтому этот метод ансамбля называется методом перенормировки корреляции. Используя метод ансамбля CRS для полученного индекса MME, можно получить алгоритм оценки MME-CRS.

5 Экспериментальный анализ

5.1 Экспериментальные результаты

Наш метод в основном основан на предварительном обучении набора данных Dailydialog (за исключением того, что субиндикатор EM использует набор данных ConvAI2), вычисляет весовое распределение ансамблевого метода на наборе проверки конкуренции и, наконец, достигает оценки корреляции Спирмена 0,3104 на тестовом наборе.

На рис. 6 показана эталонная модель Deep AM-FM.^[14]А также производительность 5 лучших команд в соревновании на тестовом наборе с разными размерностями оценки набора данных. Наш метод занял первое место со средним коэффициентом корреляции Спирмена 0,3104 и занял первое место по 6 из всех 11 параметров оценки в 5 наборах данных, что доказывает превосходную эффективность нашего метода.

图6 测试集上Top 5队伍的Spearman相关性打分对比（%）

Для удобства отображения метод на рисунке использует метод отображения измерения оценки набора данных. Среди них J, E, N, DT и DP представляют собой наборы данных JSALT, ESL, NCM, DST10-Topical и DSTC10-Persona соответственно, а A, C, G и R представляют собой соответствие, содержание, грамматику и релевантность. измерения оценки, соответственно. Мы выделяем лучшую производительность по каждому параметру оценки.

5.2 Эксперимент по абляции

В экспериментальной части абляции мы берем оценку метода MME-CRS в этой статье в качестве эталона и удаляем индикаторы FM, RM, TCM, EM, SM, RM + TCM на этапе интеграции и сравниваем важность различные показатели в процессе интеграции. Экспериментальная производительность показана на рисунке 7:

图7 测试集上不同评估指标的消融实验（%）

И индикатор корреляции RM, и индикатор согласованности тем TCM используют информацию о контексте и ответе в диалоге, поэтому эти два индикатора удаляются в эксперименте, чтобы наблюдать влияние на производительность. Из результатов эксперимента на рисунке 7 видно, что:

TCM, RM и EM внесли наибольший вклад в производительность модели.После удаления этих трех показателей оценки на этапе интеграции оценок средний показатель корреляции Спирмена в тестовом наборе снизился на 3,26%, 1,56% и 1,01% соответственно.
Крупномасштабные метрики RM и детализированные метрики TCM выгодны и дополняют друг друга. Если индикаторы RM или TCM удаляются по отдельности, производительность немного снизится; если индикаторы RM и TCM удаляются одновременно, в методе оценки отсутствует контекстно-зависимая информация, и производительность значительно снижается до 11,07%.
Улучшение индикатора SM на тестовом наборе в основном незначительно. Мы анализируем причину этого: каждая модель генерации, используемая для генерации ответа в тестовом наборе, чрезмерно приспособлена к корпусу тестового набора, поэтому генерируется много очень подробных ответов, не связанных с контекстом. Поэтому плюсы и минусы индекса SM мало влияют на оценку качества тестовой выборки.

5.3 Эффект CRS

Чтобы проанализировать роль интегрированного алгоритма CRS, в этом документе сравнивается производительность двух методов оценки MME-CRS и MME-Avg (простое среднее нескольких показателей MME), как показано на рисунке 8:

图8 MME-CRS和MME-Avg在测试集上的性能对比（%）

Как видно из рисунка, метод MME-CRS на 3,49% выше, чем MME-Avg, что доказывает превосходную производительность алгоритма CRS при оценке интегрированных подпоказателей.

6 Резюме

В этом конкурсе мы суммируем две основные проблемы автоматической оценки диалогов в открытом домене, а именно отсутствие всесторонних метрик оценки и отсутствие эффективных методов интеграции метрик. В связи с тем, что показатели оценки недостаточно полны, в данной статье для всестороннего измерения качества диалога разработаны 5 категорий и 7 показателей оценки.На основе 7 основных показателей предлагается метод корреляционной перенормировки для расчета интегральной оценки. каждого параметра оценки диалога.

Хотя метод, описанный в этой статье, показал хорошие результаты в конкурсе DSTC10, в будущем мы продолжим изучение других более эффективных метрик оценки и методов интеграции метрик. Мы пытаемся применить технологию в конкурсе к конкретному бизнесу Meituan, например, к интеллектуальному исходящему роботу, интеллектуальному маркетингу и интеллектуальному обслуживанию клиентов в центре голосового взаимодействия, а также оценить качество диалога между машиной и покупателем-человеком. услугу и пользователя во многих различных измерениях Оптимизируйте эффект диалога и повысьте удовлетворенность пользователей.

использованная литература

[1] Папинени К., Роукос С., Уорд Т. и Чжу В.-Дж., 2002. Bleu: Метод автоматической оценки машинного перевода, Материалы 40-го ежегодного собрания Ассоциации Компьютерная лингвистика, 311–318.

[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.

[3] Русь В. и Линтеан М. 2012. Оптимальная оценка вклада учащегося в естественном языке с использованием показателей подобия слов, Международная конференция по интеллектуальным системам обучения, 675–676, Springer.

[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.

[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.

[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.

[7] Чжао Т., Чжао Р. и Эскенази М. 2017. Изучение разнообразия на уровне дискурса для моделей нейронных диалогов с использованием условных вариационных автокодировщиков, Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1). : Длинные статьи), 654–664.

[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.

[9] Phy, V., Zhao, Y., and Aizawa, A. 2020. Деконструкция для реконструкции настраиваемой оценочной метрики для диалоговых систем с открытым доменом, Материалы 28-й Международной конференции по компьютерной лингвистике, 4164–4178.

[10] Чжао, Т., Лала, Д., и Кавахара, Т. 2020. Разработка точных и надежных средств оценки ответа на диалог, Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики, 26–33.

[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.

[12] Лан Т., Мао С.-Л., Вэй В., Гао С. и Хуанг Х., 2020. Поне: новая метрика автоматической оценки для систем генеративного диалога с открытым доменом. по информационным системам (ТОИС), 39(1): 1–37.

[13] Хуанг, Л., Е, З., Цинь, Дж., Лин, Л., и Лян, X. 2020. Оценка: Автоматическая графическая метрика согласованности для оценки диалоговых систем с открытым доменом. Конференция 2020 г. по эмпирическим методам обработки естественного языка (EMNLP), 9230–9240.

[14] Чжан К., Д'Аро Л.Ф., Бэнчс Р.Э., Фридрихс Т. и Ли Х., 2021 г. Deep AM-FM: набор инструментов для автоматической оценки диалогов, In Conversational Dialogue Systems for the Next Decade, 53–69. Спрингер.

об авторе

Pengfei, Xiaohui, Kaidong, Wang Jian, Chunyang и другие — инженеры отдела Meituan Platform/Voice Interaction.

Прочтите другие сборники технических статей от технической команды Meituan

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.