[Техническая практика OPPO Xiaobu Assistant] Часть 1:Введение в диалоговую систему и инженерную практику OPPO Xiaobu Assistant
Диалоговое взаимодействие является очень творческим ключевым технологическим направлением в следующую эру после традиционных ПК, ПК-Интернета и мобильного Интернета. И академические, и промышленные круги привлекают к себе большое внимание. В то же время, это ключ к стратегии интеграции OPPO. узлов, несущих великую и трудную миссию.
Алгоритм — одна из основных возможностей диалогового взаимодействия, которая определяет уровень интеллекта, которого могут достичь голосовые помощники, и имеет чрезвычайно высокую техническую ценность. Эта статья является второй частью раскрытия технологии, лежащей в основе Xiaobu. В ней в основном представлены цели диалога и взаимодействия, ключевые проблемы, которые должен решить алгоритм, текущая ситуация и тенденции отрасли, основная практика и прогресс OPPO Xiaobu. Помощник, а также проблемы и аспекты будущего.
1. Задачи и ключевые вопросы диалогового взаимодействия
Вообще говоря, целью диалогового взаимодействия является завершение процесса взаимодействия человека с компьютером, такого как выполнение задач, получение информации и эмоциональное общение посредством естественного диалога посредством речи или текста. Например, интеллектуальные помощники, такие как Джарвис и Дабай в научно-фантастических фильмах, представляют собой ожидания людей в отношении идеального состояния возможностей диалога и взаимодействия.
В последние годы все большее внимание уделяется диалоговому взаимодействию, с чем это связано? На самом деле, оглядываясь назад на развитие информационных технологий за последние 40 лет, это нетрудно понять. Мы знаем, что информационные технологии пережили несколько крупных эпох традиционных ПК, ПК-Интернета и мобильного Интернета, каждая из которых тесно связана с оборудованием, которое, в свою очередь, породило революцию в методах доступа и взаимодействия.
Теперь мы движемся к эре AIoT, где возлагаются большие надежды.Благодаря своему огромному воображению в поисковых системах нового поколения, центрах распределения суперуслуг и новых методах взаимодействия диалоговое взаимодействие принесло следующее изменение взаимодействия начального уровня в этом новом эпоха.Миссия Видение.
Однако добиться идеального эффекта диалогового взаимодействия очень сложно, главным образом потому, что для этого необходимо перешагнуть через нынешнюю зрелую технологию перцептивного интеллекта и перейти к проблеме определения когнитивного интеллекта. Типичные когнитивные проблемы включают в себя то, как представлять и понимать здравый смысл, как наделить машины способностями к рассуждениям и планированию и как наделить машины человеческим воображением и автономией.
В определенной степени можно сказать, что решение проблемы когнитивного интеллекта в принципе эквивалентно реализации сильного искусственного интеллекта, который показывает высокую сложность диалога и взаимодействия.
Основной поток диалогового взаимодействия показан на рисунке ниже. Нетрудно обнаружить, что почти все ключевые узлы связаны с алгоритмами. Алгоритмы являются основной возможностью для достижения лучших эффектов диалогового взаимодействия.
Семантическое понимание и способность к диалогу находятся в центре внимания этой статьи.Основная задача состоит в том, чтобы понять, чего хочет пользователь, а затем решить, что дать пользователю после получения пользовательского запроса, и, наконец, собрать соответствующие ресурсы, чтобы должным образом удовлетворить пользователя. Система семантического алгоритма, состоящая из семантического понимания и способности к диалогу, предназначена для достижения вышеуказанных целей Система в основном столкнется с двумя типами системных проблем и техническими проблемами, как показано на следующем рисунке.
Систематические проблемы включают в себя то, как отделить и разобрать сложные системы, которые должны поддерживать запросы во всех областях, сотнях навыков, нескольких устройствах и нескольких каналах, как эффективно решать такие проблемы, как несколько требований к продукту, несколько модулей, несколько процессов и большой алгоритм. неопределенность, итерация, столкновение с неисчерпаемым разнообразием устных запросов, как обеспечить опыт с помощью мониторинга эффекта, как избежать «умственно отсталого» опыта, такого как низкоуровневые дефекты, ответы на вопросы без ответов и перезапись.
Технические проблемы включают в себя выбор алгоритмов, моделирование и решение ключевых проблем, контроль нескольких раундов диалога и гарантию производительности.
2. Состояние отрасли и тренды алгоритмов
Прежде всего, диалоговое взаимодействие становится все более и более зрелым в сценариях приложений, охватывая многие области, такие как умный дом, транспортное средство, путешествия, профессиональные услуги и т. д. Удобство и скорость являются естественными преимуществами диалогового взаимодействия на естественном языке, которое принято все больше и больше пользователей.По оценкам, в 2020 году будет более 7 миллиардов устройств, оснащенных голосовыми помощниками.
Кроме того, с точки зрения тенденций развития, топовые технологические компании не отказывались от инвестиций в это направление в течение последних десяти лет: Apple, Amazon и Google представлены в зарубежных странах, и все они считают диалог и взаимодействие своим делом. очень важное направление, внутренняя ситуация Точно так же Baidu, Xiaomi и Али активно развертываются, стремясь захватить будущий вход трафика диалогового взаимодействия.
Тенденция, заслуживающая внимания, заключается в том, что разговорные и интерактивные интеллектуальные помощники для сторонних устройств постепенно исчезают, и каждая компания в основном ориентируется на свои собственные устройства, чтобы активно развиваться.В дополнение к причине, по которой родственные технологии тесно связаны с устройствами, есть более важная причина.Эта запись настолько важна, что ни один производитель головных устройств не желает передавать ее сторонним техническим сторонам.
Диалоговое взаимодействие также является горячей темой академических исследований.Из анализа тенденций статей ACL видно, что диалоговое взаимодействие появилось в последние пять лет и стало самым популярным направлением исследований в 2019 и 2020 годах.
Ссылка: Тенденции ACL:public.flourish.studio/visual — это ATI…
С точки зрения основных алгоритмов когнитивного понимания, его парадигма решения эволюционировала от традиционной многомодульной конвейерной схемы, которая сильно зависит от языка, типов задач и опыта ручной настройки, до более простой, общей и эффективной сквозной интегрированной схемы. Эволюция этой парадигмы значительно упрощает процесс решения проблем, не только позволяет эффективно избегать накопленных ошибок, но также позволяет применять большие данные, большие модели и большие вычислительные мощности, что значительно улучшает эффект.
За последние два года появилась крупномасштабная модель предварительного обучения, представленная Google BERT на уровне модели, которая расширяет список основных задач языкового моделирования и высвобождает огромный потенциал для разработки более продвинутых моделей алгоритмов семантического понимания. техническая поддержка развития диалогового взаимодействия.
В заключение, как промышленность, так и академические круги очень обеспокоены направлением диалогового взаимодействия, которое отражает прогноз отрасли будущих тенденций. Прорыв в технологии алгоритмов еще больше ускорил выпуск диалоговых интерактивных продуктов, так что будущее наступит раньше.
3. Практика системы алгоритмов и прогресс Xiaobu Assistant
Как упоминалось ранее, семантическое понимание и способность к диалогу вместе составляют основную систему семантических алгоритмов OPPO Xiaobu Assistant.В следующем разделе подробно представлена наша практика и ключевые достижения в этом направлении.
Во-первых, с точки зрения бизнес-требований мы в основном рассматриваем четыре измерения: границы бизнеса, возможности диалога, количество пользователей и показатели оценки.
-
С точки зрения бизнес-границ, Xiaobu Assistant представляет собой открытую диалоговую систему взаимодействия с полным сценарием.Области, которые необходимо поддерживать, включают системный контроль, информационные запросы, аудиовизуальные развлечения, жизненные услуги, интеллектуальный чат и т. д. Он включает в себя сотни навыков и широты пользовательских запросов очень большой;
-
С точки зрения возможности диалога, в дополнение к простому командному командному управлению и задачам с одним раундом, также необходимо поддерживать многораундовые ориентированные на задачи, слабые многораундовые, понимание контекста и другие возможности, а также возможности уровня, такие как рекомендация диалога и активный диалог;
-
Что касается количества пользователей, Xiaobu необходимо охватить мобильные телефоны, часы, наушники, телевизоры и другое оборудование уровня 100 миллионов, а также десятки миллионов ежедневных действий;
-
Что касается показателей оценки, то в основном учитываются покрытие спроса, показатель точности намерения вызова, удовлетворенность навыками, время отклика и т. д.
Вообще говоря, миссия Xiaobu Assistant состоит в том, чтобы установить диалоговое соединение.Одним концом соединения является огромная группа пользователей экосистемы оборудования компании, а другим концом - высококачественные разговорные услуги.При таком соединении пользовательская ценность и техническая ценность может быть реализована Подождите.
Для поддержки вышеуказанных бизнес-требований мы абстрактно резюмируем четыре принципа проектирования, которыми можно руководствоваться при проектировании алгоритмических систем.
-
Домен разделяй и властвуй: Используйте метод разделения поля для декомпозиции сложных проблем в целом поле, преобразования их в более простые подзадачи для решения в группах, снижения сложности решения и улучшения управляемости системы.
-
приоритет эффекта: Чтобы максимально избежать «умственно отсталого» опыта, он не привязан к какой-либо одной технологии и управляет разработкой схемы алгоритма с приоритетом эффекта, чтобы избежать дефектов низкого уровня.
-
Мониторинг с обратной связью: Создайте полный механизм мониторинга с обратной связью, улучшите покрытие тестами за счет многосторонней разработки сценариев тестирования, включая продукт, тестирование и исследования и разработки на этапе исследований и разработок, а также используйте динамический мониторинг наборов тестов в режиме реального времени и ручную онлайн-оценку для обеспечения опыта. .
-
Эффективность платформы: Чтобы справиться с технической поддержкой многих средних и длинных хвостов, способствовать созданию платформы навыков и снизить затраты на исследования, разработки и обслуживание навыков среднего и длинного хвоста с помощью последовательного и универсального решения платформы.
С учетом бизнес-требований и принципов проектирования общая архитектура текущей системы алгоритмов Xiaobu Assistant показана на рисунке ниже.
Прежде всего, с точки зрения платформ и инструментов, в базовых алгоритмах преобладают основные алгоритмы глубокого обучения в отрасли, на основе которых строятся алгоритмические решения для различных типов задач, а затем инкапсулируются в такие модули, как структура NLU, общий ответ на вопросы графа, платформа навыков и открытая платформа.
Затем, с точки зрения бизнеса, верхний уровень будет использовать идеи символизации, структурирования и нумерации для общей обработки запроса, а затем разделит бизнес в соответствии с размерами системного приложения, жизненных услуг, аудиовизуальных развлечений, информационных запросов и т. д. и интеллектуальный чат. Направления бизнеса повторяются независимо друг от друга. Наконец, в сочетании с генерацией диалогов и комбинированной сортировкой выбираются лучшие навыки для удовлетворения потребностей пользователей.
Из потока обработки его можно разделить на предварительную обработку, распознавание намерений, ранжирование по нескольким классам, получение ресурсов и постобработку.Отвечают за охват и релевантность результатов, а весь процесс отвечает за конечное удовлетворение от выполнения навыков.
Ключевые модули алгоритма, задействованные в системе семантических алгоритмов, показаны на рисунке ниже.Три основных модуля семантического понимания, управления диалогами и генерации диалогов будут представлены в следующих разделах.
Распознавание намерений является основным модулем семантического понимания.Его основная задача состоит в том, чтобы сделать вывод о том, что пользователь хочет сделать, анализируя текущий запрос пользователя и историю взаимодействия, включая типичные сценарии закрытой области, открытой области и контекста.
Извлечение слотов — это задача, тесно связанная с распознаванием намерений.Основная задача — извлечь ключевую информацию из текущего запроса пользователя и истории взаимодействия, чтобы помочь в точном получении ответов/контента, которые нужны пользователю.
Распознавание намерений и извлечение слотов вместе образуют семантический модуль понимания, а трудности в основном связаны с диверсификацией разговорной речи (самостоятельных запросов на уровне 100 млн), неоднозначностью (например, «Свинка Пеппа» — это мультфильм и приложение); полагаться на знание (например, «ты можешь?» Это также название песни).
Управление диалогами — еще один ключевой модуль системы семантических алгоритмов, задача которого состоит в том, чтобы вывести состояние диалога в соответствии с текущим запросом и контекстом диалога, а затем вывести следующий лучший ответ диалоговой системы.
После того, как семантическое понимание и управление диалогом завершены, необходимо объединить генерацию диалога, чтобы получить окончательную и соответствующую исполнительную обратную связь о навыках. Задача генерации диалога состоит в том, чтобы получить соответствующие слова ответа соответствующим образом в соответствии с результатами разбора семантического понимания и действиями, которые необходимо выполнить.
Что касается модели алгоритма, Xiaobu в основном основан на сильном глубоком обучении.С одной стороны, такой модуль имеет хороший эффект, а с другой стороны, техническое решение относительно зрелое, и есть много успешных случаев.
Однако стоит подчеркнуть, что в этой области в принципе не существует единой модели «один трюк» для решения всех технических проблем.Как правило, основная модель, основанная на глубоком обучении, отвечает за обеспечение основ эффекта, и она по-прежнему необходимо комбинировать с пользовательскими правилами, чтобы справиться с этим.
Перед лицом навыков манипулирования системными приложениями, чтобы улучшить эффект семантического понимания, мы в основном принимаем решение, основанное на слиянии правил и моделей глубокого обучения, в которых обратные правила используются для быстрого отклонения запросов вне поля, и форвардные правила используются для покрытия сильных утверждений.Модель глубокого обучения отвечает за обобщенную идентификацию общих случаев. Кроме того, чтобы улучшить совместную точность намерения и слота, вводится многозадачное совместное обучение.
Многозадачное совместное обучение может устранить неоднозначность намерений и слотов. Оно в основном используется в таких навыках, как телефонные звонки, текстовые сообщения и расписания. По сравнению с однозадачным независимым обучением, общая точность может быть улучшена на 1–3%. В сочетании с тщательной оптимизацией на основе данных и проверкой правил можно достичь уровня вызовов более 95%.
Для навыков, зависящих от знаний, таких как музыка, радио, кино, телевидение и т. д., мы в основном используем схему распознавания намерений, которая объединяет знания, как показано на следующем рисунке. Основная трудность этого типа навыков заключается в том, что одно предложение не может определить намерение, и очень важно точно извлечь поля ресурсов из запроса.Распознавание намерений после интеграции результатов сопоставления ресурсов может значительно снизить сложность решения проблем.
В отличие от закрытых доменов, распознавание намерений в открытых доменах сложно смоделировать как проблему классификации, и для ее решения обычно требуется схема семантического сопоставления. Для таких задач мы в основном используем метод глубокого семантического сопоставления, как показано на следующем рисунке.
По сравнению с традиционным сопоставлением, основанным на текстовых символах, эффект лучше, а уровень точности сопоставления может достигать более 95%; однако существуют также такие проблемы, как распознавание субъекта и семантическое включение, которые необходимо контролировать с помощью последующих стратегий проверки. . В настоящее время он в основном используется в информационном запросе и сопоставлении QA чата.
Кроме того, чтобы еще больше улучшить эффект семантического понимания, мы также изучаем возможность реализации крупномасштабных сложных моделей. В направлении крупномасштабных языковых моделей перед обучением команда улучшила, переобучила и отрегулировала на основе моделей с открытым исходным кодом и добилась быстрого улучшения в эффекте.В настоящее время она занимает пятое место в тесте оценки понимания китайского языка. (CLUE) общий рейтинг.
Однако этот тип модели имеет высокую вычислительную сложность, и, как правило, трудно удовлетворить требования своевременности онлайн-рассуждений. Прежде чем его можно будет применять, его необходимо сочетать со схемами ускорения, такими как дистилляция знаний.
Схемы дистилляции общих знаний можно разделить на два типа: дистилляция данных и дистилляция модели.Предположение дистилляции данных состоит в том, что простая модель не так эффективна, как сложная модель из-за отсутствия помеченных данных.Если сложная модель используется для предоставьте достаточно псевдопомеченных данных, это может помочь Простые модели постепенно приближаются к эффекту сложных моделей.
Предположение дистилляции модели состоит в том, что простой модели не только не хватает данных, но и не хватает хорошего руководства.Если процесс обучения простой модели в то же время руководствуется промежуточными результатами, полученными в процессе обучения сложной модели, это поможет аппроксимации простой модели Эффекты сложных моделей. В бизнесе Xiaobu Assistant применяются как дистилляция данных, так и дистилляция модели.
Диалоговая система также считается поисковой системой следующего поколения, и у пользователей есть много требований к знанию вопроса и ответа. Ожидается, что она сможет получить точные ответы. Чтобы удовлетворить эти потребности, мы создаем свою собственную база знаний посредством сбора данных и интеллектуального анализа данных, а затем комбинировать онлайн-семантическое сопоставление, KBQA и т. д., предоставляя услуги вопросов и ответов.
Кроме того, чтобы точно отвечать на вопросы вертикальных фактов, мы также создали общую возможность вопросов и ответов на основе графов знаний.Для высококачественных вертикалей мы строим доменные графы с помощью совместной работы с данными и сканирования с самообслуживанием, а затем проводим точные вопросы и ответы на основе шаблонов и графиков.
С точки зрения управления диалогами, обычно используемые решения включают решения на основе конечного автомата, решения на основе заполнения слотов и сквозные решения.Трудности включают гибкое управление процессом, наследование и забывание контекста, переходы намерений, обработку исключений, и т. д., в настоящее время в основном используется режим Slot-Filling.
Чтобы добиться лучшего эффекта понимания контекста в нескольких раундах, Xiaobu Assistant реализует схему понимания контекста, основанную на подчиненном разрешении, которая используется для решения общих проблем ссылок и пропусков в диалогах с несколькими раундами.
Ссылка: ACL 2019 Улучшение моделирования многооборотных диалогов с помощью Utterance ReWriter
Благодаря управлению диалогами и пониманию контекста Xiaobu Assistant поддерживает иммерсивные сильные многоэтапные, свободное переключение слабых многораундовых, многораундовые контекстные рассуждения и другие режимы, охватывая такие бизнес-сценарии, как основанные на задачах, информационные запросы и многократные. -круглый чат.
Что касается генерации диалогов, в настоящее время в отрасли существует три типа: на основе шаблонов, на основе поиска и на основе моделей.Из-за слабой управляемости генеративных моделей Xiaobu в основном использует решения на основе шаблонов и поиска. .
С точки зрения разработки алгоритмов, в первые дни, чтобы быстро выйти в онлайн, была предоставлена инфраструктура службы на основе Python, и было развернуто несколько экземпляров, чтобы компенсировать проблему слабого параллелизма одной службы; в настоящее время службы с высокой вычислительной сложностью также изучают инженерную реконструкцию и оптимизацию на основе оператора, а также совместную команду платформы машинного обучения для изучения более простых и эффективных моделей обслуживания.
С точки зрения развития навыков, в первые дни, чтобы быстро выйти в интернет, оно было в основном основано на индивидуальных исследованиях и разработках навыков; в конце прошлого года было начато создание платформы навыков. Основная идея состоит в том, чтобы стандартизировать автономную генерацию моделей и онлайн-процессы рассуждений, преобразовать ключевые алгоритмы в операторы, завершить развитие навыков за счет импорта данных и настройки процессов, а также сократить средние и длинные затраты на поддержку и обслуживание навыков.
Наконец, чтобы обеспечить эффект диалогового взаимодействия, мы сотрудничали с командой данных и командой оценки, чтобы создать решение для мониторинга с обратной связью для всего процесса.Во-первых, самопроверка исследований и разработок гарантирует, что эффект модели алгоритма соответствует ожиданиям, а затем входит в раунд пакетного тестирования, когда версия выпущена.Чтобы гарантировать, что не будут введены новые риски, после выхода в онлайн будет рутинный мониторинг и мониторинг в реальном времени для обеспечения общего эффекта и мониторинг ключевых функций соответственно; кроме того, будет введена ручная оценка выборки и сторонняя оценка для дальнейшего мониторинга опыта.
4. Проблемы и мысли о будущем
Хотя диалоговое взаимодействие значительно продвинулось в технологии алгоритмов за последние годы, по сравнению с Джарвисом и Дабаем все еще остается много проблем, которых ожидают пользователи.
Прежде всего, с точки зрения семантического понимания, текущая модель в основном основана на статистической индукции данных, и ей не хватает надежности и полноты при столкновении с крайними случаями.
Во-вторых, как потенциальный кандидат на замену поисковой системы, она обязана взять на себя роль «Всезнайки». Кроме того, низкочастотные вопросы и ответы имеют такие проблемы, как открытое поле, очевидный эффект длинного хвоста и сильная зависимость от содержания знаний, а сложность и стоимость построения очень высоки.
Кроме того, в отличие от относительно зрелых сценариев поиска и рекомендаций, итеративная оптимизация возможностей диалогового взаимодействия в основном зависит от ручной работы, и ее трудно подключить к самообучающемуся высокоскоростному механизму обратной связи, управляемому большими данными, и трудно быстро улучшить.
Задачи в будущем намного шире.Команда OPPO Xiaobu Assistant будет продолжать развивать более сильные способности семантического понимания, более глубокие знания, более плавный диалог, более эффективное управление диалогами в предметной области, а также обратную связь, слабый контроль и самоконтроль. Активно изучайте способности к обучению и другие аспекты и прилагайте неустанные усилия для создания наилучшего пользовательского опыта в китайской области интеллектуальных помощников.