Деконструкция: технология человеко-машинного общения, стоящая за звонками Google

На конференции Google I/O 8 мая компания Google представила серию удивительно впечатляющих интеллектуальных технологий. Среди них Google Assistant, который может совершать полнодуплексные вызовы (Duplex), стал горячей темой в отрасли, а также вызвал безграничное воображение среди обычных пользователей сети. Естественная беглость общения человека с машиной, помимо того, что происходит в фильмах, действительно достигла новых высот.

«Естественный» — общее ключевое слово во всех видах комментариев. Так как же разговоры Google Assistant выглядят такими естественными? ТА действительно поняла, что вы сказали? Может ли ТА сделать что-нибудь еще?

Лаборатория интеллектуального обучения Hujiang проводит технический анализ и интерпретацию этого и пытается ответить на поставленные выше вопросы.

1. О «Природе»

Давайте начнем с обсуждения того, что означает «естественный».

Когда мы говорим, что голосовой помощник ведет себя «естественно», мы на самом деле имеем в виду следующее:

1. Логический характер диалога

Шутки об «искусственном интеллекте» и «искусственной умственной отсталости» в основном относятся к «неуместному ответу» многих продуктов чат-ботов. Человеческий диалог — это обмен информацией в несколько раундов по определенной логике. Ошибки в семантическом понимании или ошибки в стратегиях диалога могут привести к тому, что процесс диалога потеряет плавность.

2. Ритм речи естественный

На протяжении многих лет критерии оценки технологии синтеза речи включали «разборчивость» и «естественность», а метод оценки - субъективная оценка (MOS), включающая множественные оценки. «Монотонный», «Роботизированный» и «Плоский» - наиболее распространенные оценки эффекта синтеза речи при использовании традиционной технологии.

Когда синтезированная речь очень близка к нашим ожиданиям с точки зрения просодии (интонации, тона), для нас естественно думать, что синтезированная речь «естественна».

3. Процесс общения естественен

Люди используют определенные стили общения, чтобы сделать беседу вежливой, гладкой, комфортной и веселой. Например, уместные вопросы, уместные ответы (соответствующие время и содержание), выбор формулировки, изменение выражения содержания, выбор интонации, выражение эмоций и т. д.

Хорошие ораторы также стараются понять, с кем они разговаривают (людей, а не содержание), что может скорректировать выбор стратегии диалога.

2. Техническая архитектура

Создание голосового помощника требует интеграции многих технологий (как показано на рис. 0), включая (по процессам) распознавание речи (SR), понимание естественного языка (NLU), управление диалогами (DM) и генерацию естественного языка (NLG) и другие модули. Чтобы ИИ запутал все уши и принял за человека, требуется взаимодействие этих модулей.

Распознавание речи отвечает за преобразование речи пользователя в текст, понятный машине (хотя некоторые люди пытались использовать методы глубокого обучения для непосредственного преобразования речи в речь). Во время этого процесса преобразования информация может быть потеряна. Технически превосходный SR может поддерживать уровень ошибок в словах на минимально возможном уровне. С другой стороны, может быть потеряна надсегментарная информация, такая как тон и эмоции.

Синтез речи отвечает за преобразование текстовых представлений, генерируемых системой, в звуки, слышимые человеком (особенно телефонный канал). От синтеза сплайсинга до параметрического синтеза на основе HMM (HTS) до использования методов глубокого обучения, которые недавно сделали прорыв, мы все стремимся к более высокому качеству и естественности голоса. Естественность речи связана не только с содержанием несущего предложения, но и с контекстом.

Google вкладывает значительные средства в технологии искусственного интеллекта и добилась лидерства в SR, TTS и других задачах ИИ. На этот раз мы в основном раскрываем тайну системы управления диалогами (DM).

3. Система диалогов с целью выполнения задания

Сначала посмотрите на выбор настроек (рис.1). Google выбирает разговоры на основе задач вместо свободного разговора, что является очень разумным выбором, главным образом потому, что:

Цель: Конечная цель Google Duplex как виртуального помощника — быть хорошей домработницей. То есть выполнить задание.
Сложность: свободный разговор сложнее, чем дизайн, основанный на задачах, учитывая сбор данных, преобразование стратегии...

Google выбрал две демонстрационные задачи: заказать парикмахерскую для клиентки и забронировать столик в ресторане.

С Задачей вся картина становится ясной. Потому что Task легче сломать. Эти две задачи на самом деле похожи.Контрольный список, который необходимо выполнить, в основном состоит из времени и людей. (Рис. 2 и Рис. 3)

Это очень просто? да или нет~

4. Стратегии диалога

Потому что в человеческом общении будет много ответвляющихся деталей или Непонимания (как в Вавилонской башне). Поэтому в настоящее время необходимо много стратегий для решения этих ситуаций.

Одна из причин, по которой Duplex кажется естественным, заключается в том, что TA больше похожа на человеческое самовыражение, чем на другие системы.

Давайте посмотрим, как Google Duplex справляется с такими ситуациями по-человечески.

1. Обработка отрицательных ответов

В первой парикмахерской Демо Дуплекс предложил подстричься в 12:00, но другой участник сказал, что этого времени недостаточно, и это будет 13:15 недавно. (Рис. 4) Для людей это очень простая проблема, и стратегия может заключаться в изменении времени, но сложность для виртуальных помощников заключается в том, как люди заставляют ТА учиться. Сначала определите и разберитесь с работой «отбраковки» (эта часть в основном SR и NLU), затем войдите в систему управления диалогом (DM) и выберите соответствующую стратегию.

У большинства из нас должен был быть опыт звонка в умную службу поддержки клиентов или разговора с Siri. Во многих случаях ответ машины довольно отрывистый. Например: Извините, не могли бы вы сказать это еще раз? (попросить повторить) ; Извините, я не понял (уведомить). Однако Bohus & Rudnicky (2005) показали, что эти стратегии не могут быть хорошим выбором во многих ситуациях.

Причина, по которой Duplex заставляет людей чувствовать себя естественно, заключается главным образом в том, что по сравнению с другими системами ТА больше похожа на человеческое самовыражение.

TA не обязательно понимает, что ближайший 1:15, но в логике DM TA должно быть более одного выбора. И это «уступка» от строгого/конкретного (12 часов дня) до широкого/широкого (10:00-12:00). (Рис. 5)

2. Обработка подмножеств

Однако дорога до конца не всегда прямая. Вместо ответа «да/нет» сотрудники парикмахерской дали условное сообщение. (Рис. 6)

Очень простая задача для человека, для Дуплекса, чтобы успешно справиться с этой ситуацией, необходимы три способности:

С информацией о подусловиях;
Запрос информации о подусловии;
вернуться к основной линии

Среди них трудность третья. Поскольку этот процесс требует от системы сохранения контекстной информации (контекста), сложно выполнить всю задачу, если нельзя вернуть основную строку. Как показано ниже. Естественная (как и человеческая) диалоговая система должна иметь механизмы сохранения, извлечения и рационального использования контекста, чтобы сделать течение диалога более естественным. (Рис. 7)

На данный момент Duplex завершил временную часть задачи. Это также более сложный (показушный) раздел в логике этой демонстрации.

Конечно, как упоминалось ранее, для прохождения теста Тьюринга и превращения виртуального помощника в человека требуется, чтобы вся система работала вместе.

Например, в демо-версии дуплекс «Мм-хм» реагирует совсем не так, как большинство машин. Почему такая реакция? На самом деле это несложно, потому что здесь могут использоваться такие слова, как ладно, а Дуплекс может использовать модальную частицу для ответа на финальное предложение через паузу персонала салона и понимание предложения. И для этого требуются технологии SR и NLU для поддержки реализации. (Рис. 8)

В. Перспективы

Нет сомнений в том, что с точки зрения отклика такие технологии нравятся публике, и общественность ожидает, что эти технологии можно будет применять ко всем аспектам быстрее. Кажется, что все виды домашних дел в реальной жизни частично решаются с помощью таких технологий, как Google Assistant. Предприятия, не имеющие онлайн-сервисов в Интернете, или пользователи, которым неудобно или не хочется пользоваться онлайн-сервисами (например, вождение автомобиля или слабовидящие), могут попытаться передать задачи цифровому помощнику, и жизнь действительно станет проще и приятнее. , и более интересно.

По нашему мнению, в процессе подачи заявки на Ассистента должен быть достигнут как минимум прогресс в следующих областях.

практичность

Хотя демонстрации были очень успешными, реальные проблемы, как правило, более сложны и, скорее всего, связаны со многими проблемами и ситуациями, не охваченными разработчиками. Когда сцена включает в себя дополнительные фоновые знания (например, просьбу ребенка об отпуске), она может включать информацию о причине или поведении ребенка в отпуске. Помощника с ограниченными знаниями может быть трудно использовать.

Расширяемость

Google успешно продемонстрировал диалоги в двух доменах, которые довольно естественны в двух диалоговых путях в обоих доменах. Расширение в другие области должно быть чем-то, что запланировал Google. Вопрос в том, сколько будет стоить масштабирование и сохранит ли оно достаточную точность.

безопасность

Если Ассистент может помочь мне по телефону, то и ТА может доставить неприятности. Как контролировать скрытые угрозы безопасности в процессе использования - первая проблема широкомасштабного продвижения и использования.

Сотрудничество человека и машины

Если использование Помощника станет нормой, то вопрос о том, как правильно общаться с Помощником, может стать проблемой. Точно так же, как официанты используют разные способы общения со взрослыми и детьми, оператор на противоположной стороне должен скорректировать свою стратегию, чтобы сделать разговор более успешным после того, как они узнают, что это цифровой помощник по телефону.

Reference

Бохус, Дэн, Рудницкий, Александр И. (2005): «Извините, я не понял!

О ХИЛЛЕ

Лаборатория интеллектуального обучения (HILL, Лаборатория интеллектуального обучения Хуцзян)

Лаборатория интеллектуального обучения Хуцзян (HILL) была создана в 2017 году. Ее целью является интеграция соответствующих теорий и технологий в области педагогики, психологии и компьютерных наук, изучение сценариев применения искусственного интеллекта в сфере образования и продвижение интеллекта Хуцзяна. образовательные продукты способность трансформации. В будущем мы также надеемся предоставить эти возможности партнерам и всей образовательной отрасли. Видение HILL: активировать интеллект, внедрять инновации в обучение.

Рекомендуемое чтение

Hello World, AndroidX

Понимать принцип последовательного неблокирующего чтения MySQL.

Вы действительно понимаете A/B-тестирование? (начальство)

Система фактического голосования по разработке DAPP (Часть 2)

От Nest к Nesk — практика модульной структуры Node.