Углубленный анализ интеллектуальных голосовых технологий

Приветствую всех вОблако Tencent + сообщество, получить больше крупной технической практики Tencent по галантерее ~

Эта статья написанаОблачный центр искусственного интеллекта TencentОпубликован вКолонка «Облако + сообщество»

Вообще говоря, существуют различные определения технологии интеллектуальной голосовой связи, и выше приведены некоторые распространенные популярные сценарии. Распознавание речи, г-н Луо также поделился частью контента только что. Синтез речи — это преобразование текста в речь, которое мы подробно рассмотрим позже. Оглядываясь назад, можно сказать, что распознавание голосовых отпечатков очень важно, когда в умном автомобиле есть множество функций, которым для управления командами требуется человеческое произношение. Открой дверцу машины, в машине ребенок, вдруг крик, очередная неподходящая команда, этого человека не различить, для голосового управления не подходит. Или есть какие-то неправильные операции, которые могут быть выполнены с помощью голосового отпечатка, и процесс идентификации и аутентификации людей с помощью голоса. Распознавание голосовых отпечатков на самом деле относительно популярно в будущих сценариях приложений.Каковы основные проблемы, возникающие в практических приложениях? Многие другие биометрические данные основаны на относительно стабильных функциях, таких как лица или отпечатки пальцев, но голосовые отпечатки нестабильны. Когда люди счастливы, они поют караоке в первую ночь, а на следующий день их голоса становятся хриплыми. Как сделать изменения более очевидными? идентификация является большой проблемой.

Акустический мониторинг событий, дома есть звуковая система или система мониторинга, чтобы контролировать, плачет ли ребенок или возникает какой-либо неуместный звук, это применение акустического мониторинга событий. Сейчас эти трудности не представляют сложности, и когда появится больше сцен, эта область будет стремительно развиваться.

Естественная обработка речи, по сути, выполняет некоторую работу на семантическом уровне.

Мы продолжаем расширяться.Г-н Луо только что много упоминал о распознавании речи, поэтому мы не будем больше говорить об этом.Эти технологии и связи связаны вместе, чтобы сформировать основу и структуру распознавания речи.

Проблемы, с которыми сталкивается распознавание речи, и некоторые трудности, с которыми мы сталкиваемся в практических приложениях, как нам нужно их решать? Также, как упоминалось ранее, насколько точным является распознавание речи? Если вы можете достичь около 90% в этом сценарии, люди скажут, что отзывы других производителей составляют от 95% до 97%, почему у вас только 90%. На самом деле есть посылка, как качество аудиоматериалов, которые вы предоставляете? Если звук чистый, он может достигать 97% без шума.

Первая проблема в распознавании речи — это проблема разговорной речи.Во многих случаях ваша речь не так рациональна и логична, как ваша речь, и существует множество разговорных выражений. Например, в сцене встречи много людей разговаривают одновременно, и они спешат заговорить. При прослушивании самой записи очень шумно, и сложно ожидать особо высокой точности распознавания речи в это время. Расстояние от микрофона, технология микрофона и т. д. должны быть улучшены.

Также существует проблема диалектов, в которых есть акценты.Корпус для наших ежедневных тренировок по распознаванию речи не очень стандартный, а распознавание мандаринского языка с акцентами заложено в учебный корпус.Акцент не особо серьезный.Далее есть ничего плохого в легком акценте. С серьезным акцентом, если вы не местный житель, вы не можете четко слышать, что делает распознавание речи большой проблемой. Поэтому, когда мы помещаем его в приложение, мы должны учитывать сцену и записывающие материалы, чтобы добиться хороших результатов. Чтобы предоставить клиентам хороший опыт как в автономном режиме, так и в Интернете, мы делаем все возможное, чтобы улучшить способность распознавания речи.То же самое верно и для других материалов в этом отношении.Только при определенной степени сотрудничества эффект может быть лучше.

Поскольку распознавание речи говорит о многом, мы обратимся к другим темам позже, а о синтезе речи я расскажу на следующем этапе. Синтез речи — это больше искусство. Распознавание речи имеет объективную меру качества ее транскрипции Когда вы произносите предложение, какова точность результата его перевода в текст по сравнению с обычной речью? Но сложность синтеза речи в том, что трудно иметь объективный и единый стандарт. Какова конечная цель синтеза речи? Есть надежда, что произношение машины близко к нормальному произношению людей. Более художественно судить о качестве технологии синтеза речи. Хорошо звучит ваш голос или нет, это более субъективное ощущение.

Синтез речи, если есть только распознавание, но нет синтеза, вы можете только слушать, но не говорить. В этом случае интерактивный опыт не является полным. Технология синтеза речи становится все более популярной, и есть много сцен, которые требуют синтез речи Об этом мы поговорим подробнее позже.

Технология синтеза распознавания речи очень понятна, так в чем же ее сложность? Когда вы видите говорящего человека, точен ли его голос, бегла ли речь, является ли речь человека инь и ян в разных сценариях, и много раз вы обнаружите, что это говорит робот.Для технологии синтеза речи , это Неудачно, потому что конечная цель синтеза речи состоит в том, чтобы смешать поддельное с реальным.Когда вы слышите, как говорит робот, вы не можете услышать его, если не будете внимательно слушать.Это также смысл создания технологический прорыв.

Субъективность технических трудностей, иногда трудно иметь объективный показатель, некоторые люди говорят, что этот синтез речи не хорош, что я говорю, что это не хорошо? Он сказал, что мне неудобно слушать требования людей в разных случаях, соответствует ли ваш голос требованиям, и подходит ли ваш голос для голосового помощника.Я приведу несколько примеров, чтобы показать технологические прорывы, которые мы делаем сейчас .

Другая часть упоминает о потребностях многих клиентов и надеется на настройку голоса.Почему? Для больших компаний, если я делаю умный холодильник или умное железо, к этому звуку предъявляются высокие требования. Для них этот звук такой же, как логотип бренда. Я надеюсь, что звук, который слышат мои пользователи, это звук моего бренда. , или приложение моего бренда. Я не хочу делиться этим с другими. Существуют также аналогичные требования, которые также очень распространены, и эта часть также бросает вызов технологии синтеза речи. Некоторые производители относительно богаты и могут пригласить некоторых знаменитостей для записи в студии звукозаписи.Качество записи определяет эффект синтеза.Раньше для достижения лучших результатов требовалось записать в студии звукозаписи 8 часов.Сейчас этот порог постоянно снижается.

В этом году в рамках Tencent Ма Хуатен разослал красные конверты всем в WeChat. Есть речь. Эта речь была сделана с помощью синтеза речи. Мы собрали относительно качественное произношение Ма Хуатен на конференции и использовали это высококачественное произношение для комбинированная тренировка.По-прежнему можно добиться хорошего эффекта синтеза.

Кратко расскажу о внедрении технологии синтеза речи. Самый ранний — это сращивание формы волны, от произношения каждого, как выглядит ваше произношение, затем сращивание этой формы волны, затем синтез HMM+GMM, затем к синтезу параметров нейронной сети, а затем к синтезу WaveNet. Эффект синтеза WaveNet очень близок к эффекту реальной записи.MOS-показатель синтеза речи.Очень хорошо, что сгенерированный вокодер может достигать 4.2.Эффект записи реальных людей вообще 4.5.Синтез WaveNet я вижу лучший эффект на 4,52, что очень близко к реальному эффекту записи. Google представил эффект диалога человека и робота на конференции по искусственному интеллекту в этом году, и этот эффект является эффектом синтеза WaveNet. Это звуки, синтезированные WaveNet.По сравнению с предыдущими, очевидно, что звук робота очевиден.Эффект технологии синтеза теперь имеет качественное улучшение по сравнению с предыдущим.

Кратко расскажу о WaveNet, потому что я продукт, я могу говорить недостаточно глубоко, и могу продолжить обсуждение позже. WaveNet — технология сквозного синтеза, предложенная Google. Самая ранняя скорость синтеза WaveNet была относительно низкой, а потребление ресурсов — относительно большим. В конце 2017 года Google выпустила еще одну технологию WaveNet, которая была в 1000 раз быстрее. чем до.

На фронте в основном говорили о технических резервах, а потом мы перешли на более сценические уровни.

Говоря о цифровизации, почему голос важен в эпоху цифровых технологий? В цифровую эпоху обслуживание и преследование пользователей часто является лучшим опытом взаимодействия человека с компьютером.Существует больше каналов взаимодействия человека с компьютером.Например, если ваш клиент - робот, вы можете только печатать и общаться с другими и давать обратная связь со службой поддержки клиентов.В настоящее время все больше и больше людей надеются общаться на основе людей.Если вы делаете многое самостоятельно, это потребует больших трудозатрат.Это сценарий. Требуется способ послепродажного обслуживания, и режим взаимодействия человека с компьютером имеет лучший эффект.

Вы можете увидеть опубликованные примеры приложения на мобильном телефоне. Первый - это метод голосового ввода, нажмите и удерживайте эту клавишу, затем голосовое напоминание, я позвоню через 5 минут, помогите мне записать его или напомните мне выпить воды, используйте простой ввод в качестве функции голосового напоминания, я считаю, что многие люди используют его прибыть. Говоря в WeChat, например, после того, как я получил большой кусок голоса, я нахожусь на собрании, долго нажимаю кнопку голоса, и на ней есть кнопка, и на ней есть текст в текст, он будет конвертировать только что полученный голосовой материал в текст.Эффект от получения информации в реальном времени такой же, как и при неудобном прослушивании голоса.

Вот фрагмент речи, который мы также сделали в предыдущем проекте, который представляет собой приложение, встроенное в банковское приложение. Поскольку в то время мы проводили внутренние тесты, тестировщики знали о последствиях следующего шага. Это не кажется очень последовательным В этом приложении, в дополнение к множеству только что упомянутых сцен информационного диалога, многие функциональные продукты имеют встроенную голосовую технологию. Зрелость распознавания голосовых технологий, многие бизнес-сценарии и сценарии, необходимые для управления бизнесом, также могут быть доступны с помощью голосового взаимодействия.

То, о чем я только что говорил, касается ситуации с мобильными телефонами.Выпрыгнув из мобильных телефонов, мы говорим об аппаратном обеспечении. Интеллектуальное оборудование тоже давно в моде: распознавание и синтез речи, семантическое понимание — очень важные функции. Умная одежда, часы и другие сценарии, более распространенными являются умные динамики, а также технология автомобильного голоса. Особенно в автомобильной среде очень важен голос.Когда водитель находится в машине, у водителя нет времени нажимать на мобильный телефон.Непрерывно нажимать на мобильный телефон опасно.В это время голосовое взаимодействие является хорошей отправной точкой для осознания Например, простое Включение кондиционера, например, помогая мне поставить диск, не только удобнее, но и безопаснее, чем нажимать его рукой.

Это несколько решений интеллектуального оборудования, сценарий, применяемый в отелях. Мы построили несколько модельных комнат в гостинице в Пекине и разместили платформу голосового взаимодействия в комнате для гостей. Благодаря общению с ним для меня это было все равно, что задернуть шторы, включить для меня музыку и выключить для меня свет. Многие люди ленивые.Если вы не хотите выключать свет в отеле, вы можете сделать это за вас. Включая погоду, трафик, новости и т. д., эффект голосового помощника можно реализовать в гостиничных номерах, а также это удобно для многих гостей отеля.

Я говорил о применении мобильных телефонов, а затем о применении интеллектуального оборудования.Существует также большой сценарий применения, который представляет собой роботов обслуживания клиентов.На самом деле, эти проблемы встречаются в автономном режиме, все знают эти проблемы, одна из них заключается в том, что вам нужно 24 часов Обратная связь, если вам нужно быть в сети одновременно, 80% вопросов, которые клиенты задают вам, повторяются, и нет никаких трудностей до такой степени, что людям нужно проверить. Например, оператор спрашивает о телефонном счете и так далее. Если 80% проблем повторяются, мы пытаемся использовать роботов для их решения.Когда дело доходит до концепции многоканальности, самая ранняя служба поддержки клиентов робота использует некоторые официальные учетные записи, учетные записи службы и службу поддержки на некоторых веб-страницах. Сиденья для телефонов по-прежнему заняты людьми, потому что перед сиденьями для телефонов есть слой распознавания голоса и синтеза речи. Если эти два элемента не будут выполнены должным образом, качество обслуживания клиентов будет очень плохим. Я не знаю, есть ли там такой телефонный звонок, но вы обнаружите, что это робот. Распознавание голоса очень плохое, и когда я слышу, что это робот, я очень нетерпелив. Тогда есть семантика. Некоторые результаты синтеза хороши, но я не думал, что это был робот. Когда я сказал два предложения и дал мне одинаковую обратную связь, я знал, что это был робот, и распознавание речи не удалось, или семантика не была проанализирована. Обслуживание клиентов по телефону является очень комплексным и сложным продуктом. Нам нужно продолжать исследования. Если этот эффект будет реализован хорошо, он может в значительной степени решить проблемы, которые необходимо преодолеть, а также решить проблемы, которых ждут многие клиенты. Их необходимо дополнительно оптимизировать в будущем.

Ранее я говорил о некоторых проблемах, связанных со сценариями, а позже реализовал их в нашем Tencent Cloud, включая некоторые решения для офлайн-сценариев и некоторые направления, над которыми мы работаем. Давайте сначала рассмотрим эту часть. Ранее г-н Луо также говорил о голосовых возможностях Tencent Cloud, включая распознавание речи, синтез речи и т. Д. Некоторые решения упакованы на основе этих технологий. Какие практические проблемы могут решить эти решения?

Во-первых, это живые решения безопасности. Проверка безопасности контента в сфере Интернета всегда была темой, которой регулирующие органы придавали большое значение. Соответствующая платформа вещания, ее содержимое не контролируется. Если ведущий будет вести себя неадекватно в комнате прямого эфира, он также получит много репортов, что принесет этим платформам массу неприятностей. Самая ранняя идентификация контента, основанная на уровне изображения, иногда не может решить проблему. Возможно, на изображении нет проблемы с выходом за рамки, но слова неправильные, или звук, издаваемый в течение всего прямого эфира, ненормальный, а на картинке ничего нет.Слова ниже немного малы, но они были идентифицированы. В процессе прямой трансляции, если произносимые слова являются незаконными, платформа прямой трансляции будет отключена или предупреждена, а просмотр контента должен выполняться в сочетании с изображениями, включая голос, и даже возможности распознавания звука и звука.

Проверка качества обслуживания клиентов также является ареной многих звонков в службу поддержки клиентов в автономном режиме. Качество разговора между оператором и клиентом не поддается контролю, а зрелая платформа в порядке.Теперь некоторые интернет-финансовые компании, их бизнес развивается относительно быстро, и они сталкиваются с напоминаниями и т. д., разговорные навыки персонала не стандартизированы. , и даже ругаться. Такая ситуация получит много жалоб, а обслуживание клиентов определенной платформы особенно нецивилизованно. Можно ли провести проверку качества на основе записей этих служб обслуживания клиентов и полагаться на людей для проверки, например, 20 мест, только несколько звонков не могут быть проверены людьми в день, распознавание голоса настолько хорошо , я записываю всю запись звонка, а затем передаю ее. Она записывается в виде текста и оценивается на основе ключевых слов или конкретной бизнес-логики на текстовом уровне, чтобы оценить, соответствует ли мое обслуживание клиентов моим спецификациям управления. Это также решение, основанное на речи признание.

Умное судовое решение, это тоже интереснее. Секретарю нужно записывать то, что кто-то сказал.В том же сценарии судебного заседания личные привычки стенографистки разные, или здесь чего-то не хватает, что есть, и протокол судебного заседания не очень читаем. В этом сценарии, после того, как мы включили технологию распознавания речи: перед судьей стоит микрофон, микрофоны есть и у ответчика, и у истца, через микрофоны мы записываем, кто сказал это предложение, голос преобразуется в текст. , а после преобразования в текст Объедините эти два уровня, чтобы сформировать запись: что сказал прокурор, что сказал судья и что сказал подсудимый. На основе этой записи архивы будут извлечены позже.

Технология распознавания речи в предыдущих сценариях описывала, как технология распознавания речи помогает многим традиционным отраслям или государственным учреждениям в автономном режиме.

Кто такой Сяовэй? Мы упаковали операционную платформу взаимодействия человека с компьютером. Более зрелой за границей является Amazon. Она также основана на этой платформе. Вы можете, например, узнать погоду для меня с помощью простого диалога. Для технологии, лежащей в основе всего этого маленького и микроплатформа, основанная на распознавании речи, синтезе речи и обработке диалогов, объединена для достижения эффекта взаимодействия человека с компьютером.

В дополнение к возможности иметь эти голоса, проста ли эта платформа в использовании? Это также наше собственное преимущество Tencent.Tencent Music и другие собственные возможности упакованы.Мы помещаем эти возможности в платформу Xiaowei, и пользователи Xiaowei могут легко ее использовать.

Платформа голосового взаимодействия в определенной степени соответствует некоторому оборудованию, в том числе роботам и так далее. На основе этих аппаратных партнеров окончательно формируется вся экосистема терминалов взаимодействия человека с компьютером. Музыка Harman Kardon - это также очень качественный звук. В сотрудничестве с Teng Xiaowei, эффекты низких и средних частот очень хороши. Ваш звук - это просто взаимодействие человека с компьютером. Если вы хотите слушать музыку, у вас есть лучшие требования к в связи с этим.. может достигать.

Вопросы и ответы:

**В:** В настоящее время некоторых небольших языков или корпусов недостаточно, что приводит к низкой скорости распознавания. Как рассчитывается скорость распознавания?

**A:** Результат распознавания речи пословно сравнивается с результатом обычного текста, и в отрасли также упоминается частота ошибок предложения.

**Q:** Я хочу задать вопрос, Xiaowei, похожие на другие продукты вышли. Например, Microsoft, Amazon и Google также имеют соответствующие экосистемы, а также соответствующие инструменты разработки, сценарии приложений и функции.Вы сравнивали простоту использования SKD или платформ разработки?Можете ли вы поделиться с вами результатами?поделиться?

**A: **Сравнивая результаты, честно говоря, прогресс каждой компании относительно быстр.Трудно сказать, что есть точный.Продукты Amazon и Google действительно зрелые в зарубежных странах. Поскольку экология относительно завершена и существует большое количество платформ для разработки и базовых приложений, в Китае она все еще находится в зачаточном состоянии. Tencent Xiaowei, преимущества в этом отношении, в том числе дружелюбие к разработчикам, в том числе возможности базового оборудования, родные возможности нашего собственного Tencent относительно сильны. У нас есть очень хороший контент, такой как QQ Music. Мы помогаем разработчикам совершенствоваться в этом отношении. Развитие аппаратных платформ также очень высокое. Трудно сказать точную цифру, потому что рынок high-end относительно рано, и они все еще в состоянии прогресса.

Связанное Чтение [Ежедневная рекомендация курса] Машинное обучение в действии! Быстрый старт бизнеса в сфере интернет-рекламы и знание CTR

Эта статья была разрешена автором для публикации в сообществе Tencent Cloud + Для получения дополнительных оригинальных текстов, пожалуйстанажмите

Найдите и подпишитесь на общедоступную учетную запись «Сообщество Yunjia», получите технические галантереи как можно скорее и ответьте на 1024 после подписки, чтобы отправить вам подарочный пакет технических курсов!

Огромный технический практический опыт, все вСообщество Юнцзя!