Практика применения технологии синтеза речи (TTS) в словарной ручке Youdao

1. Введение

С момента запуска Youdao Translator Egg в октябре 2017 года компания NetEase Youdao выпустила более 20 интеллектуальных обучающих аппаратных продуктов, в том числе Youdao Translator King, Youdao Pocket Printer, Youdao Super Dictionary, Youdao Dictionary Pen, Youdao Tao Listening Treasure и так далее.

в,Словарная ручка Youdao создала категорию смарт-словарных ручек, занимал первое место по продажам на Tmall и JD.com два года подряд и получил высокую оценку пользователей. 请添加图片描述

В недавнем новом обновлении программного обеспечения Youdao Dictionary Pen (сопутствующее чтение: Новое обновление программного обеспечения! Действительно интересно) естьДве важные оптимизации, соответственно:

Произношение близкое к реальным людям, прощай механические

Улучшается точность произношения, правильно читаются многосложные слова.

Эффект применения:

Во-первых, мы дополнительно усовершенствовали систему произношения, чтобы китайское и английское произношение было как можно ближе к реальным людям.

Чтобы предоставить пользователям лучший опыт, команда искусственного интеллекта Youdao отобрала множество реальных материалов по произношению и отобрала достаточно большую выборку из компании, реальных пользователей и носителей языка для заполнения анкет.Точность произношения, тембральностьВыставили баллы и сравнили с профессиональным произношением, и, наконец, выбрали тембр в текущей версии.

пасхальное яйцо

Среди произношений, которые мы выбрали, есть некоторыезвездный голос, вы можете догадаться, кто она?

Кто она? (01)

Кто она? (02)

(Ответ будет раскрыт в конце статьи)

В сценариях изучения языка механическое произношение не только заставляет людей чувствовать себя скучно, но и влияет на эффект устного изучения языка.Самое естественное и идеальное взаимодействиеНет ничего больше, чем общаться через человеческий голос. Как сделать произношение интеллектуальной обучающей аппаратуры близким к реальным людям — важная тема.

Китайский язык:

Механическое произношение — китайский

Youdao бесконечно близко к человеческому произношению - китайское

Английский:

Механическое произношение — английский

Youdao бесконечно близко к человеческому произношению - английский язык

В то же время, благодаря непрерывному обучению языковой модели командой Youdao AI, точность произношения словаря Youdao снова достигла прорыва.В процессе сканирования предложений словарь Youdao может быстро предсказать семантику. и легко читать на английском языке. Слова, которые и человек, и ИИ очень склонны к неправильному произношению, такие как "многосложный".

Возьмите в качестве примера предложение, содержащее «прочитать прошедшее время», давайте послушаем произношение словарной ручки Youdao и традиционное механическое произношение:

She picked up the letter and read it.

Она взяла письмо и прочитала его.

В этом предложении глагол read стоит в прошедшем времени и его следует читать /red/.

Традиционное решение - неправильное прочтение многосложных слов

Youdao - Точно читать многосложные слова

За этими способностями стоитТехнология синтеза речи Youdao TTSблагословение. В этой статье будет подробно представлено мышление и практика технологии Youdao TTS.

2. Технология синтеза речи Youdao TTS

Процесс моделирования технологии синтеза речи Youdao TTS включаетМодуль анализа текста, модуль акустической модели и модуль вокодера.

2.1 Унифицированный интерфейс анализа текста TTS на основе многозадачности BERT с открытым исходным кодом

Основная роль интерфейса анализа текста заключается в преобразовании предложений в лингвистические признаки.последовательность фонемипросодические особенности, в котором последовательность фонем определяет, правильно ли TTS читает текст; просодический признак определяет положение паузы и естественность TTS, что также является ключом для технологии Youdao TTS для достижения близкого к человеческому произношению и правильного чтения многосложных слов.

Традиционный модуль анализа текста будет моделировать каждую задачу отдельно, а эффективность последовательной обработки низкая.При таком подходе трудно достичь баланса между производительностью и качеством во встроенных сценариях, а разделение нескольких задач также увеличит стоимость обслуживания системы. .

По сравнению с традиционным решением команда Youdao AI выполнила многозадачное моделирование на основе модели предварительного обучения BERT и унифицированное моделирование нескольких задач, что значительно повысило эффективность. 请添加图片描述

Эти оптимизации могут поддерживать такие задачи, как регуляризация текста, распознавание полифонических слов и предсказание просодии во внешнем интерфейсе TTS, позволяя Youdao синтезировать на стороне устройства.Низкие ошибки произношения, естественный ритм и эмоциональная насыщенностькачественный голос.

Интерфейс TTS со словарем Youdao также сталкивается с некоторымивызов:

Соответствуют требованиям почти 100% точности произношения; в китайском и английском языках большое количество многосложных слов и многосложных слов являются ключом к влиянию на точность произношения, а для образовательной сцены словарной ручки Youdao правильное чтение древних стихов и классических Также требуется китайский.Полное покрытие.

Моделирование функций просодии для удовлетворения потребностей в естественных паузах и четкой семантике в синтезе TTS.

Ресурсы устройства словарного пера ограничены, и, хотя оно удовлетворяет двум вышеуказанным качествам, оно также должно соответствовать требованиям к производительности.

Исходя из этих проблем, мы в основном выполнили следующие работы, а именно:Сбор ресурсов, модельные эксперименты, системная интеграция:

сбор ресурсов: На этапе сбора ресурсов с помощью уникальных учебных и исследовательских ресурсов Youdao собирайте и систематизируйте полифонические списки слов, В сочетании с частью речи, значением слова и т. д. теги модели полифонического слова уточняются, чтобы сделать моделирование более эффективным; при произношении древних китайских стихов и классического китайского языка технология ssml используется для применения массивных ресурсов авторитетного словаря произношения. словарной ручки к произношению TTS;

модельный эксперимент: на этапе модельного эксперимента интерфейс включает такие задачи, как полифонические слова, предсказание просодии, сегментация слов, предсказание частей речи и т. д. За счет построения многозадачной модели bert и совместного прогнозирования задач полифонии, просодии, сегментации слов и частей речи взаимное продвижение нескольких задач не только повышает точность полифонической модели и модели просодии, но также сохраняет количество параметров, наконец, благодаря технологии дистилляции, многозадачная модель с малыми параметрами не только обеспечивает качество, но и отвечает встроенным требованиям к производительности;

системная интеграция: На этапе системной интеграции команда инженеров дополнительно оптимизировала память и время рассуждений с помощью собственной разработки конвейерной технологии bert;

Благодаря этим аспектам работы окончательныйМногозадачная архитектура на основе предварительно обученной модели TTS смешанного китайско-английского интерфейса, что обеспечивает правильность произношения и просодическую паузу синтеза ТТС.

2.2 Неавторегрессионная акустическая модель VAE

Основная роль акустической модели заключается в преобразовании лингвистических признаков в соответствующие акустические признаки. Общие акустические модели нейронных сетей можно условно разделить на две категории:Одна из них — авторегрессионная акустическая модель.: Например, Tacotron и Tacotron2, преимущество — высокая естественность, но недостаток — низкая производительность; авторегрессионная акустическая модель, основанная на внимании, с трудом моделирует длинную речь, она более склонна к потере слов и повторению.

Вторая — неавторегрессионная акустическая модель.: Например, Fastspeech и Fastspeech2, преимущество в том, что акустические признаки генерируются параллельно, производительность хорошая и моделирование длинных предложений достаточно надежное; недостаток в том, что просодическое моделирование немного хуже авторегрессионной акустической модели .

Всестороннее качество и производительность, команда Youdao AI, наконец, выбралаНеавторегрессионная акустическая модель на основе VAE. Причина в том, что он имеет следующие преимущества:

С точки зрения надежности: лучше, чем Tacotron2;

По производительности: так же быстро, как Fastspeech, быстрее, чем Tacotron2;

По качеству: близок к Tacotron2, легче обучается, чем Fastspeech.

В то же время мыВремя расчета некоторых операторов составляет большую часть общего времени.Задача оптимизирована инженерно, что дополнительно повышает общую скорость работы системы в реальном времени. Кроме того, модель также квантована, что уменьшает память модели.

2.3 Вокодер на основе GAN

Роль вокодера заключается в преобразовании акустических характеристик, выдаваемых акустической моделью, в речевые сигналы во временной области. Это напрямую влияет на качество синтезированной речи и поэтому имеет решающее значение для взаимодействия с пользователем. При фактической разработке интеллектуальных аппаратных продуктов Youdao исследования и разработки технологии вокодера сталкиваются с рядом трудностей:

Во-первых, проблема качества звука. Отсутствие возможности моделирования модели вокодера напрямую приведет к минимальному уровню шума или электронному звуку синтезированной речи. Но если просто увеличить параметры модели, это повлияет на скорость вывода системы.

Во-вторых, проблемы с производительностью.. Вычислительная сложность вокодера относительно велика во всей структуре синтеза речи. Для синтеза высококачественной речи во встроенных сценариях требуется достаточно большая и мощная модель вокодера для моделирования.

Однако из-за слабой вычислительной мощности и небольшого объема памяти микросхемы устройства большой вокодер приведет к значительному увеличению задержки восприятия. С точки зрения пользователя, если задержка слишком велика и пользователь слишком долго ждет, хорошего впечатления не будет.

Чтобы решить вышеуказанные проблемы, путем большого количества экспериментов и всесторонних сравнений команда Youdao AI наконец выбрала вокодер на основе схемы GAN.

Для воплощения любого академического решения в промышленный продукт требуется много экспериментов и полировка.

Во-первых, использовать разные конфигурации модели для разных сценариев.Команда Youdao AI тщательно настроила параметры модуля генератора в вокодере GAN, чтобы его можно было успешно применять во встроенных сценариях, которые отличаются от традиционного вокодера параметров. Вокодер нейронной сети на основе GAN может синтезировать очень естественный звук высокой четкости,Сократите разрыв между качеством автономной TTS и онлайновой TTS.

请添加图片描述

Кроме того, мы проделали большую работу по квантованию и сжатию модели, что значительно повышает скорость синтеза речи и значительно снижает потребление ресурсов системы.

3. Резюме

В человеко-компьютерном взаимодействии интеллектуальных аппаратных продуктов технология синтеза речи играет очень важную роль, но при ее реализации возникает множество проблем.Его ядром является противоречие между аппаратными вычислительными ресурсами и качеством синтезируемой речи.

Как обеспечить качественную технологию синтеза речи быстрее и стабильнее в условиях ограниченных ресурсов — это цель и основное внимание команды Youdao AI.

В настоящее время технология синтеза речи Youdao TTS применяется во многих внутренних и внешних онлайн- и встроенных сценариях и продемонстрировала более стабильный и надежный эффект синтеза, чем традиционные решения.

-- END --

пасхальное яйцо ответ