Эта статья была впервые опубликована на:Уокер ИИ
TTS — это технология, которая преобразует текстовые слова в речевые сигналы человека. Стандартом оценки технологии TTS является правильность, ясность и естественность сгенерированного речевого сигнала. Традиционные методы TTS включают сплайсинг и параметрические методы, но речевые сигналы, генерируемые этими двумя методами, неестественны. Сквозная технология TTS может обеспечить относительно естественные эффекты синтеза, но она также имеет недостатки, такие как нестабильные эффекты генерации, повторяющийся текст или пропуски.Expressive TTS
Это более активное направление в области синтеза речи в настоящее время, отличие от чистого TTS в том, что в нем больше внимания уделяется стилю, эмоциональности, ритму и так далее синтезируемого голоса. Для обычной сквозной технологии TTS сложно точно контролировать ритм, паузу и ритм синтезированного результата.
DurIAN: Duration Informed Attention Network For Multimodal SynthesisЭто документ, выпущенный Tencent AI Lab в 2019 году. В отличие от обычной модели сквозного синтеза речи, для контроля выравнивания результатов синтеза используется механизм внимания.Основная идея данной работы заключается в отказе от структуры внимания и использовании отдельной модели для прогнозирования выравнивания , что удобно для фактического использования модели для речи.При синтезе задач пользователи могут легко вводить просодические параметры для управления генерируемыми результатами.
Вот краткое введениеAttention
а такжеAlignment
Концепция чего-либо.
Роль механизма Attention в рамках TTS заключается в том, чтобы имитировать механизм человеческих голосов, то есть фокусироваться на контексте, соответствующем нашим голосам. Точно так же в модели «Внимание», когда мы произносим текущее слово, мы будем искать соответствующие слова в исходном предложении и делать соответствующие высказывания в сочетании с частями, которые были произнесены ранее, как показано на рисунке ниже, когда мы произнесите «Знание» «При произнесении этого звука вам нужно сосредоточиться только на части «знание» исходного предложения, а когда произносится слово «сила», вам нужно сосредоточиться только на словах «сила».
Alignment
Это означает выравнивание. При обучении задаче TTS модель должна знать, как выровнять входной текст с выходным спектром. Общие методы включают использованиеAttention
механизм или обучить специализированную модель для выравнивания.
Содержанием предыдущей работы автора является певческий синтез, а основной целью певческого синтеза является формирование певческого голоса, удовлетворяющего условиям ритма и высоты тона. Основное содержание этой статьи состоит в том, чтобы кратко представить основные идеи статьи DurIAN, а также некоторые идеи для синтеза пения после прочтения статьи выше. В этой статье будут интерпретироваться следующие аспекты:
- Введение в общую технологию синтеза речи
- Основная концепция дуриана
- Основная структура дуриана
- Вдохновение для будущей работы
1. Введение в общие методы синтеза речи
Общие методы синтеза речи включают:
- Синтез речи на основе технологии сплайсинга сигналов
- Статистический параметрический синтез речи
- сквозной синтез речи
Технология синтеза речи на основе сплайсинга сигналов означает, что перед синтезом речи соответствующие речевые сегменты сначала сохраняются в компьютере, а соответствующие речевые сегменты выбираются по определенным критериям при синтезе речи, а выбранные речевые сегменты сохраняются в сплайсинге. алгоритм с использованием алгоритма сплайсинга.Сплайсинг выполняется во временной области для синтеза конечной речи.
Для статистического параметрического синтеза речи требуется, чтобы вокодер преобразовывал речевой сигнал в краткосрочные функции частотной области, представляющие речевые функции, а затем использует статистические модели для изучения взаимосвязи между входным текстом и речевыми функциями.
Система сквозного синтеза напрямую вводит текст или фонетические символы, а система напрямую выводит звуковые волны.
По сравнению с традиционной технологией синтеза речи технология сквозного синтеза речи имеет следующие преимущества:
- Используйте кодировщики для замены созданных человеком семантических функций.
- Использование авторегрессионных моделей облегчает проблему чрезмерного сглаживания при параметрическом синтезе речи.
- Замените традиционные вокодеры на такие вокодеры, как wavenet.
- Введена внимательность.
Обычная модель сквозного синтеза речи состоит из кодера, модуля внимания и декодера, который отвечает за согласование выходных данных кодера с выходными данными декодера.
На следующем рисунке представлена структурная схема распространенной модели Tacotron:
Однако такой модуль внимания может столкнуться с проблемой.Если модуль внимания плохо обучен или если обучающих данных не много, выходная матрица модуля внимания может вызвать повторение декодера при декодировании или пропуски.
2. Основная концепция дуриана
Модель DurIAN представляет собой мультимодальную структуру синтеза, которая может синтезировать очень естественную речь, и в то же время она может синтезировать выражения лица говорящего.
Модель DurIAN сочетает в себе традиционную технологию параметрического синтеза речи и технологию сквозного синтеза речи, поэтому модель обладает такими преимуществами, как естественность и надежность.
Основная идея модели DurIAN заключается в использовании модуля выравнивания, аналогичного технологии параметрического синтеза речи, для замены модуля внимания в сквозной модели для решения вышеуказанных проблем.
Основные преимущества модели DurIAN:
- Замените модуль внимания модулем выравнивания.
- Последовательность фонем и китайская просодическая информация одновременно кодируются с использованием архитектуры кодировщика с пропуском.
- Поддерживает детализированные задачи синтеза речи разных стилей.
- Замена исходной модели waveRNN на параллельную модель waveRNN повышает скорость синтеза.
3. Структура ядра дуриана
Схема модели Durian представлена на следующем рисунке:
Вводом в архитектуру DurIAN является текстовая последовательность, а выводом — спектрограмма Мела. Архитектура DurIAN показана на диаграмме выше, которая включает в себя:
- Кодер кодирует текстовую информацию и просодическую информацию. В соответствии с левой частью рисунка выше входными данными являются последовательность фонем и управляющие фонемы, такие как пауза, а выходными данными является закодированная последовательность.
- Модель прогнозирования продолжительности, которая отвечает за прогнозирование длины произношения каждой фонемы. Эта модель соответствует средней части рисунка выше.Вход модели — последовательность фонем, а выход — продолжительность вокализации каждой фонемы.
- Модель выравнивания, роль этой модели заключается в выравнивании входной текстовой последовательности и выходной мел-спектрограммы. Эта модель соответствует средней части рисунка выше.
- Сеть авторегрессионного декодера генерирует промежуточные выходные данные модели. Эта часть соответствует декодеру в правой части рисунка выше, а выходной вектор является входным вектором Post-net.
- Post-net используется для преобразования промежуточного вывода в целевой вывод (адаптация к различным вокодерам или преобразование вывода в данные модели лица и т. д.).
На вход кодировщика подается последовательность текстовых просодических символов., выход представляет собой последовательность скрытых состояний,
вдлина последовательности, включая входной текст и просодию,длина входного текста без просодической информации.
Функция модели прогнозирования длительности состоит в том, чтобы предсказать продолжительность вокализации каждой фонемы.Вводом является последовательность фонем и соответствующая продолжительность, а выходом является информация о длительности и номере кадра фактической вокализации каждой скорости звука.
Модель выравнивания отвечает заВыходная скрытая переменная расширяется в соответствии с информацией о номере кадра, выводимой моделью прогнозирования длительности, и получается информация о последовательности, согласующаяся с номером кадра спектра Mel,
где T представляет количество кадров выходного спектра Mel. Метод расширения кадра здесь заключается в простом копировании скрытого вектора в соответствии с выходными данными модели прогнозирования длительности.
Обработанный вектор будет отправлен в декодер для авторегрессионного декодирования,
Выход декодера, наконец, проходит через сеть post-net, чтобы получить окончательный результат.
Потеря всей сети:
4. Вдохновение для будущей работы
Преимущество этой статьи в том, что модель DurIAN реализует систему TTS, которая может контролировать как просодию, так и продолжительность произношения.
Некоторое время назад моей основной работой был синтез пения. Синтез пения также можно рассматривать как систему TTS, которая должна одновременно контролировать время и продолжительность вокализации (одновременно с учетом кривой основного тона).
Предыдущая идея заключалась в том, чтобы использовать для синтеза речи модель, аналогичную WaveNet, а не сквозной синтез, и окончательный эффект синтеза был неудовлетворительным.
Я думаю, что задача синтеза пения имеет много общего с этой задачей, которую можно использовать для справки, чтобы улучшить эффект синтеза.
PS: Для получения дополнительной технической галантереи, пожалуйста, обратите внимание на [Публичный аккаунт | xingzhe_ai] и обсудите с ходоками!