Это первый день моего участия в ноябрьском испытании обновлений, подробности о мероприятии:Вызов последнего обновления 2021 г.
ABSTRACT
В этой статье описывается Tacotron 2, архитектура нейронной сети для синтеза речи непосредственно из текста. Система состоит из двух частей: сети прогнозирования признаков с циклической структурой seq2seq, которая отображает векторы символов в спектрограммы mel, за которой следует пересмотренная версия модели WaveNet, которая синтезирует спектрограммы mel в формы сигналов во временной области. Наша модель достигла среднего балла мнения (MOS) 4,53, а балл MOS для профессионально записанной речи составил 4,58. Чтобы проверить дизайн модели, мы проводим экспериментальное исследование ключевых компонентов системы и оцениваем различные эффекты использования спектра Mel вместо лингвистических, основных и F0-функций в качестве входных данных для WaveNet. Далее мы показываем, что архитектуру WaveNet можно значительно упростить, используя компактное акустическое промежуточное представление.
1 INTRODUCTION
Генерация естественной речи (Speech Synthesis, TTS) из текста остается сложной задачей. Ведущие технологии в этой области постоянно меняются с развитием времени. Единичный выбор и сплайс-синтез, метод сшивания вместе небольших фрагментов предварительно записанных речевых сигналов, уже много лет представляют собой современное состояние техники. Статистический метод синтеза речи заключается в том, чтобы непосредственно генерировать гладкую траекторию речевых признаков, а затем использовать вокодер для синтеза речи.Этот метод решает многие проблемы граничных артефактов в методе синтеза сплайсинга. Однако речь, генерируемая этими методами, часто нечеткая и неестественная по сравнению с человеческой речью.
WaveNet представляет собой генеративную модель сигналов во временной области, которая позволяет генерировать речь, сравнимую с человеческой речью, и эта модель применялась к некоторым полным системам синтеза речи. Однако входные данные WaveNet (лингвистические характеристики, прогнозируемая логарифмическая основная частота (F0) и продолжительность фонемы) требуют для генерации обширных знаний предметной области, включая исчерпывающую систему анализа текста и надежный фонетический словарь (руководство по произношению).
Tacotron представляет собой архитектуру seq2seq, которая генерирует амплитудные спектрограммы из последовательностей символов. Он обучает одну нейронную сеть только на входных данных. Tacotron используется для замены модулей генерации лингвистических и акустических признаков, тем самым упрощая конвейер традиционного синтеза речи. Чтобы окончательно синтезировать спектрограмму величины, Tacotron использует алгоритм Гриффина-Лима для оценки фазы, а затем применяет обратное кратковременное преобразование Фурье. Авторы отмечают, что алгоритм Гриффина-Лима производит уникальные артефакты и более низкую точность синтезированной речи, чем метод, используемый в WaveNet, поэтому это лишь временный метод, который в будущем будет заменен нейронным вокодером.
В этой статье мы описываем унифицированный метод синтеза речи полной нейронной сети, который сочетает в себе лучшее из двух вышеупомянутых методов: модель seq2seq в стиле Tacotron используется для генерации мел-спектрограмм, за которой следует версия устройства с вокодированием WaveNet. Система позволяет проводить сквозное обучение синтезу речи непосредственно с использованием последовательностей символов и данных формы речевого сигнала, а естественность синтезированной речи приближается к реальной речи.
Deep Voice 3 описывает аналогичный подход, однако, в отличие от нашей системы, его точность воспроизведения речи пока не сравнима с человеческой речью. Char2Wav также предложил другой аналогичный метод, также использующий нейронный вокодер для сквозного обучения TTS, но он использует другое представление промежуточных признаков (традиционные признаки вокодера), чем наше, и их архитектура модели сильно отличается от нашей.
2 MODEL ARCHITECTURE
Предлагаемая нами система состоит из двух частей, как показано на рис. 1:
- Рекуррентная сеть предсказания признаков на основе seq2seq с вниманием, введенным для предсказания последовательностей кадров мел-спектрограмм из последовательностей входных символов.
- Пересмотренная версия сети WaveNet для обучения генерированию выборок формы сигнала во временной области на основе предсказанных последовательностей мел-спектральных кадров.
2.1 Intermediate Feature Representation
В этом исследовании мы используем низкоуровневое акустическое представление: спектрограмму частот Мела, чтобы соединить две части системы. Спектрограммы Mel легко получить путем вычисления сигналов во временной области, и использование такого представления дает нам возможность независимо обучать два компонента. Спектр Mel более гладкий, чем выборки формы сигнала, и его легче обучать с помощью среднеквадратичной ошибки (MSE), поскольку он является фазово-инвариантным для каждого кадра.
Мел-частотные спектрограммы связаны с линейными частотными спектрограммами, амплитудами кратковременного преобразования Фурье. Вдохновленный тестированием отклика слуховой системы человека, спектр Мела получается путем применения нелинейного преобразования к оси частот кратковременного преобразования Фурье, сжимая частотный диапазон с меньшим количеством измерений. Этот метод частотного масштабирования, аналогичный слуховой системе, подчеркивает низкочастотные детали речи, которые имеют решающее значение для разборчивости речи, и ослабляет высокочастотные детали, в которых часто преобладают трение и другие хлопающие шумы, поэтому в основном нет необходимо моделировать высокочастотные детали в высокоточной обработке. Именно из-за этого свойства представление признаков на основе шкалы Мела широко использовалось в распознавании речи за последние несколько десятилетий.
Линейные спектрограммы отбрасывают информацию о фазе (следовательно, с потерями), а такие алгоритмы, как Гриффин-Лим, могут оценивать отброшенную информацию о фазе, используя обратное кратковременное преобразование Фурье для преобразования линейных спектрограмм в форму волны во временной области. Спектрограммы Mel отбрасывают больше информации и, таким образом, создают проблему для задачи синтеза обратной формы волны. Однако по сравнению с лингвистическими и акустическими характеристиками, используемыми в WaveNet, спектрограмма mel проще и представляет собой акустическое представление звукового сигнала более низкого уровня, поэтому, когда нейронный вокодер конструируется с использованием модели, аналогичной WaveNet, спектрограмма mel является обучающей. синтез речи на графике должен быть более простым. Мы продемонстрируем генерацию высококачественного звука из мел-спектрограмм с использованием модифицированной версии архитектуры WaveNet.
2.2 Spectrogram Prediction Network
В Tactron для получения линейного спектра применялись длина кадра 50 мс, сдвиг кадра на 12,5 мс, перехват окна Хэмминга и кратковременное преобразование Фурье (STFT). Затем линейная частота STFT фильтруется с использованием 80-канального блока фильтров мела с частотным диапазоном от 125 Гц до 7,6 кГц с последующим сжатием диапазона с логарифмической функцией, тем самым преобразуя амплитуду STFT в шкалу мела. Перед логарифмическим сжатием выходная амплитуда набора фильтров стабилизируется до минимума 0,01, чтобы ограничить его динамический диапазон в логарифмической области.
Сеть предсказания спектрограммы состоит из кодера и декодера, которые вводят механизм внимания. Кодер преобразует последовательность символов в представление скрытого слоя, которое затем принимается декодером для предсказания спектрограммы. Входные символы кодируются как 512-мерные векторы символов, а затем проходят через 3-х слойную свертку, каждый слой свертки содержит 512 ядер свертки 5 x 1, то есть каждое ядро свертки охватывает 5 символов, за которыми следует пакетная нормализация (пакетная нормализация) и функции активации ReLU. Как и в Tacotron, сверточные слои моделируют большой контекст (например, N-граммы) входной последовательности символов. Выходные данные последнего сверточного слоя передаются на слой BiLSTM для генерации закодированных функций, этот LSTM содержит 512 единиц (256 единиц в каждом направлении).
Сеть внимания строится для объединения выходных данных кодировщика.Для каждого выхода кодировщика сеть внимания суммирует закодированную последовательность в контекстный вектор фиксированной длины. Мы используем механизм внимания, чувствительный к положению, который расширяет механизм аддитивного внимания, так что накопленные веса внимания предыдущих процессов декодирования могут использоваться в качестве дополнительных признаков, что позволяет модели поддерживать движение вперед-назад по мере продвижения вперед вдоль входных данных. Согласованность, уменьшающая потенциальные сбои в обработке декодирования, такие как дублирование или пропуск подпоследовательности. Функция положения свертывается с 32 одномерными ядрами свертки длиной 31, а затем входная последовательность и функция положения проецируются на 128-мерное представление скрытого слоя, и вычисляется вес внимания.
Декодер представляет собой авторегрессионную рекуррентную нейронную сеть, которая предсказывает выходную спектрограмму из закодированной входной последовательности, по одному кадру за раз. Спектральный кадр, предсказанный на предыдущем шаге, сначала передается в двухуровневую полностью связанную «Pre-Net», состоящую из скрытых единиц ReLU 256 на слой.Мы обнаружили, что Pre-Net как информационный слой узкого места важен для обучения вниманию. сила необходима. Выход Pre-Net и вектор контекста внимания объединяются вместе и передаются в двухуровневый однонаправленный LSTM из 1024 единиц. Выходные данные LSTM снова объединяются с вектором контекста внимания, а затем проецируются посредством линейного преобразования для предсказания целевого спектрального кадра. Наконец, целевой спектральный кадр подвергается 5-уровневой сверточной «Post-Net» для прогнозирования остатка, наложенного на спектральный кадр перед сверткой, чтобы улучшить весь процесс спектральной реконструкции. Каждый слой Post-Net состоит из 512 ядер свертки 5 × 1 и процесса пакетной нормализации.За исключением последнего слоя свертки, процесс пакетной нормализации каждого слоя сопровождается функцией активации tanh.
Мы минимизируем среднеквадратичную ошибку до и после Post-Net, чтобы способствовать сходимости, а также экспериментируем с сетью смешанной плотности, чтобы свести к минимуму потерю логарифмического правдоподобия распределения выходных результатов, надеясь избежать того, чтобы выходной спектр был постоянным постоянным током. , Но оказалось, что это усложняет обучение и не приводит к получению лучших синтетических образцов.
Параллельно с прогнозированием спектрального кадра выходные данные декодера LSTM объединяются с вектором контекста внимания, проецируются в скаляр и передаются сигмовидной функции активации, чтобы предсказать, завершена ли выходная последовательность, то есть «знак остановки». . Позволяет модели динамически решать, когда закончить генерацию спектра во время вывода, а не запускать ее все время в течение фиксированного периода времени.
Сверточные слои в сети регуляризуются с отсевом с вероятностью 0,5, а слой LSTM регуляризуется с зонированием с вероятностью 0,1. Чтобы внести некоторые изменения в вывод во время вывода, отсев с вероятностью 0,5 применяется только к Pre-Net авторегрессионного декодера.
По сравнению с Tacotron, наша модель использует более компактный строительный блок, вместо использования структуры стека «CBHG» и рекуррентных слоев GRU в Tacotron, в кодере и декодере вместо этого используются обычные LSTM и сверточные слои. Мы не используем «коэффициент уменьшения» на выходе декодера, т. е. каждый шаг декодирования выводит только один спектральный кадр.
2.3 WaveNet Vocoder
Мы используем модифицированную версию архитектуры WaveNet для обратного преобразования спектральных характеристик Mel в выборки сигналов во временной области. В исходной архитектуре WaveNet имеется 30 расширенных сверточных слоев, которые разбиты на 3 цикла, а это означает, что скорость расширения k-го (k = 0...29) слоя равна
Однако вместо использования слоя softmax для прогнозирования дискретных сегментов, как в WaveNet, мы позаимствовали PixelCNN++ и недавнюю улучшенную версию WaveNet, используя 10-компонентное смешанное логистическое распределение (10-компонентный MoL) для генерации 16-битных выборок глубокой речи. на частоте 24 кГц. Чтобы вычислить смешанное логистическое распределение, сложенные выходные данные WaveNet передаются в функцию активации ReLU, которая затем подключается к слою линейной проекции для прогнозирования параметров (среднее значение, логарифмическая шкала, смешанные веса) для каждого гибрида. Функция потерь рассчитывается с использованием функции отрицательного логарифмического правдоподобия, которая масштабирует реальные данные.
3 EXPERIMENTS & RESULTS
3.1 Training Steup
Наш процесс обучения состоит из первого обучения сети прогнозирования признаков отдельно, а затем обучения модифицированной версии WaveNet на основе выходных данных сети прогнозирования признаков.
Мы обучаем сеть прогнозирования признаков на одном графическом процессоре, используя процедуру обучения с максимальным правдоподобием (вместо того, чтобы передавать прогнозы, но правильные на стороне декодера, этот метод также называется форсированием учителя), указав размер пакета 64, используем Оптимизатор Adam и заданные параметры, начальная скорость обученияи после 50000 итераций падает до, используя весL2 регуляризация
Затем мы выравниваем результаты прогнозирования, выдаваемые сетью прогнозирования признаков, с данными калибровки.Мы используем выровненные результаты прогнозирования для обучения модифицированной WaveNet, что означает, что эти данные прогнозирования генерируются в режиме принуждения учителя, поэтому данные каждого спектрального кадра выравниваются точно к одному образцу сигнала. Во время обучения используйте оптимизатор Adam и указывайте параметры, скорость обучения фиксируется как, пакетное обучение с размером пакета 128 распределяется по 32 графическим процессорам и обновляется синхронно, что помогает сбалансировать веса всей модели с самыми последними обновлениями. Поэтому мы используем экспоненциально взвешенное среднее с коэффициентом затухания 0,9999 при обновлении параметров сети — этот процесс используется в выводе. Чтобы ускорить сходимость, мы масштабируем целевую форму сигнала с коэффициентом масштабирования 127,5, что делает начальный вывод уровня гибридной логики ближе к конечному распределению.
Мы обучаем все модели на собственном наборе данных американского английского, который содержит 24,6 часа речевых данных профессиональной женщины-диктора. Весь текст в датасете прописан, например "16" пишется как "шестнадцать", т.е. все модели обучаются на предварительно обработанных данных
3.2 Evaluation
При генерации речи на этапе вывода данные калибровки отсутствуют, поэтому, в отличие от метода принуждения учителя на этапе обучения, мы напрямую передаем результат прогнозирования предыдущего шага в процессе декодирования.
Мы случайным образом выбрали 100 текстов из тестового набора данных в качестве оценочного набора данных, а речь, сгенерированная с помощью этого оценочного набора данных, была отправлена в команду службы оценки, такую как Amazon Mechanical Turk, для оценки субъективного среднего мнения (MOS). человек, оценка от 1 до 5, а интервал подсчета очков 0,5. Оценка каждой модели выполняется независимо друг от друга, поэтому результаты двух разных моделей не сравниваются напрямую при выставлении оценки оценщику.
Обратите внимание, что хотя экземпляры оценочной выборки в наборе оценочных данных не включены в набор обучающих данных, в двух наборах данных все же есть повторяющиеся шаблоны и одни и те же слова, что может привести к относительно плохому результату по сравнению с набором данных, сгенерированным со случайными словами. Высокий балл МОС. Но при этом мы можем легко сравнить с откалиброванными реальными данными. Поскольку все сравниваемые системы обучаются на одном и том же наборе данных, сравнение друг с другом по-прежнему имеет смысл.
В таблице 1 показаны результаты сравнения нашего метода и других методов. Чтобы лучше изолировать эффекты использования мел-спектрограмм в качестве признаков, мы модифицировали архитектуру WaveNet, используя методы, аналогичные описанным выше, обучили модели WaveNet с помощью лингвистических признаков и сравнили результаты. Мы также сравниваем исходную модель Tacotron, использующую линейные спектрограммы и метод Гриффина-Лима для синтеза речи, со сплайсированными и параметрическими базовыми системами, которые уже используются в Google. Мы обнаружили, что предлагаемая система значительно превосходит все другие системы TTS, а ее результаты сопоставимы с калиброванной реальной речью.
Мы также провели детальную сравнительную оценку синтезированных результатов нашей системы и откалиброванной реальной речи, и оценщикам было предложено дать диапазон от -3 (синтезированный результат намного хуже, чем откалиброванная реальная речь) до 3 (синтезированный результат). результат намного лучше калиброванной реальной речи) между баллами. Общий средний балл -0,270 ± 0,155 указывает на то, что оценщики предпочитают калибровать реальную речь до небольшого, но статистически значимого уровня. Для подробного анализа, пожалуйста, обратитесь к рисунку 2. Отзывы оценщиков указывают на то, что случайное неправильное произношение является основной причиной предпочтения выверенной речи.
В приложении E [11] мы вручную анализируем шаблоны ошибок системы в тестовом наборе данных из 100 предложений. В речи, синтезированной из этих предложений, не было повторений слов, 6 случаев неправильного произношения, 1 пропущенного слова и 23 неестественных ритмов, таких как ударения, поставленные на неправильные слоги или слова, или неестественные тона. Наконец, наша модель получает оценку MOS 4,354. Эти результаты показывают, что система может надежно обращать внимание на весь ввод, но есть возможности для улучшения моделирования просодии.
Наконец, мы оцениваем речь, синтезированную с использованием 37 заголовков новостей, чтобы проверить способность системы обобщать данные, не относящиеся к предметной области. В этой оценке наша модель получила оценку MOS 4,148 ± 0,124, в то время как WaveNet, обученная с использованием лингвистических признаков, достигла 4,137 ± 0,128. Тщательная сравнительная оценка речи, генерируемой двумя системами, также показала, что эти две системы были неразличимы — предпочтение нашей системы было статистически незначимым 0,142 ± 0,338. Отзывы оценщиков также показывают, что речь, генерируемая предложенной нами моделью нейронной системы, является более естественной и похожей на человеческую. Этот результат указывает на проблему, с которой сталкиваются сквозные нейронные подходы: обучение модели необходимо выполнять на данных, охватывающих целевую область.