Хороший звук подобен фильтру. Особенно в прямых трансляциях звук уже является ключевым элементом для повышения популярности комнаты для прямых трансляций. Чистый и приятный звук может быстро привлечь аудиторию и вызвать у нее доброжелательность.
Чтобы создать комнату для прямых трансляций с «хорошим голосом», помимо контроля ведущего над звуком путем регулировки высоты тона, интонации, скорости речи и т. д., само приложение также должно предоставлять базовые возможности для добавьте очков к звуку и улучшите впечатления пользователя от прослушивания техническая поддержка. По мере того, как сцена прямой трансляции становится все более насыщенной и сложной, различные сцены прямой трансляции также имеют соответствующие технические требования.
В постоянно процветающем бизнесе прямых трансляций роль функции Lianmai в удержании пользователей, активности в помещении для прямых трансляций и улучшении качества контента была эффективно проверена, и она стала важной возможностью для различных бизнес-сценариев.
SDK в прямом эфире Rongyun с мощнымIM + RTC +XОсновываясь на полных коммуникационных возможностях, он полностью инкапсулирует бизнес-сценарии и обеспечивает 7 режимов компоновки слияния.Охватывает всю сцену прямого эфира и даже пшеницу. Мобильный [Rongyun Global Internet Communication Cloud] бесплатный опыт
В прямом эфире важными техническими возможностями являютсяАкустическое эхоподавление (AEC).
В этом документе рассказывается о практике и эффекте Rongyun в технологии AEC с точки зрения основных концепций, классических алгоритмов, основных проблем и исследования технологии эхоподавления искусственного интеллекта.
Введение в основные понятия
Что такое эхо?
В прямом эфире с микрофоном эхо в основном относится какустическое эхо(включая линейные эхо-сигналы и нелинейные эхо-сигналы). То есть: после того, как звуковой сигнал дальнего говорящего (хост А или слушатель А) передается на ближний конец (слушатель Б или хост Б), он воспроизводится на динамике ближнего устройства, а после серия акустических отражений, отраженных устройством на ближнем конце Явление, при котором микрофон улавливается и передается на дальний конец (хост А или слушатель А).
Это приведет к тому, что говорящий на дальнем конце услышит то, что он только что сказал, за очень короткое время. Процесс генерации акустического эха показан на рисунке 1.
(Рис. 1 Процесс генерации акустического эха)
Как избежать этого явления?
Ответ заключается в использовании технологии AEC (Acoustic Echo Cancellation) для устранения эха, содержащегося в сигнале, собранном микрофоном ближнего устройства → для обеспечения отсутствия сигнала эха в звуке, слышимом дальним динамиком → для улучшения опыта пользователя в прямом эфире и качества комнаты для прямого вещания.
После использования технологии AEC процесс передачи звука на обоих концах изменяется так, как показано на рисунке 2, тем самым обеспечивается чистота звука в сцене прямой трансляции с нижнего слоя.
(Рис. 2. Сценарий использования технологии AEC)
Обычно используемые классические алгоритмы
В настоящее время широко используемый алгоритм полного акустического эхоподавления состоит из следующих трех основных модулей: модуль оценки временной задержки (TDE), модуль линейного эхоподавления (LEC) и модуль подавления остаточного эха (Residual Echo Suppression, RES), его основной блок. схема показана на рисунке 3.
(Рисунок 3. Обычно используемые алгоритмы подавления эха)
Модуль оценки задержки
Эхо-сигнал задерживается относительно опорного сигнала, основными причинами которого являются:
① Время, необходимое для воспроизведения опорного сигнала из динамика;
② Время, необходимое динамику для достижения микрофона после воспроизведения;
③ Время, необходимое микрофону, чтобы уловить эхо-сигнал и отправить его в модуль алгоритма AEC.
Поскольку указанное выше время не является фиксированным, будет дрожание задержки. Чрезмерная задержка или чрезмерное дрожание задержки могут серьезно ухудшить характеристики AEC. Следовательно, необходимо ввести модуль оценки временной задержки (TDE) для оценки задержки между сигналом микрофона и опорным сигналом и согласования ее, чтобы обработка модуля линейного эхоподавления (LEC) и остаточного эха модуль подавления (RES) эффективен.
Классический алгоритм TDE реализован на основе принципа взаимной корреляции.Здесь для иллюстрации используется алгоритм TDE в WebRTC.Он в основном преобразует опорный сигнал и сигнал микрофона в частотную область и выполняет 1/0 обработка, чтобы указать, есть ли речевой сигнал, путем постоянного перемещения двух сигналов относительно кадра, чтобы найти наиболее релевантную разницу во времени, как расчетное значение задержки.
Модуль линейного эхоподавления
Классический модуль линейного эхоподавления (LEC) в основном разработан с адаптивным фильтром (AF), таким как LMS, NLMS, AP, RLS, Kalman и т. д. При проектировании AF необходимо учитывать следующие показатели:
**① Скорость сходимости: ** Чем быстрее, тем лучше, т. е. скорость AF от состояния отсутствия сходимости (например, начального состояния или состояния отсутствия сходимости, вызванного изменениями эхо-тракта) до состояния сходимости;
**② Стабильность: **В основном потому, что AF может работать стабильно и эффективно после схождения, так что выходной объем остаточного эха стабилен и мал;
**③ Алгоритмическая сложность: ** Чтобы добиться хорошего эффекта фильтрации, вычислительная сложность должна быть как можно ниже.
Обычно в конструкцию модуля линейного эхоподавления (LEC) также необходимо вводить модуль обнаружения двойного разговора (DTD).
**Обнаружение двойного разговора (DTD)** не позволяет адаптивному фильтру (AF) обновляться при «двойном разговоре», сохраняет адаптивный фильтр (AF) стабильным и нерасходящимся; и обновляет его при «одиночном разговоре», чтобы отслеживать эхо пути меняются.
Модуль подавления остаточного эха
Адаптивный фильтр (AF) обычно соответствует эхо-линии как линейной системе, но реальная система не является линейной системой в строгом смысле, а адаптивный фильтр (AF) имеет ограниченную длину, что затрудняет реверберацию в сильная среда точная посадка.
Следовательно, после обработки с линейным эхоподавлением (LEC) остаточные эхо-сигналы все равно будут, и для дальнейшего подавления остаточных эхо-сигналов необходимо ввести модуль подавления остаточного эха (RES).
Модуль подавления остаточного эха (RES) обычно использует корреляцию между остаточным сигналом и сигналом микрофона, эталонным сигналом и оценкой линейного эха для оценки остаточного эха, а затем оценивает апостериорное/априорное отношение сигнал-эхо, а затем проходит фильтрацию Винера и так далее, чтобы оценить окончательный коэффициент усиления для получения выходных данных.
Следует отметить, что в реальной конструкции модуля подавления остаточного эха (RES) также необходимо сбалансировать величину подавления остаточного эха и искажение речи на ближнем конце, а также эффект алгоритма и вычислительную сложность.
Основные проблемы классических алгоритмов
Хотя классические алгоритмы широко используются в практических сценариях, они также всегда сталкиваются с некоторыми неразрешимыми проблемами, а именно:
① ВСильное нелинейное эхоТрудно добиться хорошего эффекта подавления эха в случае, когда голос на ближнем конце не поврежден или повреждение допустимо.
② вСильное нелинейное эхоилинестабильный шумВ этом сценарии традиционным алгоритмам обнаружения двойного разговора также сложно получить точные результаты обнаружения.
③ вСильная реверберацияВ сцене сложно получить хороший эффект эхоподавления из-за ограничения длины адаптивного фильтра (AF).
существуетСцена прямой трансляции Lianmai, реальные сценарии использования AEC более сложны и сталкиваются с большим количеством проблем:
① Существует много типов и различий пользовательского терминального оборудования, а нелинейные условия эхо-сигналов совершенно разные, что создает большие трудности для алгоритма AEC.
② Среда использования оборудования сложна и разнообразна, включая тихую среду, шумную среду в помещении, шумную среду на улице, среду с сильной реверберацией в помещении и т. д., которые также проверяют эффект AEC.
③ Популярность платформ прямых трансляций может привести к большому наплыву пользователей.В случае большого количества пользователей резко возрастает вероятность «двойного разговора», что также увеличивает сложность AEC.
Таким образом, традиционный алгоритм AEC сталкивается с множеством проблем в различных сценариях прямых трансляций, поддерживаемых Rongyun Live SDK.
Исследование технологии эхоподавления искусственного интеллекта
В последние годы появляется все больше и больше приложений глубокого обучения в области обработки речевых сигналов, и достигнут некоторый прогресс в его сочетании с алгоритмом AEC.
Суть глубокого обучения состоит в том, чтобы построить глубокую модель, соответствующую соотношению отображения между входными и выходными данными, и благодаря непрерывной самонастройке построенной модели ошибка между выходными данными модели и целью становится все меньше и меньше, пока сходимость не будет достигнута. стабильный. Для алгоритма AEC вход глубокой сети включает два сигнала опорного и микрофонного, а выход — один.
Сочетание глубокого обучения с AEC
В текущих исследовательских идеях объединения глубокого обучения и AEC в основном есть следующие две:
① Традиционный LEC + RES для глубокого обучения
Глубокая модель используется для подбора нелинейных остаточных эхо-сигналов и сохранения классического алгоритма линейного эхоподавления (LEC).
② Глубокое обучение AEC
С расширением выразительных возможностей глубокой сети появляется все больше и больше методов прямого использования модели глубокой сети для соответствия всем эхо-сигналам (линейное эхо + нелинейное эхо).
В целом исследований по алгоритмам AEC, основанным на глубоком обучении, становится все больше, и они постепенно используются в практических системах.
Исследование и применение Ронъюнь
Lianmai является одной из важных функций бизнеса прямой трансляции, а AEC является одним из необходимых алгоритмов для прямой трансляции Lianmai Производительность AEC напрямую влияет на опыт прямой трансляции Lianmai. Таким образом, исследования Роньюна в области AEC никогда не прекращались, включая исследование слияния самых популярных алгоритмов Transformer и AEC в области НЛП в последние годы.
Transformer был предложен командой Google в июне 2017 года, отказавшись от традиционных CNN и RNN, а вся структура сети состоит из механизма Attention.
Главный прорыв, который он приносит в отрасль, заключается в том, что он решает проблему, связанную с тем, что RNN полагается на исторические результаты, чтобы ограничить параллельную способность модели и потерю информации о последовательных вычислениях.
Теперь Transformer стал не только основной моделью в области обработки естественного языка, но и трансграничной в других областях, включая синтез изображений, многоцелевое отслеживание, генерацию музыки, прогнозирование временных рядов, моделирование языка зрения и т. д.
Речевые сигналы представляют собой сигналы временной последовательности, и они также будут областью, в которой Трансформеры смогут поиграть мускулами.
Исследуя слияние алгоритма Transformer и AEC, Rongyun построил набор фреймворков алгоритма AEC на основе двухконтурного преобразователя.Принципиальная блок-схема показана на рисунке 4. Внутренний преобразователь и Inter-преобразователь используются для построения локальной и глобальной информации. соответственно плесень.
(Рисунок 4. Исследование технологии эхоподавления искусственного интеллекта компании Rongyun)
В рамках исследовательской тенденции глубокого обучения AEC компания Rongyun провела практическую проверку некоторых существующих алгоритмов глубокого обучения AEC, таких как алгоритм DTLN-AEC, основанный на модели глубокого обучения LSTM.
Результаты показаны на сравнительной диаграмме ниже: первая половина результата — «один разговор», а вторая половина — «двойной разговор».
Видно, что метод глубокого обучения DTLN-AEC на основе LSTM превосходит традиционный метод. Сочетая мощную подгоночную способность глубокой модели с наборами данных, относящимися к сцене прямой трансляции, она может улучшить производительность различных сценариев, таких как нелинейное эхо, реверберация, шум и «двойной разговор», и значительно облегчить прямую трансляцию. сцена вызов.