Мониторинг качества голоса в режиме реального времени

искусственный интеллект задняя часть Разработка аудио и видео

Сегодня я в основном хочу представить, что такое качество речи в реальном времени.Я кратко представлю некоторые существующие методы в этой области, а затем я представлю существующие методы и расскажу о некоторых вещах, которые я хочу сделать в будущем.

Методы оценки качества голоса

Прежде всего, я кратко представлю оценку качества речи, которая обычно делится на метод субъективной оценки и метод объективной оценки в зависимости от того, какой метод. Что же касается метода субъективной оценки, то он на самом деле полностью зависит от человеческих эмоций. На самом деле существует два вида субъективной оценки. Первый заключается в том, что я вообще не даю вам первоначальный эталонный сигнал, то есть я даю вам только голос. , а потом вы слушаете его.После того как вы закончите, вы можете сказать мне, что, по вашему мнению, должно быть.Есть другой способ, он даст вам точку привязки, а затем скажет вам, что это самое худшее, а затем позволит вам идти на основе этого худшего.Чтобы сделать оценку, этот метод также наиболее часто используется в текущей статье, который является методом субъективной оценки.

метод объективной оценки

Для метода объективной оценки, в зависимости от того, требуется ли исходный эталонный сигнал без потерь, он делится на объективные условия с эталоном и метод объективной оценки с эталоном.Самый ранний из них - около 1996 года или около того, существует стандарт под названием P.861. во-первых, предложить метод, который состоит в том, чтобы подать голосовой сигнал без потерь, а затем поврежденный голосовой сигнал, а затем сравнить некоторые их сходства или некоторые повреждения слуха, а затем дать оценку. В 2000 году вышел стр.862.Позднее,примерно в 2004 году,был метод под названием PESQ-WB,расширивший диапазон тестирования pesq с 8кГц до 16кГц.Тогда мы обычно используем этот PESQ-WB. Теперь многие статьи, в том числе, например: шумоподавление, без потерь и т. д., также будут использовать этот метод для оценки. Почти 12 лет назад ITPO вышел с новым стандартом, стр.863.Этот метод POLQA фактически является модернизированной версией pesq, то есть в него внесены некоторые улучшения в подавлении шумов.Кроме того, его точность на самом деле довольно высока. Да, упомянутая здесь точность - это на самом деле одна и та же интонация. Результат, измеренный POLQA, близок к баллу, который слышат люди. Чем он ближе, тем выше тест.

Что касается объективных методов оценки

  • P.861 PSQMсамый ранний стандарт
  • P.862 PESQ, PESQ-WB, наиболее широко используемый эталонный метод оценки
  • P.863 POLQA, последний эталонный метод оценки

img

Нет эталонного объективного метода оценки

  1. P.563, самый известный узкополосный метод оценки без эталона
  2. ANIQUE, по мнению авторов точнее, чем PESQ со ссылкой
  3. E-Model/P.1201, метод оценки области параметров
  4. xxNet, методы оценки области глубокого обучения

img

На самом деле, их еще довольно много.Например, наиболее часто используемый с.563 метод Итота в основном заключается в том, что пока вы даете ему кусок голоса, вам не нужно давать ему исходный голос без потерь, а потом он изменит от полной озвучки своего голоса пол, а потом получит уровень шума, а потом посмотрит, достаточно ли он плавный, чтобы судить о том, в порядке ли речь. Если он думает, что все эти функции в порядке, он даст высокий балл.Если есть некоторые функции, может появиться очень важная причина, например, перерыв между речью или слишком большой шум, он также будет дают относительно низкий балл.После стр.563 выходит другой ANIQUE, который является стандартом в Соединенных Штатах.Согласно его литературе, его точность будет превышать указанный только что упомянутый метод pesq. Затем есть метод в области параметров.В области параметров речевой сигнал не будет обрабатываться, но для оценки будет использоваться некоторая информация о состоянии. Например, в этом методе E-Model, от захвата до эхо-сигнала и всего кодирования, если какой-либо модуль имеет какое-либо повреждение, они будут сокращать фактор воздействия повреждения от целого. Существует также относительно новый стандарт p.1201, который включает два метода оценки для аудио и видео. Аудио часть в основном включает сетевые параметры, кодек, параметры громкости и т.д.

Болевые точки объективных методов оценки

  • Есть эталонные методы, можно использовать только перед подключением к Интернету
  • Без эталонного метода — устаревший домен сигнала, узкие сценарии применения и низкая надежность
  • Метод без ссылки — традиционный параметрический домен, точность может поддерживаться только при ограниченных условиях слабой сети
  • Метод без ссылок — глубокое обучение, сценарии приложений и корпус ограничены, и сложность немного выше
  • узкая сцена
  • плохая точность
  • плохая надежность
  • высокая сложность

Онлайн-тестирование офлайн-тестирования

восприятие качества онлайн, который характеризуется высокой точностью, широким охватом, низкой сложностью и высокой надежностью. Оценка качества достаточно точна, чтобы охватить большинство бизнес-сценариев, не привнося слишком много алгоритмической сложности, которая слабо связана с голосовым контентом.

Метод оценки качества нисходящей линии связи

Стандартный процесс: кодирование-передача-декодирование-воспроизведение, поэтому учитываются факторы: производительность кодека, качество сети, качество алгоритма слабой сетевой конфронтации, возможности воспроизведения устройства и т. д. Мы проводим набор тестов данных: в тестовых примерах с несколькими слабыми сетями, несколькими устройствами, несколькими режимами оценка этого метода и эталонная оценка POLQA составляют менее 0,1 балла MAE, MSE менее 0,01 балла, а максимальная ошибка менее 0,15 балла. На следующем рисунке показан результат теста мультислабой сети в определенном режиме устройства:

img

Метод оценки качества восходящего канала

Модулей много, и каждый модуль независим, поэтому, во-первых, у каждого модуля есть своя независимая возможность обнаружения. Например, эхо-модуль может пропустить эхо в данный момент, что необходимо знать. Затем, после самотестирования всех модулей, перед кодированием будет единый модуль обнаружения, который эквивалентен сторожу, проверяющему весь процесс. Извлекая общие черты всех сценариев, мы можем обобщить их в четыре пункта:

  • Стабильность захвата устройства
  • Возможность подавления эха
  • Возможность подавления шума
  • Возможность регулировки громкости

Причины утечки эха

На самом деле, мы очень хотим знать, будет ли в настоящее время утечка эха.Причины утечки эха обычно делятся на четыре категории:

  • Дрожание задержки, может быть много причин дрожания задержки, например: поток застрял и сигнал не отправляется вовремя, или текущее внешнее устройство нелинейно, двойные устройства, не причинно, не причинно, как правило, из-за буферные причины
  • Отличная реверберационная среда, длина реверберации превышает длину фильтра
  • Захват переполнения сигнала, в результате чего фильтр не сходится
  • двойной разговор, сильно полагаться на НЛП, позаботиться об одном и потерять другое

Причины шума и шума

  • шум оборудования, одночастотный тон, шум промышленной частоты, шум вентилятора ноутбука, беспорядочный шум
  • окружающий шум, лепет, свист и т.д.
  • переполнение сигнала, Взрывной
  • Введение алгоритмаостаточное эхо и т.д.

низкая громкость

  • Слабая способность захвата устройства / низкий голос,самый

    Слабая возможность воспроизведения устройства,Вглядеться

  • Аналоговое усиление, аналоговое усиление мало, сторона ПК

    небольшое цифровое усиление, двунаправленное усиление

Независимый модуль обнаружения

  • Обнаружение воя, обнаружить и подавить
  • Обнаружение шума, раннее предупреждение
  • Обнаружение шума, количественная оценка воздействия введенного шума
  • Обнаружение оборудования, оценить внешнее исполнение устройства

будущее

Интеграция восприятия, обратной связи и мониторинга

  • Внутреннее состояние лучше
  • Испытайте более широкий охват
  • Быстрая обратная связь
  • Более полное покрытие