Введение в технологию распознавания голоса
Распознавание отпечатков голоса, также известное как распознавание говорящего, представляет собой технологию, которая идентифицирует говорящего по голосу. Интуитивно, хотя голосовые отпечатки не так очевидны, как индивидуальные различия в лицах и отпечатках пальцев, поскольку голосовой тракт, ротовая полость и носовая полость каждого человека также имеют индивидуальные различия, они также отражаются в голосовых различиях. Если рот рассматривать как передатчик звука, то человеческое ухо как приемник также рождается со способностью различать звуки.
Наиболее интуитивно понятно, что когда мы звоним домой, мы можем точно различить, отвечают ли на звонок родители или братья и сестры, говоря «Привет?» Уникальность идентификационной информации говорящего, передаваемая этим голосом, позволяет использовать голосовые отпечатки как новая сила в технологии распознавания биометрической информации, такой как лица и отпечатки пальцев, помогающая или даже заменяющая традиционные пароли с цифровыми символами и играющая важную роль в области безопасности и шифрования личной информации. В этой статье мы хотим поделиться с читателями основными технологиями распознавания голосовых отпечатков и достижениями Youtu Lab в исследованиях и разработках распознавания голосовых отпечатков, а также надеемся, что читатели смогут понять распознавание голосовых отпечатков, которое сочетает в себе обработку речевых сигналов + распознавание образов и теоретически Базовое и всестороннее понимание областей с исследовательским и инженерным опытом.
1. Очистить облака — основная «поза» голосовых отпечатков
Мы часто используем «сладкие слова» для описания человека с ненадежным ртом, но на самом деле эта идиома также очень уместна для описания речевых сигналов. Лица и отпечатки пальцев — это двумерные сигналы, основанные на изображениях, а голос — это изменяющийся во времени одномерный сигнал.Первое, что несет голос, — это семантическая информация, то есть то, что мы говорим, а за семантической информацией стоит идентификационная информация. , проявление. То, что мы говорим, может соответствоватьсотнисловесная информация, но за ней стоит только одна постоянная идентичность.
Рисунок 1. Речевой сигнал динамика А, соответствующий «четырем»
Рисунок 2. Речевой сигнал динамика B, соответствующий «четырем»
Рисунок 3. Речевой сигнал динамика А, соответствующий «девятке».
Если приведенная выше форма сигнала во временной области недостаточно наглядна, приведенная ниже краткосрочная спектрограмма может предоставить более наглядную информацию с точки зрения двумерного изображения. Кажется, что рисунок 1 и рисунок 2 более похожи, рисунок 3 больше отличается от рис. и 3 должны быть в той же категории! Это кажется немного сложным, так что давайте вообще не будем сравнивать девять, просто сравним четыре.
Следовательно, с точки зрения того, ограничен ли речевой словарь, распознавание голосовых отпечатков может быть независимым от текста распознаванием и распознаванием, связанным с текстом. текст не имеет значения,Как следует из названияТо есть система не ограничивает содержание вводимого голоса, и система распознавания должна быть в состоянии преодолевать изменчивость и различие словарной информации (или семантической информации) в голосе и делать точные суждения об идентичности, стоящей за ним. голос; , что означает, что мы заранее ограничиваем размер набора словарей для речи.
Существует два часто используемых сценария применения: Один из них — фиксированный пароль. Пользователь должен сказать «Tianwang Gaidihu», и система распознает голосовой отпечаток. ни один из них не будет работать, другой представляет собой набор словарей с ограниченным словосочетанием, система будет случайным образом сопоставлять некоторые числа или символы, и пользователю необходимо правильно произнести соответствующий контент, чтобы распознать голосовой отпечаток.Введение этой случайности делает релевантность текста Каждый раз, когда голосовые отпечатки, собранные при распознавании, различаются по времени содержания.
По сравнению со статическими функциями изображения, такими как отпечатки пальцев и лица, случайность этой числовой последовательности, несомненно, повышает безопасность и возможности защиты от кражи. Решение по распознаванию случайного цифрового отпечатка голоса, разработанное Youtu Lab, было применено к онлайн-системе.Благодаря собственной разработке нескольких методов проверки распознавания лиц, обнаружения живости и голоса + голосового отпечатка безопасность пользователей гарантируется в наибольшей степени. устранение возможности подделки, кражи или копирования собственной биологической информации пользователя.
Рисунок 4: Схематическая диаграмма основного корпуса Youtu Face.
Поскольку распознавание, связанное с текстом, ограничивает дополнительную словарную информацию, оно намного лучше, чем системы, независимые от текста, с точки зрения сложности системы и точности распознавания. системы также будут играть важную роль в некоторых областях, таких как сравнение уголовных расследований.Мы можем собрать голос подозреваемого, но мы не можем ограничить контент, соответствующий голосу.В это время пригодится независимое от текста распознавание. использовать.
За последние 20 лет основное внимание академических исследований было сосредоточено на более сложном распознавании, независимом от текста (дух ученых...), и достигнутые прорывы также связаны с распознаванием, не зависящим от текста. С 1990-х годов Национальный институт стандартов и технологий (NIST) в Соединенных Штатах время от времени проводил оценку распознавания речи (NIST SRE) [1], которая также предназначена для независимого от текста распознавания. и промышленность принять участие.
В 2014 году на научном мероприятии в области речи, научном мероприятии Interspeech, лаборатория I2R в Сингапуре выпустила стандартный набор данных RSR 2015 для оценки распознавания текста, охватывающий несколько сценариев применения в областях, связанных с текстом [2]. С тех пор исследовательская популярность распознавания текста постепенно росла, и горячее «глубокое обучение» в последние годы также стало первым, добившимся относительно большого прорыва в распознавании текста [3]. Я не буду здесь слишком много распространяться, заинтересованные читатели могут обратиться к ресурсам основных академических баз данных или пообщаться с нашей командой.
С точки зрения сценариев распознавания, распознавание голосового отпечатка можно разделить на два разных сценария применения: идентификация говорящего (SI) и проверка говорящего (SV): SI означает, что у нас есть сегмент речи, которую нужно протестировать, необходимо сравнить эту речь с набором известных нам динамиков, и выберите динамик, который больше всего подходит.
Случай применения в этом отношении - сравнение уголовного расследования.Голос подозреваемого (личность неизвестна), собранный тайно, необходимо сравнить с несколькими возможными подозреваемыми личностями, и выбрать наиболее похожий, тогда мы можем рассмотреть сбор В значительной степени , голос исходит от заблокированного подозреваемого. SI — это проблема дискриминации «один ко многим», а SV означает, что у нас есть только одна целевая личность. Для неизвестного голоса нам нужно только судить, исходит ли речь от этого целевого пользователя. SV - это, по сути, проблема бинарной классификации 1-к-1. Типичным приложением в этом отношении является блокировка голосового отпечатка или инструмент проверки голосового отпечатка на мобильном телефоне.Для голосового подтверждения системе нужно только ответить «пройти» или «отклонить». Тем не менее, SI может быть косвенно разложен на несколько задач SV, поэтому оценка производительности системы распознавания голосовых отпечатков в основном осуществляется по пути SV.
2. Все еще в движении — от дискретных сигналов к функциям
Как упоминалось ранее, причина, по которой можно распознать голосовые отпечатки, заключается в том, что существуют уникальные различия в строении полости рта, носовой полости и голосового тракта каждого человека, но эту разницу нельзя ни увидеть, ни потрогать. всегда в движении. Мы можем только косвенно анализировать различия голосовых органов через дискретные речевые сигналы, собранные записывающей аппаратурой.
Поскольку речь всегда меняется, как мы анализируем речь? Ответ таков: речь имеет хорошее свойство, называемое кратковременной стационарностью, в диапазоне 20-50 миллисекунд речь можно приблизительно считать хорошим периодическим сигналом.
Рисунок 5: 30-миллисекундный сигнал, извлеченный из высказывания говорящего «четыре» на рисунке 1.
Эта хорошая стационарность предоставляет нам большое удобство для анализа уровня обработки сигнала речи. Читатели должны помнить, что среди основных атрибутов высоты тона, громкости и тембра (обратите внимание, что я использовал голос, а не голос) тембр является атрибутом, который лучше всего отражает идентификационную информацию человека (честно говоря, жена, когда кричу на вас, громкость и высота тона может быстро взлететь, но вряд ли тембр жены резко изменится).
Разницу в тембре можно выразить как разность энергии разных полос частот в частотной области на уровне обработки сигнала, поэтому характер спектра в этом краткосрочном диапазоне речи можно выразить, выделив значения энергии в разных диапазонах частот. Обычно будем комплексно рассматривать слуховые свойства человеческого уха (слуховое свойство человеческого уха находится в слышимой полосе частот, оно более чувствительно к изменениям низких частот и относительно слабее – к высоким), выравниваем энергетические различия в различные частотные диапазоны (для фрагмента аудио, дискретизированного на частоте 8 кГц, хотя голос будет распространяться в диапазоне 0-4 кГц, энергия больше сконцентрирована в относительно низкочастотной области), помехоустойчивость (мы надеемся, что эта функция чувствителен только к изменениям голоса, а другие шумы и другая нерелевантная информация остаются неизменными) и удобство последующего расчета (релевантность между коэффициентами должна быть максимально удалена) для разработки соответствующих краткосрочных акустических характеристик посредством серии комплексной обработки сигналов Преобразования уровня, длина речи 20-50 мс (возьмем в качестве примера выборку 8 кГц, эта длина речи соответствует 160-400 точкам выборки) может быть отображена в 39-60-мерный вектор. Чтобы полностью сохранить исходную информацию в речи без увеличения вычислительной нагрузки, обычно последовательно с интервалами в 15-20 миллисекунд берется короткий отрезок речи, а затем извлекаются признаки.
Рисунок 6: Извлечение кратковременных акустических характеристик
В области распознавания голосовых отпечатков, включая распознавание речи, традиционные акустические признаки включают кепстральные коэффициенты Мела MFCC, перцептивные коэффициенты линейного предсказания PLP, Deep Feature [4], которые постепенно привлекают внимание в последние годы и опубликованы в 2015 году. коэффициент PNCC [5] и т. д. можно использовать в качестве дополнительного и хорошо работающего акустического признака для распознавания голосового отпечатка на уровне извлечения признака.
Подводя итог, фрагмент речи отображается в набор наборов векторов на оси времени, и эти наборы могут стать наборами признаков, отражающими характеристики речи после некоторых регулярных операций. Однако трудно достичь цели распознавания голосового отпечатка, только полагаясь на эти наборы признаков.Акустические признаки можно понимать как серию снимков, сделанных для канала на оси времени.Он непосредственно отображает семантическое содержание.Как насчет извлечения неизменяемого? особенности личности? Затем пришло время вступить в игру статистического моделирования.
3. Упрощать сложное — эволюционный путь модели голосового отпечатка
Поскольку мы хотим, чтобы компьютер распознавал отпечаток голоса пользователя, мы должны сначала позволить компьютеру «распознать» личность пользователя. Структура типичной системы распознавания голосовых отпечатков показана на следующем рисунке:
Рисунок 7: Блок-схема типичной системы проверки динамиков
Система распознавания голосовых отпечатков представляет собой типичную структуру распознавания образов. Чтобы компьютер распознал личность пользователя, целевой пользователь должен сначала предоставить обучающий голос. После ряда операций, таких как извлечение признаков и обучение модели, этот голос будет сопоставлена с моделью голосового отпечатка пользователя. На этапе проверки неизвестный голос также будет сопоставлен с тестовой функцией с помощью ряда операций.Тестовая функция выполнит определенный расчет сходства с целевой моделью, чтобы получить показатель достоверности.Эта оценка обычно сравнивается с нашим искусственным интеллектом. Установленное ожидаемое значение сравнивается, и если оно выше этого ожидаемого значения, мы считаем, что удостоверение, соответствующее тестовому голосу, соответствует целевому идентификатору пользователя и проходит проверку, в противном случае тестовое удостоверение отклоняется. Следовательно, ключом к производительности распознавания является способность моделировать и различать идентификационную информацию в речи, и в то же время она обладает достаточной способностью защиты от помех и надежностью для оставшейся информации, не имеющей отношения к идентичности.
Хотя кажется, что голос каждого постоянно меняется, он не совсем неправильный. Хотя мы много говорим каждый день, наиболее часто используемые слова имеют тысячи уровней; кроме того, мы не можем произносить дома тот же звук, что и Ван Цай. Это также приводит к распознаванию голосовых отпечатков, что также является очень разумным предположением в рамках традиционной системы распознавания речи: чтобы разбить речь на уровень фонем, современному китайцу в узком смысле достаточно всего 32 фонемы.
Если учесть, что на форму каждой фонемы также влияют предшествующая и последующая фонемы, и построить модель трифона (трифона), то существует не более тысячи наборов трифонов-кандидатов (не простой куб из 32, мы Он также удаляет некоторые редкие и никогда не встречающиеся словосочетания), а сэмплы трифонов из разных динамиков, несмотря на их очевидные различия, все кластеризуются в пределах определенной области пространства. Вдохновленный этими свойствами речи и соответствующими акустическими характеристиками, Д. А. Рейнольдс впервые успешно применил гауссовскую смешанную модель (GMM) к независимой от текста задаче распознавания голосовых отпечатков в 1995 году. голосовые отпечатки основаны на GMM для улучшения и расширения.
Прежде чем продолжить глубокое понимание моделирования, нам необходимо прояснить распознавание голосового отпечатка или сузить область, чтобы прояснить независимую от текста задачу распознавания голосового отпечатка.Каковы трудности? Как упоминалось выше, распознавание голосовых отпечатков представляет собой область, имеющую как теоретическую исследовательскую ценность, так и опыт инженерных приложений.Трудности голосовых отпечатков в основном заключаются в следующих аспектах:
Как добывать неизменную идентификационную информацию за вариативностью речи.
В практических приложениях, с точки зрения пользовательского опыта и стоимости, корпус, который может быть собран для целевых пользователей, крайне ограничен (согласно академическому определению, фактическая доступная речь скудна) Полное стабильное моделирование и идентификация.
Для одного и того же пользователя, даже если содержание двух собранных голосов одинаково, будут некоторые различия в голосах из-за эмоций, скорости речи, уровня усталости и других причин. Как компенсировать разницу в голосе этого говорящего.
Звук собирается путем записи оборудования. Различные типы записывающего оборудования приведут к определенной степени искажению голосу. В то же время из-за разницы в фоновом канале окружающей среды и канала передачи он также приведет к разным степеням повреждения Голосовая информация. Эти эффекты внешнего воздействия на речь называются изменчивостью канала (вариабельность каналов). Для нас трудно разработать соответствующую эксклюзивную систему распознавания голосовой передачи для каждого эффекта канала, поэтому, как компенсировать это вмешательство, вызванное изменчивостью каналов.
После выяснения проблем, которые необходимо решить, вернемся к GMM, в чем его преимущества? Прежде всего, что такое ОММ, это взвешенная комбинация большого количества гауссовых составляющих неопределенной формы. Исследования показали, что, когда количество гауссовских компонентов в GMM достаточно велико, GMM может моделировать любое распределение вероятностей.
Рис. 8. Мы подогнали гору, используя всего семь тыкв.
Из определения распознавания образов GMM — это параметризованная генеративная модель (Generative Model), которая имеет сильную репрезентативную силу для фактических данных; но, наоборот, чем больше масштаб GMM, тем сильнее репрезентативная сила. очевидно: шкала параметров также будет пропорционально расширяться, и для обучения параметрам GMM требуется больше данных, чтобы получить более общую (или обобщенную) модель GMM.
Если предположить, что моделируется акустический признак размерности 50, ОММ содержит 1024 гауссовских компонента, а ковариация многомерного гауссиана упрощена в виде диагональной матрицы, общее количество параметров, подлежащих оценке в ОММ, равно 1024 (общее вес гауссовой составляющей) + 1024×50 (общее среднее гауссовой составляющей) + 1024×50 (общая дисперсия гауссовой составляющей) = 103424, необходимо оценить более 100 000 параметров (а вы, ребята, занимаетесь в глубоком обучении попали в стрелку?)!
Переменные такого размера, не говоря уже о нескольких минутах обучающих данных для целевого пользователя, даже если объем обучающих данных для целевого пользователя увеличивается до нескольких часов, далеко не соответствуют всем требованиям GMM к обучению, и нехватка данных легко может привести к тому, что GMM попадет в ловушку переобучения, что приведет к резкому снижению способности к обобщению. Поэтому, хотя GMM изначально превосходил традиционные технические фреймворки на небольших текстонезависимых наборах данных, он был далек от удовлетворения потребностей практических сценариев (в конце концов, 95 лет технологии...).
Когда время подошло примерно к 2000 году, именно команда Д. А. Рейнольдса придумала улучшенное решение: поскольку невозможно собрать достаточное количество голосов от целевых пользователей, то другой способ мышления может собрать большое количество не- существующие голоса из других мест. Голос целевого пользователя добавляет много. Мы смешиваем эти нецелевые пользовательские данные (называемые фоновыми данными в области распознавания голосовых отпечатков), чтобы полностью обучить GMM. Этот GMM можно рассматривать как представление речи, но из-за того, что оно обучается на большом количестве смешанных данных тождеств, и не имеет возможности представлять конкретные тождества.
Итак, для чего это нужно?
Люди в академических кругах скажут вам: с точки зрения байесовской модели этот четырех различных GMM можно рассматривать как предшествующую модель конкретной модели динамика. Примером изображения является то, что вы собираетесь пойти на свидание вслепую, сваха показывает вам фотографию Сяоли, и то, что вам кажется, должно быть различными возможными нежными голосами Сяоли, а не звуком процветания вашей семьи.
Такая гибридная ОММ играет аналогичную роль: она дает хорошую предварительную оценку вероятностной модели пространственного распределения речевых признаков, и нам больше не нужно вычислять параметры ОММ с нуля, как раньше (оценка параметров GMM называется своего рода алгоритмом итеративной оценки EM), которому нужно только точно настроить параметры этого гибридного GMM на основе данных целевого пользователя, чтобы реализовать оценку параметров целевого пользователя. Гибридная GMM также имеет очень иностранное название, называемое Universal Background Model (Универсальная фоновая модель) Background Model, UBM).
Важным преимуществом UBM является то, что он оценивает параметры модели с помощью алгоритма максимальной апостериорной оценки (Maximum A Posterior, MAP), что позволяет избежать переобучения. Еще одно преимущество алгоритма MAP заключается в том, что нам больше не нужно настраивать все параметры GMM целевого пользователя (вес, среднее значение, дисперсия), а нужно только оценивать средние параметры каждого компонента Гаусса для достижения наилучшей производительности распознавания. На этот раз оцениваемые параметры были уменьшены более чем вдвое (103424 -> 51200). Меньшее количество параметров также означает более быструю сходимость. Для хорошего обучения модели не требуется так много целевых пользовательских данных. (Время сплетен: говорят, что Дуглас А. Рейнольдс был избран членом IEEE именно потому, что он предложил структуру GMM-UBM, пожалуйста, не обращайте внимания, если это неправильно)
Рисунок 10: Алгоритм обучения пользовательской модели MAP на основе UBM
Но достаточно ли хороша структура GMM-UBM? Нет (гм, около 2000...), есть по крайней мере две проблемы, которые фреймворк GMM-UBM до сих пор не может решить:
Слишком много параметров еще предстоит оценить. В стандартном тесте NIST SRE доступный голос целевого пользователя составляет около 5 минут.Если вы удалите сегмент отключения звука и сделаете паузу, вы сможете сохранить только эффективную продолжительность примерно от 1,5 до 2,5 минут.Это кажется довольно коротким, но вы можете себе представить пользователя, читающего мобильный телефон в течение пяти минут, чтобы зарегистрироваться в реальном продукте? абсолютно нет! Эффективная речь такой длины все еще слишком коротка для модели GMM, состоящей из 1024 гауссовских компонентов.Алгоритм MAP может оптимизировать параметры соответствующих гауссовских компонентов только для некоторых признаков, попадающих на определенные гауссовские компоненты, в то время как другой вполне Что делать, если некоторые из гауссовых составляющих наблюдаемых данных недоступны? Тогда просто оставайтесь на месте. Это приводит к тому, что некоторые области GMM целевого пользователя имеют хорошую способность к выражению идентичности целевого пользователя, в то время как другие области GMM имеют в основном те же параметры, что и UBM, что, несомненно, снижает способность модели к выражению в текстонезависимых приложениях распознавания;
В GMM-UBM отсутствует возможность компенсировать изменчивость канала.Грубо говоря,это не антипомех.Если для регистрации модели в облаке использовать мобильный телефон,а для идентификации использовать другой телефон Xiaomi,то не пройдет ! Сейчас очень жарко. Но у великих ученых всегда есть способы совершенствоваться.У.М. Кэмпбелл представил метод опорных векторов (SVM) в моделировании GMM-UBM и построил гауссиану, взяв среднее значение каждого гауссова компонента GMM отдельно.Супервектор (Gaussian Super Vector, GSV ) используется в качестве образца SVM. Он использует мощные возможности нелинейной классификации функции ядра SVM для значительного повышения производительности распознавания на основе исходного GMM-UBM. В то же время некоторые алгоритмы регуляризации на основе GSV, такие как атрибут возмущения проекция (Nuisance Attribute Projection, NAP), внутриклассовая ковариационная нормализация (Within Class Covariance Normalization, WCCN) и т. д. — все они в определенной степени компенсируют влияние деформации канала на моделирование голосового отпечатка, и их здесь не слишком много. , а заинтересованные читатели также могут ознакомиться с соответствующей литературой или обсудить ее с нами.
Время продолжает двигаться вперед, чтобы решить проблему слишком большого количества параметров, подлежащих оценке в GMM-UBM, академические и промышленные круги, можно сказать, старались изо всех сил.Вдруг однажды ученые обнаружили, что: в рамках MAP , мы настраиваем каждый GMM индивидуально.Гауссовский компонент, слишком много параметров слишком утомительно, есть ли способ настроить ряд гауссовских компонентов одновременно? Когда мы играем в Street Fighter, нам не нужно оборудовать каждый сустав кнопкой, и четыре кнопки все еще могут нанести удар волной.
Есть ли такой способ, которым мы можем управлять изменением всех гауссовских компонентов в GMM с помощью лишь небольшого числа параметров? Ответ, конечно, да, мы используем структуру алгоритма, называемую факторным анализом (FA), которая использует только линейную комбинацию сотен базисных векторов (вес каждого базисного вектора можно рассматривать как базисную координату на этой основе Координата точек), достаточно представить изменение всего гауссова супервектора, то есть теперь нам нужно всего несколько сотен переменных (обычно 400-600), что достаточно для представления 50000-мерного набора средних значений гауссовых компонент!
На самом деле, эта идея уменьшения размерности широко использовалась в технологии сжатия изображений, голоса и данных в прошлом, потому что реальные данные всегда несут много избыточной информации, мы можем потерять только небольшую часть точности, Сжатие данных и уменьшение размерности может быть достигнуто даже без потери точности, а базисный вектор оценивается с помощью алгоритма, подобного EM, называемого вероятностным анализом основных компонентов (PPCA), основанным на массивных фонах. Это хорошо, параметры модели резко упали с 50 000 до 500, что сравнимо с динамикой цен на дома во сне. Такой небольшой объем данных может реализовать общую оценку параметров гауссовой составляющей GMM.С увеличением объема данных GMM быстро будет стремиться к стабильной оценке параметров. Среди упомянутых выше трудностей а, б и в в основном решены.
Рисунок 11: Алгоритм обучения пользовательской модели Eigenvoice MAP на основе структуры FA
Однако не забывайте, что трудности все же есть, так что же мне делать? Патрик Кенни, ученый и император Института компьютерных исследований Монреаля (CRIM) в Канаде, выдвинул идею примерно в 2005 году. эффекты канала также могут быть выражены в некоррелированном супервекторном квантовом пространстве?
Основываясь на этом предположении, Кенни предложил основу теоретического анализа Совместного Факторного Анализа (JFA), который сделал независимое и некоррелированное предположение между пространством, где находится говорящий, и пространством, где расположен канал. может быть выражен характерным звуковым пространством (собственным голосом), и несколько речей одного и того же говорящего могут получить одно и то же отображение параметров в этом характерном звуковом пространстве.Причина, по которой фактические параметры модели GMM различаются, заключается в том, что оба Это вызвано собственным каналом (Собственный канал), то есть эффект интерференции канала.Нам нужно только оценить отображение фрагмента речи на пространство собственных тонов и отображение на собственный канал одновременно, а затем удалить интерференцию на собственном канале. Хорошая надежность среды голосовой печати.
Совместный вывод двух подпространств JFA - просто ослепительное математическое представление Кенни. Заинтересованные читатели могут обратиться к [5]. Я думаю, что это не круг голосового отпечатка, который переворачивает первую страницу и последнюю страницу и закрывает PDF напрямую. .
JFA стала системой распознавания с лучшими характеристиками в конкурсе голосовых отпечатков NIST после 2005 года, но достаточно ли хороша JFA? В небе в поле голосового отпечатка все еще плывет небольшое темное облачко.Хотя независимые предположения JFA о характерном звуковом пространстве и характерном пространстве канала кажутся разумными, в мире нет бесплатного обеда.В реальном мире, хотя какие-либо данные избыточность, То есть корреляция между данными есть, но допущение об абсолютно независимом и одинаковом распределении - это слишком сильное допущение.Можно сказать, что у вас и у вашей семьи нет корреляции во внешности, но у вас обоих есть пара глаз и рот... Ах... (может быть, они все съедобны), это допущение IID часто обеспечивает удобство для математического вывода, но ограничивает способность модели к обобщению.
Так что делать? В 2009 году ученица Кенни, Н. Дехак, выдвинула более простую гипотезу: поскольку информация о голосовом отпечатке и информация о канале не могут быть полностью независимыми, мы просто используем супервекторное квантовое пространство для одновременного построения двух видов информации. Утихать! Напомним предположения JFA:
Один и тот же динамик, независимо от того, как собран голос, сколько кусков голоса собрано, отображение параметров на характерное звуковое подпространство должно быть одинаковым, и причина, по которой конечные параметры модели GMM разные, этот горшок бросается на характерный канал подпространства пространства назад;
Подпространство характеристического тона и подпространство характеристического канала не зависят друг от друга.
Это «сильное» предположение JFA было проверено в реальных условиях и не будет удовлетворено. Поэтому товарищ Н. Дехак сказал: Мы все товарищи по оружию, не делите свое и мое, хорошее и плохое одно. Это более слабое предположение таково: поскольку нет способа удовлетворить ортогональную независимость, мы просто используем подпространство для описания как информации о говорящем, так и информации о канале.
В это время у одного и того же диктора, независимо от того, как собран голос и сколько кусков голоса собрано, координаты отображения на этом подпространстве будут разными, что больше соответствует реальной ситуации. Это пространство, которое моделирует как разность говорящих, так и разность каналов, называется матрицей полных факторов, а координаты отображения каждой речи в этом пространстве называются вектором идентичности (i-вектором). слишком высока, обычно около 400-600 [6].
Что это за концепция читателей? Подбрасыванием подбрасыванием и переходом к голосовому отпечатку все еще занимается ОММ, но по ходу дела с ОММ из 32 гауссовских компонентов, использовавшихся в начальные 95 лет, он взлетел до 1024, 2048 и даже 4096 (все те, кто осмеливается играть как вот такие местные тираны в индустрии) гауссовская компонента ГММ, модель изменена, формула впихнута-впихнута, а модель голосового отпечатка последнего говорящего нужно только сохранить вектор 400х1?
Да! Вот как это выглядит, поэтому я использую упрощающую сложность в качестве подзаголовка статьи i-vector настолько прост и элегантен, а его внешний вид делает исследование распознавания говорящего упрощенным и абстрагированным в проблему числового анализа и данных. анализ. : Любой фрагмент аудио, независимо от его длины или содержания, в конечном итоге будет отображен в низкоразмерный i-вектор фиксированной длины.
Нам нужно только найти какие-то методы оптимизации и методы измерения.В массиве данных несколько сегментов i-векторов одного и того же диктора можно классифицировать как можно ближе, а i-векторы разных дикторов можно максимально разнести. В то же время Дехак также обнаружил в эксперименте, что i-вектор имеет хорошую дифференциацию по пространственному направлению.Даже если для дифференциации используется SVM, для достижения очень хорошей дифференциации можно выбрать только простое косинусное ядро. На сегодняшний день i-vector по-прежнему является фреймворком моделирования с наилучшей производительностью в текстово-независимом распознавании голосовых отпечатков в большинстве случаев.Последующие улучшения ученых основаны на оптимизации i-vector, включая линейный дискриминантный анализ (Linear Discriminant Analysis) Анализ, LDA), вероятностный линейный предсказательный дискриминантный анализ (вероятностный линейный дискриминантный анализ, PLDA) и даже метрическое обучение (Metric Learning).
4. Миф – связан с текстом? Текст не актуален?
Поскольку i-vector настолько эффективен в распознавании голосовых отпечатков, не зависящих от текста, он должен быть очень мощным в распознавании связанных с текстом, верно? Нет! В, казалось бы, более простой задаче распознавания голосовых отпечатков, связанных с текстом, i-vector работает не лучше, чем традиционная структура GMM-UBM.
Зачем? Потому что за простотой i-vector стоит то, что он отбрасывает слишком много вещей, включая текстовые различия, при текстово-независимом распознавании, поскольку зарегистрированные и обученные голоса сильно отличаются по содержанию, нам нужно подавить это. , нам необходимо усилить сходство содержания обучения и опознания речи.Потяните один волос и двигайтесь всем теломi-vector не очень подходит.
5. Атака: наш youtu-вектор
В то время как научное сообщество любит более сложные задачи (цзо) и битвы (си), промышленность часто не может идти в ногу с научным сообществом. Стабильное и быстрое распознавание и хорошее взаимодействие с пользователем являются основными показателями оценки внедряемой системы голосового отпечатка. По этой причине приложение для распознавания текста по-прежнему является предпочтительным, а среди приложений для распознавания текста самым высоким уровнем безопасности по-прежнему является распознавание случайного цифрового отпечатка голоса.
Хотя i-vector кажется немного неудобным в распознавании текста, в конце концов, он показал хорошие результаты в той области, в которой он хорош. Таким образом, как применить силу i-вектора к нашей задаче, чтобы случайное распознавание цифровых голосовых отпечатков также могло проявить максимальную энергию, является целью единодушных усилий Utu Lab.
Стремясь к тому свойству, что i-вектор ослабляет семантическое моделирование, мы уточнили диапазон представления i-вектора, то есть мы больше не используем i-вектор для моделирования всей речи, а разбираем i-вектор на A число цифр. моделируются, так что i-вектор уточняется от вектора, который представляет только личность говорящего, до вектора, который представляет личность + цифровой контент.
Рисунок 12: Традиционная структура извлечения i-vector не различает текстовые различия
Рисунок 13: Более детальное извлечение i-вектора для различий в цифровом контенте
Это более детальное разделение i-векторов на i-векторы для случайного распознавания цифровых отпечатков голоса дает два явных улучшения:
Чтобы управлять UBM и полнофакторной матрицей за i-вектором, нам больше не нужны массивные данные, а нужно только сосредоточиться на сегментации конкретного цифрового сегмента, что значительно уменьшает масштаб обучающих данных, требуемых управляющей системой;
Поскольку каждый i-вектор моделируется только для чисел, цифровая UBM и цифровая полнофакторная матрица за каждым цифровым i-вектором не требуют огромного масштаба модели, поскольку не зависят от текста.По сравнению с задачами распознавания, не зависящими от текста, после того, как сложность модели уменьшенный в десятки раз, он по-прежнему может показывать такую же хорошую производительность в реальных сценариях.
Непосредственным преимуществом упрощения модели является сокращение вычислительной сложности и пространственной сложности, в то же время, хотя количество i-векторов, которые необходимо извлечь, больше, чем в прошлом (количество наборов, содержащих числа в речи целевого пользователя является окончательным i-вектором целевого пользователя (количество наборов векторов), но после распараллеливания процесса извлечения дополнительные вычисления и хранение, вызванные этим уточнением, в основном незначительны.
С точки зрения производительности распознавания, мы сравнили цифровой i-vector с традиционным i-vector и фреймворком распознавания текста HiLAM, выпущенным вместе с RSR 2015, используя данные, собранные в реальной среде внутри команды в качестве тестового примера, включая десятки из тысяч крупномасштабных целевых выборочных испытаний и сотен тысяч тестовых образцов атак были достигнуты характеристики распознавания с равной вероятностью ошибки (EER) менее 1% и коэффициентом повторения более 95% при частоте ошибок менее одной тысячной. . Производительность разработанного нами цифрового i-vector намного выше, чем у существующей системы распознавания голосовых отпечатков.
6. Делай и думай - Перспективы и размышления о голосовых отпечатках
Хотя наши попытки и исследования сделали некоторые прорывы в адаптации i-векторного и связанного с текстом распознавания, нам все еще нужно увидеть ограничения распознавания голосовых сигналов в приложениях: динамически меняющиеся голосовые органы и звуки, их стабильность. Все еще не так хорошо, как лица и изображения. . Если однажды не случился инсульт, трудно представить себе причину, по которой распознавание лиц не работает, но простуда и лихорадка могут изменить структуру нашего голосового тракта, и наш собственный голос тоже изменится.
Однако точность распознавания голосовых отпечатков существенно отличается от точности распознавания лиц и изображений. На волне глубокого обучения эволюция голосового отпечатка кажется все еще прохладной, а «братское» распознавание голосового отпечатка уже ускакало вперед на авианосце глубокого обучения Причина этого — врожденные трудности голосового отпечатка. После того, как мы вгрызлись в эту твердую кость, нам еще многое предстоит сделать.
И Youtu никогда не останавливался в продвижении глубокого обучения голосового отпечатка.В дополнение к распознаванию случайных чисел, в текстонезависимых приложениях для распознавания, наши собственные разработанные глубокие функции, извлеченные из сетей классификации говорящих на основе DNN (также известные как функция для узкого места ( особенность узкого места), слияние вспомогательного i-вектора на уровне оценки также делает эффективность распознавания i-вектора солидным шагом вперед на основе прошлого. В будущем команда UTU уверена, что смело продвинется вперед на этой волне искусственного интеллекта, создаст больше продуктов лучшего качества, послужит обществу и позволит каждому ощутить удобство, принесенное технологиями в жизнь.
использованная литература
[1] woohoo.it class.yourbody.gov/ia/maze/special…
[2] Larcher, Anthony, et al. "RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases." INTERSPEECH. 2012.
[3] Fu Tianfan, et al. "Tandem deep features for text-dependent speaker verification." INTERSPEECH. 2014.
[4] Vasilakakis, Vasileios, Sandro Cumani, and Pietro Laface. "Speaker recognition by means of deep belief networks." (2013).
[5] Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 (2005).
[6] Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.
Приглашаем всех обратить внимание на официальный аккаунт Сяо Сун.«Минимальный ИИ»Возьмите вас, чтобы узнать глубокое обучение:
Обмен технологиями теоретического обучения и разработки приложений, основанными на глубоком обучении, автор часто делится содержанием сухих товаров глубокого обучения.Когда вы изучаете или применяете глубокое обучение, вы также можете общаться со мной и отвечать на любые вопросы, с которыми вы сталкиваетесь.
отЭксперт по блогам CSDN&Чжиху обозреватель глубокого обучения@小宋это?