Эта статья на самом деле является научно-популярной статьей о языковых моделях, написанной после ссылок на многие статьи. Цель состоит в том, чтобы надеяться, что каждый сможет лучше понять языковые модели, чтобы они могли узнать больше о языковых моделях в следующем исследовании НЛП. плавно.
1: Традиционные методы распознавания речи:
Здесь мы объясняем, как превратить звук в текст.Если вам интересно, мы можем изучить это подробно.
Прежде всего, мы знаем, что звук на самом деле является своего рода волной.Обычные форматы MP3 и другие форматы сжаты и должны быть преобразованы в несжатые файлы чистой формы волны для обработки.Ниже приведен пример файлов формы волны WAV:
Перед выполнением распознавания речи некоторым необходимо отключить звук в начале и конце сегмента и выполнить принудительное выравнивание, чтобы уменьшить помехи для последующих шагов.Вся технология удаления звука обычно называется VAD, которая требует некоторых методов для обработки сигналов.
Если вы хотите проанализировать звук, вам нужно разделить звук на кадрирование, то есть разрезать звук на мелкие кусочки, каждый маленький кусочек называется кадром, кадрирование не просто вырезается, а используется. оконная функция, и обычно кадры перекрываются.
как на картинке выше
После кадрирования речь становится множеством небольших сегментов, но форма сигнала не имеет возможности описания во временной области, поэтому форму сигнала необходимо преобразовать.Общим методом преобразования является извлечение функций MFCC, а затем, в соответствии с человеческим ухом, он поворачивает каждый кадр волны в многомерный вектор, и этот вектор содержит информацию о содержании этого фрагмента речи.Этот процесс называется выделением акустических признаков, но есть много практических методов, которые в основном схожи.
В этот момент звук стал матрицей из 12 строк (при условии, что акустический признак имеет 12 измерений) и N столбцов, что называется последовательностью наблюдения, где N — общее количество кадров. Последовательность наблюдения показана на рисунке ниже.На рисунке каждый кадр представлен 12-мерным вектором, а глубина цвета цветового блока представляет размер значения вектора.
Далее мы расскажем, как преобразовать эту матрицу в текст. Прежде всего, нам необходимо ввести два понятия:
1: Фонема:
Произношение слов состоит из фонем. Для английского языка распространенным набором фонем является набор из 39 фонем Университета Карнеги-Меллона, см.The CMU Pronouncing Dictionary. В китайском языке все инициалы и финалы обычно используются непосредственно как наборы фонем.Кроме того, китайское распознавание делится на тона и нетоны, которые не будут подробно описываться.
1. Статус: Достаточно понимать его как более развернутую фонетическую единицу, чем фонема. Обычно фонема делится на 3 состояния.
Как работает распознавание речи? Это вовсе не загадочно, просто:
Определите фреймы как состояния (трудности).
Объедините состояния в фонемы.
Соедините фонемы в слова.
Как показано ниже:
На рисунке каждая маленькая вертикальная полоса представляет кадр, одному состоянию соответствует несколько кадров речи, каждые три состояния объединены в фонему, а несколько фонем объединены в слово. То есть, пока вы знаете, какому состоянию соответствует каждый кадр речи, будет получен результат распознавания речи.
Какому состоянию соответствует каждый кадр фонемы? Есть простой способ думать об этом, чтобы увидеть, какому состоянию соответствует определенный кадр с наибольшей вероятностью, а затем какому состоянию принадлежит этот кадр. Например, на следующей схематической диаграмме условная вероятность того, что этот кадр находится в состоянии S3, наибольшая, поэтому предполагается, что этот кадр принадлежит состоянию S3.
Так откуда же берутся эти вероятности? Есть такая штука, как "акустическая модель", в которой хранится множество параметров. По этим параметрам можно узнать вероятность, соответствующую кадру и состоянию. Метод получения этого большого количества параметров называется «обучением», который требует использования огромного количества речевых данных, а сам метод обучения достаточно громоздкий, поэтому я не буду о нем здесь говорить.
Но с этим есть проблема: каждый фрейм получает номер состояния, и, в конце концов, вся речь получает беспорядок из номеров состояний. Если предположить, что имеется 1000 кадров речи, каждый кадр соответствует 1 состоянию, а каждые 3 состояния объединены в фонему, то, вероятно, она будет объединена в 300 фонем, но на самом деле в этой речи вообще не так много фонем. Если бы это было сделано, то полученные номера состояний вообще нельзя было бы объединить в фонемы. На практике имеет смысл, чтобы состояния соседних кадров были в основном одинаковыми, поскольку каждый кадр короткий.
Распространенным способом решения этой проблемы является использование скрытой марковской модели (HMM). Эта вещь звучит очень продвинуто, но на самом деле она очень проста в использовании: первый шаг — построить сеть состояний. Второй шаг — найти путь, который лучше всего соответствует звуку из государственной сети.
Таким образом, результаты ограничиваются предустановленной сетью, что позволяет избежать только что упомянутой проблемы.Конечно, это также приводит к ограничению.Например, заданная вами сеть содержит только два «сегодня солнечно» и «сегодня идет дождь». Путь состояния предложения, то независимо от того, что сказано, распознанный результат должен быть одним из двух предложений.
Что делать, если вы хотите распознать произвольный текст? Создайте эту сеть достаточно большой, чтобы содержать пути произвольного текста. Но чем крупнее сеть, тем сложнее добиться лучшей точности распознавания. Поэтому размер и структуру сети следует разумно выбирать в соответствии с потребностями актуальной задачи.
Чтобы построить сеть состояний, сеть уровня слов расширяется до сети фонем, а затем расширяется до сети состояний. Процесс распознавания речи фактически заключается в поиске оптимального пути в сети состояний, причем вероятность речи, соответствующей этому пути, наибольшая, что и называется «декодированием». Алгоритм поиска пути представляет собой алгоритм динамического программирования, называемый алгоритмом Витерби, который используется для поиска глобального оптимального пути.
Упомянутая здесь кумулятивная вероятность состоит из трех частей, а именно:
1. Вероятность наблюдения: вероятность, соответствующая каждому кадру и каждому состоянию.
2. Вероятность перехода: вероятность перехода каждого состояния в само себя или в следующее состояние.
3. Лингвистическая вероятность: вероятность, полученная в соответствии со статистическими законами языка.
Среди них первые две вероятности получаются из акустической модели, а последняя вероятность получается из языковой модели. Языковая модель обучается с использованием большого количества текста и может использовать статистические законы самого языка для повышения точности распознавания. Языковая модель очень важна.Если языковая модель не используется, когда сеть состояний большая, распознаваемые результаты в основном представляют собой беспорядок.
Это в основном завершает процесс распознавания речи.
2: Сквозная модель
На этом этапе глубокое обучение быстро развивалось в области распознавания образов, особенно в области речи и изображения.Из-за характеристик глубокого обучения в области распознавания речи акустическая модель, основанная на глубоком обучении, теперь заменил традиционную смешанную гауссову модель GMM моделирует выходные данные состояния, поэтому на основе обычной глубокой нейронной сети сильная способность к моделированию рекуррентной нейронной сети, основанной на сети с долговременной кратковременной памятью для речевой последовательности, еще больше улучшается производительность распознавания речи, но эти методы по-прежнему содержат базовую структуру самого основного скрытого марковского HMM, поэтому все еще будет сложность обучения и декодирования скрытой марковской модели.
Процесс обучения акустической модели на основе глубокого обучения должен начинаться с традиционной гауссовской смешанной модели, а затем набор обучающих данных принудительно выравнивается, а затем сегментируется для получения различных акустических характеристик.На самом деле традиционный метод не способствует Этот метод также требует дополнительных знаний по фонетике и лингвистике, таких как словарь произношений, моделирование связывания блоков дерева решений и т. д., а порог для построения системы относительно высок.
Стремясь устранить недостатки традиционного акустического моделирования, некоторые ученые предложили технологию классификации временных рядов ссылок, которая представляет собой проблему преобразования, которая преобразует распознавание речи в последовательности, так что можно отказаться от ряда предположений традиционных систем распознавания речи на основе HMM. , упрощает процесс построения системы, а также предлагает сквозную систему распознавания речи, снижающую требования речи к словарю произношения.
Сквозная система состоит из метода акустического моделирования LSTM и целевой функции CTC.В соответствии с критерием CTC LSTM может автоматически изучать соответствие между акустическими характеристиками и последовательностями меток в процессе обучения, поэтому нет необходимо дальнейшее Процесс принудительного выравнивания набора данных выполняется.И в соответствии с характеристиками различных языков сквозное распознавание может быть непосредственно смоделировано на словах или словах, но поскольку сквозное распознавание может означать тенденция развития, но поскольку знания фонетики были полностью заброшены, все еще существует определенный разрыв между эффективностью распознавания и традиционными методами моделирования, основанными на глубоком обучении.Однако в статье, которую я недавно прочитал, сквозной тибетский распознавание языка достигло или даже превзошло существующие общие алгоритмы.
Возьмем в качестве примера тибетский язык. Тибетский язык является языком меньшинства в Китае. Однако, поскольку тибетское население невелико по сравнению с английским и китайским, сбор данных о речи затруднен. В этой статье мы можем узнать, что наиболее важным требованием обработка естественного языка является корпусом.Если у вас есть хороший корпус, вы получите вдвое больший результат с половиной усилий, что приводит к позднему началу исследований по распознаванию тибетской речи, а из-за тибетской лингвистики отсутствие знаний еще больше препятствует прогрессу Исследование распознавания речи на тибетском языке. В Китае тибетский является односложным языком. В сквозном речевом процессе тибетский является очень простым языком для моделирования. процесс обучения, и многие люди обнаружили при изучении существующих тибетских словарей, что если полностью отказаться от существующих словарей тибетского произношения, то без таких предварительных знаний это фактически не способствует открытию технологии Поэтому на данном этапе , для моделирования используется сочетание CTC и языковых знаний, что может решить проблему акустического моделирования в случае ограниченных ресурсов.Скорость распознавания сквозного метода на основе акустической модели выше, чем у текущего Скрытая марковская двунаправленная модель долговременной памяти.
В акустических моделях распознавания речи, основанных на архитектуре CD-DNN-HMM, для обучения DNN обычно требуются метки, выровненные по кадру. В GMM эта операция выравнивания выполняется итеративно с помощью алгоритма EM, и очень неудобно использовать GMM для выравнивания при обучении DNN. Таким образом, появляется метод, не требующий предварительного выравнивания кадров. Кроме того, гипотеза HMM подвергалась критике.После появления RNN использование RNN для описания временных отношений для замены HMM стало в то время повальным увлечением. С развитием технологии оптимизации нейронных сетей и постоянным улучшением вычислительной мощности графического процессора RNN и CTC, наконец, используются для моделирования, чтобы реализовать акустическую модель сквозного распознавания речи. Полное название CTC — коннекционистская временная классификация, а китайский перевод, вероятно, — коннекционистская временная классификация. Цель, которую он хочет достичь, состоит в том, чтобы напрямую связать речь с соответствующим текстом, чтобы реализовать классификацию проблем синхронизации.
Вот еще можно описать как идею ЭМ:
E-шаг: использовать алгоритм BPTT для оптимизации параметров нейронной сети;
M-шаг: используйте выходные данные нейронной сети, чтобы повторно найти наилучшее соотношение выравнивания.
CTC можно рассматривать как метод классификации или даже целевую функцию. В процессе построения сквозной акустической модели CTC играет очень важную роль в автоматическом выравнивании. По сравнению с традиционным методом на основе CD-DNN-HMM эффект выравнивания, приведенный в статье [Alex Graves, 2006], показывает эффект:
Эту картину можно понять: метод, основанный на выравнивании кадров, заставляет сегментированные кадры выравниваться по соответствующим меткам, в то время как CTC может выводить пустые временные фреймы, и только несколько кадров выравниваются по соответствующим меткам вывода. Разница в том, что даже если результат метода выравнивания кадров правильный, сегментацию в граничной области трудно сделать точной, что приводит к ошибкам в обучении DNN. c) Сквозная модель Благодаря мощным возможностям моделирования нейронных сетей выходные метки сквозной модели больше не нужно подразделять, как в традиционных архитектурах. Например, для китайского языка вывод больше не нужно подразделять на состояния, фонемы или гласные, и в качестве вывода можно напрямую использовать китайские иероглифы; для английского языка, учитывая большое количество английских слов, в качестве меток вывода можно использовать буквы. . С этой точки зрения мы можем думать, что нейронная сеть также смоделировала и изучила отношения отображения между акустическими символами и строками.Эта часть является задачей, которую словарь должен выполнять в традиционной структуре. Для этого модуля существует специальный модуль моделирования под названием G2P (графема-фонема) в традиционной структуре для работы с внесловарным запасом (OOV). В сквозной акустической модели не может быть ни словаря, ни OOV, ни G2P. Все это моделируется в нейронной сети. Кроме того, в традиционной кадровой структуре речь должна быть разделена на кадры, разделена на окна и извлечены признаки, включая MFCC, PLP и так далее. В акустических моделях на основе нейронных сетей часто используются более открытые функции Fbank. При сквозном распознавании также обычной практикой является использование более простых функций, таких как точки БПФ. Возможно, в ближайшем будущем в качестве входных данных можно будет использовать и точки дискретизации речи, что является более тщательной сквозной акустической моделью. Кроме того, сквозная акустическая модель уже несет в себе информацию языковой модели, которую RNN изучает на выходной последовательности. Но эта языковая модель все еще относительно слаба, и если добавить языковую модель с большим объемом данных, эффект декодирования будет лучше. Поэтому end-to-end теперь относится к части акустической модели, а когда языковая модель не нужна, то полностью end-to-end. 3. Модель языка (LM) Роль языковой модели можно просто понять как проблему разрешения полифонических слов После того, как последовательность произношения задана акустической моделью, последовательность строк с наибольшей вероятностью находится из последовательности текста-кандидата. .
4. Декодирование Традиционное декодирование распознавания речи основано на WFST, который компилирует HMM, словарь и языковую модель в сеть. Декодирование заключается в поиске оптимальной последовательности выходных символов в динамическом сетевом пространстве, построенном WFST. Для поиска обычно используется алгоритм Витерби. Кроме того, чтобы предотвратить взрыв пространства поиска, обычно используется алгоритм обрезки, поэтому результаты поиска могут быть не оптимальными. В сквозной системе распознавания речи простейшим методом декодирования является поиск по лучу. Хотя слабая языковая модель уже включена в сквозную акустическую модель, производительность распознавания все еще может быть улучшена за счет использования дополнительной языковой модели, поэтому в концевую модель вводятся традиционный метод декодирования на основе WFST и алгоритм Витерби. to-end модель, которая также очень естественна в системах распознавания речи. Однако декодирование может быть неоптимальным из-за наличия в акустической модели слабых языковых моделей. В статье [yuki Kanda, 2016] предлагается, чтобы при декодировании языковая модель была вычтена для получения оптимального результата.
эта статьяКаков технический принцип распознавания речи?Несколько ответов на этот вопрос добавили мне некоторого понимания между ними, и я также надеюсь, что эксперты в этой области могут дать мне больше советов.