В прошлом есть древние люди, а сзади Сяо Ван. Привет всем, я старший Сяо Ван, который любит думать. Сегодня я проведу вас в тур по горячему развитию технологии распознавания речи. Это легко чтобы понять, полный галантереи, и должен быть изучен в конце Йо!
Как только вы видите распознавание голоса, мне интересно, думали ли вы об интеллектуальных голосовых интерактивных помощниках, таких как «Siri» от Apple, «Xiao E» от Huawei, «Xiao Ou» от OPPO, «Xiao Ai» от Xiaomi, всегда есть тот, к которому вы прикасаетесь. , есть также разрабатываемые в настоящее время интеллектуальные колонки «Xiaodu Xiaodu», Tmall Genie, «функция преобразования голоса в текст» WeChat, «умная бытовая техника» и автомобильные сетевые системы взаимодействия человека с компьютером, все из которых основаны на технологии распознавания голоса. добиться реализованного.
Сценарии примененияБольшинство компьютеров, которыми мы пользуемся, относятся к серии Microsoft Windows, а голосовой помощник Xiaona всем хорошо известен. Так что же такое технология распознавания речи?
1. Что такое технология распознавания речи?
Распознавание речи — это технология, которая преобразует слова, произнесенные человеком, в текст, также известный какавтоматическое распознавание речи(автоматическое распознавание речи, ASR), говоря простым языком, это общение с машиной и предоставление ей возможности понять, что вы имеете в виду. В более широком смысле все технические средства с момента, когда человек произносит речь, до того, как компьютер понимает содержание человека, в совокупности называются распознаванием речи.
С технической точки зрения, это высокие технологии, которые позволяют машинам преобразовывать речевые сигналы в соответствующий текст или команды в процессе распознавания и понимания.
Здесь некоторые люди могут спросить, в чем разница между распознаванием речи и обработкой естественного языка (NLP).Распознавание речи является относительно базовой ветвью обработки естественного языка. Во многих случаях вы должны сообщить машине, что вы говорите, прежде чем вы сможете дать машине понять и отреагировать определенным образом. Другими подкатегориями являются машинный перевод, поиск, обобщение, ответы на вопросы и т. д. Одним словом, технология распознавания речи является частью и ветвью обработки естественного языка.
Что ж, давайте побродим по технологии распознавания речи, мы знаем простую концепцию распознавания речи, а затем вкратце разберемся в истории распознавания речи.
История распознавания речи
Распознавание речи родилось из компьютера (1950-е годы), это была технология, желанная людьми. В предыдущих научно-фантастических фильмах люди использовали голос для передачи инструкций компьютерам. В американском фильме «2001: Космическая одиссея», вышедшем в 1968 году, компьютер HAL9000 на борту космического корабля общался с бортпроводниками посредством голоса. В американском сериале «Звездный путь», который транслируется с 1966 года, главный герой может получить данные об исследуемой планете до тех пор, пока он запрашивает компьютер своим голосом. С момента изобретения компьютера люди твердо верили, что рано или поздно наступит эра управления компьютерами с помощью речи.
Исследования по распознаванию речи официально начались в1960-е, в этот период люди пытались извлечь правила ассоциации между спектрограммой 0 и фонемой 2 речи. Прототип пишущей машинки, основанный на работе со спектрограммой, был показан на Всемирной выставке в Осаке в 1970 году.
Входить1970-е, люди разработали метод сопоставления динамического программирования (Dyamic Pogramming, DP). Способ может масштабировать и сопоставлять соответствующие характеристики входной речи и выборки речи в соответствии с временной осью. Основываясь на этой методике, люди успешно улучшили скорость распознавания коротких предложений, содержащих несколько слов.
1990-еПозднее распознавание речи, основанное на статистических методах, стало мейнстримом, и на рынке появилось программное обеспечение для компьютерной диктовки для обычных пользователей, которое могло преобразовывать входную речь в текстовый вывод.
В-третьих, принцип распознавания речи
С 1980-х годов распознавание речи в настоящее время принимает базовую структуру распознавания образов, которая разделена на пять этапов: подготовка данных, обработка сигналов, извлечение признаков, обучение модели и тестовое приложение.Чтобы облегчить понимание каждого, специально нарисована блок-схема. , например, как показано на рисунке:
Процесс обработки распознавания речиЭто изображение должно облегчить ваше понимание общего потока обработки распознавания речи:
Первым делом собираем звуковой сигнал
Прежде всего, нам нужно собирать голосовые сигналы, то есть, как говорится, записывать.Микрофоны и модули сбора голоса в наших мобильных телефонах или электронных устройствах, таких как компьютеры, сохраняют звук.
Второй этап – обработка звукового сигнала.
Каждый должен знать, что звук на самом деле является своего рода волной. Распространенные форматы mp3, wmv и другие являются сжатыми форматами и должны быть преобразованы в несжатые файлы чистой формы волны для обработки, такие как файлы Windows PCM, также известные как файлы wav. В дополнение к заголовку файла, хранящемуся в файле wav, это точки звуковой волны. На изображении ниже показан пример формы волны:
звуковая волнаОбработка сигнала делится на две части: обработка шумоподавления и предварительная обработка.Собранные нами звуковые данные содержат большую часть шума и бесполезных частотных диапазонов звука.Во-первых, используйте спектральное вычитание и другие методы обработки шумоподавления, чтобы удалить шум и оставить полезные звуковые сигналы. Простая Сравнительная таблица шумоподавления выглядит следующим образом:
Перед шумоподавлениемПосле шумоподавленияЗатем используйте предварительное выделение и т. д.предварительная обработкаЭто делает характеристики распознаваемого речевого сигнала более очевидными. В препроцессинговой части так же есть покадровый оконный режим и обнаружение конечной точки.Цель - убрать в сигнале смещение постоянной составляющей и некоторые низкочастотные шумы.Прежде всего надо понимать,что это для удобства более точного извлечения параметров признаков на следующем шаге. В следующей статье я подробно объясню вам значение соответствующих профессиональных терминов.
Извлечение признаков третьего шага
Извлечение признаков — это метод и процесс использования компьютера для извлечения характеристической информации из звукового сигнала. Например, когда я говорю: «Ты мне нравишься», в процессе распознавания речи текст будет преобразован в закодированную форму, и разделен по слогам, фонемам и т. д., будет распознано слово wo, а w и o эквивалентно извлечению признаков.
Схема непрерывного распознавания речиЧетвертый шаг – классифицировать и идентифицировать
Классификация и идентификацияЭто использование системы распознавания речи для классификации в соответствии с ограничениями на входную речь.
Учитывая соотношение между говорящим и системой распознавания, систему распознавания можно разделить на 3 категории:
(1) Система распознавания речи конкретного человека: учитывайте только распознавание голоса особого человека;
(2) Неконкретная система речи человека: распознаваемая речь не имеет ничего общего с людьми, и обычно для изучения системы распознавания используется большое количество баз данных речи разных людей;
(3) Система распознавания нескольких человек: обычно может распознавать голос группы людей или становиться определенной группой системы распознавания голоса, система требует только обучения голосу группы людей для распознавания.
Технология распознавания речи в основном делится на три категории.
Первая категориясоответствие модели, включая векторное квантование (VQ), динамическое преобразование времени (DTW) и т. д.;
Вторая категорияВероятностно-статистические методы, в том числе гауссовская модель смеси (GMM), скрытая марковская модель (HMM) и т. д.;
Третья категория этоМетод классификации дискриминатора, такие как машины опорных векторов (SVM), искусственные нейронные сети (ANN) и глубокие нейронные сети (DNN) и т. д., а также различные комбинированные методы.
С точки зрения методов классификации и идентификации существуют традиционные модели алгоритмов, такие как HMM и т. д., а также глубокое обучение, алгоритм машинного обучения SVM и т. д., которые в настоящее время активно развиваются.Если вас интересуют алгоритмы, вы можете выполнить поиск для себя, или вы можете оставить сообщение со мной Я буду использовать соответствующие знания в простой для понимания форме!
речевой кодекНаконец, подводя итог, можно сказать, что распознавание речи на самом деле представляет собой процесс кодирования, а затем декодирования, а обработка сигналов и выделение признаков — это процесс кодирования. Другими словами, это своего рода распознавание образов, основанное на параметрах признаков речи, то есть посредством обучения система может классифицировать входную речь в соответствии с определенным образцом, а затем находить наилучший результат соответствия в соответствии с критериями суждения.
4. Основная онлайн-платформа для разработки распознавания речи
1. Голос iFLYTEK
2. Голос Байду
3. Речевой API Майкрософт
4. API Google речи
5. IBM через голос
6. Нюанс НВП
7. API SoundNet агора
5. Изучение галантереи для распознавания речи
книги
«Графическое распознавание речи», Араки Масахиро (автор) Чен Шуян, Ян Венган (переводчик)
Эта книга очень дружелюбна к Xiaobai, она очень проста, и каждый может легко начать работу в виде диаграмм.
«Анализ глубокого обучения: распознавание речи на практике», Ю Донг и Дэн Ли.
Эта книга является относительно хорошим учебным пособием, написанным на китайском языке. Содержание очень новое, а глубина изучения очень велика. Студенты, которым нравятся алгоритмы, рекомендуют эту книгу.
«Обработка разговорной речи — руководство по теории, алгоритмам и разработке систем», Хуан Сюэдун ждет.
Эта книга представляет собой, по сути, энциклопедию традиционных методов ASR со значительным пространством как в теории, так и в инженерной практике.
руководство
Учащиеся со свободными возможностями могут изучить следующие учебные пособия:
Нокаут.речь.В это время.Трава.Количество/курсов/114…
Обработка речи. Этот учебник CMU в основном включает в себя три аспекта: ASR (автоматическое распознавание речи), TTS (преобразование текста в речь) и SDS (системы разговорного диалога).
Шотландский ученый-компьютерщик, эксперт по обработке речи, на его домашней странице есть много руководств по речи и НЛП.
Woohoo.inf.quota.AC.UK/teaching/co…
Автоматическое распознавание речи. Этот курс существует как минимум с 2012 года и обновляется каждый год.