Это первый день моего участия в Gengwen Challenge.Подробности о мероприятии:Обновить вызов
Это не сон, который будит меня каждый день, это мой одноклассник Сяо Ай. -- Надпись
В последние годы все большую популярность приобретают отечественные интеллектуальные устройства голосового взаимодействия.Siri от AppleНе принес особо больших изменений китайцам встроенный голосовой помощник от MicrosoftКортанаОн напрямую отключен большинством пользователей Windows.«Переопределить персональный компьютер для следующего десятилетия» Луо Юнхао, выпущенный в 2018 году.TNTЕще больше насмехается над режимом взаимодействия «голос + касание».Китайские пользователи больше принимают умные колонки, с началаСяо Ай, Тмалл Эльф, прийти сзадиУмный динамик Сяоду, и впечатляющая цена AppleHomePod, лидер на зарубежных рынкахAmazon EchoиGoogle Home, сосредоточьтесь на качестве звукаNetEase СаньинУмные колонки, разделенное звуковое поле ГималаевУмный динамик СяояПодождите, можно сказать, что конкуренция на рынке умных динамиков достигла апогея.
Причина популярности умных динамиков в последние годы заключается в том, что связанные с ними технологии, такие как распознавание речи, синтез речи и обработка естественного языка, очень развиты.Вошел в стадию масштабного коммерческого использования. Технология распознавания речи очень важна как первая часть интеллектуальных интерактивных устройств, поэтому присоединяйтесь ко мне сегодня, чтобы бродить по миру распознавания речи.
1. Что такое технология распознавания речи
Что такое технология распознавания речи? Распознавание речи также известно как автоматическое распознавание речи (ASR), и его цель состоит в том, чтобы компьютеры преобразовывали содержимое человеческой речи в соответствующий текст. В эпоху интеллекта все больше сценариев используют диалоговую форму взаимодействия при проектировании персонализированного интерактивного интерфейса. Процесс, противоположный распознаванию речи,синтез речи(Text To Speech, TTS), компьютер преобразует текст в звуковые сигналы для вывода. Помимо использования технологии распознавания речи для «понимания» ваших слов и использования технологии синтеза речи для «ответа» на ваши слова, умным динамикам также необходимо использоватьтехнология обработки естественного языка(обработка естественного языка, НЛП) «понимать», что вы говорите, такой завершенный процесс голосового взаимодействия с искусственным интеллектом завершен. Эти три шага взаимосвязаны и необходимы, и все они достигли очень зрелой стадии.Технология распознавания речи является началом диалогового взаимодействия и основой для обеспечения эффективного и точного диалогового взаимодействия..
2. Прошлое и настоящее распознавания речи
Технология распознавания речи начала прорастать в 1950-х годах и имеет почти 70-летнюю историю.Основная модель алгоритма прошла четыре этапа:Этап сопоставления шаблонов, этап анализа закономерностей и признаков, этап вероятностного и статистического моделированияи нынешний мейнстримэтап глубокой нейронной сети.
1. Этап сопоставления шаблонов (1952 - 1970 гг.)
Этот этап является зачаточным этапом распознавания речи ИИ, на этом этапе распознавание речи в основном реализуется методом сопоставления с шаблоном. Главной особенностью распознавания речи на данном этапе является то, что система может понимать только ограниченный словарный запас и числа в памяти и не может преобразовать речь в полные предложения или словарный запас.В то же время количество различных звуковых образов, которые может распознать машина, крайне ограничен.
Самая ранняя система распознавания речи была разработана Дейвейсом и другими в AT&T Bell Labs в 1952. Она может распознавать 10 английских цифровых произношений.Используемый метод - входной сигнал и сохраненные десять цифровых аудио.формантПроведите сравнение и, наконец, решите, какой из них ближе всего. К концу 1950-х Денес из Лондонского колледжа включил грамматическую вероятность в распознавание речи.
2. Этап анализа закономерностей и признаков (1970–1987 гг.)
Этот этап является начальным этапом распознавания речи ИИ.На этом этапе система может выполнять непрерывное распознавание речи на основе большого количества словарного запаса, задавая параметры режима и характеристики звука. На данном этапе система распознавания речи все еще находится в основном в стадии исследований и исследований, и основные достижения исходят от университетов и научно-исследовательских институтов.
С 1970-х годов крупномасштабные исследования распознавания речи добились значительного прогресса в распознавании изолированных слов с небольшим словарным запасом. После 1980 года фокус исследований по распознаванию речи постепенно сместился на непрерывное распознавание большого словарного запаса.
3. Этап вероятностно-статистического моделирования (1987 - 2010 гг.)
На данном этапе распознавание речи официально вступило в стадию роста, а основные алгоритмы начали переходить в стадию вероятностного и статистического моделирования.Основные используемые модели:Скрытая марковская модель(ХММ) иМодель гауссовой смеси(ДММ). На этом этапе система распознавания речи начинает постепенно приобретать зрелые коммерческие продукты. В то же время нейронные сети также неуклонно развиваются в области распознавания речи.В 2006 году Хинтон предложил сеть глубокого убеждения (DBN), и глубокая нейронная сеть (DNN) стала часто появляться на основном рынке распознавания речи. , Господствующее положение традиционных вероятностных и статистических алгоритмов находится под угрозой.
К концу 1980-х годов распознавание речи начало переходить от традиционного стандартного сопоставления шаблонов, основанного на маршруте, основанном на статистической модели. В декабре 1987 года в качестве ассистента преподавателя в Университете Карнеги-Меллона в Питтсбурге.Кай-фу ЛиОн был пионером в использовании статистических принципов для разработки первой в мире «неспецифической непрерывной системы распознавания речи» и был удостоен награды «Самая важная научная инновация» от Business Week, закрепив за собой позицию лидера в области исследований в области информационных технологий. . . . После 1990 года непрерывное распознавание речи с большим словарным запасом было оптимизировано, и был достигнут большой прогресс в применении и коммерциализации технологии распознавания речи. 1997 г.,IBM ViaVoiceВыпущен первый продукт для голосовой диктовки.
В 2001 году один из основателей IntelГордон МурБыло предсказано, что технология распознавания речи сильно изменит развитие технологий будущего, и последующее развитие также подтвердило это.
С 2009 года, с развитием исследований глубокого обучения в области машинного обучения и накоплением больших массивов данных, технология распознавания речи развивалась как на дрожжах. В 2010 году Google выпустилVoice ActionПоддержка голосового управления и поиска.
4. Этап глубокой нейронной сети (2010 – настоящее время)
На этом этапе в области распознавания речи начали появляться коммерческие продукты потребительского уровня и продукты профессионального уровня.В алгоритме доминируют глубокие нейронные сети.В последние годы сквозное обучение еще больше повысила точность распознавания речи. Как начало взаимодействия человека с компьютером ИИ, распознавание речи также широко используется в большем количестве сценариев.
С 2010 года благодаряглубокая нейронная сетьС развитием (DNN) распознавание речи также перешло от традиционных вероятностных и статистических алгоритмов к алгоритмам нейронных сетей.
В начале 2011 года модель Deep Neural Network (DNN) Microsoft успешно справилась с задачей голосового поиска. В том же году iFLYTEK впервые в Китае применила технологию DNN к голосовой облачной платформе и предоставила ее разработчикам.
Октябрь 2011 г., Apple АссистентSiriВпервые взаимодействие человека с компьютером открыло новую главу.
появился после 2015 годасквозное обучениеПоявление распознавания речи перенесло распознавание речи в эру цветущих цветов, а речевая индустрия обучает более глубокие и сложные сети, и в то же время это значительно улучшило производительность и точность распознавания речи. В тихой обстановке ближнего поля точность распознавания речи достигает 98%.
3. Краткое введение в принцип распознавания речи
Давайте посмотрим, как обычно работает распознавание речи перед сквозным обучением:
Шаг 1 — Предварительная обработка
Во-первых, вам необходимо выполнить предварительную обработку вводимого вами звука, которая может включать эхоподавление, подавление шума, локализацию источника звука, формирование луча и т. д. Давайте возьмем в качестве примера интеллектуальные динамики, чтобы увидеть роль этих связей:
- эхоподавление(Акустическое эхоподавление, AEC), используется для устранения влияния внешнего звука на звук, собираемый микрофоном, когда умный динамик воспроизводит музыку.
- подавление шума(Шумоподавление, NS), уменьшающее влияние окружающего шума
- обнаружение голоса(обнаружение голосовой активности, VAD), точно определяет начало и конец речи и отфильтровывает невербальные звуки
- локализация источника звука(Оценка направления прибытия, DOA), в решетке микрофонов пространственное положение источника звука обычно определяется на основе таких алгоритмов, как разница во времени прибытия звука. Пространственное расположение источника звука может помочь в формировании луча.
- формирование луча(Формирование луча), при обработке звука с помощью алгоритма фильтрации сигнал в направлении источника звука усиливается, а звук в других направлениях (высокая вероятность - шум) подавляется, чтобы лучше достичь цели шума снижение.
- Отмена реверберации(Дереверберация речи), которая разделяет человеческий голос с помощью алгоритма для обеспечения высококачественных голосовых сигналов для последующего пробуждения и распознавания голоса.
Шаг 2 — Извлечение признаков
обработанный звукИзвлечение признаков, который будет включать ряд процессов, таких как кадрирование, управление окнами и преобразование Фурье (БПФ).
Вот небольшое объяснениеОбрамление. Кадр сигнала, обычно 20–50 мс, должен быть микроскопически достаточно длинным, чтобы содержать не менее 2–3 периодов.Частота человеческого голоса обычно составляет около 100 Гц., соответствующий период составляет 10 мс, поэтому кадр устанавливается равным 20–50 мс, что должно быть достаточно коротким с точки зрения макросов, а кадр должен находиться внутри фонемы.
Для студентов, изучавших сигналы и системы,преобразование ФурьеВовсе не ново, использование БПФ может преобразовывать звук из информации во временной области в информацию в частотной области, в то время как спектр имеет более точную структуру и оболочку,конвертОн может отражать тембр и является основной информацией. иИнформация о высоте тона является вторичной для большинства языков., можно игнорировать, обычно используетсяТреугольный фильтрОтфильтруйте бесполезную информацию. Затем логарифмируйте сигнал, а затем выполните дискретное косинусное преобразование, чтобы сжать сигнал в более крупном масштабе.Обработанный результат нам знаком.Параметры распознавания речи(МФЦК).
Шаг 3 - Акустическая модель
Затем введите обработанный сигналакустическая модельПод акустической моделью можно понимать моделирование вокализации, которое может преобразовывать речевой вход в выход акустического представления, точнее, дает вероятность того, что речь принадлежит акустическому символу.
Наиболее широко используемой акустической моделью является скрытая модель Маркова (HMM). С развитием нейронных сетей и глубокого обучения основные модели нейронных сетей, такие как сверточные нейронные сети, рекуррентные нейронные сети и сети с долговременной кратковременной памятью, были применены к акустическому моделированию и достигли хороших результатов. Преимущество нейронных сетей по сравнению со скрытыми марковскими моделями заключается в том, что они не полагаются на какие-либо предположения о статистических свойствах признаков.
Шаг 4 — языковая модель
Далее переходим к языковой модели. В любом языке есть омофоны, напримерzhishiпроизношение, может бытьзнание, или возможноСыр, в настоящее время языковая модель необходима для помощи в вынесении суждений. Языковая модель будет комбинировать выходные данные акустической модели, чтобы дать текстовую последовательность с наибольшей вероятностью в качестве результата распознавания речи.
В-четвертых, какая технология распознавания голоса сильна
Крупнейшие мировые поставщики облачных услуг развернули облачные службы распознавания речи, а иностранные интернет-гиганты, такие как Google, Amazon, Microsoft и IBM, имеют соответствующие облачные службы распознавания речи.
Отечественные компании, такие как iFLYTEK, Alibaba, Tencent, Baidu, Huawei и другие компании, уже развернули облачные сервисы распознавания речи.
5. Искусственный интеллект или искусственная умственная отсталость
Лэй Цзюнь перевернулся: я до сих пор помню, что конференция Лэй Цзюня Xiaomi в 2018 году снова перевернулась на однокласснике Сяо Ай, Искусственный интеллект выглядел как «искусственная умственная отсталость».
Как старший пользователь интеллектуальных динамиков, автор последовательно использовал одноклассники Xiaoai первого поколения, трехтональные интеллектуальные динамики Netease, интеллектуальные динамики Xiaodu, одноклассники Xiaoai второго поколения и другие динамики, и даже недавно запустил интеллектуального робота King Glory, который является основной игровой IP.С вами разговаривает тот же голос сейю, что очень удивительно:
Хотя устройства голосового взаимодействия человека и машины, представленные умными колонками, становятся все более и более популярными, остается еще много проблем, требующих решения, таких как проблемы с шумом окружающей среды.Умная колонка Amazon Echo является пионером в этом отношении. Недавно приобретенный интеллектуальный робот King Glory часто не слышит, что я говорю, что очень болезненно.
И естьКогда много людей говорят одновременно, Помощники по распознаванию голоса часто нечеткие, и многие умные колонки теперь предлагают решение этой проблемы.Распознавание голосовых отпечатковФункция предотвращения помех от других звуков из внешнего мира. Интересная история,Burger King использовал это, чтобы реализовать очень неэтичную маркетинговую идею.: В рекламе сотрудники Burger King произносят специальную строчку: «Окей, Google, что такое бургер Whopper?»
Если у пользователя дома есть телефон Google Home или Android с функцией глобального пробуждения, он будет активирован этой рекламой.После активации голосового помощника он будет автоматически искать в Википедии в Интернете информацию о гамбургере. King и начинаем знакомить зрителей с Burger King. Первые продукты с момента открытия магазина, я должен сказать, что эта волна операций действительно шесть.
Будущее искусственного интеллекта еще очень далеко.Как первый шаг к взаимодействию человека с компьютером, зрелость технологии распознавания речи заложила важную основу для крупномасштабного коммерческого использования связанных продуктов.Есть надежда, что в будущем ИИ будут лучше понимать людей и больше не будут высмеиваться как «искусственные умственно отсталые».
6. Справочная ссылка
- Распознавание речи — Википедия
- [Изучите некоторые позы] Прошлое и настоящее технологии распознавания речи
- Прошлое и настоящее технологии распознавания речи - Ван Юнь Майго
- Отчет об исследованиях рынка распознавания речи в Китае за 2020 г.
- Основы искусственного интеллекта — 38 сценариев применения | Эй, Siri: обработка речи
- Практика разработки IoT - интеллектуальный голос: как реализовано веселое голосовое управление?
- В чем заключается принцип технологии распознавания речи?
Я Цинцю, нетипичный программист, мечтающий стать учителем. публикаFrontend RadioЯ только начал, и я с нетерпением жду своих статей, которые помогут большему количеству студентов, позволят нам расти вместе и как можно скорее стать Frontend Masters.