Технология Smart Voice: откуда она взялась? Куда идти?

В последние годы технология распознавания голоса постепенно совершенствовалась, и все больше и больше интернет-компаний и производителей аппаратного обеспечения составляют бизнес-карту интеллектуального голоса. Волну Всеобъемлющего Интернета не остановить, и интеллектуальные голосовые технологии полностью расцветают в различных областях, таких как автомобили, умные дома и образование.

Как развился интеллектуальный голос? Каковы текущие возможности и проблемы? В какой форме она будет развиваться в будущем? На этот раз мы взяли интервью у Илона, старшего голосового архитектора OPPO, который расскажет нам о полном пути развития интеллектуальной голосовой технологии.

Q1: Можете ли вы кратко рассказать об истории развития голосовых технологий?

Задолго до изобретения компьютера существовал ранний прототип распознавания речи, такой как игрушечная собака Radio Rex в 1920 году, которую можно рассматривать как первое исследование технологии интеллектуальной речи людьми; и развитие интеллектуальной речи технология, основанная на компьютерах в прямом смысле слова, может быть самой ранней. Начиная с 1950-х годов прошло почти 70 лет с момента рождения первой системы распознавания речи Одри в 1952 году. в основном занимались версткой в этом направлении; примерно к 1990-м годам Sphinx, первая в мире система распознавания непрерывной речи, не зависящая от говорящего, с большим словарным запасом, и инструменты с открытым исходным кодом, такие как Cambridge HTK, которые когда-то широко использовались академических кругах, как одно из важных направлений исследований интеллектуальных компьютерных систем, распознавание речи было специально указано в качестве темы исследования, с конца 20-го века до начала 21-го века, является этапом быстрого развития распознавания речи, от научных кругов до индустриализации, примерно в 2009 г. Глубокое обучение проявило себя в области речевых технологий и совершило большой прорыв в эффектах распознавания, в 2011 г. родился Siri, виртуальный помощник мобильного телефона Apple. В последующие 10 лет технологии и команды, связанные с речью, начали перемещаться из научных кругов в промышленность, будь то Интернет. Компания по-прежнему является традиционным производителем оборудования и начала внедрять интеллектуальные голосовые технологии и постепенно внедрила ряд широко известные продукты для интеллектуального голосового взаимодействия, такие как Alexa, Google Assistant, Tmall Genie, Xiaodu Xiaodu и Xiao Ai. На протяжении всего процесса разработки всей технологии интеллектуального голосового взаимодействия с самого начала она поддерживала только очень простое распознавание команд, а затем поддерживала более сложное понимание словарного запаса и завершила крупномасштабную реализацию в нескольких сценариях и на нескольких устройствах, постепенно сокращая время между пользователями и пользователями.Прямой путь между услугами; Breeno, предшественник Xiaobu Assistant, родился в декабре 2018 года на этом фоне.

Q2: В чем причина бурного развития голосовых технологий в последние годы?

Прежде всего, голос является естественным способом передачи информации о человеке. Машины могут удовлетворить потребности пользователя быстрее, признавая голос и понимание выражений в нем. По сути, это более эффективно для обмена информацией между людьми и смартвыми устройствами, особенно для вождения В домашних условиях и других сценариях голосовые технологии могут значительно улучшить опыт взаимодействия с человеком. Кроме того, технологическое развитие высоко коррелирует с развитием промышленности. Причина, по которой отечественные производители делают умные докладчики, больше под влиянием Alexa alexa. Alexa позволяет иностранным пользователям воспринимать удобство голосового взаимодействия в домашних сценариях; в семье, Xiao AI и Genie Tmall являются первыми, кто сделает продукт, так что у некоторых пользователей есть Использовал его, что изменило отрасль, что позволит другим участникам присоединиться к треке и позволить большему количеству пользователей почувствовать удобство умных динамиков. С входом умных динамиков и более домашних устройств, поддерживающих Aiot, пользователи могут контролировать более умные устройства в доме через ступицу умных динамиков, и они хотели бы использовать умные интерактивные продукты все больше и больше, что немного похоже на эффект Мэтью , Когда пользователи воспринимают удобство продукта и поощряют их покупать больше продуктов, установлен экологический замкнутый цикл, и все больше и больше пользователей готовы использовать голосовое взаимодействие для управления устройствами и получать услуги. Наконец, с постоянным увеличением скорости использования интеллектуальных помощников и непрерывного расширения онлайн-масштабирования данных мы можем использовать более реальные данные, чтобы сделать более реальные данные оптимизации итерации оптимизации модели, чтобы сделать эффект лучше. С точки зрения эволюции технологии алгоритма, за последние 10-20 лет, модельная тренировка в основном была основана на маркированных данных. Например, для распознавания предложения необходимо сначала отметить каждое слово многих предложений в виде текста. Добавить модель тренировки для завершения оптимизации модели посредством контролируемого обучения. Теперь индустрия начала пытаться безоговорочному обучению. Facebook уже провела результаты научных исследований, что неповторимое обучение на основе незамеченных массивных данных может также завершить подгонять модель распознавания речи.

Q3: Что является отправной точкой для разных производителей, чтобы сделать интеллектуальный голос?

В Китае это делают многие производители, такие как Xiaomi, Ali и Baidu, но у каждого производителя есть своя отправная точка для этого. Интеллектуальный голос Baidu на самом деле надеется изменить форму поискового продукта с простого поиска в текстовом поле веб-страницы на более естественную форму ввода поиска в сочетании с голосовым взаимодействием через Xiaodu, а затем рекомендовать пользователям некоторый контент, который можно рекомендовать только через веб-поиск. Ali's Tmall Genie надеется занять въезд на домашнюю сцену.Завершая экологическую конструкцию AIoT, он приведет пользователей к контент-сервисам, таким как Xiami Music, Youku, Tmall и Ele.me в экологии Ali. Отправная точка Xiaomi для создания умных колонок значительно отличается от этих двух, потому что отправной точкой Xiaomi является создание экосистемы Xiaomi AIoT Интернета всего через «Mijia + Xiaoai Classmates», охватывающей все аспекты умной жизни. Отправной точкой создания Xiaobu Assistant OPPO является надежда на то, что на основе аппаратных и программных продуктов для мобильных телефонов, благодаря созданию различных возможностей Xiaobu Assistant, пользователи смогут постоянно воспринимать «мудрость и понимать вас» продукта, и в В то же время создайте технологический бренд компании. Благодаря постоянному улучшению экологии нескольких устройств компании, наконец, реализуется стратегическая цель интеграции всего.

Q4: Какие возможности открываются перед современной голосовой технологией?

Я думаю, что возможность довольно велика. Во-первых, снижается стоимость обучения пользователей. В настоящее время все больше и больше пользователей входят из поколения Z. Люди этого поколения больше контактируют с разумом. Они не похожи на поколение наших родителей или наше поколение, которое вошло в разумную эру из неразумной эры. имеет естественное знакомство с голосовым взаимодействием или взаимодействием на основе ИИ. Кроме того, люди поколения Z напрямую вошли в цифровой мир.Они очень хорошо знакомы с цифровым миром.Точно так же, как очень маленький ребенок сейчас использует мобильный телефон для касания и работы, он уже давно знаком с некоторыми аппаратными продуктами.виртуальный вещи. С другой стороны, пользователи все больше эмоционально связаны с интеллектуальными продуктами. В реальной жизни уже есть дети, которые будут долго грустить из-за смерти игровых персонажей в мобильном телефоне, но редко грустят долго из-за печали кого-то вокруг них или смерть реального человека вокруг них. На самом деле это отражает проблему, то есть многие вещи в цифровом мире уже связаны с человеческими чувствами. В настоящее время, я думаю, есть большие возможности для умных помощников в этой области.Люди все больше и больше интегрируются с виртуальным миром в аппаратные продукты, что является так называемым чувством замещения.С увеличением жизненного давления и социальных давление, собственно, они мне тоже больше по душе общение с виртуальными персонажами, а не общение больше с окружающими меня людьми. В этом контексте интеллектуальные помощники могут стать виртуальным объектом, с которым все больше и больше пользователей хотят общаться и вступать в контакт, а голосовые технологии — важнейшее эмоционально-информационное звено.

Вопрос 5. С какими трудностями сталкиваются современные голосовые технологии?

Во-первых, пользователи все чаще обеспокоены нарушениями конфиденциальности. При использовании интеллектуальных интерактивных продуктов пользователи будут постепенно узнать о проблемах конфиденциальности. В последние несколько лет мы видели пользователей на главных платформах, опрошенных, прослушивает ли устройство. Например, я болтал с вами о зонтике, а Taobao или Tmall рекомендовал мне зонтик ночью. Поэтому многие пользователи хотят использовать голос для получения услуг более удобно, но в то же время они боятся, что устройство будет постоянно контролироваться. Я думаю, что это вызов, что вся отрасль стоит обращена, включая введение ЕС GDPR для защиты конфиденциальности и безопасности данных всей умной экосистемы. Кроме того, существует разрыв между ожиданиями пользователей для голосовых помощников и способности технологии их реализации. За голосовым помощником - это услуга. Ожидание пользователя для голосового помощника является реальным человеком, но он является цифровым, поэтому ожидания пользователя для него всегда высоки. Пользователи обычно считают, что так называемый интеллект всемогущий, но технология имеет узкое место, что означает, что технологии могут добиться только некоторых вещей в его возможностях. Тем не менее, пользователи будут иметь более строгие требования к смарт-продуктам. Ему нужны умные продукты, чтобы иметь возможность проверить погоду и чат, с высоким уравнением и IQ. Но вернемся к реальности. Очень мало людей с высоким уравнением и IQ. Существует точка в «хакере и художникам»: окончательный внешний вид каждого продукта похож на тех, кто его построил, потому что он определяет, как должна выглядеть душа продукта. Для интеллектуального помощника он производится инженерами, менеджерами по продуктам и командам НИОКР. Например, если есть команда из 100 человек, IQ и уравнение этих 100 человек будут определять, как будет выглядеть интеллектуальный помощник.

Q6: Каковы будут сценарии применения и формы интеллектуального голоса в будущем?

Прежде всего, с точки зрения восприятия пользователя, самым ранним этапом является знакомство с текстовым взаимодействием пользователя, постепенный переход к голосовому взаимодействию, а сейчас и в будущем переход к мультимодальному взаимодействию. Что касается сценариев приложений, AIoT все шире используется в умных домах, и пользователи могут управлять устройствами по всему дому с помощью голоса. Существует также интеллектуальное вождение.На самом деле, в 2016 году Али сотрудничал с Zebra Internet Cars, включая SAIC Motor, над умным автомобилем, который был оснащен голосовым помощником. Для некоторых новых транспортных средств, таких как Tesla, Xiaopeng и Weilai, голосовые помощники стали стандартной конфигурацией этих транспортных средств.Фундаментальная логика заключается в том, что в автомобильной среде пользователи больше сосредоточены на безопасности вождения. Безопасность вождения означает, что вы не можете проверить свой мобильный телефон во время вождения и сосредоточиться на управлении автомобилем.Если вы хотите послушать музыку или сделать телефонный звонок во время вождения, вы можете сделать это только с помощью голосового взаимодействия, что делает вождение более безопасным. делая весь опыт вождения лучше. Теперь каждый автомобильный завод планирует сделать это и даже создал исследовательскую группу для создания собственной технологии. Кроме того, интеллектуальный помощник должен сделать путь взаимодействия между пользователем и машиной короче. В прошлом можно было получить услуги в несколько этапов, например касание пользовательского интерфейса. Но теперь простые операции, такие как проверка погоды и телефонные звонки, можно выполнить одним предложением. Однако текущий путь взаимодействия не короткий, потому что текущая логика выполнения состоит в том, чтобы сначала преобразовать распознавание речи в текст, затем текст, чтобы понять намерение, и, наконец, в управление диалогом.После этого мы будем продолжать сокращать этот путь, чтобы машины могли непосредственно Чтобы понять, что говорят люди, нет необходимости в преобразовании средних слов. Окончательная форма интеллектуального голоса, мы ожидаем, что она может быть отделена от конкретной формы продукта и может быть полностью цифровой. Так что я думаю, что интеграция всего, что упомянуто в корпоративной стратегии OPPO, выглядит весьма изобретательно. В конце концов, по сути, вам все равно, мобильный ли это телефон, колонка или другие умные устройства.С точки зрения пользователя его волнует только одно.Когда мне нужна услуга, я могу просто говорите, нет необходимости выполнять какие-то более сложные операции через другие сторонние носители ввода.

Q7: Что вы думаете о текущих экологических возможностях голосовых помощников?

Я думаю, что это восходит к самому пользователю, будь то разработка экологически или по определенному сценарию, это помогает пользователям решать некоторые основные потребности в определенном сценарии. Например, с развитием AIoT в домашних условиях все больше и больше устройств, таких как традиционные светильники и кондиционеры, начинают поддерживать голосовое управление. Логика этого заключается в том, чтобы решить проблему неудобств для пользователей при управлении этими устройствами дома, а затем сделать весь дом более интеллектуальным. Голосовой помощник — это, по сути, средство доступа к услугам, и это наиболее естественный способ получения услуг для пользователей.Направление его развития всегда направлено на удовлетворение основных потребностей пользователей.

Для получения более интересного контента, пожалуйста, обратите внимание на общедоступную учетную запись [OPPO Digital Intelligence Technology].