Вам, наверное, звонит не человек! Google Duplex меняет умных помощников

Куратор | Винсент

Вклад | Винсент, Натали, Дебра

Редактор | Наталья

Руководство по передовой ИИ:По пекинскому времени, 9 мая 2018 г., это будет напряженный день для мировых технологических СМИ, сегодня проводится не только повестка дня второго дня конференции разработчиков Microsoft Build 2018, но и конференция разработчиков Google I/O. день стартовал. По сравнению с конференцией Build, в Google было больше приготовлений, и черные технологии появляются нескончаемым потоком.Самое впечатляющее, что Google Assistant эволюционировал, чтобы быть почти таким же, как реальный человек.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Позвонить! А вот и поддельный Google Assistant!

Давайте рассмотрим демо-ролик, который заставляет людей «дрожать»:

V.QQ.com/small/afraid/com 064…

Можете ли вы действительно сказать, является ли гость, который позвонил, чтобы назначить встречу, человеком?

Генеральный директор Google Сундар Пичаи неоднократно подчеркивал: это настоящая телефонная запись!

Затем видео демонстрирует, как голосовой помощник Google помогает директору бронировать парикмахерские услуги, включая время, место, содержание службы записи и т. Д. Голосовой помощник может более естественно реагировать в соответствии с речью говорящего:

На финальном видео видно, что голосовой помощник успешно помог владельцу записаться на прием, и весь процесс прошел очень гладко.

Следующее записанное видео демонстрирует, как голосовой помощник реагирует на сложные и непредвиденные ситуации. В демоверсии говорилось, что для записи на прием в назначенное время требуется 5 гостей.Голосовой помощник Google интимно спросит: «Сколько времени займет ожидание?» Это небольшая деталь, о которой люди могут не подумать, и результат Очень гладко. Гостей нет. Немного ограничено по времени.

Эта волна операций вызвала аплодисменты и понимающие улыбки публики.Кажется, все остались довольны этим маленьким помощником.

Однако некоторые люди шутили, что этот помощник не будет притворяться мной, чтобы звонить по телефону? Даже на телефон мне можно позвонить.Люди,кто не хочет отвечать на звонок и скинуть на голосовой ассистент напрямую.Даже развлечение сохраняется,так чего же вы еще живы? ! Шучу, должен признатьGoogle Assistant по-прежнему мощный, но пока только в демонстрациях, Потому что на месте реальной операции нет, это потому, что вы боитесь ошибиться на месте? Или стабильность этой 666 операции не особо сильна, и гугл боится поставить в неловкое положение людей по всему миру? Действительно ли Google Assistant таков 666, можно будет судить после того, как все воспользуются этой функцией.

Черная технология Duplex

Согласно официальному представлению, причина, по которой Google Assistant может быть почти таким же, как реальный человек на телефоне, зависит от этой технологии под названием Google Duplex, которая используется для естественных разговоров по телефону для выполнения «реального мира» «Новая технология для миссий». . Эта технология предназначена для выполнения конкретных задач, таких как планирование определенных типов встреч. Для таких задач система делает разговор максимально естественным, позволяя людям вести обычный разговор, как если бы они разговаривали с другим человеком, а не с машиной.

Чтобы диалоги звучали как можно более естественно, в дополнение к звуку Google значительно улучшил способность понимать естественный язык. В естественных разговорах люди говорят намного быстрее, чем машины, часто менее четко, поэтому распознавание речи затруднено и приводит к более высокому уровню словесных ошибок. Проблема усугубляется во время телефонных разговоров, где часто много фонового шума и плохое качество звука.

В более длинном разговоре одно и то же предложение может иметь очень разные значения в зависимости от контекста. Например, при бронировании «Хорошо для 4» это может означать время бронирования или количество человек. Часто соответствующий контекст может возвращать несколько предложений, проблема усугубляется повышенным уровнем ошибок в словах при телефонных звонках.

В основе Duplex лежит рекуррентная нейронная сеть (RNN), специально разработанная для решения этих задач с использованием TensorFlow Extended (TFX). Чтобы добиться высокой точности, разработчики обучили RNN Duplex на массиве данных анонимных телефонных разговоров. В сети используются выходные данные технологии Google Automatic Speech Recognition (ASR), а также функции аудио, история разговора, параметры разговора (например, желаемая услуга для встречи или текущее время) и многое другое. . Дизайнеры обучают модели понимания отдельно для каждой задачи, используя общий корпус для разных задач. Наконец, используйте оптимизацию гиперпараметров в TFX для дальнейшего улучшения модели.

Входящий звук обрабатывается системой ASR, затем анализируется с помощью контекстных данных и других входных данных для создания текста ответа, и, наконец, текст ответа читается вслух системой TTS.

Как мы видим на видео, Google Assistant во время разговора даже испускает модальные частицы, такие как э, ну и т. д. Это также тщательный дизайн дизайнеров, чтобы сделать его более похожим на человека. Процесс, издав такой звук, заставит другого человека почувствовать себя более мыслящим человеком.

Кроме того, Google также подчеркнулЗадерживатьважность. Например, когда люди говорят что-то простое вроде «Привет?» и ожидают немедленного ответа, они более чувствительны к задержкам. Duplex использует более быстрые модели с низкой достоверностью (такие как распознавание речи или конечные точки), когда обнаруживает, что требуется низкая задержка. В крайних случаях даже не ждите, пока RNN вернет ответ, а используйте более быстрое приближение (обычно не решается ответить, точно так же, как человек немного колеблется, не полностью понимая другого). Это позволяет Google Assistant реагировать в таких ситуациях с задержкой менее 100 мс. Интересно, что в некоторых случаях исследователи обнаружили, что увеличение задержки фактически сделало разговор более естественным, например, при ответе на очень сложное предложение.

На основе Google Duplex пользователям не нужно совершать звонки напрямую, а нужно только взаимодействовать с Google Assistant.Последующие звонки выполняются полностью Google Assistant в фоновом режиме, и пользователям не нужно вмешиваться.Это кажется большим преимуществом для многих «пациентов», страдающих социофобией, которые предпочитают отправлять электронные письма и сообщения и нервничают при мысли о телефонном звонке…

Согласно официальному представлению, Duplex настраивается в Google Assistant, который будет решать дела различных жизненных сценариев для пользователей, а живая демонстрация — лишь малая часть его функций. Но когда дело доходит до этого, на самом деле мозг редактора немного открыт, и я хочу задать несколько вопросов:

В предыдущих умных помощниках пользователь отдавал инструкции, а умные помощники выполняли их, но людям по-прежнему нужно было управлять такими вещами, как совершение звонков и заказ столика. Однако, после Google, роль людей, кажется, меньше.Требуется только одно предложение, и интеллектуальный помощник поможет вам.Как только возникнут какие-либо проблемы в общении, кто должен взять на себя ответственность?

Однако официальные лица Google также подчеркнули, что в настоящее время Google Duplex может быть ограничен только определенными закрытыми областями, и только когда эти области достаточно узки, Duplex подходит для проведения углубленного исследования. Duplex способен вести естественные разговоры только после глубокого обучения в этих областях, он не способен на более широкие общие разговоры.

Каковы удивительные новые функции Google Assistant?

Помимо технологии Duplex, на сегодняшней конференции I/O Google также анонсировала множество других функциональных обновлений виртуального помощника, многие из которых очень мощные...

новый голос

Возможно, пользователям надоело слушать стандартный голос Google Ассистента, поэтому Google решил добавить к нему 6 разных мужских и женских голосов. Один из них исходит от американского певца Джона Ледженда, который когда-то снимался в «Ла-Ла Ленде».

Однако дело не в том, что привезли Джона Легенда, а в суперэффективности, с которой Google может генерировать новые звуки для Ассистента.

С помощью модели глубокой нейронной сети WaveNet от DeepMind с небольшим объемом корпуса и мощными вычислениями Google может создавать голосовой образ, который очень похож на исходный корпус, а время сокращается с нескольких месяцев до сотен часов.

Более мощные возможности многооборотного диалога и многозадачности

Скотт Хаффман, вице-президент Google Assistant, показал видео с онлайн-бабушкой-супергероем, которая не знает, как использовать умную колонку Google Home, и указал, что есть еще много возможностей для улучшения пользовательского опыта. Затем он продемонстрировал новую функцию: «Множественные действия», расширяющую возможности интеллектуальных голосовых помощников вести естественные, многооборотные «разговоры» с людьми.

Раньше для разговора с Google Assistant требовалось слово «Окей, Google» перед каждым предложением. Этот параметр окончательно удален с сегодняшнего дня. Кроме того, Google Assistant может понимать несколько значений, выраженных в предложении, и выполнять несколько задач одновременно.

Например, в приведенном выше примере пользователь сначала спрашивал о результатах игры «Уорриорз», затем спрашивал о следующей игре «Уорриорз» и, наконец, просил виртуального помощника напомнить ему, чтобы он поискал свой свитер, когда вернется домой. слово в начале.

Людям легко понять несколько последовательных предложений в ситуации, но в прошлом некоторые виртуальные помощники не могли выполнить даже простую задачу, не говоря уже о многозадачности. Сегодня Google Assistant, похоже, довольно хорошо справляется с многозадачностью.

Умная сводка Gmail

Вы должны знать, что Gmail и Inbox поддерживают умные ответы, но в прошлом были только простые ответы, такие как «спасибо» и «все». Вскоре в Gmail появится мощная функция умного письма. Подобно автозаполнению для поисковых систем, Gmail будет автоматически предлагать следующее слово на основе предыдущего слова, которое вы написали, пока вы не напишете все электронное письмо...

Звучит немного загадочно, вы можете увидеть эффект:

Согласно отчетам, Google Assistant был подключен к более чем 500 миллионам устройств по всему миру, разделенным на 5000 различных устройств, и существует более 40 марок автомобилей.

Помимо улучшения возможностей обработки естественного языка, Google внесла еще одно улучшение в визуальные подсказки — Visually Assistive, директор по продукту Google Assistant Лилиан Ринкон Например, например, если вы спросите в кофейне Starbucks, телефон покажет кофе в то же время содержание меню магазина.

One More Thing

Хотя это не указано в официальной статье, мы также можем предположить, что повышение уровня Google Assistant неотделимо от модели обучения и базового оборудования, стоящего за ней.По крайней мере, Google Assistant, скорее всего, будет использовать недавно выпущенный TPU 3.0 на этом конференция, тренироваться.

Прежде чем мы официально представим TPU 3.0, мы хотим прерваться и рассказать о недавнем небольшом шаге производителя графических процессоров Nvidia. Перед началом конференции IO компания NVIDIA неожиданно обнародовала набор данных для последней модели GPU V100:

При обучении ResNet-50 один графический процессор V100 Tensor Core может достигать 1075 изображений в секунду, что в 4 раза выше производительности по сравнению с графическими процессорами Pascal предыдущего поколения.
Сервер DGX-1 с 8 процессорами Tensor Core V100 может обрабатывать 7850 изображений в секунду, что почти вдвое больше, чем 4200 изображений в год на той же системе.
Один облачный инстанс AWS P3 на базе восьми Tensor Core V100 может обучить ResNet-50 менее чем за три часа, что в 3 раза быстрее, чем инстанс TPU.

Если вы правильно догадались, Nvidia должна сравнивать TPU предыдущего поколения, то есть версии 2.0. Я решил выпустить его в это время, по-видимому, Nvidia тоже немного подумала. Однако выпуск TPU 3.0 может свести на нет осторожные размышления Nvidia.

Помимо улучшения производительности TPU 3.0 в 8 раз по сравнению с предыдущим поколением, генеральный директор Waymo заявил, что при обучении беспилотных автомобилей с использованием новой версии TPU производительность увеличилась в 15 раз.В то же время, это поколение TPU также добавило систему жидкостного охлаждения, основанную на новой архитектуре, которая может выполнять более крупные, более сложные и более точные модели и решать более сложные задачи. В настоящее время TensorFlow является наиболее широко используемой структурой глубокого обучения, особенно после коммерческого использования Cloud TPU, она может привлечь больше людей к использованию своих услуг.

Вчера на конференции разработчиков Microsoft Build 2018 компания Project Brainwave для FPGA также выпустила предварительную версию, хотя она и отстает в области чипов, но видно, что Microsoft тоже пытается наверстать упущенное. Не так давно такие компании, как Facebook и Alibaba, также объявили о своих планах выйти на рынок чипов.Начнется ли следующая решающая битва именно с чипов?

Использованная литература:

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

Tickets.WeChat.QQ.com/Yes/GG8 McDonald's открывает OO…

https://devblogs.nvidia.com/tensor-core-ai-performance-milestones/