Ху Ичуань, соучредитель и технический директор Laiye. Лай также уделяет особое внимание интеллектуальным разговорным технологиям, позволяющим каждому иметь помощника. Ранее Ху Ичуань был соучредителем системы рекомендаций по фильмам и телевидению «Что посмотреть сегодня вечером» и был приобретен Baidu, а позже присоединился к Baidu в качестве старшего архитектора. Окончил Университет Цинхуа со степенью бакалавра и магистра, а также Пенсильванский университет со степенью доктора философии. Эта статья от Ху Ичуаня в "Ctrip Technology Salon - Человеко-машинное семантическое взаимодействие ИИ"Поделиться.
*Видео предоставлено "IT Master Said", продолжительность около 42 минут, смотрите его в среде WiFi*
1. Что такое умный помощник
С популяризацией смартфонов и мобильного Интернета все больше и больше интерактивных сценариев, которые изначально происходили в офлайне, постепенно переходят из офлайна в онлайн. Люди также привыкли получать различные услуги через онлайн-общение: просить секретарей организовать авиабилеты и отели для деловых поездок, консультировать учителей английского языка по поводу проблем в учебе, находить экспертов по путешествиям для составления планов поездок и так далее. Подобные сценарии сегодня постепенно переходят от общения лицом к лицу или по телефону к онлайн-общению.
Поскольку общение переходит из офлайна в онлайн, может храниться большой объем данных.На основе этих данных мы можем помочь людям повысить эффективность с помощью таких методов, как машинное обучение, и даже заменить людей в некоторых сценариях, чтобы реализовать интеллектуальных помощников. Мы определяем интеллектуального помощника как программное приложение или платформу, основанную на технологии искусственного интеллекта, которая удовлетворяет потребности пользователя, понимая естественный язык в форме речи или текста.
Так умный помощник — это просто умная служба поддержки клиентов? Мы считаем, что интеллектуальное обслуживание клиентов — это форма интеллектуального помощника, но интеллектуальный помощник имеет более глубокое значение и более широкое применение, чем интеллектуальное обслуживание клиентов. В отличие от интеллектуального обслуживания клиентов, интеллектуальный помощник имеет следующие 3 характеристики:
1. Более активное двустороннее взаимодействие: в сценарии обслуживания клиентов обычно пользователь активно связывается со службой поддержки, а служба поддержки отвечает пассивно. В сценарии помощника взаимодействие между помощником и пользователем является двусторонним, и помощник может активно связываться с пользователем и предоставлять пользователю соответствующие услуги, когда это необходимо.
2. долгосрочное партнерство: В сценарии помощника отношения между пользователем и помощником являются долгосрочными, и пользователь может продолжать получать специализированные услуги через одного и того же помощника в течение длительного времени. Напротив, в сценарии обслуживания клиентов отношения между пользователем и службой поддержки клиентов часто недолговечны, и соединение между двумя сторонами устанавливается только в момент обслуживания и отключается после завершения обслуживания.
3. Более богатые сценарии ценности: благодаря двустороннему общению и долгосрочным отношениям помощники могут предоставлять пользователям более богатые и ценные услуги. Эти услуги не ограничиваются только послепродажными, но и предпродажными консультациями, и даже некоторые профессиональные услуги могут быть выполнены через онлайн-помощников.
Доступ к информации, товарам и услугам через интеллектуальных помощников станет тенденцией. Итак, в каких отраслях эта тенденция появится в первую очередь? Мы думаем об этой проблеме через два измерения. Первое измерениеспрос на онлайн-взаимодействие, то есть силен ли спрос на онлайн-взаимодействие в этой отрасли или нет, и сценариев не так много. Второе измерениеЗнание предметной области, то есть относительно сложны ли знания предметной области в этой отрасли и требует ли процесс принятия решений пользователем внешних знаний.
Только когда эти два аспекта относительно сильны, вспомогательные продукты с диалогом на естественном языке в качестве основного метода взаимодействия могут принести пользователям относительно большую ценность. Например, онлайн-секретарь — очень типичный пример. Сегодня, если у меня есть секретарь, большую часть времени мне не нужно встречаться с секретарем, я могу четко объяснить, что я хочу, чтобы он сделал через онлайн-общение. В качестве другого примера, такие отрасли, как матери и ребенка, образование и туризм, являются очень типичными областями с высоким спросом на онлайн-взаимодействие и высокой степенью знаний и опыта в предметной области, которые подходят для внедрения интеллектуальных помощников. Можно предвидеть, что по мере того, как все больше и больше офлайн-сценариев взаимодействия будут переходить в онлайн, интеллектуальные помощники станут основной формой продукта во многих отраслях.
два,Платформа обработки естественного языка на основе глубокого обучения
Сценарии онлайн-взаимодействия будут генерировать большое количество данных диалога на естественном языке.На основе этих данных мы можем обучать модели машинного обучения, чтобы машины имели определенные возможности обработки и понимания естественного языка, чтобы создавать интеллектуальных помощников.
Обработка естественного языка используется во всех аспектах интеллектуальных помощников, от сегментации слов и тегов частей речи до распознавания намерений, извлечения сущностей, ответов на вопросы и диалогов. За последние два года научные круги и промышленность начали применять глубокое обучение к задачам обработки естественного языка и добились значительного прогресса. В некоторых конкретных задачах методы, основанные на глубоком обучении, значительно лучше, чем методы, основанные на традиционных моделях машинного обучения. Поэтому в этом разделе мы в основном представляем применение технологии глубокого обучения в интеллектуальном помощнике.
Как упоминалось выше, в обработке естественного языка есть много разных задач, но с точки зрения моделей машинного обучения эти задачи имеют одинаковые характеристики: вход модели — текст на естественном языке, а выход — некоторые результаты прогнозирования, но Модель должна предсказывать разные вещи под разные задачи. Например, при распознавании намерений модель должна предсказывать намерения пользователя, выраженные фрагментом текста; при извлечении сущностей модель должна предсказывать сущность, соответствующую каждому слову или слову в фрагменте текста; при ответе на вопрос или в диалоге. , модель должна предсказать. Что нужно предсказать, так это то, насколько хорошо вопрос пользователя соответствует ответу машины. Несмотря на то, что прогнозируемый контент отличается, структуру обработки естественного языка на основе глубокого обучения можно резюмировать как следующие 4 шага:
1,Embed. На этом шаге слова или символы в тексте, подлежащем обработке, представляются в виде распределенных векторов в качестве входных данных для следующих шагов. Эти векторы, также известные как векторы слов или векторы слов, могут быть обучены заранее или инициализированы случайными векторами, а затем скорректированы во время обучения текущей задачи. Конечно, на этом шаге можно использовать и другую ценную информацию для реализации текущей задачи, например, поведение пользователя.
2,Encode. Когда мы представляем предложение с помощью векторов слов, эти векторы слов не могут представлять семантику предложения, потому что значение предложения не равно простой комбинации значений содержащихся в нем слов. Таким образом, основная работа шага Encode заключается в кодировании всего текста, а процесс кодирования учитывает взаимосвязь между каждым словом и его контекстом. Обычно мы используем сверточные нейронные сети (CNN) или рекуррентные нейронные сети (RNN) для кодирования текста, которые могут в полной мере использовать взаимосвязь между словами. Результатом кодирования является новый вектор или матрица, которые лучше характеризуют весь текст.
3,Attend. Этот шаг также известен как Механизм внимания, и его основная идея заключается в том, чтобы обучить модель сосредотачиваться на наиболее важных частях текста, способных решить текущую задачу. С точки зрения непрофессионала, механизм внимания заключается в том, чтобы «подчеркивать» текст, тем самым улучшая эффект предсказания модели.
4,Predict. Цель этого шага очень ясна, то есть выходные данные предыдущего шага передаются через сеть для выполнения текущей задачи прогнозирования, а обычно используемая сетевая модель представляет собой полностью подключенную нейронную сеть с прямой связью. В зависимости от задачи прогнозирования результатом прогнозирования может быть вероятность метки, действительное значение, вектор и т. д.
Давайте рассмотрим сценарии, в которых глубокое обучение может быть применено к интеллектуальным помощникам на основе вышеуказанной структуры, и какие конкретные проблемы можно решить.
3. Применение глубокого обучения: распознавание намерений
Первый сценарий — распознавание намерений. Роль распознавания намерений заключается в оценке намерений пользователя на основе естественного языка. Например, в сценарии Assistant Laiye, когда пользователь инициирует запрос на естественном языке, намерение пользователя спросить о погоде, забронировать авиабилет или что-то еще — это проблема, которую модель распознавания намерений должна решить. решать. Представленная выше структура может быть очень хорошо применена для решения проблемы распознавания намерений.
Во-первых, нижний слой модели распознавания намерений представляет собой двунаправленную LSTM-сеть, то есть специальную рекуррентную нейронную сеть.Входом сети является векторизованное представление (Embed) пользовательского сообщения, а роль сети заключается в кодировании сообщения пользователя (Encode), на выходе получается несколько скрытых векторов. Закодированные результаты проходят через уровень внимания (Attend), так что модель изучает веса скрытых векторов, соответствующих разным словам для предсказанных результатов. Наконец, скрытый вектор, взвешенный слоем внимания, проходит через слой Softmax для предсказания (Predict) вероятности сообщения пользователя, соответствующего намерению.
По сравнению с методом, основанным на традиционной модели машинного обучения, самым большим преимуществом этой схемы является то, что она полностью управляется данными, не требует ручного проектирования признаков и может максимально использовать информацию, содержащуюся в самих данных, для прогнозирования намерений. . При этом эффект метода, основанного на глубоком обучении, также значительно лучше, чем у традиционного метода.
В продукте Assistant Laiye мы сравниваем различные методы по более чем 20 категориям задач распознавания намерений. Первоначально, в отсутствие данных, мы использовали традиционные методы, основанные на правилах, точность которых составляла всего около 70%. По мере накопления данных мы перешли на традиционные методы, основанные на машинном обучении, и показатель точности быстро вырос до 90%. Однако, когда точность традиционной модели машинного обучения достигает 90 %, мы обнаруживаем, что дальнейшее улучшение ее затруднено, поскольку традиционный метод основан на извлечении признаков, а то, как выбирать и конструировать признаки, напрямую определяет эффект модели. По мере увеличения количества функций становится все труднее создавать новые функции, а добавление новых функций оказывает меньшее влияние на производительность модели.
Чтобы решить эти проблемы, мы перешли на модель, основанную на глубоком обучении, которая не полагается на извлечение признаков и полностью управляется данными.Эффект значительно лучше, чем у традиционного метода, с точностью более 96%. Конечно, в процессе фактического использования будет много других проблем.Например, намерение пользователя связано не только с текущей информацией о пользователе, но также может быть связано с исторической информацией о пользователе и даже с историческим поведением. Исходя из этого, мы можем ввести в модель дополнительные входные данные, такие как исторические сообщения, историческое поведение и т. д., чтобы еще больше повысить точность распознавания намерений.
В-четвертых, применение глубокого обучения: интеллектуальный анализ
Далее мы представляем применение глубокого обучения в интеллектуальном анализе. В сценарии интеллектуального помощника пользователи будут задавать различные вопросы, связанные с предметной областью, и на каждый вопрос есть конкретный ответ, который мы называем знанием предметной области. Чтобы интеллектуальный помощник мог автоматически задавать вопросы, сначала необходимо извлечь эти знания из данных неструктурированного диалога в качестве обучающих данных для модели автоматического ответа на вопросы. В частности, цель извлечения знаний состоит в том, чтобы извлечь вопросы пользователей из данных диалогов на естественном языке и сгруппировать вопросы с одинаковой семантикой в одной и той же точке знаний. Ниже приведены два примера из сценария «помощник матери и ребенка».
Выражения разные, но относятся к одной и той же точке знания:
· Можно ли греться на солнышке месячному ребенку?
· Должен ли новорожденный быть полнолунием, прежде чем он сможет погреться на солнышке?
Выражения похожи, но относятся к разным точкам знаний:
· Как часто новорожденному можно находиться на солнце?
· Новорожденное солнышко, какого размера оно лучше?
В приведенных выше двух примерах интеллектуальный анализ должен классифицировать два предложения в первом примере как одну и ту же точку знаний (сколько лет ребенку может быть на солнце) и классифицировать два предложения во втором примере как разные точки знаний (как сколько времени ваш ребенок проводит на солнце по сравнению с тем, сколько времени ваш ребенок может находиться на солнце). Поэтому основная сложность интеллектуального анализа данных состоит в том, чтобы семантически представить текст, а затем сгруппировать его.
Традиционные методы извлечения знаний используют неконтролируемую кластеризацию на основе векторов слов. В частности, для любых двух предложений текста используйте слова и векторы слов, которые они содержат, для вычисления расстояния между текстами, а затем реализуйте неконтролируемую кластеризацию на основе расстояния между текстами. Этот метод имеет два явных недостатка: 1) расстояние между текстами вычисляется на основе векторов слов, что не может хорошо отражать семантическое сходство текстов; 2) с помощью неконтролируемой кластеризации трудно определить количество классов, в результате результаты кластеризации неконтролируемы.
В ответ на эти две проблемы мы применяем метод, основанный на глубоком обучении, для обучения векторов предложений на основе векторов слов и комбинируем методы без учителя с методами с учителем. В частности, мы сначала извлекаем некоторые точки знаний с помощью традиционных методов и входим в базу знаний после ручной проверки, которую мы называем исходной базой знаний. На основе исходной базы знаний мы можем построить обучающие данные: пары вопросов с одной и той же точкой знаний используются как положительные выборки, а пары вопросов с разными точками знаний используются как отрицательные выборки. На основе приведенных выше обучающих данных мы можем обучить модель семантического сопоставления пар вопросов. Эта модель точно такая же, как упомянутая выше структура, а также включает четыре этапа: внедрение, кодирование, посещение и прогнозирование.
После того, как модель обучена, мы используем кодировщик отдельно для кодирования других вопросов в корпусе.Результат кодирования можно рассматривать как вектор предложения, который может представлять семантику предложения. На основе векторов предложений мы будем использовать методы на основе кластеризации, и эффект и эффективность будут значительно улучшены по сравнению с методами, основанными на векторах слов.
5. Применение глубокого обучения: автоматический ответ на вопрос
Наконец, давайте взглянем на применение глубокого обучения для автоматических ответов на вопросы. Основная цель модели автоматического ответа на вопрос — ответить на вопрос пользователя и вернуть в базу знаний точки знаний, наиболее подходящие для ответа на вопрос. Традиционный автоматический ответ на вопрос использует метод, основанный на поиске, который принимает вопросы пользователей в качестве входных данных для извлечения базы знаний и возвращает несколько результатов с наивысшей релевантностью. Есть две проблемы с методами, основанными на поиске: 1) поиск основан на ключевых словах, а релевантность поиска не может представлять семантическую релевантность; 2) вопросы и ответы в практических сценариях обычно связаны с контекстом, в данном случае только на основе пользовательских сообщений, состоящих из одного предложения. Поиск не дал подходящих результатов. Чтобы решить эту проблему, мы используем метод, основанный на поиске контекста и ранжировании соответствия глубокого обучения. Подробности описаны ниже.
Во-первых, мы извлекаем ключевые слова из текущего сообщения пользователя и вышеперечисленного, обращаемся к базе знаний или историческому корпусу для поиска и возвращаем несколько ответов-кандидатов. Поскольку ключевые слова поиска берутся не только из текущего сообщения пользователя, но и из предыдущего текста текущей беседы, результат поиска будет включать как ответы, относящиеся к текущему сообщению, так и ответы, относящиеся к предыдущим сообщениям, указанным выше.
Затем эти ответы-кандидаты вводятся один за другим в модель сопоставления текста на основе глубокого обучения, которая возвращает семантическое соответствие между каждым ответом-кандидатом и текущим разговором. Наконец, в соответствии с оценками, возвращаемыми моделью сопоставления, система возвращает несколько ответов-кандидатов с наивысшими оценками.
Модель глубокого сопоставления использует CNN для сопоставления ответа-кандидата с текущим сообщением пользователя и исторической последовательностью сообщений и, наконец, вычисляет оценку совпадения между ответом-кандидатом и всей беседой. Данные обучения модели поступают из исторического корпуса, а исторический диалог делится на несколько пар «выше» и «истинные ответы» в качестве положительных выборок, а пары «выше» и «случайные ответы» используются в качестве отрицательных выборок. Исходя из этого, модель сопоставления может в полной мере использовать исторические данные и в то же время учитывать контекстную взаимосвязь для достижения соответствия между ответами-кандидатами и вышеупомянутыми историческими сообщениями.
Эта модель также полностью соответствует структуре, которую мы представили ранее: сопоставление ответов-кандидатов и нескольких приведенных выше сообщений можно рассматривать как этап кодирования, а объединение нескольких совпавших векторов можно рассматривать как этап присутствия, а семантику окончательного вывода. степень соответствия - это шаг Predict.
6. Посадка интеллектуальных помощников в индустрии
Как упоминалось ранее, спрос на онлайн-взаимодействие и степень знаний предметной области различаются в разных отраслях. Поэтому продукты интеллектуальных помощников, управляемые данными, больше подходят для приземления в виде отраслевых помощников в разных отраслях, а не приземления в виде общих помощников. Когда мы фокусируемся на отрасли, мы можем накопить достаточно данных для полевых диалогов, чтобы создавать более интеллектуальные помощники с лучшим пользовательским интерфейсом.
Основываясь на этой идее, мы сначала создали вспомогательный продукт «Assistant Laiye» для индустрии онлайн-секретарей. Пользователи могут получить более 20 услуг, связанных с работой и жизнью, с помощью естественного языка, включая напоминания о расписании, такси, кофе, поручения и т. д. В настоящее время «Assistant Laiye» является популярным продуктом-помощником на платформе WeChat, предоставляющим универсальные услуги онлайн-помощника более чем 3 миллионам пользователей. В этом процессе мы накопили большой объем интерактивных данных и успешно применили технологию глубокого обучения для распознавания намерений, извлечения сущностей, вопросов и ответов, диалогов и других ссылок, чтобы улучшить эффект модели и опыт продукта. Кроме того, мы также используем «Wu Lai» для вывода семантики, вопросов и ответов, диалога и других технологий, чтобы помочь корпоративным клиентам в различных областях создавать отраслевых помощников. В настоящее время эталонные компании в сфере материнства и детства, автомобильной и других отраслях промышленности добились коммерциализации.
7. Заключение
Наконец мы заключаем. Прежде всего, с популяризацией мобильного Интернета и наступлением эпохи Интернета вещей интеллектуальные помощники, основанные на естественном взаимодействии, постепенно станут массовыми. В отличие от интеллектуального обслуживания клиентов, интеллектуальный помощник делает упор на двустороннюю связь, долгосрочные отношения и индивидуальное обслуживание. В этом сценарии, основанном на технологиях, управляемых данными, мы можем использовать глубокое обучение и другие технологии для улучшения эффектов моделей, таких как семантическое понимание, ответы на вопросы и диалог. На данном этапе интеллектуальные помощники для отраслей и конкретных сценариев имеют большую пользовательскую и коммерческую ценность.
использованная литература
1. Хоннибал М. Внедрение, кодирование, посещение, прогнозирование: новая формула глубокого обучения для современных моделей НЛП Доступно по адресу https://explosion.ai/blog/deep-learning-formula-nlp, 2017 г.
2. Конно А., Киела Д., Швенк Х. и др. Обучение с учителем универсальных представлений предложений на основе данных естественного языка, В отчете EMNLP, 2017.
3. Ву И, Ву В, Син С и др. Сеть SequentialMatching: новая архитектура для многооборотного выбора ответа в чат-ботах на основе поиска, В Proc. ACL, 2017.
Чтобы скачать PPT лектора, нажмите «Читать исходный текст» внизу статьи.
Рекомендуемое чтение: