Обзор того, как создать активный диалоговый ИИ

искусственный интеллект NLP Байду робот

Эта статья отредактирована и составлена ​​на основе статьи «Как создать активный разговорный ИИ», опубликованной Вен Цзяци, техническим директором и соучредителем Zhujian Intelligence, в салоне технологий искусственного интеллекта DataFun Talk «Разговорный ИИ и практика применения на основе распознавания эмоций». , Немного реорганизован без изменения первоначального замысла.

Эпоха до искусственного интеллекта была основана на шаблонах ключевых слов, которые могли принимать только фиксированные команды, не могли постоянно улучшать способность, не могли распознавать эмоции пользователя и не имели пользовательской памяти. Например, с текущими умными колонками, если вы скажете динамику «я сейчас сыт», а ключевое слово «есть», динамик порекомендует вам близлежащие рестораны. Конечно, наши ожидания не такие, и ожидания можно реализовать лучше. Например, «Я не люблю лапшу с говядиной», учитывая, что предложение является отрицательным утверждением, это не повелительное предложение, а намерение, поэтому намерения заказать еду на вынос можно избежать. Использование естественного языка, чтобы понять намерение, естественный язык в настоящее время делится на три уровня, первый - НЛП, сегментация предложений, второй - понимание намерения, два намерения "я голоден" и "я хочу есть" похожи; Третий уровень — объединить сцену, понять эмоции пользователя и реализовать распознавание намерений.

Далее поговорим о дизайне и применении вычислений эмоций.Мы сделали 22 вида текстовых эмоций и подсчитали, что вы делаете со своими одинокими и скучными эмоциями. Но недостаточно просто изобразить отрицательные, положительные и нейтральные эмоции. На картинке красный цвет представляет гнев, синий - отвращение и печаль, а фиолетовый - страх. Все они отрицательные эмоции, но эти три отрицательные эмоции разные, поэтому машинная обратная связь также отличается. Кроме того, были созданы 9 видов мимики и 4 вида голосовых эмоций, а «текст + выражение + голос» были сформированы в мультимодальные эмоции. Что это значит?Например,"Я получил 500 баллов на вступительном экзамене в колледж".В этот раз надо поздравить или утешить,а если добавить тон речи,то будет совсем другой,и голос эмоции выражают больше информации. В сочетании с выражениями лица, такими как улыбка и фраза «ты умер», трудно судить о намерении В сочетании с контекстом, если они оба улыбаются, это шутка. Если двое ссорятся, на этот раз это шутка. угроза.

Выше приведен пример мультимодальной эмоции: вверху — выражение лица, посередине — эмоция голоса, внизу — эмоция текста, а вверху изображения — эмоция в целом.

Что касается эмоций, то следующим шагом будет создание хорошего робота, так как сделать хорошего робота. В настоящее время IQ чат-ботов на рынке составляет 2-3 года, а роботу Zhujian Technology 5-6 лет, он может узнать погоду, проверить экспресс-доставку, проверить запасы, идиоматический пасьянс и другие 40 видов врожденные функции и навыки.

Тогда есть карта знаний.Многие пользователи робота - дети.Для одного и того же вопроса им нужно определить разные способы задать вопрос и определить, что такое вопросительные предложения и восклицательные предложения. Затем сделайте некоторые выводы, например, «какого роста жена Яо Мина», сначала найдите жену Яо Мина, а затем сделайте вывод, что рост Е Ли составляет 190 см. «Какие отношения между Николасом Цзе и Чэнь Сяочуном?» Из графика знаний можно сделать вывод, что бывший парень бывшей жены Николаса Цзе — Чен Сяочунь, и «выросла или упала цена акций после Лу Ци присоединился к Baidu», граф знаний должен выяснить, кто такой «Лу Ци» и что такое Baidu, в какой день Лу Ци ушел, в какой день была цена акций Baidu и т. д., а затем сделать вывод, что это те несколько мест, где машины могут заменить людей. Существует также поток двойного внимания, который использует модель глубокого обучения, чтобы задавать вопросы, а глубокая модель карты знаний находит ответ, а недостатком этого является то, что он неуправляем.

Сплетни — это не случайный чат. Хорошие сплетни должны контролироваться по теме, а тема имеет иерархические отношения, такие как «Какая команда вам нравится в Премьер-лиге?» Предметом вопроса является Премьер-лига пять высших лиг по видам спорта по футболу.Если ответ «Мне нравится баса» или «Мне нравится жареный рис с яйцом» неверен. Сейчас тема диалога - футбол в спорте, поэтому ответ должен быть более сильно связан с футболом, и контролировать диалог по теме. Как выполнять переход по теме?Робот активно направляет переход по теме, ведя тему в соответствии с соответствующими атрибутами в вашем разговоре или в соответствии с памятью, в соответствии с профилем пользователя, в соответствии с предыдущим диалогом, чтобы вести тему.

Далее, давайте поговорим о понимании контекста. Люди не произносят каждый раз полное предложение, например: "Q1: Пойдем ли мы завтра в кино? A1: Если что-то случится завтра, Q2: Что насчет послезавтра?", послезавтра значит послезавтра.Хорошо ли ходить в кино?Это первый тип завершения подлежащего, глагола и дополнения. Второй - обратиться к сокращению, например: «Мне нравится Да Чжанвэй, и он мне тоже нравится», он относится к Да Чжанвэю. Третий тип актуален, например: «Q1: Вы продаете водоочистители? A1: Да Q2: Занимает ли место? A2: Нет, очень маленький Q3: Как вы его продаете?», согласно текущей теме. завершает контекст.

Хорошему роботу также нужны некоторые способности памяти, долговременная память, например, «Я не люблю острую пищу», тогда в следующий раз, когда он будет рекомендовать рестораны, избегайте рекомендаций острых ресторанов. Постоянная память, у меня сегодня плохой желудок, поэтому я не могу говорить о своей тете. Кратковременная память обычно составляет от 48 до 72 часов, например: «Г-н Чжан Цзянь завтра в Сучжоу», спросите, куда вы идете завтра вечером, и ответьте, что вы едете завтра в Сучжоу. Это краткосрочный граф знаний, который размещается у пользователя и отвечает вам, когда вы задаете вопрос.

В диалоге человека с компьютером также есть некоторые «предсказания и генерация», которые предсказывают следующее предложение в соответствии с контекстом и предсказывают его тему, намерение, ключевые слова, шаблоны предложений, эмоциональные изменения и т. д. С шаблонами предложений и ключевыми словами создаются предложения, которые генерируются в соответствии с контекстом или в соответствии с различными привычками пользователя. Итак, как этого достичь, попросите людей в чате получить данные через аутсорсинг, а затем сделайте прогнозы с помощью таких операций, как очистка данных.

Далее поговорим об архитектуре модели НЛП, ядром которой является сегментация китайских слов, что заведомо неправильно, если оно не понято семантически, тогда это тегирование частей речи, существительных, прилагательных, наречий и т. д.; Распознавание шаблонов предложений, таких как «Как добраться до Народной площади?», «Вы любите яблоки?» Это основа контекстных разговоров, некоторые спрашивают информацию, некоторые спрашивают о ваших личных предпочтениях и т. д. «Вы потратили много денег на одежду в Пекине?» и «Вы потратили много денег на одежду в Пекине в прошлом месяце», одно из них является вопросительным предложением, а другое — восклицательным предложением, и их значения совершенно разные.

Например, «ты такой милый», если причастия «привет» и «милый», он будет думать, что вы здороваетесь с кем-то по имени милый. Так как же мы это делаем? Например, например, «Я завтра лечу в Шанхай, остаюсь на два дня и чувствую себя как дома», основные глаголы «летать в Шанхай», «остаться на два дня», «как домой», суть «летать, жить, хочу быть как дома»», «оставаясь на два дня» знала, что намерение было забронировать отель. Первый подход заключается в том, чтобы бросить все предложение в черный ящик, чтобы научить модель определять намерение, для чего требуется много базовых данных. Второй разбивает предложения и забрасывает их в модель для обучения, что гораздо проще.

Как использовать базовую информацию НЛП, такую ​​как «сколько стоила покупка одежды на прошлой неделе?», прежде всего знайте, что это количественный вопрос, основная категория глагола «тратить деньги на покупку одежды» — это одежда, время на прошлой неделе, и это осуществляется демонтажным судьей.

Далее давайте посмотрим на очередные изменения в человеко-компьютерном взаимодействии.В настоящее время 67% пользователей решают перейти на ручной труд не из-за ошибок сопоставления, а [ответ не понятен], а 25% пользователей решают перейти на ручной труд не из-за ошибок сопоставления, а [новая проблема], только 8% пользователей решают перейти на ручной труд из-за неправильного совпадения алгоритма. Поэтому для решения основной проблемы следует принять интерактивный способ. Не все вопросы являются многоэтапными, если первые двадцать вопросов в определенной области являются многоэтапными, то это значительное улучшение. Второй робот уже не пассивный, а активно с вами общается, судя по вашему изображению он активно с вами общается, а судя по вашему профилю активно с вами общается. Существует также реализация диалогового взаимодействия человека с компьютером на основе машинного зрения.

В сочетании с портретами пользователей и несколькими раундами пользовательских диалогов стратегии формулируются как условия для рекомендации продуктов или услуг.

Существует также текущая тенденция переключения между несколькими раундами — центральный центр управления, например, бронирование отеля, поиск робота для бронирования отелей, а затем вопрос, идет ли дождь в Шанхае, все еще бронирование сцены в отеле, но попадание в погодного робота. в то же время, а затем спрашивая «Тогда я заселюсь послезавтра и останусь на две ночи» (вернитесь к роботу бронирования отелей и продолжите незаконченную сцену). Переключайтесь между разными роботами на основе нескольких раундов диалога.

--КОНЕЦ--