Согласно авторитетной оценке «Qianyan Dataset: сходство текстов», NetEase Yizhi возглавила список

NLP

Несколько дней назад NetEase Yizhi, технология искусственного интеллекта и сервисный бренд NetEase Shufan, превзошли многие лидеры в отраслевой оценке «Набор данных тысячи слов: сходство текста», организованной совместно CCF и Baidu, и возглавили список.

Сходство текста, то есть определение того, являются ли два текста семантически похожими, является важным направлением исследований в области обработки естественного языка (NLP).Эта технология поддерживает интеллектуальную службу поддержки клиентов NetEase Qiyu для 400 000 корпоративных клиентов.


«Исследовательский институт NetEase Ханчжоу» в списке - это команда NetEase Yizhi.

Осаждение знаний и накопление технологий вносят большой вклад, сходство текста NetEase Yizhi возглавляет список

Серия оценок «Тысяча слов» – это крупномасштабное соревнование в области обработки естественного китайского языка. В рамках проекта с открытым исходным кодом по сходству текста были собраны общедоступные наборы данных, такие как LCQMC, BQ Corpus и Google PAWS-X (китайский) от Харбинского технологического института Ожидается, что будет проведена всесторонняя оценка эффекта модели сходства текста для содействия применению и развитию сходства текста в области обработки естественного языка.

Понятно, что эти общедоступные наборы данных, при поддержке соответствующих документов, провели более всестороннюю оценку существующих общедоступных моделей сходства текстов, которые являются очень авторитетными и представляют собой самый высокий уровень исследования технологии текстового сходства.


Пример задачи набора данных LCQMC Харбинского технологического института (Шэньчжэнь)

В этой оценке сходства текстов компания NetEase Yizhi объединила многолетний технический опыт, использование крупномасштабных предварительно обученных языковых моделей и целенаправленную оптимизацию конкурсных задач и добилась отличных результатов.

Участвующая команда Netease Yizhi заявила, что в задаче этого конкурса есть две основные трудности. Одна из трудностей заключается в том, что набор данных BQ Corpus представляет собой данные в финансовой сфере, которые включают в себя много знаний в финансовой отрасли, а общая предварительно обученная языковая модель с трудом улавливает скрытые знания конкретной отрасли. С этой целью командаИспользование полууправляемого обучения и других методов для извлечения знаний в финансовой области из нескольких бизнес-сценариев в NetEase, а затем для получения предварительно обученных языковых моделей в финансовой области., и в конечном итоге опередить другие участвующие команды с большим отрывом в этой задаче.

Еще одна трудность - качество набора данных PAWS-X. Данные взяты из английского перевода, а содержание перевода отличается от настоящего китайского. В частности, алгоритму будет мешать несоответствие перевода слов-сущностей (таких как как имена людей и географические названия). , то есть имя того же человека, первое предложение сохраняет исходный английский текст, но последнее предложение транслитерируется на китайский язык. Ввиду этой характеристики данных NetEase YizhiИспользуйте самостоятельно разработанную службу NER (Named Entity Recognition) для идентификации и нормализации слов сущности, а также используйте самостоятельно разработанную службу исправления китайских текстовых ошибок для исправления опечаток и языковых ошибок, а затем выполните обучение модели., и, наконец, занял первое место в этом задании.

NetEase Yizhi помогает Qiyu Robot точно понимать потребности клиентов

NetEase Yizhi создала набор технологий НЛП, основанных на текстовом сходстве и других сериях технологий НЛП.Интеллектуальная диалоговая система, обслуживать несколько предприятий внутри группы, таких как строгий отбор обслуживания клиентов, ИТ-консалтинг и т. д., а также совместно создавать интеллектуальные роботы для обслуживания клиентов с бизнесом Qiyu для обслуживания внешних клиентов группы.

Взяв, к примеру, Joyoung Co., Ltd., одним из основных требований является обеспечение покупательского опыта пользователя с помощью эффективных, точных и гуманизированных консультационных услуг, таких как понимание пользователями функций, операций, цен, льготных действий, обслуживания. и ремонт мелкой бытовой техники.Консультации по другим вопросам.

С этой целью Joyoung подключила онлайн-робота NetEase Qiyu, чтобы обеспечить более интеллектуальный сервис, который лучше понимает пользователей на основе коэффициента совпадения вопросов более 90%. ** На основе алгоритма подобия текста NetEase Yizhi онлайн-робот Qiyu реализует базовое семантическое сопоставление, чтобы обеспечить BOT, FAQ и другие функции. Кроме того, с помощью технологии семантического сопоставления онлайн-робот Qiyu также реализует интеллектуальный анализ и создание базы знаний. ** Благодаря этим возможностям онлайн-робот Qiyu может эффективно и точно отвечать на вопросы клиентов в различных сценариях.

В области экспресс-доставки STO Express также подключила интеллектуальную службу поддержки клиентов Qiyu для обработки экспресс-запросов.Это совершенно другая область, чем вышеупомянутые финансы и мелкая бытовая техника.Однако, используя тот же технический принцип NetEase Yizhi, интеллектуальное обслуживание клиентов быстро достигает сходства Эффект.

NetEase Yizhi NLP продвигает инновации в цифровом бизнесе

Коммерческая ценность технологии подобия текста не ограничивается сферой интеллектуального обслуживания клиентов. По словам ответственного за NetEase Yizhi, основной категорией технологии подобия текста является сопоставление текста.Помимо диалогового механизма, эта технология имеет в NetEase больше применений, таких какПрименение инновационных решений, таких как интеллектуальное извлечение комментариев в NetEase Cloud Music, сопоставление текстов в прямых трансляциях и коротких видеороликах, а также обнаружение сходства при выборе темы видео в бизнесе, занимающемся распространением знаний..

С точки зрения всей технической области, как технология, позволяющая машинам понимать человеческий язык, НЛП известно как «жемчужина в короне искусственного интеллекта». В дополнение к текстовому сходству NetEase Yizhi также исследовала наибольший общий делитель технологии НЛП и бизнес-инноваций и добилась некоторых поэтапных результатов.

Например,Использование технологии семантического анализа при тестировании программного обеспечения значительно повышает уровень автоматизации, снижает затраты и повышает эффективность, что очень полезно для обеспечения качества цифрового программного обеспечения; технология исправления текстовых ошибок широко используется в сценариях рецензирования рукописей, таких как Новости NetEase.Ошибки, такие как грамматика и грамматика, обнаруживаются и своевременно исправляются, что значительно улучшает впечатления пользователя от чтения и снижает нагрузку на создание контента.

В будущем NetEase Yizhi также объединит несколько команд под управлением NetEase Shufan.Изучите применение НЛП в системах больших данных, такие как поддержка взаимодействия на естественном языке между бизнес-персоналом и аналитическими системами, что позволяет предприятиям лучше использовать ценность больших данных.