sentence-similarity
Вычисление схожести предложения вопроса, то есть с учетом двух предложений, описанных пользователем в службе поддержки клиентов, использует алгоритм для определения того, представляют ли они одинаковую семантику.
адрес проекта:GitHub.com/BongRice…
Суждение о сходстве предложений
В этом и прошлом году было проведено несколько соревнований по оценке схожести предложений, то есть необходимо определить два предложения и использовать алгоритмы, чтобы определить, представляют ли они одинаковую семантику или значение.
其中第4、5这个2个比赛数据集格式比较像,请见
sent_match,,2、3 的数据集格式比较像,本仓库基于2、3数据集做实验
Ниже представлен список соревнований:
The goal of this competition is to predict which of the provided pairs of questions contain two questions with the same meaning.
набор данныхНе десенсибилизирован, помечен настоящими английскими словами
Расчет схожести вопросов, то есть с учетом двух предложений, описанных пользователем в службе поддержки клиентов, использует алгоритм для определения того, представляют ли они одинаковую семантику.
набор данныхНе десенсибилизирован
Пример:
- «Как погасить Huabei» -- «Как погасить Huabei»: синонимичные вопросы
- «Как отплатить Huabei» — «Как мне вернуть свое одеяло»: синонимичный вопрос
- «Как погасить просроченный платеж после рассрочки Хуабэй» -- «Где просроченный платеж после рассрочки Хуабэй»: несинонимичный вопрос
Например, а, можно использовать относительно простой метод для определения синонимов, например, б, есть проблемы, такие как опечатки, синонимы, изменение порядка слов и т. д. Два предложения на первый взгляд не похожи, поэтому сложнее судить правильно; например, с, два предложения очень похожи, с небольшой разницей в «как» и «где», что приводит к непоследовательной семантике. """
Подобно различению семантической эквивалентности на основе Quora, основная цель этой задачи оценки — сопоставить цель вопросов с реальным корпусом обслуживания клиентов на китайском языке. Установить Учитывая два предложения, требуется определить, являются ли намерения двух одинаковыми или похожими. Все корпуса взяты из оригинальных журналов интеллектуального обслуживания клиентов в банковской сфере, они были отфильтрованы и отмечены ручным сопоставлением намерений.
набор данныхдесенсибилизированный
Ввод: Как правило, проверка может пройти через несколько дней\tСколько времени обычно требуется для прохождения проверки
выход: 1
Основная цель этой оценочной задачи - сопоставить цель вопросов с реальным корпусом медицинских консультаций пациентов на китайском языке. Учитывая два предложения, требуется определить, являются ли их намерения одинаковыми или похожими. Все корпуса основаны на реальных вопросах пациентов в Интернете, они были проверены и аннотированы путем сопоставления намерений вручную. Ping An Cloud предоставит зарегистрированным командам среду для обучения работе с графическим процессором.
набор данныхПосле десенсибилизации проблема обозначается цифрой
Учебный набор содержит около 20 000 помеченных данных (десенсибилизированных, включая знаки препинания) для обучения и тестирования участников. Тестовый набор содержит около 10 000 фрагментов немаркированных данных (десенсибилизированных, включая знаки препинания > символы). Игроки должны предсказать и отправить метки данных тестового набора. Данные тестового набора используются в качестве основы для оценки списка AB.
В сценарии интеллектуального чат-бота обслуживания клиентов после того, как клиент задает вопрос, часто необходимо вычислить сходство между вопросом клиента и вопросом базы знаний, а затем найти наиболее похожий вопрос и затем дать ответ на вопрос. Тема этого конкурса: «Вопрос > Разработка алгоритма сходства вопросов».
набор данныхПосле десенсибилизации проблема обозначается цифрой
Чтобы защитить конфиденциальность пользователей и обеспечить справедливость и беспристрастность конкуренции, вся исходная текстовая информация кодируется в последовательности идентификаторов слов и последовательности идентификаторов слов. Отдельные символы включают один китайский символ, английские буквы, знаки препинания и пробелы и т. д.; слова включают китайские слова, английские слова, знаки препинания и пробелы после сегментации слов. Идентификатор слова и идентификатор слова существуют в двух разных пространствах имен, то есть слово или знак препинания в слове не обязательно имеют тот же идентификатор, что и один и тот же символ и один и тот же знак препинания в слове. его> > , последовательности слов начинаются с L, а последовательности слов начинаются с W.
Siamese Network
Архитектура MaLSTM — «Похожий цвет означает, что веса распределяются между элементами одного цвета.
- Вектор слов основан на уровне персонажа, на мой взгляд, эффект уровня персонажа в целом лучше.
- LSTM обучает семантический вектор двух вопросов, а затем дает функцию подобия
MaLSTM similarity function
def exponent_neg_manhattan_distance(sent_left, sent_right):
'''基于曼哈顿空间距离计算两个字符串语义空间表示相似度计算'''
return K.exp(-K.sum(K.abs(sent_left - sent_right), axis=1, keepdims=True))
Давайте внимательнее посмотрим на выход этой функции 0-1, то есть мы предсказываем вероятность
- Результат тренировки:
По задаче ccks:acc: 0.8372 - val_loss: 0.4316 - val_acc: 0.8047
По задаче атэк:loss: 0.3302 - acc: 0.8570 - val_loss: 0.5244 - val_acc: 0.7702