Изучение сходства коротких текстов и оценка отрасли на основе глубокого обучения

искусственный интеллект
Изучение сходства коротких текстов и оценка отрасли на основе глубокого обучения

Как одно из горячих направлений исследований NLP, вычисление сходства текста широко используется в рекомендациях по поиску, интеллектуальном обслуживании клиентов, чате и других областях. В разных областях применения также существуют определенные различия: например, в области поиска в основном рассчитывается сходство между запросом и документом, в области интеллектуального обслуживания клиентов и чата больше внимания уделяется соответствию между запросом и документом. запрос, то есть разница между короткими текстами, расчет сходства.

Различная длина текста также имеет разные схемы расчета подобия.Сопоставление длинного текста уделяет больше внимания сопоставлению ключевых слов или тем в тексте.Больше алгоритмов, используемых в отрасли: TF-IDF, LSA, LDA; семантическая согласованность всего предложения Наиболее распространенными алгоритмами в отрасли являются: word2vec, esim, abcnn, bert и другие глубокие модели.

По сравнению с вычислением подобия длинного текста, вычисление сходства короткого текста сопряжено с большими трудностями. Во-первых, контекстная информация, доступная для кратких текстов, ограничена, а семантическое описание недостаточно полно; во-вторых, краткие тексты, как правило, имеют более высокую степень разговорности, и существует большая вероятность неумолчаний; в-третьих, краткие тексты уделяют больше внимания семантическое сопоставление более чувствительно к порядку слов и шаблону предложений в тексте.

query1 query2
я хочу позвонить тебе я хочу ударить тебя
какое у тебя имя как ты меня называешь
Меня зовут Боб меня зовут не бу
у вас есть мужской билет? Вы свободны
Ты такой забавный ты шутник
я люблю смотреть аниме Разве ты не знаешь, что я люблю смотреть аниме?

Распределения оценок различных алгоритмов подобия текста непоследовательны, и алгоритмы не могут быть оценены с помощью подсчета очков. Следовательно, для разных схем алгоритмов может быть установлен определенный порог оценки, и если оценка выше порога, можно судить, что семантика одинакова, в противном случае судить, что семантика различна. Для набора данных с заданной меткой эффект вычисления сходства можно измерить степенью точности. Обычно используемые китайские оценочные корпуса: LCQMC, BQ Corpus, PAWS-X (китайский), afqmc и т. д.

1. Основные решения

Схемы расчета сходства коротких текстов, обычно используемые в отрасли, можно условно разделить на две категории: обучение с учителем и обучение без учителя.В целом обучение с учителем относительно эффективно. В случаях, когда данных для обучения недостаточно для холодного запуска, обучение без учителя может быть приоритетным для начала работы.

1.1 Обучение без учителя

Самым простым и наиболее эффективным решением для обучения без учителя является метод предварительного обучения, в котором используются модели предварительного обучения, такие как word2vec или bert, для предварительного обучения немаркированных данных в предметной области. Используя полученную предварительно обученную модель, получают семантическое представление каждого слова и предложения для вычисления сходства.

Word2vec — это эпохальный продукт в области НЛП, который преобразует представление слова из дискретной однократной формы в форму непрерывного встраивания, что не только уменьшает вычислительную размерность, но и обеспечивает качественный скачок в эффекте каждая задача. Word2vec моделирует языковую модель, моделируя крупномасштабный корпус, так что слова с похожей семантикой также имеют сильную корреляцию в представлении встраивания.

С помощью cbow или max-pooling встраивание предложений вычисляется с использованием встраивания каждого слова в предложение, что может сделать предложения с похожей семантикой также имеющими высокую корреляцию в представлении встраивания предложений по сравнению с традиционными вычислениями TF-подобия. такие как IDF, имеют лучшее обобщение. Однако для расчета встраивания предложения методом cbow все слова в предложении имеют одинаковый вес, и ключевое слово в предложении не может быть точно получено, что приводит к ограниченной точности семантического расчета, и трудно удовлетворить онлайн стандарт.

图片1.png

图片2.png

Хотя Word2vec обеспечивает определенную степень обобщения, его самым большим недостатком является то, что в разных контекстах представление одного и того же слова совершенно одинаково, и он не может удовлетворить большие языковые изменения. Появление масштабных моделей предобучения, таких как gpt и bert, полностью решило эту проблему, сделало представление слов релевантным контексту и постоянно обновляло список задач в различных областях.

Тем не менее, эксперименты показали, что использование встраивания токена, выводимого bert, непосредственно для вычисления встраивания предложения в предложение, независимо от того, используется ли метод cbow для усреднения всех вложений токенов или напрямую используется вложение токена [CLS] для представления, эффект семантического вычисления нехорошо, даже не так хорошо, как GloVe. Причина в том, что в процессе предобучения bert вероятность совпадения высокочастотных слов больше, а обучение МЛМ-задаче сближает их семантические представления, в то время как распределение между низкочастотными словами более разреженное. Неравномерное распределение семантического пространства приводит к множеству семантических «дыр» вокруг низкочастотных слов, из-за наличия которых подобие семантического исчисления смещено.

图片3.png

Чтобы решить проблему неравномерного семантического пространства bert, bert-flow, который является результатом сотрудничества между CMU и ByteDance, предлагает сопоставить семантическое пространство bert со стандартным скрытым пространством Гаусса, Поскольку стандартное распределение Гаусса удовлетворяет изотропии, нет «дыры» в области», не нарушая непрерывности смыслового пространства.

图片4.png

Процесс обучения Bert-потока состоит в том, чтобы изучить обратимое отображение f и сопоставить переменную z, которая подчиняется гауссовскому распределению, с u, закодированным BERT, тогда u может быть сопоставлено с однородным гауссовым распределением, В это время мы максимизируем генерация из распределения Гаусса Вероятность, представленная BERT, изучает это отображение:

图片5.png

Эксперименты показывают, что эффект семантического представления и вычисления подобия с помощью bert-flow намного лучше, чем у word2vec и прямого использования bert.

图片6.png

1.2 Контролируемое обучение

Появление Bert-flow сделало неконтролируемое обучение большим прогрессом в вычислении сходства текста, но по сравнению с контролируемым обучением в конкретных задачах эффект все еще имеет определенный пробел. Модели расчета подобия, обычно используемые в обучении с учителем, можно условно разделить на две категории: модели семантического представления и семантические интерактивные модели. Модель семантического представления часто используется для массового отзыва запросов, а интерактивная модель больше используется на этапе семантического ранжирования.

DSSM чаще всего используется для характеристики поля поиска семантической модели, а в области сопоставления коротких текстов структура сети представляет собой наиболее используемую сеть близнецов, сеть, включающую общего близнеца: сиамский cbow, сиамский cnn, сиамский lstm. При обучении двойной сети, все используют одну и ту же семантическую модель запроса для характеристики, вычисляют сходство между запросом по косинусному сходству и т. Д., Продолжают максимизировать положительную корреляцию между образцами, корреляцию между торможением отрицательных образцов. Прогнозирование для каждой семантической модели запроса, полученной только с помощью семантического вектора, для вычисления оценки сходства между запросами. Поскольку только характеризует семантический запрос, поэтому при выполнении поискового запроса запрос может быть построен заранее семантического индексирования корпуса, поиск значительно повышает эффективность системы.

图片7.png

По сравнению с моделью семантического представления, интерактивная семантическая модель имеет лучший эффект сопоставления, а структура модели часто более сложная.Обычно используемые интерактивные семантические модели включают ABCNN, ESIM и т. д. При вычислении семантического сходства между запросами интерактивная модель не только моделирует семантические признаки одного запроса, но также нуждается в признаках взаимодействия между запросами. Интерактивные модели обычно обучаются с помощью задач бинарной классификации.Когда семантика двух входных запросов к модели согласована, метка равна «1», в противном случае метка равна «0». При прогнозировании логиты можно использовать в качестве доверительного суждения.

图片8.png

图片9.png

Появление крупномасштабных моделей предварительного обучения также охватило списки задач на сходство текста. Берт доводит SOTA до 86% для набора данных lcqmc. Впоследствии новые модели предварительного обучения, такие как Роберта, Альберт и Эрни, появлялись одна за другой и постоянно обновляли уровень точности сопоставления SOTA.

图片10.png

2. Бизнес-приложения

В бизнесе семантических ответов на вопросы обычно используется архитектура алгоритма отзыв + сортировка, в нашем бизнесе светской беседы мы также используем аналогичную архитектуру. Сиамская модель семантического представления cnn используется для семантического отзыва, а модель семантического взаимодействия дистиллированного трансформатора используется для сортировки.

图片11.png

В построении потерь модели семантического представления мы ссылаемся на дизайн функции потерь в области распознавания лиц. Эти две задачи похожи по своей природе.Распознавание лиц использует вектор для представления изображений лиц, а поиск текста использует вектор для представления текста.Обе ожидают достаточно высокую корреляцию между положительными образцами и отрицательными образцами.Достаточно хорошую, чтобы различать их.

При использовании сиамского cnn для семантического моделирования мы использовали 1 стандартный запрос, 1 положительную выборку, 5 отрицательных выборок (пробовали другие отрицательные выборки, и эффект не так хорош, как 5 отрицательных выборок на наших данных), процесс обучения Фактически, в Эти 6 образцов определяют положение соответствующего положительного образца, поэтому его можно преобразовать в задачу классификации для обучения, и каждый положительный и отрицательный образец соответствует категории. Используйте сходство между каждым образцом и стандартным запросом в качестве логитов соответствующей категории, нормализуйте логиты и постройте функцию потерь. Граница классификации, построенная с помощью традиционной нормализации softmax, делает категории разделимыми.Для лучшего семантического представления необходимо сделать внутриклассовый более конвергентным, а межклассовый более рассредоточенным. ASoftmax, AMSoftmax, ArcFace и другие методы нормализации предлагают отображать все запросы в сферу, а сходство между запросами вычисляется по углу между ними Чем меньше угол, тем выше сходство Путем добавления в угловую область Метод маржи делает внутриклассовые более конвергентными, а межклассовые более разделимыми для достижения лучшего эффекта семантического представления.

图片12.png

Мы сравнили различные методы нормализации, такие как softmax, Asoftmax, AMSoftmax, Arcface и т. д. Среди них Softmax не добавляет отступ, ASoftmax добавляет отступ в угловой области путем удвоения угла, AMSoftmax добавляет отступ в косинусной области, а Arcface напрямую Добавьте фиксированную маржу в угловой области.

图片13.png

Мы используем корпус 30 Вт для построения индекса и используем 12 900 онлайн-запросов (корпус не содержит точно такой же запрос) для выполнения теста отзыва.Используя тот же инструмент векторного индексирования, мы обнаружили, что AMSoftmax и Arcface значительно улучшили отзыв Эффект Применяется в нашем бизнесе.

图片14.png

Что касается моделей сортировки, мы пробовали интерактивные семантические модели, такие как ABCNN, ESIM и трансформатор, но все еще существует определенный пробел в эффекте по сравнению с моделями предварительного обучения, такими как bert. Модель предварительного обучения Xbert, разработанная нашей командой, в том же масштабе, что и Roberta Large, включает в себя данные собственной разработки графа знаний, добавляет WWM (полное слово MLM), DAE, Entity MLM и другие задачи, а также использует оптимизатор LAMB для оптимизация . Мы используем XBert для тестирования бизнес-данных, и уровень точности почти на 0,9% выше, чем у Roberta large того же масштаба. Чтобы соответствовать онлайн-требованиям, мы обращаемся к методу крошечного bert и используем Xbert для дистилляции 4-слойной модели трансформатора для онлайн-вывода.

图片15.png

Мы сравнили влияние различных схем сортировки на внутренний набор данных вопросов и ответов, используя 12 900 реальных запросов от онлайн-пользователей, чтобы провести сравнительный тест эффекта полной ссылки. Точность семантического отзыва top1 использовалась для оценки эффекта модели семантического представления, а точность ответа была дополнительно улучшена за счет модуля устранения неоднозначности; при тестировании эффекта ранжирующей модели мы использовали многосторонний отзыв, вспоминая общий из 30 кандидатов и с использованием модели ранжирования для оценки кандидатов Сортировка и выбор отсортированного первого ответа в качестве окончательного ответа. Если все кандидаты устранены после модуля устранения неоднозначности или ранжирование отсортированных лучших кандидатов не соответствует порогу ответа, система запросов не отвечает. Поэтому мы используем скорость отклика и показатель точности ответа в качестве окончательного индекса оценки системы для оценки эффекта различных схем.

图片16.png

Чтобы проверить влияние самостоятельно разработанного Xbert на общедоступный набор данных семантического сходства, в наборе данных lcqmc показатель точности одиночной модели составляет 88,96%, что на 1% выше, чем показатель точности большой одиночной модели Roberta, равный 87,9. %; с использованием положительной переносимость между выборками и метод отрицательной выборки выборки используются для улучшения данных и противоборствующего обучения FGM, а уровень точности увеличивается до 89,23%; с помощью метода ансамбля уровень точности дополнительно повышается до 90,47% . Точно так же он достиг 87,17% на bq_corpus, 88% на задаче paws-x и 77,234% на наборе данных afqmc, а также достиг вершины в конкурсе сходства текста Qianyan, проводимом Baidu.

图片17.png

3. Резюме и перспективы

Сходство короткого текста было применено в нашем небольшом поле чата.Архитектура алгоритма отзыва + сортировка модели взаимодействия с использованием обучения семантического представления дала хорошие бизнес-результаты при условии обеспечения производительности системы. В модели семантического представления мы используем потери в поле распознавания лиц для улучшения эффекта отзыва; с точки зрения семантического ранжирования мы также используем крупномасштабную модель предварительного обучения и дистилляцию модели для дальнейшего улучшения бизнес-эффекта. Что касается крупномасштабных языковых моделей предварительного обучения, мы активно изучаем и совершенствуем их.

В дальнейшей работе мы будем хорошо использовать ядерное оружие предтренировочной модели, и постараемся оптимизировать прорывы на основе нашего Xbert, и вывести задачу сопоставления текстового сходства на новый уровень. В случае решения одного раунда сопоставления сходства мы также продолжим изучать такие задачи, как сопоставление нескольких раундов и генерация нескольких раундов в сочетании с контекстом, чтобы еще больше улучшить опыт нашего чат-бизнеса.