Какая польза от исследования сходства китайского текста?

предисловие

В процессе взаимодействия между людьми и компьютерами, если естественный язык людей может быть обеспечен для общения, тогда люди и компьютеры могут быть более близкими и дружелюбными. Для реализации этого механизма требуется обработка естественного языка, которая включает в себя несколько дисциплин: информатику, лингвистику, статистику и математику.

Существуют также различия в обработке естественного языка разных языков.Для китайского часто невозможно напрямую применить относительно зрелые теории обработки естественного языка английского языка. Есть много базовой работы, которую нам нужно сделать самим, включая китайское подобие.

сходство

В зависимости от длины китайское сходство может иметь сходство между словами, сходство между словами, сходство между предложениями, сходство между абзацами и абзацами и сходство между статьями и статьями.

Традиционный расчет измерения сходства обычно может использовать алгоритм расстояния редактирования, метод значения косинуса, метод SimHash, метод n-грамм, метод расстояния Хэмминга, метод самой длинной общей подстроки, метод самой длинной общей подпоследовательности и так далее.

Методы расчета сходства обычно можно разделить на две категории: методы, основанные на статистике, которые обычно используются для предложений и абзацев, представляющих собой тексты большей детализации. Другая категория — это методы, основанные на семантике, которые обычно используются для мелкозернистых текстов, таких как слова или предложения.

Сценарии применения

Китайское подобие широко используется,

Например, при поиске информации, чтобы вспомнить больше результатов, похожих на найденные слова в системе поиска информации, сходство можно использовать для идентификации похожих слов, чтобы повысить скорость вспоминания.
Например, при автоматическом ответе на вопрос основное различие между автоматическим ответом на вопрос и поисковой системой заключается в том, что автоматический ответ на вопрос может использовать взаимодействие на естественном языке, в то время как поисковая система обычно выполняет поиск по ключевым словам. И ответы тоже разные: автоматический ответ на вопрос дает в качестве ответа точный и уникальный ответ, а ответ поисковой системы вообще имеет много релевантных результатов. Сходство можно использовать для вычисления степени соответствия между вопросом пользователя на естественном языке и вопросом в корпусе, и ответом будет ответ, соответствующий вопросу с наивысшей степенью соответствия.
Например, при машинном переводе сходство предложений анализируется для завершения двуязычного перевода. То, можно ли точно определить и рассчитать сходство, повлияет на эффект перевода. Самый простой анализ сходства заключается в непосредственном использовании синтаксиса и семантики каждого слова в Чтобы проанализировать, и если вы хотите продолжить анализ, нужно сначала проанализировать дерево зависимостей предложения, а затем вычислить сходство.
Например, при автоматическом обобщении в процессе извлечения резюме сходство следует использовать для извлечения предложений со сходной семантикой.
Например, другие области применения НЛП.

Суммировать

В определенной степени, если можно определить лучший метод вычисления сходства и добиться большей точности, то многие связанные с текстом проблемы в области НЛП могут быть в основном решены.

============Время рекламы================

Меню официальной учетной записи было разделено на «распределенное», «машинное обучение», «глубокое обучение», «НЛП», «глубина Java», «ядро параллелизма Java», «исходный код JDK», «ядро Tomcat», и т.д. Там может быть один стиль, чтобы удовлетворить ваш аппетит.

Моя новая книга «Анализ проектирования ядра Tomcat» продана на Jingdong, и нуждающиеся друзья могут ее купить. Спасибо друзья.

Зачем писать «Анализ проектирования ядра Tomcat»

=========================

Связанное чтение:

Расскажите о принципе Google word2vec

Как тренировать векторы слов с помощью TensorFlow

Добро пожаловать, чтобы следовать: