предисловие
Для чат-ботов более популярные в академическом мире методы реализации основаны на глубоком обучении и обучении с подкреплением, например, модель seq2seq. Подробную информацию см. в предыдущей статье "модель seq2seq для глубокого обучения".
Для отрасли почти невозможно напрямую использовать модель seq2seq для достижения сквозного уровня, но глубокое обучение также было внедрено в обработку многих модулей, и также будет опробовано обучение с подкреплением. В настоящее время в отрасли могут использоваться более традиционные реализации на основе поиска.В этой статье рассматривается, как разработать систему ответов на вопросы на основе поиска.
О системе ответов на вопросы
Система ответов на вопросы в основном предназначена для того, чтобы понять вопрос пользователя, а затем вернуть наиболее разумный ответ. Система ответов на вопросы отличается от обычных поисковых систем тем, что позволяет пользователям задавать вопросы на естественном языке.Теоретически, если вы хотите добиться лучших результатов, вам необходимо задействовать обработку естественного языка.
смысл
Собираются все существующие наборы вопросов и ответов, и в соответствии с вопросом пользователя компьютер отвечает за анализ семантики вопроса, извлечение наиболее подходящего ответа из набора вопросов и ответов и возвращение его пользователю. Кроме того, чтобы сделать систему более надежной и удобной, мы можем выбрать наиболее релевантные N первых вопросов и ответов, чтобы сформировать набор кандидатов, и предоставить определенный механизм для предоставления пользователям других ответов в наборе кандидатов, когда они не нужны. удовлетворены результатами.
основной модуль
- Spider, отвечающий за сканирование веб-страниц, связанных с вопросами и ответами, и сохранение их в базе данных.
- База знаний, самый профессиональный и точный источник знаний для бизнеса.
- Ручное добавление, поддержка ручного добавления новых вопросов и ответов.
- База данных QA используется для хранения всех наборов вопросов и ответов.Его можно хранить в двух таблицах, таблице вопросов и таблице ответов, которые связаны идентификатором, а имя документа, связанное с ответом, также может быть сохранено в ответе. таблицу, которую позже можно будет использовать как приложение к ответу.
- lucen используется для индексации наборов вопросов и ответов, связанных с базой данных.Обратите внимание, что здесь необходим только индекс вопросов, потому что при извлечении наборов кандидатов на основе пользователей вам нужно искать только на основе вопросов.
- Инструмент подобия оценивает несколько наборов вариантов вопросов и ответов, выбирает ответ, соответствующий вопросу, наиболее похожему на вопрос пользователя, и возвращает его пользователю. Сходство можно использовать word2vec или изменить расстояние.
------------- Рекомендуем прочитать ------------
Резюме моей статьи за 2017 год — машинное обучение
Краткое изложение моих статей за 2017 год — Java и промежуточное ПО
Резюме моих статей 2017 года — глубокое обучение
Краткое изложение моих статей за 2017 год — исходный код JDK
Резюме моей статьи за 2017 год — обработка естественного языка
Резюме моих статей 2017 года — Java Concurrency
Поговори со мной, задай мне вопросы:
Меню официальной учетной записи было разделено на «Сводка для чтения», «Распределенное», «Машинное обучение», «Глубокое обучение», «НЛП», «Глубина Java», «Ядро параллелизма Java», «Исходный код JDK», "Tomcat Core" "Подождите, может быть, есть тот, который соответствует вашему аппетиту.
Зачем писать «Анализ проектирования ядра Tomcat»
Добро пожаловать, чтобы следовать: