Конференция на высшем уровне, Cheeseman, Million Winner, Million Hero... Sogou выдвигает плагины голосового поиска и ответов. Сегодня я подытожуИспользуйте поиск, чтобы ответить на вопросытехнические принципы.
По сути, это автоматический вопрос и ответ (Question Answering, QA )Проблема.
QA Это относится к задаче использования компьютеров для автоматического ответа на вопросы, заданные пользователями, для удовлетворения потребностей пользователей в знаниях.
QA Содержание исследования и ключевые научные вопросы:
1 Понимание вопросов
Учитывая вопрос пользователя, автоматический ответ на вопрос сначала должен понять вопрос, заданный пользователем.
2 Извлечение текстовой информации
Учитывая результат семантического анализа вопросительного предложения, система автоматического ответа на вопросы должна сопоставить соответствующую информацию в существующем корпусе, базе знаний или базе данных вопросов и ответов и извлечь соответствующий ответ.
3 Рассуждение о знаниях
При автоматическом ответе на вопрос из-за ограниченного охвата корпуса, базы знаний и самой базы ответов на вопросы не на все вопросы можно ответить напрямую. Это требует получения этих неявных ответов посредством рассуждений о знаниях в существующей системе знаний.
Например, база знаний может включать информацию о «месте рождения» человека, но не информацию о его «национальности», поэтому невозможно напрямую ответить на такие вопросы, как «Какая страна такая-то?»
Возвращаясь к задаче использования поиска для автоматического ответа на вопросы, мы можем использоватьQ представляет собой вопрос, один из ответовAn ,As Указывает все варианты ответа, затем:
As=[A1,A2,A3,A4]
скопировать код
Задача, которую мы должны решить, состоит в том, чтобы найтиQ+An наиболее актуальнымиAn , затем поставьтеAn в видеQ ответ.
Итак, нужна ли нам база данных вопросов и ответов? Не нужно перебирать базу ответов на основе поисковой системы. Большинство плагинов для ответовНа основе поиска Baidu, Эта статья также основана на Baidu, сделайте некоторую сортировку.
Например, следующие вопросы:
Q =‘撒贝宁的姐妹是’
As=[’涂经纬','撒贝娜','任雪','李思思']
скопировать код
план1 просто и грубо
поиск Q , статистикаAn появление в результатах поискачастота, возьмем наибольшее количество раз какРекомендуемый ответ.
результат:
Основа и уток с покрытием 0
Сабина 4
Рен Сюэ 0
Ли Сиси 0
Отвечать:
Сабина
Вариант 2 Алгоритмический
Искать отдельноВ. Ан, подсчитайте количество результатов, а затем вычислитеPMI значение, с самым высоким значением в качестве рекомендуемого ответа.
что PMI ?
Часто используется в машинном обученииPMI (точечная взаимная информацияна )Взаимная информация точка-точка, этот индикатор измеряет корреляцию между двумя вещами и используется при обработке естественного языка, например, для вычисления корреляции между двумя словами.
Выражать Q и An вероятность одновременного возникновения;
Выражать Q вероятность возникновения;
Выражать An вероятность возникновения;
если Q + An вероятность совпадения> Произведение соответствующих вероятностей появления, тогдаQ + Ан более актуален;
NQ Выражать Q количество результатов,NA Соответственно An количество результатов,NQA Выражать Q+An Количество поисков, вот псевдокод:
NQ=search(Q)for An in As:
NA=search(An)
NQA=search(Q+An)
K=Log( NQA/(NA*NQ) )
print K
скопировать код
мы сравниваемNQAиNA умножить наNQотношения, решитьK Наибольшее значение означаетQ + An наиболее актуальными;
Посмотрите на конкретный расчет:
NQ=910000NAs=[292000,33700,1740000,5400000]NQAs=[5800,19100,3,22200]
скопировать код
Результаты расчета:
Основа и уток с покрытием -17.64009576320894
Сабина -14.289009380798765
Рен Сюэ -26,991983261015633
Ли Сиси -19.215261822167164
Отвечать:
Сабина
Выше приведены две схемы автоматического ответа на основе поиска, и эту идею можно распространить на другие приложения, если она включает в себя поиск корреляции между двумя словами.
Каждый может расширяться.
пс:
Следующая неделяGetСотрудничал с небольшим событием, на которое можно нажатьчитать оригиналПроверять.
Другие технические интерпретацииРекомендация серии:
Новости NetEase "Биография развлекательного круга" Навыки анимации H5
Как технически определить мошенническую аферу на Double Eleven
Технология искусственного интеллекта и простая реализация национальной чистки военной формы
о:
Этот официальный аккаунт регулярно обновляетсяИскусственный интеллект, дизайн и технологии.
Говорите о дизайне, набирайте код и иногда создавайте экспериментальные продукты с искусственным интеллектом..