Обзор базовой технологии поисковой системы [длинный текст размером 1,5 слова]

Напоминание в первом ряду: эта статья представляет собой обзорную статью, прочесывающую и ищущую связанные технологии. Если вы ищете передовые приложения, вы можете кратко прочитать ее или пропустить.

Введение в поисковые системы

Поисковая система, в узком смысле, представляет собой систему запроса данных в Интернете, разработанную на основе программных технологий.Пользователи могут запрашивать необходимую информацию через поисковую систему, такую как Baidu, Google и т. д., используемую в повседневной жизни; в широком смысле, поисковая система - это информационно-поисковая система. Поисковая, ИК) система является важной частью полной информационно-поисковой системы, включающей поисковую систему, извлечение информации (Information Extraction), фильтрацию информации (Information Filtering), информационную рекомендацию (Information Recommending) и т.д. на.

Технология поиска итеративно совершенствовалась в течение длительного времени.В настоящее время поисковая система в целом в основном делится на несколько этапов: сканирование, анализ, индексирование, поиск и ранжирование.

Сканирование: также называется сканером, коннектором и т. д. Обычной реализацией приложения является программа-сканер. Этот этап начинается с изначально указанной исходной веб-страницы, расширяет результаты поиска в глубину или в ширину и сохраняет метаданные.
Синтаксический анализ: также называемые преобразователями, очистителями и т. д., используемые для форматирования, фильтрации и восстановления данных, просканированных на начальном этапе. Сложные синтаксические анализаторы также выполняют такие задачи, как извлечение заголовков, генерация абстрактов, извлечение ключевых слов, тегирование контента и многое другое.
Индекс: индексатор создаст индексную таблицу на основе метаданных и проанализированных данных. Индексная таблица может помочь поисковым системам быстро получить нужную информацию. Например, когда мы запрашиваем словарь, мы сначала проверяем позицию слова по правописанию. Общие методы построения индекса, такие как прямой индекс, инвертированный индекс и т. д.
Извлечение: когда пользователь вводит содержимое запроса (запрос), поисковая система будет разлагать запрос пользователя с помощью ряда методов, а затем возвращать ряд результатов запроса, связанных с запросом, посредством поиска по индексу. Эту стадию также часто называютПервоначальный просмотр или отзыв.
Сортировка: на основе результатов поиска поисковая система сортирует результаты поиска на основе модели алгоритма.На этом этапе обычно вводится такая информация, как характеристики пользователя и характеристики контента, чтобы окончательное отображение могло быть более соответствующим с поисковыми ожиданиями пользователя. Хорошо зарекомендовавшая себя поисковая система обычно содержит несколько этапов ранжирования, таких какГрубый ряд,прекрасный ряди Т. Д.

В некоторых статьях есть другие определения компонентов, но общий функциональный поток остается прежним.

Общий процесс архитектуры поисковой системы показан на рисунке выше.Сканирование данных, анализ и генерация индекса обычно используются в качествеАвтономный системный модульНепрерывно сканировать новые данные и генерировать индексы для поисковых систем, не отражающиеся напрямую в процессе поиска пользователя; отзыв и сортировка обычно используются каконлайн-модуль, который напрямую предоставляет услуги для поиска пользователей.

Классификация поисковых систем

Поисковые системы обычно можно разделить на четыре категории в соответствии со сценариями поиска:

полнотекстовый поисковик: система полнотекстового поиска просматривает веб-страницы в Интернете, записывает и создает индекс. Этот метод поиска позволяет пользователям легко получать нужную информацию, но результаты поиска слишком беспорядочны и требуют от пользователей проверки и проверки. например, Baidu и Google относятся к этой категории. Что касается пятой статьи, я думаю, что она называетсяCrawler-Based Search Enginesболее подходящий.
мета поисковая система: Мета-поисковая система агрегирует и отображает результаты других поисковых систем, не выполняя обход данных и индексирование записей, ей нужно только распределять пользовательские запросы по разным поисковым системам, а затем интегрировать результаты. Поэтому, в отличие от метапоисковиков, другие типы движков также называютнезависимая поисковая система.
вертикальный поисковик: Вертикальные поисковые системы используются для поиска полевой информации и представляют собой отраслевые приложения поисковых систем. Обычно они предоставляют услуги только определенным учреждениям и группам людей и характеризуются профессиональными и точными результатами поиска. Например, когда покупатели ищут информацию о недвижимости, они надеются получить соответствующую информацию о продажах и транзакциях, а не новости о недвижимости.
Поисковая система каталога: поисковые системы каталогов полагаются на ручное редактирование, чтобы поддерживать каталоги веб-страниц и представлять их пользователям, а результаты поиска пользователей в основном определяются ручной сортировкой, например, на некоторых порталах в прошлом. Из-за высокой стоимости ручного обслуживания и медленного обновления содержимого метод механизма каталогов имеет ограниченные сценарии применения и редко используется.

Общая структура процесса поисковой системы кратко описана выше.Основная технология поисковой системы будет представлена в двух частях: автономной и онлайновой.

Базовая технология поисковой системы — автономная часть

парсинг данных

Этап сканирования включает в себя, помимо прочего, доступ к базе данных, доступ к журналам, автономный импорт и веб-сканер.Поскольку это обычно индивидуальная разработка и стыковка, за исключением сканера, он не будет представлен.

Поисковые роботы – это самые основные и важные компоненты поисковых систем. Поисковые роботы также известны как "Странники", "Роботы" и "Пауки". или другие алгоритмы обхода. Ссылайтесь на веб-сайты, сканируйте и сохраняйте веб-ссылки и контент.

Общая структура программы-обходчика показана на рисунке.Обычно программа-обходчик поддерживает свой собственный сервер DNS, чтобы избежать частых запросов разрешения DNS.

Протокол роботов: протокол роботов — это протокол взаимодействия между веб-сайтом и поисковым роботом.Сайт помещает файл robots.txt в корневой каталог сайта, указывая контент, к которому сканер может получить доступ, а какой запрещен. программа должна строго следовать протоколу сканирования данных.

Обычно существует три критерия оценки качества краулера:Охват, своевременность и важность сканирования страниц, в двух словах, это означает понять полностью, понять быстро и точно понять. Существует множество отличных реализаций краулерной системы с открытым исходным кодом, таких как Heritrix, crawler4j и т. д. Заинтересованные читатели могут узнать больше самостоятельно.

анализ данных

Большая часть просканированной информации представляет собой неструктурированный или полуструктурированный контент.Для системы анализа данных основная задача состоит в том, чтобы выполнить фильтрацию и очистку, извлечение информации и весовую сортировку этого контента.

Для просканированного контента сначала необходимо отфильтровать и очистить, чтобы удалить дублированный контент, недействительный контент и т. д., чтобы минимизировать шум данных поисковой системы.На этом этапе для фильтрации обычно используются некоторые базовые алгоритмы или правила подобия; Такие алгоритмы, как структурное преобразование, извлечение информации и классификация контента, подразделяют ценную информацию просканированного контента, например, извлечение ключевых слов из веб-страниц, создание сводок информации веб-страниц и маркировку контента веб-страниц метками категорий; сортировка по весу важна для аналогичных веб-сайтов. страниц. Из-за сложности информации в Интернете и неравномерного качества контента должны быть количественные средства для определения качества веб-страниц по просматриваемому веб-контенту. Например, известный алгоритм PageRank разделяет качество веб-страниц, анализируя эталонную взаимосвязь между интернет страницы.

В целом эта ссылка обычно включает в себя много грязной работы, такой как написание настраиваемых правил и аннотирование данных, но анализ данных является очень необходимой ссылкой во всей поисковой системе, обеспечивающей базовую гарантию достоверности данных для последующих ссылок поиска. система.

показатель

Перед лицом массивных документов, как быстро найти контент, содержащий пользовательские запросы, индексирование является одним из основных основных модулей. Индекс — это, по сути, каталог, такой как каталог книг, каталог словарей и т. д., который удобен для пользователей, чтобы быстро выполнить поиск.Ниже приводится краткое введение в приложение индекса в поисковой системе.

Перевернутый индекс

Идентификатор документа	содержание документа
1	Отец Google Maps переходит на Facebook
2	Google имеет самую высокую долю рынка на рынке поиска
3	Apple представляет iPhone 13

Если предположить, что в настоящее время существует три коллекции документов, как указано выше, индексная связь устанавливается идентификатором документа. Если пользователь вводит «Apple» для поиска, текущая структура с идентификатором документа в качестве элемента индекса не может соответствовать требованиям запроса, и только путем обхода всех документов запрос может содержать «Для решения этой проблемы предлагается инвертированный индекс (Inverted Index) для обратного установления отношения индекса между содержимым документа и идентификатором документа, а первый можно назвать прямым индексом.

Выполните сегментацию слов и удалите стоп-слова в предыдущих трех документах, предполагая, что результат будет следующим:

Идентификатор документа	содержание документа	результат сегментации слов
1	Отец Google Maps переходит на Facebook	[Google,1][Карта,2][Работа,3][Facebook,4]
2	Google имеет самую высокую долю рынка на рынке поиска	[Google,1][Компания,2][Поиск,3][Рынок,4][Собственный,5][Рынок,6][Поделиться,7]
3	Apple представляет iPhone 13	[яблоко, 1] [компания, 2] [выпуск, 3] [iPhone13, 4] [телефон, 5]

Результаты сегментации слов подсчитываются в соответствии с размером слова, а идентификатор документа, частота слов, местоположение и другая информация, которая появляется в каждой записи, записывается для формирования перевернутого списка, как показано в следующей таблице:

идентификатор слова	слово	частота документа	Перевернутый список (идентификатор документа, частота терминов, местоположение)
1	Google	2	(1,1,<1>),(2,1,<1>)
2	карта	1	(1,1,<2>)
3	поиск	1	(2,1,<3>)
4	смена работы	1	(1,3,<1>)
5	Facebook	1	(1,1,<4>)
6	имеют	1	(1,1,<5>)
7	рынок	1	(2,2,<4,6>)
8	Поделиться	1	(2,1,<7>)
9	яблоко	1	(3,1,<1>)
10	Компания	2	(2,1,<2>),(3,1,<2>)
11	выпуск	1	(3,1,<3>)
12	IPhone13	1	(3,1,<4>)
13	мобильный телефон	1	(3,1,<5>)

По инвертированной таблице можно построить полную систему инвертированного индекса. С помощью инвертированного индекса поисковая система может быстро получить контент, который ищет пользователь. Например, введя «Google», соответствующий идентификатор документа может можно найти по индексу, а затем по частоте документа. Документы сортируются по частотному эквиваленту слова, например, типичный TF-IDF, BM25.

Практическое применение инвертированных индексов в промышленных сценариях по своему характеру аналогично приведенной выше таблице Масштаб инвертированных индексов в практических сценариях часто очень велик, и необходимо учитывать дополнительные вопросы, такие как распределенное хранение индексов и своевременность обновления. Solr на основе открытого исходного кода Lucene Все они предоставляют для этого полное решение, и большая часть отрасли использует решения с открытым исходным кодом для построения индекса, и способные компании будут оптимизировать и вторичную разработку на этой основе.

векторный индекс

Векторный индекс – это структура данных с эффективным использованием пространства и времени, которая преобразует извлекаемое содержимое в математический вектор с помощью определенной математической модели и строит для вектора структуру данных, эффективную с точки зрения времени и пространства. используется для эффективного запроса и таргетинга на похожие векторы.

Общие методы измерения векторов включают: евклидово расстояние, косинусное сходство, скалярное произведение вектора и расстояние Хэмминга.Векторный поиск отличается от точного поиска, основанного на традиционных алгоритмах поиска, таких как двоичный и хэш.Для получения точных результатов необходимо оценить все векторы-кандидаты , При вычислении линейной метрики потребление вычислений велико, поэтому большая часть текущего векторного поиска принадлежит ANNS (приблизительный поиск ближайших соседей, приближенный поиск ближайшего соседа). Основная идея ANNS не ограничивается возвратом наиболее точных элементов результатов, а поиском смежных элементов данных в векторном пространстве, жертвуя точностью в приемлемом диапазоне для повышения эффективности поиска диапазона, поэтому она также очень согласуется с атрибуты поисковой системы, ANNS. Векторный индекс в основном делится на:

древовидный индекс

В древовидном индексе используется ряд гиперплоскостей для разделения многомерного векторного пространства на несколько подпространств в соответствии с характеристиками распределения векторов, а также используется древовидная структура для поддержания пространственной иерархической взаимосвязи, такой как вектор $(1,0,1)$ Построить в соответствии с измерением, кроме корневого узла, значение записи узла первого слоя равно $1$ , значение второго слоя равно $0$ , значение третьего слоя равно $1$ , так что каждый узел, кроме корневого узла, соответствует подпространству после того, как пространство его родительского узла разделено, а затем используется древовидная структура для поиска ряда листовых узлов, которые находятся далеко от целевого вектора, и путь к узлу равен вектор-кандидат. С увеличением размерности вектора накладные расходы гиперплоскости на разделение пространства значительно возрастут, что повлияет на эффективность построения древовидной структуры.
Индекс на основе хэша

Хэш, используемый векторным индексом, является хэшем с учетом местоположения. Короче говоря, хеширование с учетом местоположения означает, что значения хэша, рассчитанные для входных данных с аналогичным содержанием, также очень похожи. Вектор делится на несколько интервалов по хеширование с учетом местоположения, так что каждый вектор принадлежит диапазону определенной хеш-функции. При поиске вы можете сначала выбрать похожее векторное пространство с помощью вычисления хеш-функции, а затем выполнить вычисление метрики для векторов в интервале по очереди. Однако, если распределение векторов в реальной сцене неравномерно, размер области, разделенной хеш-функцией, также будет несбалансированным, что не может эффективно повысить точность и эффективность поиска.
Индексирование на основе векторного квантования

Индекс, основанный на векторном квантовании, обычно делит набор векторов методами кластеризации, такими как k-means, и записывает координаты центра каждого кластера.При поиске сначала выбирают аналогичные координаты центра, а затем сравнивают соседние кластеры в пространстве. для метрических расчетов. В этом методе легко пропустить некоторые потенциальные векторы, похожие на целевые, в многомерных векторах, и трудно добиться высокой точности.
графическое индексирование

Предыдущие индексы относятся к методу пространственного деления. Каждый вектор существует в разделенной области. Метод на основе графа предварительно вычисляет сходство между всеми векторами и поддерживает отношения расстояния между векторами в виде графика. графа, соседи соседей тоже могут быть соседями, поэтому вычисление ближайшего соседа преобразуется в обход графа, начиная с одного или нескольких узлов во время поиска, и исследуя сходство между всеми соседними узлами текущего узел и целевой вектор, И дальнейшая разведка в глубину или в ширину. Метод на основе графа имеет хорошую производительность с точки зрения точности и эффективности, но в процессе построения графика требуется много вычислений векторных расстояний, а при добавлении вектора график необходимо перестроить, что приведет к много накладных расходов..

В настоящее время популярные инструменты для поиска векторов включают FAISS с открытым исходным кодом от Facebook и SPTAG от Microsoft, но это базовые библиотеки инструментов.Отечественный Milvus с открытым исходным кодом объединяет основные возможности с открытым исходным кодом и обеспечивает полную структуру векторного индексирования.

Базовая технология поисковой системы — онлайн-часть

Понимание запроса

Как правило, пользователи описывают то, что они хотят найти, с помощью естественного языка, поэтомуПонимание запроса — первое звено пользовательского поиска. Результаты понимания запроса обеспечивают базовую поддержку функций на этапах отзыва и сортировки, поэтому понимание запроса сильно влияет на качество отзыва и сортировки. Другими словами, если поисковая система не может правильно понять поисковое намерение пользователя, она не сможет отображать пользователям точный поисковый результат. Понимание запроса в основном включает в себя предварительную обработку запроса, исправление ошибок запроса, расширение запроса, нормализацию запроса, ассоциативные слова, сегментацию слова запроса, распознавание намерений, анализ важности термина, распознавание чувствительного запроса, распознавание своевременности и т. д. В практических приложениях будет создан подключаемый запрос. Извлеченный конвейер завершает процесс понимания запроса.

Предварительная обработка запросов

Предварительная обработка запроса относительно проста, в основном для выполнения таких операций, как преобразование регистра, упрощенное и традиционное преобразование и удаление бессмысленных символов в пользовательском запросе, что удобно для анализа последующих модулей.
Переписать запрос

Исправление ошибок, расширение и нормализация относятся к области переписывания запросов.
- Исправление ошибок запроса: как следует из названия, он обнаруживает и исправляет ошибки пользовательского поиска, такие как опечатки, несколько слов, пропущенные слова и т. д.
- Расширение запроса: Расширьте список запросов-кандидатов, связанных с исходным запросом, путем изучения семантической связи запроса. С одной стороны, расширение запроса помогает пользователям уточнить свои потребности в поиске, рекомендуя запросы-кандидаты, а с другой стороны, благодаря расширению оно улучшает использование поисковой системой длинных терминов. В настоящее время расширение запроса в основном основано на таких параметрах, как семантическая релевантность, релевантность темы и портреты пользователей.
- Нормализация запроса. Нормализация запроса предназначена для стандартизации поискового содержимого пользовательского запроса без изменения семантики. Например, «когда родился Энди» на «дата рождения Энди Лау».
Сегментация запросов

Сегментация запроса заключается в разделении содержимого запроса на естественном языке на несколько терминов (слов), например, «мобильный телефон Taobao» делится на два термина «мобильный телефон» и «Taobao». Сегментация слов является основным компонентом лексического анализа, и ее точность сильно влияет на обработку последующих этапов поиска.

В дополнение к точности сегментации слов в поисковой системе также необходимо контролировать степень детализации сегментации слов. Например, в качестве термина «Царь славы» будет обеспечиваться точность и сложность вычислений в последующем процессе поиска. Термины "и" слава" более выгодны.

Технология сегментации слов является относительно зрелой, в основном в сочетании сМетоды на основе словарного сопоставления, статистические методы и модели машинного обучения или модели глубокого обучения, такие как маркировка последовательностей.Внедрение, такое как Hanlp, IKAnalyzer, Jieba и т. д. В настоящее время более болезненным моментом сегментации слов является то, что новые слова не могут быть идентифицированы и охвачены вовремя, например, профессиональная лексика с сильным доменом и новая популярная лексика в Интернете.
Анализ важности термина

Учитывая, что разные термины имеют разную важность в одном и том же тексте, необходимо определить важность термина после сегментации слов при понимании запросов и понимании содержимого документа. Важность термина может быть измерена оценками или количественной оценкой от 0,1 до 1,0. Например, если вы ищете «игровые приложения, подходящие для девочек», это должно быть «game-girl-app» в порядке важности. комбинация важности корректирует условия запроса. Что касается содержания документа, для оценки важности терминов можно использовать модель темы LDA, TextRank и другие методы; на стороне запросов модель классификации можно обучать с помощью кликов пользователей и другой информации, чтобы судить о важности терминов.
Распознавание намерений

Распознавание намерений является важным модулем понимания Query.Из-за нерегулярности пользовательского ввода Query и двусмысленности самих слов, как точно определить объем намерения, который пользователь хочет найти в соответствии с контекстом пользователя Query играет важную роль в поисковом эффекте. Например, «Сравнение Apple и Xiaomi», обычно пользователи хотят сравнить разницу между мобильными телефонами, а не едой.

Распознавание намерений можно классифицировать как задачу классификации короткого текста с несколькими метками.Перед классификацией необходимо унифицировать метки намерений на стороне запроса и на стороне содержимого, чтобы содержимое соответствующих меток можно было вызвать непосредственно после прогнозирования распространение запроса. Такие модели, как традиционная модель SVM, модель мелкой сети Fasttext, модель глубокой нейронной сети TextRNN, TextCNN и т. д.
Идентификация конфиденциального запроса

Конфиденциальная идентификация в основном проводит проверку контента в запросе, чтобы проверить, связано ли содержание с политикой, терроризмом, насилием и т. д. Если выявлен конфиденциальный запрос, он будет направлен для руководства и ответа. Чувствительное распознавание можно классифицировать как проблему классификации.Простые методы можно сопоставлять с помощью таблиц чувствительных ключевых слов, а сложные точки можно обрабатывать с помощью обучающих моделей классификации, основанных на таких методах, как SVM.
Своевременная идентификация

Пользовательский запрос может иметь определенные требования к своевременности, такие как поиск «прогресс эпидемии» и «новые выпущенные фильмы», которые неявно выражают требования к своевременности контента. В соответствии с требованием своевременности запросов механизм может целенаправленно выполнять некоторую фильтрацию или сортировку при выполнении последующей поисковой работы.

Вышеприведенный контент дает только обзор понимания запроса. Подробности см. в статье "Всестороннее понимание поискового запроса: что происходит, когда вы нажимаете Enter в поисковой системе".

отзывать

Отзыв — это процесс получения релевантных документов-кандидатов на основе запроса. Этап отзыва требует, чтобы охваченный контент был достаточно широким. Если соответствующие документы не могут быть получены на этапе отзыва, даже если последующий алгоритм сортировки работает хорошо, это будет бесполезно. .

В сценарии поиска отзыв обычно в основном состоит из двух типов методов:Традиционное вспоминание на основе слов и семантическое воспоминание на основе векторов. Первый основан на традиционной реализации инвертированного индекса, а второй основан на реализации векторного индекса семантического встраивания. Инвертированный индекс и векторный индекс были представлены в предыдущей главе с указателями. В центре внимания результатов поиска на этапе припоминания в основном находятся производительность припоминания и разнообразие результатов. Хотя традиционное припоминание, основанное на словах, может быть решено с помощью нормализации синонимов Частично похоже на сцены запроса, но все еще имеет большие ограничения; семантический отзыв векторизует запрос и документ соответственно и сопоставляет их с одним и тем же векторным пространством для поиска ближайшего соседа, что может улучшить диапазон результатов отзыва на семантическом уровне. трансформация.

Семантический отзыв можно разделить на глубокую семантическую модель, основанную на взаимодействии, и глубокую семантическую модель, основанную на представлении:

Основанный на представлении, также известный как метод сопоставления на основе представления, использует модель глубокого обучения для представления Query и Doc соответственно, а затем вычисляет сходство векторов как оценку семантического соответствия.Обычно вычисление представления Doc будет вычисляться в автономном режиме заранее, чтобы сэкономить время поиска. Типичные методы представления, такие как модель DSSM с двойной башней, так называемая двойная башня и башня запроса и башня документа, соответственно, выполняют расчет представления двух содержаний.

Основанный на взаимодействии также известен как метод сопоставления на основе взаимодействия.Этот метод напрямую не изучает вектор семантического представления Query и Doc, но взаимодействует с Query и Doc в нижней части нейронной сети, чтобы получить базовое представление соответствия, а затем вводит например, CNN для представления основного представления.Слияние приводит к сходству, как правило, по Берту.

Интерактивный, т. к. связь между Query и Doc может быть глубоко рассмотрена, точность сопоставления подобия будет выше, чем у представления; при этом представление может вычислить все векторы Doc заранее и записать их в индекс вектора, когда будет получен Query. Список документов можно получить, только выполнив расчет характеристик в запросе и выполнив неглубокий расчет с помощью векторного индекса, поэтому он будет иметь лучшую производительность. В задаче отзыва, если величина вызываемой библиотеки документов велика, более целесообразно использовать репрезентативный метод для предварительной записи индекса вектора, чтобы улучшить скорость отзыва без ущерба для производительности; в противном случае интерактивный метод может использоваться для надлежащего улучшения этапа отзыва Точность содержания.

Отзыв записей и семантический отзыв обычно используются в поисковых системах. См. статью «Применение понимания запросов и семантического отзыва в поиске Zhihu». Списки документов, сгенерированные двумя отзывами, будут отправлены на сортировочную ссылку для фильтрации. В полях поиска продукта, рекомендации контента и т. д., такие параметры, как характеристики поведения пользователя, характеристики времени и пространства и т. д., также будут введены для формирования многоканального отзыва.

Сортировать

Сортировка, по сути, оценивает вызванный список документов-кандидатов, чтобы определить порядок, в котором содержимое представляется пользователю. Сортировка обычно делится на две части: грубая сортировка и точная сортировка. Некоторые сценарии поиска, требующие высокой точности или учитывающие бизнес-атрибуты, также будут переупорядочены, например знаменитый рейтинг ставок.

Как показано на рисунке выше, процесс припоминания -> грубая сортировка -> точная сортировка -> перестановка подобен воронке, и результаты поиска пользователя постепенно уточняются путем фильтрации слой за слоем. Отзыв — это самая восходящая часть воронки, и для первоначальной проверки документов используются комплексные и быстрые методы; сортировка — это нижняя часть воронки, а отфильтрованные документы сортируются и фильтруются небольшим и точным образом.

Сортировка является основным компонентом поиска, и качество результатов сортировки напрямую влияет на удобство работы пользователей и коэффициент бизнес-конверсии связанных сценариев. Ранняя сортировка была основана на экспертных правилах, а признаки контента определялись и комбинировались вручную.Экспертная система была очень объяснительной, но в сценарии больших данных экспертная система, очевидно, не могла удовлетворить разнообразие поискового контента. В поисковых системах, особенно в продуктах, связанных с Интернетом, решение сортировки является важной исследовательской проблемой Использование машинного обучения для параметризации функций сортировки и стандартизации правил сортировки хорошо практикуется в основных поисковых системах.

Метод ранжирования машинного обучения называется LTR (Learning to Rank), который состоит из четырех этапов: ручная маркировка обучающих данных, извлечение признаков документа, функция классификации обучения и интеграция модели поисковой системы.Схема рабочего процесса обучения и ранжирования выглядит следующим образом. :

В настоящее время LTR в основном делится на три типа: метод одного документа Pointwise, метод пары документов Pairwise и метод списка документов (Listwise).

Pointwise

Pointwise использует один документ в качестве обучающих данных, независимо от отношений между документами, после преобразования документа в вектор признаков.Преобразование проблемы ранжирования в задачу классификации или регрессии, например, математическое выражение проблемы CTR: $y=f(x)$ , где диапазон y $[0,1]$ ,Сейчас $y$ Чем больше значение , тем выше вероятность того, что пользователь нажмет. Ниже приводится введение в несколько распространенных точечных методов:

LR

Логистическая регрессия (LR) — это самый простой и обширный алгоритм классификации в области Интернета. LR может обрабатывать крупномасштабные дискретные функции, легко распараллеливается и обладает хорошей интерпретируемостью. LR — самая базовая модель для приложений прогнозирования CTR. Предпочтительно для сортировка моделей. Однако LR предполагает, что признаки независимы друг от друга (определяются функциональной формой LR), игнорирует взаимосвязь между признаками и имеет плохую нелинейную подгонку, что ограничивает онлайн-модель модели.Обычно, как и в базовой версии , модель LR определяет следующим образом:
$f (x) = логистика (линейная (X)) \\ где: \ quad логистика (x) = \ frac {1} {1 + e ^ {- x}} \ quad \ quad \ quad \ quad linear (x) = \ тета ^ TX$
FM/FFM

FM совершенствуется на основе LR, и модель определяется как:
$f(x) = logistics(linear(X) + \sum\limits_{i=1}^{n} \sum\limits_{j=i+1}^{n} w_{ij}x_ix_j)$
Первая половина функции такая же, как и определение LR, и она добавлена на основе LR. $\sum\limits_{i=1}^{n} \sum\limits_{j=i+1}^{n} w_{ij}x_ix_j$ , этот член представляет собой квадратичный перекрестный член, который выражает взаимодействие между признаками, где $w_{ij}$ выражать $x_i$ и $x_j$ Веса взаимодействия между парными функциями. Как видно из формулы, при $n$ Указывает количество функций, тогда объединенные параметры функций имеют в общей сложности $n(n+1)/2$ , используйте матрицу второго порядка для хранения $w$ , что приводит к большой размерности матрицы в случае крупномасштабных дискретных признаков, а в полиномиальной модели признак $x_i$ и $x_j$ комбинация $x_i x_j$ означает, что объединенные признаки имеют смысл только тогда, когда оба отличны от нуля, и в случае разреженных выборочных данных, удовлетворяющих $x_i$ и $x_j$ Будет очень мало выборок, которые все ненулевые, а отсутствие обучающих выборок легко приведет к параметрам $w_{ij}$ Решение не является точным, что влияет на общий эффект модели.

так как $w_{ij}$ и $w_{ji}$ Указанные веса взаимодействия равны, тогда все квадратичные параметры $w_{ij}$ может образовывать симметричную матрицу $W$ , матрица может быть далее разложена на $W = V^T V$ , $V$ Первый $j$ колонка первая $j$ Скрытый вектор размерных признаков, а затем каждый весовой параметр можно выразить как $w_ij=<v_i,v_j>$ , поэтому модельное уравнение ФМ можно определить как:
$f(x) = logistics(linear(X) + \sum\limits_{i=1}^{n} \sum\limits_{j=i+1}^{n} <v_i,v_j>x_i x_j)$
Веса одного и того же признака на других признаках различны. Например, погодные признаки по-разному влияют на временные признаки и гендерные признаки. Использование одного и того же вектора для расчета внутреннего продукта приведет к очевидным отклонениям. Вводится на основе веса FM $поле$ концепция, порядок $w_{ij} = <v_{if_j},v_{jf_i}>$ , указывающий, что разные признаки принимают разные векторы при вычислении весовых параметров, этот метод называется $FFM$ алгоритм, формула выглядит следующим образом:

f(x) = logistics(linear(X) + \sum\limits_{i=1}^{n} \sum\limits_{j=i+1}^{n} <v_{if_j}, v_{jf_i}>x_ix_j)

GBDT

LR, FM/FFM больше подходят для обработки дискретных признаков, GBDT (дерево принятия решений с повышением градиента) подходит для расчета непрерывных признаков, но если GBDT используется отдельно, дискретные признаки необходимо учитывать как непрерывные признаки посредством нормализации и других мер, которые не могут быть хорошо обработаны Размерные разреженные функции и процесс нормализации дискретных функций занимают много времени, поэтому непрерывные функции и функции с небольшим пространством значений отдаются GBDT, а другие многомерные разреженные функции и листовые узлы GBDT отдаются LR вместе, FM/FFM для обработки, чтобы сформировать комбинированное приложение GBDT+LR и GBDT+FM.

Pairwise

Pointwise учитывает только корреляцию между одним документом и запросом и не учитывает взаимосвязь между документами Проблема сортировки фокусируется на результатах сортировки и не требует точной оценки сходства. Pairwise рассматривает отношение порядка между парами выборок, берет пары документов в качестве входных данных и выводит порядок локального приоритета. Например, результат поиска, соответствующий запросу, ${doc_1,doc_2,doc_3}$ , набор отношений документов, который может состоять из документов, равен ${(doc_1,doc_2),(doc_1,doc_3),(doc_2,doc_3)}$ , с каждой парой отношений $(doc_i,doc_j)$ в качестве учебного примера, если $doc_i > doc_j$ , затем отметьте $+1$ , и наоборот отметить $-1$ , так чтоПреобразование задачи сортировки в задачу бинарной классификации. При прогнозировании модель может получить отношение частичного порядка всех пар документов, таких как ${<doc_1,doc_2,+1>,<doc_1,doc_3,-1>,<doc_2,doc_3,-1>}$ , то окончательный результат сортировки будет ${doc_3,doc_1,doc_2}$ .

В задаче с двумя категориями есть много методов машинного обучения, таких как Boost, SVM, нейронная сеть и т. д., типичные приложения в Pairwise, такие как RankSVM, RankNet.

Listwise

Pairwise берет пары документов в качестве обучающих примеров, рассматривает только отношение частичного порядка между документами, отрицательно связанные документы не могут быть отражены, а ошибка предсказания частичного документа в отношении частичного порядка приведет к ошибке в общем результате ранжирования. Listwise заключается в использовании всей последовательности сортировки Doc в качестве обучающей выборки для получения оптимальной функции оценки. $F()$ , предсказывает все отсортированные последовательности набора документов-кандидатов и выводит отсортированный список.Обычными методами являются LambdaRank и LambdaMART.

Listwise рассматривает общие результаты сортировки модели, а обучающие выборки основаны на упорядоченном списке помеченных документов.В идеале действительно проще удовлетворить потребности реальных пользователей, но стоимость работы по ранней маркировке этого метода очевидно выше, и стоимость обучения также выше, чем первые два метода, и людям трудно представить общее ожидание результатов сортировки за пределами профессиональной области, поэтому Listwise имеет очевидные ограничения в сценариях практического применения.

LTR	преимущество	недостаток	входить	временная сложность	Типовой алгоритм
Pointwise	Алгоритм прост, только использование каждого документа в качестве отдельных обучающих данных.	Учитывайте только корреляцию между одним документом и запросом, игнорируя влияние между документами.	$(x,y)$	$O(n)$	LR, FM, FFM, GBDT, DNN
Pairwise	Классифицировать пары документов, чтобы получить отношение частичного порядка коллекции документов	Учитывается только отношение частичного порядка пар документов, локальные ошибки частичного порядка влияют на общие результаты и не могут отражать документы с отрицательной корреляцией.	$(x_1,x_2,y)$	$O(n^2)$	РанкСВМ, Ранкнет
Listwise	Напрямую оптимизируйте результаты сбора документов, теоретический эффект лучший	Высокая стоимость алгоритма и ограниченные сценарии применения	$(x_1,x_2,...,x_n,y)$	$O(n!)$	LambdaRank, LambdaMART

В приведенной выше таблице приведены три типичных метода LTR.Хотя теоретический эффект выглядит следующим образом: Listwise > Pairwise > Pointwise, применение в реальных промышленных сценариях является противоположным из-за ряда проблем, таких как стоимость, интерпретируемость и надежность. Pointwise часто является предпочтительным решением для практических приложений.

Статья не распространяется на Pairwise и Listwise. Подробнее см. в статье "Расстановка заметок LTR Fine Sorting"

Тонкий и грубый

Грубая и точная сортировка являются ссылками на этапе сортировки. Основная цель сортировки — дальнейшая фильтрация и фильтрация вызванного контента, а также возврат отсортированных результатов поиска пользователям в соответствии с релевантностью пользовательских поисков. На этапе тонкой сортировки будет использоваться модель с более высокой точностью сортировки.Этот тип модели также является более сложным.Из-за ограничения вычислительной мощности, как правило, трудно выполнить крупномасштабную сортировку документов с точки зрения производительности.Поэтому , между отзывом и точной сортировкой будет вставлена грубая сортировка.Предварительная фильтрация результатов отзыва, такая как воронкообразная диаграмма в начале главы о сортировке.

Основная цель этапа грубой сортировки состоит в том, чтобы сузить набор сортировок-кандидатов для точной сортировки при условии удовлетворения общей производительности поиска.Есть два основных отличия от точной сортировки: более строгие ограничения вычислительной мощности и RT, и набор кандидатов на сортировку больше, поэтому грубая сортировка Модель алгоритма, используемая на этапе, обычно имеет мало вычислительных возможностей и высокую вычислительную эффективность, а также вводит относительно легкие методы, такие как TF-IDF, BM25 и сопоставление векторов, которые будут перекрываться с отзывом в определенной степени и в настоящее время используется на этапе отзыва.Некоторые алгоритмы фреймворка также имеют определенные возможности сортировки, поэтому в некоторых статьях отзыв и грубая сортировка объединяются и делятся на два этапа: грубый отзыв и точная сортировка.

Хотя в модели грубая сортировка и отзыв перекрываются, структура выборки также различается из-за разных целей.В качестве примера на DSSM скорость отзыва является основным фактором на этапе отзыва.Выборка, на этапе грубой сортировки точность основной фактор, и можно использовать отрицательные образцы, представленные в Интернете, или отрицательные образцы от кандидатов на отзыв.

Если вычислительной мощности достаточно для сортировки документов во всей библиотеке, следует ли сохранить отзыв?

Отзыв необходим, а сортировка направлена на точность. Только этап сортировки ограничивает доступ к непопулярным документам. Отзыв улучшает разнообразие результатов для системы и предотвращает попадание пользователей в информационный кокон. Разнообразие особенно важно в системе рекомендаций.

С итерацией технологии и улучшением вычислительной мощности границы между грубой сортировкой и точной сортировкой постепенно стираются, и иногда некоторые новые модельные методы помещаются на стадию тонкой сортировки для проверки и оптимизации.Применительно к стадии грубой сортировки, миграция технологии тонкой сортировки на грубую сортировку также является тенденцией процесса грубой и тонкой сортировки.В будущем не исключено различие между грубой и тонкой сортировкой.

Применение глубокого обучения в поиске

Традиционные методы машинного обучения в значительной степени полагаются на предварительную обработку входных данных о признаках, то есть на ручное проектирование признаков, которому не хватает способности модели к обобщению. Чтобы уменьшить ручное вмешательство и сделать модель более эффективной в расширении функций и обобщении эффектов, модели глубокого обучения введены для решения некоторых задач в поиске и достигли хороших результатов.Ниже представлена более широко используемая модель в глубоком обучении. простое заявление.

DNN
DNN (Deep Neural Network, Глубокая нейронная сеть), также называемая многослойным персептроном (MLP, Multilayer Perceptron), представляет собой классическую модель глубокой нейронной сети.DNN может изучать исходные функции, извлекать глубокую информацию и повышать точность модели. способность.

Модель DNN показана на рисунке. Слои полностью связаны, поэтому она имеет большие преимущества для нелинейной обработки признаков. Особенно в системе рекомендаций по поиску связь между многими признаками и целью обучения не ясна. Использование DNN может быть очень хорошо Извлеките многомерные признаки. DNN можно использовать как при отзыве, так и при сортировке, но только в конечном выходном слое. $softmax$ все еще $sigmoid$ разница. отозвать для использования $softmax$ Поскольку отзыв предназначен для полного содержимого, использование $softmax$ Это может лучше обеспечить разнообразие результатов; ввод этапа сортировки также может быть дополнительно дополнен тонкими функциями, используя $sigmoid$ Преобразован в задачу классификации для ранжирования и калибровки результатов.

Wide&Deep

Wide&Deep — документ, предложенный Google в 2016 году. Эта модель объединяет линейные модели и глубокие нейронные сети, сочетая способность памяти линейных моделей и способность к обобщению глубоких моделей, тем самым улучшая общий эффект.

Как показано на рисунке, левая сторона — это широкая линейная модель, правая сторона — модель глубины, а Wide&Deep посередине можно рассматривать как комбинацию двух моделей:
- Широкая часть представляет собой модель LR. Преимущество заключается в том, что модель имеет хорошую память и может использовать небольшое количество параметров для изучения высокочастотных и низкоуровневых функций, которые появляются в образце. Недостатком является то, что способность к обобщению плохой, и он используется для изучения высокочастотной части семпла.
- Глубокая часть представляет собой модель DNN.Преимущество в том, что она обладает сильной способностью к обобщению.Для небольшого количества выборок или даже выборок, которые никогда ранее не появлялись, она может выйти из прогноза.Недостаток в том, что обучение мало- функции уровня требуют больше параметров для достижения эффекта широкой части, а способность обобщения Strong также приводит к определенной степени переобучения.
Благодаря сочетанию этих двух преимуществ и недостатков двух методов уравновешиваются, чтобы сформировать сквозную широкую структуру глубокого обучения, Математическое выражение выглядит следующим образом:

$f(x) = logistics(linear(X) + DNN(X))$

Это знакомо?Это точно так же, как GBDT+LR.
DeepFM

На основе Wide&Deep DeepFM заменяет LR в широкой части на FM.Поскольку LR легко использовать низкоуровневые функции, необходимо вручную создавать кросс-функции в реальном использовании.Использование функций первого порядка больше разумным, что устраняет недостаток, заключающийся в том, что линейная часть W&D по-прежнему требует сложной разработки признаков для признаков низкого порядка.
DSSM

DSSM упоминался в разделе отзывов, а ниже приводится краткое введение.

На рисунке выше показана трехуровневая структура DSSM, а правая часть рисунка — структура уровня представления DSSM. Функция входного слоя состоит в том, чтобы преобразовывать текст в векторы и предоставлять их в сеть глубокого обучения.Например, английский может быть обработан с помощью Word Hashing, а китайский может быть преобразован с использованием некоторых моделей предварительного обучения; слой представления преобразует ввод многомерных векторов посредством многоуровневого нелинейного преобразования.это низкоразмерный вектор, который преобразуется из исходного 500000-мерного в 128-мерный, как показано на рисунке; соответствующий слой вычисляет сходство двух 128-мерных векторы, полученные Query и Doc по формуле косинуса.
Transformer

Преобразователь предложен в статье Google «Внимание — это все, что вам нужно». Макроскопически это модель, состоящая из кодировщика и декодера. Он используется для решения задач seq2seq, таких как машинный перевод и создание диалогов. Как показано на рисунке ниже, левая сторона представляет собой расширение модели, исходный текст. Середина состоит из 6 кодеров и декодеров, а правая сторона представляет собой сетевую структуру одноуровневого кодера и декодера.

Внимание к самому себе — это основной механизм Transformer Что такое внимание к себе? Если мы теперь хотим перевести следующее предложение

the animal didn't cross the street because it was too tired

Алгоритму трудно различить, относится ли оно к животному или к улице.Через механизм внимания, когда алгоритм кодирует слово it, слой внимания будет выделять внимание другим словам, то есть вычислять предложение.Когда вектор внимания каждого слова в , другие слова будут оценивать вычисляемое в данный момент слово, так что кодирование текущего слова будет учитывать влияние других слов. Transformer дополнительно улучшает слой Self Attention, добавляя «Multi-Head Attention», чтобы расширить способность модели обращать внимание на разные позиции (например, голова уделяет больше внимания первым двум словам, а голова уделяет больше внимания последним). два слова).

На приведенном выше рисунке показаны детали модели «Персонализированное повторное ранжирование для рекомендации», предложенной Али в ссылке перегруппировки продукта, в которой входной слой $x_{i_n}$ и $pv_{i_n}$ оригинальные функции и персонализированные функции оригинального продукта, соответственно, $pe_{i_n}$ является функцией положения сортировки выходных данных точной сортировки; из рисунка видно, что уровень кодирования модели реализуется многоуровневым уровнем кодирования преобразователя, а затем $softmax$ Выведите переставленный счет. В справочной статье "Практика Transformer в поисковом рейтинге Meituan" также используется тот же метод для создания ссылки на перегруппировку продавцов. В этой статье также рассказывается о применении Transformer в построении функций. Заинтересованные читатели могут перейти по ссылке в списке статей. Проверить .

Применение модели глубокого обучения просто представлено так много.В конкретном приложении модель не ограничивается этапом отзыва или сортировки.Различные методы выборки и функции вывода могут давать разные результаты.По сути, глубокая модель дает нам Подробнее кросс-функции, изучение потенциальных взаимодействий функций, отличных от ручной статистики, и отсутствие простого мышления, согласно которому определенную модель можно использовать только для решения определенной проблемы.

Применение глубокой модели к пересечению признаков в целом находится в состоянии черного ящика, а интерпретируемость оставляет желать лучшего, поэтому инженеры-алгоритмы смеются над собой как над «алхимией».

Методы оценки поисковых систем

Показатели оценки поисковых систем можно условно разделить на два аспекта: эффективность и результативность. Эффективность аналогична традиционным методам оценки компьютерных систем, таким как учет временных и пространственных затрат, параллелизм и надежность и т. д., которые здесь не рассматриваются. Оценка эффекта направлена на атрибуты поисковой системы и в основном количественно оценивает качество результатов поиска.Показатели оценки эффекта делятся на два аспекта: оценка эффекта одного запроса и оценка среднего эффекта нескольких запросов.

Метрики оценки для одного запроса

Точность и отзыв

Точность, также называемая точностью, и полнота, также называемая полнотой, являются наиболее часто используемыми и признанными показателями в поисковых системах и даже в машинном обучении. В поисковых системах точность и полнота определяются следующим образом.
$P = количество извлеченных связанных документов / количество всех извлеченных документов \\ R = количество извлеченных связанных документов / количество всех связанных документов в базе данных$
Предположим, что соответствующие документы запроса в базе данных имеют $60$ статей, полученных в результате одного поиска $50$ статьи, из них $40$ Статьи представляют собой документы, связанные с запросом, $10$ являются нерелевантными документами, то показатель точности равен $40/50$ , скорость отзыва равна $40/60$ .

идеальная поисковая система $P$ & $R$ должно быть равно $1$ , но такого двигателя на самом деле не существует, и $P$ и $R$ На самом деле между ними существует некая инверсионная связь, то есть одна сторона увеличивается, а другая уменьшается. Если в погоне за чрезмерно высоким показателем точности модель алгоритма нуждается в более высокой степени соответствия, что приводит к незначительной степени релевантности или невозможности извлечения новых документов, то есть к проблеме переобучения; если в погоне за чрезмерно высокая скорость отзыва, модель нуждается в ослаблении требований к степени соответствия может легко привести к обнаружению нерелевантных документов, то есть к проблеме недообучения. В производственной среде высококачественные поисковые системы должны сочетать определенные бизнес-сценарии, чтобы решить, на каких аспектах следует сделать упор. Информация может быть представлена полностью.

Стремление к высокому уровню отзыва «скорее убьет по ошибке, чем пропустит»
Значение F

$F$ Значение всесторонне измеряет точность и полноту и определяется как гармоническое среднее значение точности и полноты. $F$ значение также обычно называют $F1$ значение, формула выглядит следующим образом
$F1 = 2 * \frac{P*R} {P+R}$
Если отзыв запроса $1$ , точность $0$ , то формула вычисляет $F1$ значение $0$ .

Почему бы просто не рассчитать $PR$ средний?

Если используется среднее арифметическое, поисковая система, которая возвращает все документы, будет иметь оценку 50% или более.
Precision@N

Без учета скорости отзыва, $Precision@N$ Используется для измерения положения отсечки $N$ точность, общее письмо $P@N$ , так как пользователей больше беспокоит качество поиска в верхней части рейтинга, наиболее часто используемые показатели, такие как $P@10$ , $P@20$ , т.е. только перед вычислением $10$ полоска, $20$ точность результатов.

Средняя точность (AP): средняя точность в разных точках отзыва.

неинтерполированный $AP$ : общий доступ по запросу $6$ связанные результаты, отсортированные системой и возвращенные $5$ сопутствующие документы, расположенные по адресу $1, 2, 5, 10, 20$ ,но $AP=(1/1+2/2+3/5+4/10+5/20+0)/6$
Рассчитывается только для возвращенных связанных документов $AP$ : Как и в первом примере, $AP=(1/1+2/2+3/5+4/10+5/20)/5$
интерполированный $AP$ : показатели отзыва $0, 0,1, 0,2...1,0$ Среднее значение правильной скорости, найденной по одиннадцати точкам

что такое интерполяция

В разных позициях результатов поиска скорость точности и скорость отзыва также различны, если стандартный ответ на запрос { $d_3$ , $d_5$ , $d_9$ , $d_{25}$ , $d_{39}$ , $d_{44}$ , $d_{56}$ , $d_{71}$ , $d_{89}$ , $d_{123}$ }, запрос $15$ результаты поиска и соответствующие неизвестные $PR$ Распределение стоимости выглядит следующим образом:

1. $d_{123}$ $P = 1,R=0.1$ 6. $d_9$ $P = 0.5,R=0.3$ 11. $d_{38}$

2. $d_{84}$ 7. $d_{511}$ 12. $d_{48}$

3. $d_{56}$ $P = 0.67, R=0.2$ 8. $d_{129}$ 13. $d_{250}$

4. $d_6$ 9. $d_{187}$ 14. $d_{113}$

5. $d_8$ 10. $d_{25}$ $P=0.4, R=0.4$ 15. $d_5$ $P=0.33,R=0.5$

Нарисуйте в соответствии с таблицей выше $PR$ Кривая показана слева:

По факту $PR$ Кривая часто бывает зубчатой, как показано справа вверху, потому что если предположить, что первое $K+1$ Этот документ не актуален, то местонахождение $K+1$ и $K$ Скорость отзыва такая же, а точность снижается, поэтому кривая будет уменьшаться; если $K+1$ Если документы о местоположении связаны, то и точность, и полнота возрастут, поэтому вся кривая будет выглядеть неровной. Чтобы сгладить кривую, используйте **интерполированную точность (точность с интерполяцией)**. $r$ Точность интерполяции
$p_{interp}(r) = MAX_{r' \geq r} p(r')$
выражается не менее $r$ Максимальное значение точности в позиции возврата, то есть максимальная точность, которую можно получить от текущей позиции возврата вправо.

1. $d_{123}$ $P = 1,R=0.1$	6. $d_9$ $P = 0.5,R=0.3$	11. $d_{38}$
2. $d_{84}$	7. $d_{511}$	12. $d_{48}$
3. $d_{56}$ $P = 0.67, R=0.2$	8. $d_{129}$	13. $d_{250}$
4. $d_6$	9. $d_{187}$	14. $d_{113}$
5. $d_8$	10. $d_{25}$ $P=0.4, R=0.4$	15. $d_5$ $P=0.33,R=0.5$

NDCG

Каждый документ не только связан и нерелевантен, но и имеет степень релевантности, например, определяемую как 0, 1, 2, 3. Мы надеемся, что в результатах, чем более релевантны документы, тем выше рейтинг, тем выше рейтинг , хорошо. $NDCG$ (Нормализованная дисконтированная совокупная прибыль, Нормализованная дисконтированная совокупная прибыль) используется для обозначения того, что позиция $P$ Эффект поиска в $NDCG@P$ ,как $NDCG@5, NDCG@10$ Ждать.

$i$	$rel_i$	$CG = \sum\limits_{i=1}^{p} rel_i$	$log_2(i+1)$	$DCG=\sum\limits_{i=1}^{p} \frac{rel_i}{log_2(i+1)}$	$rel_{идеальный}$	$IDCG=\sum\limits_{i=1}^{p} \frac{rel_{iideal}}{log_2(i+1)}$	$NDCG$
1	3	3	1	3	3	3	1
2	2	3+2	1.58	3+1.26	3	3+1.89	0.87
3	3	3+2+3	2	3+1.26+1.5	3	3+1.89+1.5	0.90
4	0	3+2+3+0	2.32	3+1.26+1.5+0	2	3+1.89+1.5+0.86	0.79
5	1	3+2+3+0+1	2.58	3+1.26+1.5+0+0.38	2	3+1.89+1.5+0.86+0.77	0.76
6	2	3+2+3+0+1+2	2.8	3+1.26+1.5+0+0.38+0.71	1	3+1.89+1.5+0.86+0.77+0.35	0.81

Предполагая, что запрос имеет 6 связанных документов, релевантность $(3, 3, 3, 2, 2, 1)$ , 5 связанных документов получены в фактических результатах поиска, приведенная выше таблица $i$ Столбец представляет позицию документа в результатах поиска, $rel_i$ представляет актуальность фактических результатов документа, $rel_{идеальный}$ Идеально представляет релевантность документа 6 лучших результатов.

$CG$ (Cumulative Gain, совокупный прирост) представляет собой сумму оценок релевантности всех документов в списке результатов поиска, позиции $p$ из $CG$ определяется как:

CG_p = \sum\limits_{i=1}^{p} rel_i

$DCG$ (Сниженный кумулятивный выигрыш) Предлагается, чтобы, когда документ с высокой релевантностью появляется в нижней позиции списка результатов поиска, оценка оценки должна быть снижена. Шкала штрафов связана с логарифмом местоположения документа, местоположение $p$ из $DCG$ определяется как:

DCG_p=\sum\limits_{i=1}^{p} \frac{rel_i}{log_2(i+1)}

$IDCG$ идеальный $DCG$ стоимость, брать $rel_{идеальный}$ Подставьте столбец в формулу для расчета, а затем используйте $DCG$ разделить на $IDCG$ просто получить $NDCG$ .

NDCG_p=\frac{DCG_p}{IDCG_p}

$DCG$ Существует также широкая формула расчета для $DCG=\sum\limits_{i=1}^{p} \frac{2^{rel_i} - 1}{log_2(i+1)}$ , чтобы усилить влияние релевантности при оценке эффекта.

Метрики оценки для нескольких запросов

MAP

MAP (средняя средняя точность): для всех запросов $AP$ Найдите среднее арифметическое, например, Query1 $4$ связанные документы, Query2 имеет $5$ связанные документы, Query1 извлекает $4$ Соответствующие местоположения документа $1, 2, 4, 7$ , Query2 извлекает $3$ сопутствующие документы находятся по адресу $1, 3, 5$ , то средняя точность Query1 $AP=(1/1+2/2+3/4+4/7)/4=0.83$ , Запрос2 $AP=(1/1+2/3+3/5+0+0)/5=0.45$ ,но $MAP=(0.83+0.45)/2=0.64$ .
MMR

MMR (средний взаимный рейтинг): для некоторых систем IR (таких как системы ответов на вопросы или системы обнаружения домашней страницы) важна только позиция первого отмеченного ответа, и обратная величина этой позиции называется $RR$ , усреднить поставленную задачу, чтобы получить $MRR$ . Например, для двух запросов правильная позиция ответа, возвращаемая системой на первый запрос, равна $2$ , второе расположение ответа на запрос $4$ ,Так $MRR=(1/2+1/4)/2=3/8$ .

Суммировать

Поисковая система представляет собой систему, сочетающую в себе различные инженерные технологии и модели алгоритмов.В данной статье представлен лишь обзор общего состава и технических возможностей поисковой системы.Каждый технический момент может быть описан в отдельной статье, ограниченной Должным к объему и личному знанию статья не содержит глубокого анализа различных технических деталей.Заинтересованные читатели могут дополнительно ознакомиться со статьями в списке литературы.Если в статье есть какие-либо ошибки, просьба указать на них в комментарии площадь.

Ссылаться на

«Интеллектуальные системы поиска и рекомендаций: принципы, алгоритмы и приложения»
«В поисковик»
поисковый движок
What Is A Search Engine
Types of Search Engine
Связанные с технологиями: эти понятия об индексации в поисковых системах
Алгоритм векторного поиска
Всестороннее понимание поискового запроса: что происходит, когда вы нажимаете ввод в поисковой системе
Применение понимания запросов и семантического отзыва в поиске Zhihu
Репрезентативное изучение DeepNLP · Внедрение слов внутрь и минусы · Глубокое обучение · Обработка естественного языка (NLP) · Представление
Исследование и практика BERT в основном рейтинге поиска Meituan
Использование Bert для задач сопоставления семантического подобия: как вычислить сходство
Эволюция модели поискового ранжирования Zhihu
Путь к инженеру по алгоритмам политики — модель ранжирования LTR и ее применение
Примечания тонкой сортировки LTR
Как понять ФМ, ФММ
Углубленные принципы и практика FFM
Технологическая система грубого ряда Alibaba и обмен последними достижениями
Роль грубого взвода и отработки алгоритмов
Тенденция эволюции технологии рекомендательных систем: от отзыва к сортировке и перегруппировке
Графический трансформер
Применение трансформатора в LTR
Практика Transformer в поисковом рейтинге Meituan
Различные показатели оценки в информационном поиске
CG, DCG, NDCG показателей оценки алгоритма ранжирования