Алгоритм BM25, Лучшее соответствие

BM25 — это классический алгоритм, используемый в области индексации информации для расчета показателя сходства между запросом и документом. В отличие от TF-IDF, формула BM25 в основном состоит из трех частей:

Соотношение между каждым словом t в запросе и документом d
Сходство между словом t и запросом
вес каждого слова

Общая формула для BM25: $Score(Q,d) = \sum_i^n{W_i R(q_i, d)}$ в $Q$ представляет запрос, $q_i$ Представляет слово в запросе. d представляет определенный поисковый документ.

$W_i$ Указывает вес слова

Вот собственно ЦАХАЛ: $IDF(q_i) = \log{\frac{N-df_i+0.5}{df_i+0.5}}$ где N представляет собой общее количество документов в индексе, $df_i$ включать $q_i$ количество документов. По роли ЦАХАЛа, для определенного $q_i$ ,Включают $q_i$ Чем больше документов, тем больше $q_i$ Чем меньше важность или чем ниже степень дискриминации, тем меньше IDF, поэтому IDF можно использовать для описания $q_i$ Сходство с документацией.

Соотношение слов к документам

Дизайн BM25 основан на важном открытии: связь между частотой слов и релевантностью нелинейна, то есть оценка релевантности каждого слова документу не превышает определенного порога, когда количество вхождений слова достигает порога. После этого его влияние не будет возрастать линейно, и этот порог будет связан с самим документом. Поэтому при характеристике сходства между словами и документами BM25 оформляется следующим образом: $S(q_i, d) = \frac{(k_1+1)tf_{td}}{K+tf_{td}}$ $K = k_1(1-b+b*\frac{L_d}{L_{ave}})$

в, $tf_{td}$ частота слова t в документе d, $L_d$ длина документа d, $L_{ave}$ средняя длина всех документов, переменная $k_1$ — положительный параметр, используемый для нормирования частотного диапазона слов в статье, когда $k_1=0$ , которая является бинарной моделью (без частоты слов), большее значение соответствует использованию более оригинальной информации о частоте слов. b — еще один настраиваемый параметр ( $0<b<1$ ), он решает использовать длину документа для представления диапазона количества информации: когда b равно 1, длина документа полностью используется для взвешивания веса слова, а когда b равно 0, длина документа не используется. .

Релевантность слова для запроса

Когда запрос очень длинный, нам также необходимо охарактеризовать вес между словом и запросом. Для коротких запросов этот пункт необязателен. $S(q_i, Q)=\frac{(k_3+1)tf_{tq}}{k_3+tf_{tq}}$ здесь $tf_{tq}$ Указывает частоту слова t в запросе, $k_3$ — настраиваемый положительный параметр для исправления частотного диапазона слов в запросе.

Следовательно, окончательная формула для BM25: TIM截图20180828203827.png-4.8kB

После тестирования три вышеуказанных регулируемых параметра, $k_1$ и $k_3$ Желательно 1,2~2, b равно 0,75

Вот статья о сравнении насыщенности частоты слов BM25 и IF/IDF, нормализации длины поля и настройке BM25 для справки.--Ссылка на сайт--. О тюнинге БМ25--Ссылка на сайт--

WiW_iWi​Указывает вес слова

Соотношение слов к документам

Релевантность слова для запроса

$W_i$ Указывает вес слова