BM25 — это классический алгоритм, используемый в области индексации информации для расчета показателя сходства между запросом и документом. В отличие от TF-IDF, формула BM25 в основном состоит из трех частей:
- Соотношение между каждым словом t в запросе и документом d
- Сходство между словом t и запросом
- вес каждого слова
Общая формула для BM25:впредставляет запрос,Представляет слово в запросе. d представляет определенный поисковый документ.
Указывает вес слова
Вот собственно ЦАХАЛ:где N представляет собой общее количество документов в индексе,включатьколичество документов. По роли ЦАХАЛа, для определенного,ВключаютЧем больше документов, тем большеЧем меньше важность или чем ниже степень дискриминации, тем меньше IDF, поэтому IDF можно использовать для описанияСходство с документацией.
Соотношение слов к документам
Дизайн BM25 основан на важном открытии: связь между частотой слов и релевантностью нелинейна, то есть оценка релевантности каждого слова документу не превышает определенного порога, когда количество вхождений слова достигает порога. После этого его влияние не будет возрастать линейно, и этот порог будет связан с самим документом. Поэтому при характеристике сходства между словами и документами BM25 оформляется следующим образом:
в,частота слова t в документе d,длина документа d,средняя длина всех документов, переменная— положительный параметр, используемый для нормирования частотного диапазона слов в статье, когда, которая является бинарной моделью (без частоты слов), большее значение соответствует использованию более оригинальной информации о частоте слов. b — еще один настраиваемый параметр (), он решает использовать длину документа для представления диапазона количества информации: когда b равно 1, длина документа полностью используется для взвешивания веса слова, а когда b равно 0, длина документа не используется. .
Релевантность слова для запроса
Когда запрос очень длинный, нам также необходимо охарактеризовать вес между словом и запросом. Для коротких запросов этот пункт необязателен.здесьУказывает частоту слова t в запросе,— настраиваемый положительный параметр для исправления частотного диапазона слов в запросе.
Следовательно, окончательная формула для BM25:
После тестирования три вышеуказанных регулируемых параметра,иЖелательно 1,2~2, b равно 0,75
Вот статья о сравнении насыщенности частоты слов BM25 и IF/IDF, нормализации длины поля и настройке BM25 для справки.--Ссылка на сайт--. О тюнинге БМ25--Ссылка на сайт--