Общий индекс оценки информационного поиска【 MAP nDCG ERR F-measure Precision Recall 】

blog.CSDN.net/Баланс спроса и предложения продовольствия/Арити…

Связанная литература:

научиться ранжировать:En. Wikipedia.org/wiki/learn i…МРР:En. Wikipedia.org/wiki/mean_day…Точность и отзыв:En. Wikipedia.org/wiki/precis…блог Чейлза:Что вставлено GitHub.IO/2016/03/mod…

Точность и отзыв

Точность (П)

Относится к доле связанных документов в извлеченных документах, формула выглядит следующим образом:

Если мы рассмотрим только точность первых n документов из всех вызванных результатов, называемых P@n

Напомним: (Р)

Коэффициент отзыва относится к доле всех соответствующих документов, которые были отозваны, и формула выглядит следующим образом:

Если мы рассмотрим только точность первых n документов из всех вызванных результатов, она называется R@n.

Даже простое соблюдение 100%-го коэффициента отзыва не имеет особого смысла.Хотя все соответствующие документы отзываются, затраты часто сопровождаются отзывом большего количества нерелевантных документов, что приводит к снижению уровня точности, поэтому два должны быть рассмотрены на первом этапе. одновременно, показатели должны быть максимально высокими.

F-measure

Метрика, учитывающая как точность, так и полноту. Формула выглядит следующим образом:

F = \frac{2 \times precision \times recall}{(precision+recall)}

Видно, что значение F колеблется от 0 до 1. Существует также вариант F, как показано ниже:

Две общие настройкии F0.5 , припоминание в два раза важнее точности в первом, а во втором — наоборот, точность вдвое важнее припоминания.

Две средние значения точности (MAP)

И точность, и полнота могут измерять только один аспект производительности поиска, и идеальная ситуация такова, что и точность, и полнота относительно высоки. Когда мы хотим улучшить скорость отзыва, это определенно повлияет на уровень точности, поэтому уровень точности можно рассматривать как функцию скорости отзыва, а именно: P=f(R) , то есть при изменении скорости отзыва от 0 до 1 изменяется и скорость точности. тогда функция P=f(R) Интегрирование по R дает ожидаемое среднее значение P. Формула выглядит следующим образом:

дифференциал:

где k — ранг документа в отозванном документе, n — количество всех отозванных документов, P(k) для отключенияв точности списка, $\Delta r(k)$ за k-1 прибытьВариация в отзыве

эквивалентна следующей формуле:

rel(k) Значение 0 или 1, если док является связанным документом, rel(k) равен 1, иначе 0,

Метод расчета AvePAveP можно просто рассматривать как:

AveP=\frac{1}{R}\times\sum_{r=1}^R \frac{r}{position(r)}

впредставляет общее количество связанных документов, position(r) Указывает позицию rrth связанного документа в списке от начала к концу списка результатов. Например, если есть три связанных документа с позициями 1, 3 и 6, то $AveP=\frac{1}{3}\times (\frac{1}{1}+\frac{2}{3}+\frac{3}{6})$ . При программировании следует учитывать, что позиция и i-й связанный документ начинаются с 1, а не с 0. AveP Смысл в том, что при постепенном увеличении скорости отзыва от 0 до 1 добавляется буква P в каждой позиции R, то есть точность должна быть относительно высокой, чтобы конечная AveP больше.

Наконец~, MAP вычисляет среднюю оценку точности всех запросов:

Q — общее количество запросов.

Три средних обратного ранга (MRR)

MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|}\frac{1}{rank_i}

where rank_i refers to the rank position of the first relevant document for the i-th query.

Инверсия ранжирования первого правильного ответа. MRR относится к среднему значению взаимного ранжирования нескольких операторов запроса.

Четыре Ожидаемый взаимный ранг (ERR)

Одно из соображений заключается в том, что то, щелкнул ли пользователь документ, имеет большую связь с документами перед ним. Например, если документы на переднем плане являются нерелевантными документами, то вероятность нажатия высока. Документы очень релевантны. документов, поэтому вероятность того, что по нему щелкнут, очень мала. Каскадные модели предполагают, что пользователи просматривают документы в порядке сверху вниз и прекращают просмотр последующих документов, как только документ удовлетворяет потребности пользователя. Используйте RiRi для представления вероятности того, что пользователю не нужно просматривать другие документы после просмотра только документа в позиции ii.Очевидно, что чем выше релевантность документа, R_i больше. Тогда формула вероятности того, что пользователь остановится в позиции i, выглядит следующим образом:

ERR представляет собой ожидание обратной величины того, где остановиться, когда потребности пользователя будут удовлетворены. Во-первых, вычислить вероятность того, что пользователь остановится в месте rr. PP_r ,Следующее:

в R_i является функцией уровня релевантности документа, и могут быть выбраны следующие функции:

Тогда формула расчета ERR выглядит следующим образом:

В более общем смысле, ERR не обязательно вычисляет ожидание обратного значения позиции, чтобы остановиться, когда потребности пользователя удовлетворены, но может быть и другими функциями, основанными на позиции. φ(r) , пока он удовлетворяет φ(0)=1 ,и φ(r)→0 вместе с r→∞ . например в DCG $\varphi(r)=\frac{1}{log_2 (r+1)}$ Бумага ОШИБКИ:Web.archive.org/Web/2012022…

Пять дисконтированных совокупных доходов (DCG)

В формуле расчета MAP есть только два типа документов, релевантных и нерелевантных, в то время как в nDCG релевантность документов может оцениваться на нескольких уровнях.

Cumulative Gain (CG)

Рассчитайте CG перед расчетом DCG, формула выглядит следующим образом:

rel_i - корреляция в позиции i, приведенная выше формула вычисляет сумму корреляций первых p результатов Обратите внимание, что произвольный порядок вызванных документов не влияет на значение функции компьютерной графики.Например, три отозванных документа имеют ранг doc1, doc2 и doc3 в последовательности, а корреляции равны 3, 2 и 0. Порядок ранжирования: doc3, doc2, doc1, а его значение CG по-прежнему равно 5. Первая сортировка является наиболее разумной, но значение CG остается прежним.

Дисконтированный совокупный выигрыш (DCG)

Следовательно, чтобы ввести метрический расчет информации о местоположении, необходимо учитывать как уровень релевантности документа, так и информацию о местоположении, где он находится. Предполагая, что каждая позиция отсортирована от меньшего к большему, Их значения уменьшаются по порядку, а это значит, что чем выше корреляция, тем ниже ранжирование, оценка должна быть оштрафована, Можно предположить, что значение i-й позиции равно $\frac{1}{log_2(i+1)}$ , то выгода от документа на i-й позиции равна $rel_i \times\frac{1}{log_2 (i+1)}=\frac{rel_i}{log_2 (i+1)}$ , формула выглядит следующим образом:

Другой более часто используемый метод расчета DCG, используемый для увеличения доли корреляционного влияния:

Нормализованная DCG (NDCG)

Поскольку длина результирующего набора документов, извлекаемого каждым оператором запроса, различна, разница в значении p будет иметь большее влияние на вычисление DCG. Следовательно, DCG различных операторов запроса не может быть Для усреднения требуется нормализация. nDCG использует IDCG для нормализации, указывая, насколько текущий DCG хуже, чем IDCG. Формула выглядит следующим образом:

IDCG — идеальное максимальное значение DCG.

IDCG_p =\sum_{i=1}^{|REL|} \frac{2^{rel_i} -1}{log_2 (i+1)}

в |REL| Указывает, что документы отсортированы в порядке убывания релевантности, и берется набор, состоящий из первых p документов. То есть документы сортируются оптимальным образом.

Как рассчитать

Если первые 6 документов, вызванных запросом, $D=\{d_1, d_2, d_3,d_4,d_5, d_6\}$ Показатели корреляции находятся в порядке 3,2,3,0,1,2 значит d_1 имеет показатель корреляции 3, d_2 Показатель корреляции равен 2 и так далее.Значение:

Видно, что отзыв представляет собой простую сумму баллов первых 6 документов, а влияние позиции документа на результат ранжирования не учитывается. и DCG

Идея состоит в том, что чем выше релевантность документа, тем больше будет наказание. DCG

рассчитывается следующим образом

Поскольку количество отозванных документов для каждого запроса различно, DCG нельзя сравнивать единообразно, поэтому требуется нормализация. Сначала вычислите IDCG, мы предполагаем, что этот запрос действительно вызывает восемь документов, в дополнение к вышеупомянутым 6 документам, есть doc_7

Оценка 3,

Значение оценки равно 0, а соответствующий порядок оценок в случае идеального ранга: 3,3,3,2,2,1,0

рассчитать IDCG@6

nIDCG_6=\frac{DCG_6}{IDCG_6}=\frac{6.861}{8.740}=0.785

ограничение

nDCG не может наказывать "плохие" документы. Например, два запроса возвращают два столбца результатов с оценками, Тогда nDCG обоих одинакова. Обрати внимание на,,Картирование для оценки чисел лучше всего, вместо чего-то вроде
nDCG не может наказывать «отсутствующий» документ, например, два запроса возвращают два столбца результатов, оценки,, Первый вычисляет, последний вычисляетЕсли да, то оба документа можно считать хорошими. Решение состоит в том, чтобы взять фиксированный размер топка для расчета, и добавьте "минимальный балл веса" после результата отзыва запроса с недостаточным документом, например,Рассчитать оба

Значение Precision и Recall в моделях классификации

матрица путаницы

True Positive (true, TP): предскажите положительный класс как количество положительных классов. Истинный отрицательный (истинный отрицательный, TN): предскажите отрицательный класс как количество отрицательных классов. Ложноположительный (ложноположительный, FP): предскажите отрицательный класс как количество положительных классов →→ Ложноположительный (ошибка типа I). Ложноотрицательный (Ложноотрицательный, FN): Предскажите положительный класс как количество отрицательных классов →→ Ложноотрицательный (ошибка типа II).

Точность определяется как:

Следует отметить, что точность и аккуратность различны.

В случае несбалансированных положительных и отрицательных выборок показатель точности имеет большой недостаток. Например, в интернет-рекламе количество кликов очень мало, как правило, всего несколько тысячных.Если используется акк, то даже если прогнозируется, что все они будут отрицательными (нет кликов), акк все равно будет более 99%, что бессмысленно.

Скорость отзыва (отзыв, чувствительность, истинная положительная скорость) определяется как: