Общий индекс оценки информационного поиска【 MAP nDCG ERR F-measure Precision Recall 】

машинное обучение

blog.CSDN.net/Баланс спроса и предложения продовольствия/Арити…

Связанная литература:

научиться ранжировать:En. Wikipedia.org/wiki/learn i…МРР:En. Wikipedia.org/wiki/mean_day…Точность и отзыв:En. Wikipedia.org/wiki/precis…блог Чейлза:Что вставлено GitHub.IO/2016/03/mod…

Точность и отзыв

此处输入图片的描述

Точность (П)

Относится к доле связанных документов в извлеченных документах, формула выглядит следующим образом:

这里写图片描述

Если мы рассмотрим только точность первых n документов из всех вызванных результатов, называемых P@n

Напомним: (Р)

Коэффициент отзыва относится к доле всех соответствующих документов, которые были отозваны, и формула выглядит следующим образом:

这里写图片描述

Если мы рассмотрим только точность первых n документов из всех вызванных результатов, она называется R@n.

Даже простое соблюдение 100%-го коэффициента отзыва не имеет особого смысла.Хотя все соответствующие документы отзываются, затраты часто сопровождаются отзывом большего количества нерелевантных документов, что приводит к снижению уровня точности, поэтому два должны быть рассмотрены на первом этапе. одновременно, показатели должны быть максимально высокими.

F-measure

Метрика, учитывающая как точность, так и полноту. Формула выглядит следующим образом:

F = \frac{2 \times precision \times recall}{(precision+recall)}

Видно, что значение F колеблется от 0 до 1. Существует также вариант F, как показано ниже:

943d5bcb114e485d8b18053e106640e5.png

Две общие настройкиF2иF0.5, припоминание в два раза важнее точности в первом, а во втором — наоборот, точность вдвое важнее припоминания.

Две средние значения точности (MAP)

И точность, и полнота могут измерять только один аспект производительности поиска, и идеальная ситуация такова, что и точность, и полнота относительно высоки. Когда мы хотим улучшить скорость отзыва, это определенно повлияет на уровень точности, поэтому уровень точности можно рассматривать как функцию скорости отзыва, а именно:P=f(R), то есть при изменении скорости отзыва от 0 до 1 изменяется и скорость точности. тогда функцияP=f(R)Интегрирование по R дает ожидаемое среднее значение P. Формула выглядит следующим образом:

这里写图片描述

дифференциал:

这里写图片描述

где k — ранг документа в отозванном документе, n — количество всех отозванных документов,P(k)для отключенияkв точности списка,\Delta r(k)заk-1прибытьkВариация в отзыве

эквивалентна следующей формуле:

这里写图片描述

rel(k)Значение 0 или 1, если док является связанным документом,rel(k)равен 1, иначе 0,

Метод расчета AvePAveP можно просто рассматривать как:

AveP=\frac{1}{R}\times\sum_{r=1}^R \frac{r}{position(r)}

вRпредставляет общее количество связанных документов,position(r)Указывает позицию rrth связанного документа в списке от начала к концу списка результатов. Например, если есть три связанных документа с позициями 1, 3 и 6, тоAveP=\frac{1}{3}\times (\frac{1}{1}+\frac{2}{3}+\frac{3}{6}). При программировании следует учитывать, что позиция и i-й связанный документ начинаются с 1, а не с 0.AvePСмысл в том, что при постепенном увеличении скорости отзыва от 0 до 1 добавляется буква P в каждой позиции R, то есть точность должна быть относительно высокой, чтобы конечнаяAvePбольше.

Наконец~, MAP вычисляет среднюю оценку точности всех запросов:

MAP=\frac{\sum_{q=1}^Q AveP(q)}{Q}

Q — общее количество запросов.

Три средних обратного ранга (MRR)

MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|}\frac{1}{rank_i}

where rank_irefers to the rank position of the first relevant document for the i-th query.

Инверсия ранжирования первого правильного ответа. MRR относится к среднему значению взаимного ранжирования нескольких операторов запроса.

这里写图片描述

Четыре Ожидаемый взаимный ранг (ERR)

Одно из соображений заключается в том, что то, щелкнул ли пользователь документ, имеет большую связь с документами перед ним. Например, если документы на переднем плане являются нерелевантными документами, то вероятность нажатия высока. Документы очень релевантны. документов, поэтому вероятность того, что по нему щелкнут, очень мала. Каскадные модели предполагают, что пользователи просматривают документы в порядке сверху вниз и прекращают просмотр последующих документов, как только документ удовлетворяет потребности пользователя. Используйте RiRi для представления вероятности того, что пользователю не нужно просматривать другие документы после просмотра только документа в позиции ii.Очевидно, что чем выше релевантность документа,R_iбольше. Тогда формула вероятности того, что пользователь остановится в позиции i, выглядит следующим образом:

PP_r=\prod_{i=1}^{r-1}(1-R_i)R_r

ERR представляет собой ожидание обратной величины того, где остановиться, когда потребности пользователя будут удовлетворены. Во-первых, вычислить вероятность того, что пользователь остановится в месте rr.PP_r,Следующее:

PP_r=\prod_{i=1}^{r-1}(1-R_i)R_r

вR_iявляется функцией уровня релевантности документа, и могут быть выбраны следующие функции:

54e11137974c4aa78bccbb9db6fe3943.png

Тогда формула расчета ERR выглядит следующим образом:

43f7b714dbcc427b9897afd1be4bf027.png

В более общем смысле, ERR не обязательно вычисляет ожидание обратного значения позиции, чтобы остановиться, когда потребности пользователя удовлетворены, но может быть и другими функциями, основанными на позиции.φ(r), пока он удовлетворяетφ(0)=1φ(r)→0вместе сr→∞. например в DCG\varphi(r)=\frac{1}{log_2 (r+1)}Бумага ОШИБКИ:Web.archive.org/Web/2012022…

Пять дисконтированных совокупных доходов (DCG)

В формуле расчета MAP есть только два типа документов, релевантных и нерелевантных, в то время как в nDCG релевантность документов может оцениваться на нескольких уровнях.

Cumulative Gain (CG)

Рассчитайте CG перед расчетом DCG, формула выглядит следующим образом:

CG=\sum_{i=1}^p rel_i

rel_i- корреляция в позиции i, приведенная выше формула вычисляет сумму корреляций первых p результатов Обратите внимание, что произвольный порядок вызванных документов не влияет на значение функции компьютерной графики.Например, три отозванных документа имеют ранг doc1, doc2 и doc3 в последовательности, а корреляции равны 3, 2 и 0. Порядок ранжирования: doc3, doc2, doc1, а его значение CG по-прежнему равно 5. Первая сортировка является наиболее разумной, но значение CG остается прежним.

Дисконтированный совокупный выигрыш (DCG)

Следовательно, чтобы ввести метрический расчет информации о местоположении, необходимо учитывать как уровень релевантности документа, так и информацию о местоположении, где он находится. Предполагая, что каждая позиция отсортирована от меньшего к большему, Их значения уменьшаются по порядку, а это значит, что чем выше корреляция, тем ниже ранжирование, оценка должна быть оштрафована, Можно предположить, что значение i-й позиции равно\frac{1}{log_2(i+1)}, то выгода от документа на i-й позиции равнаrel_i \times\frac{1}{log_2 (i+1)}=\frac{rel_i}{log_2 (i+1)}, формула выглядит следующим образом:

e2df7ee9c7894e4887022cdaa6e99530.png

Другой более часто используемый метод расчета DCG, используемый для увеличения доли корреляционного влияния:

6960fa612da94422b58ad5795517b878.png

Нормализованная DCG (NDCG)

Поскольку длина результирующего набора документов, извлекаемого каждым оператором запроса, различна, разница в значении p будет иметь большее влияние на вычисление DCG. Следовательно, DCG различных операторов запроса не может быть Для усреднения требуется нормализация. nDCG использует IDCG для нормализации, указывая, насколько текущий DCG хуже, чем IDCG. Формула выглядит следующим образом:

nDCG_p = \frac{DCG_p}{IDCG_p}

IDCG — идеальное максимальное значение DCG.

IDCG_p =\sum_{i=1}^{|REL|} \frac{2^{rel_i} -1}{log_2 (i+1)}

в|REL|Указывает, что документы отсортированы в порядке убывания релевантности, и берется набор, состоящий из первых p документов. То есть документы сортируются оптимальным образом.

Как рассчитать

Если первые 6 документов, вызванных запросом,D=\{d_1, d_2, d_3,d_4,d_5, d_6\}Показатели корреляции находятся в порядке3,2,3,0,1,2значитd_1имеет показатель корреляции 3,d_2Показатель корреляции равен 2 и так далее.CGЗначение:

此处输入图片的描述
Видно, что отзыв представляет собой простую сумму баллов первых 6 документов, а влияние позиции документа на результат ранжирования не учитывается. иDCGИдея состоит в том, что чем выше релевантность документа, тем больше будет наказание.DCGрассчитывается следующим образом
此处输入图片的描述
Поскольку количество отозванных документов для каждого запроса различно, DCG нельзя сравнивать единообразно, поэтому требуется нормализация. Сначала вычислите IDCG, мы предполагаем, что этот запрос действительно вызывает восемь документов, в дополнение к вышеупомянутым 6 документам, естьdoc_7Оценка 3,dooc_8Значение оценки равно 0, а соответствующий порядок оценок в случае идеального ранга:3,3,3,2,2,1,0рассчитатьIDCG@6: IDCG_6= 8.740

nIDCG_6=\frac{DCG_6}{IDCG_6}=\frac{6.861}{8.740}=0.785

ограничение

  • nDCG не может наказывать "плохие" документы. Например, два запроса возвращают два столбца результатов с оценками1,1,1, 1,1,10Тогда nDCG обоих одинакова. Обрати внимание наExcellent,Fair,BadКартирование для оценки чисел лучше всего1,0, -1, вместо чего-то вроде2,1,0
  • nDCG не может наказывать «отсутствующий» документ, например, два запроса возвращают два столбца результатов, оценки1,1,1,1,1,1,1,1, Первый вычисляетDCG@3, последний вычисляетDCG@5Если да, то оба документа можно считать хорошими. Решение состоит в том, чтобы взять фиксированный размер топка для расчетаDCG@k, и добавьте "минимальный балл веса" после результата отзыва запроса с недостаточным документом, например1,1,1,0,0,1,1,1,1,1Рассчитать обаnDCG@5

Значение Precision и Recall в моделях классификации

матрица путаницы

True Positive (true, TP): предскажите положительный класс как количество положительных классов. Истинный отрицательный (истинный отрицательный, TN): предскажите отрицательный класс как количество отрицательных классов. Ложноположительный (ложноположительный, FP): предскажите отрицательный класс как количество положительных классов →→ Ложноположительный (ошибка типа I). Ложноотрицательный (Ложноотрицательный, FN): Предскажите положительный класс как количество отрицательных классов →→ Ложноотрицательный (ошибка типа II).

ef436e252efd4e77a710d2df4662e135.png

Точность определяется как:

P = \frac{TP}{TP+FP} \tag{1}

Следует отметить, что точность и аккуратность различны.

ACC = \frac{TP + TN}{TP+TN+FP+FN}

В случае несбалансированных положительных и отрицательных выборок показатель точности имеет большой недостаток. Например, в интернет-рекламе количество кликов очень мало, как правило, всего несколько тысячных.Если используется акк, то даже если прогнозируется, что все они будут отрицательными (нет кликов), акк все равно будет более 99%, что бессмысленно.

Скорость отзыва (отзыв, чувствительность, истинная положительная скорость) определяется как:

R = \frac{TP}{TP+FN} \tag{2}

Кроме того, есть значение F1F1, которое является гармоническим средним значением точности и полноты.

\frac{2}{F_1} = \frac{1}{P} + \frac{1}{R}
F_1 = \frac{2TP}{2TP + FP + FN} \tag{3}

Когда точность и правильность высоки, значение F1F1 также будет высоким.

популярная версия

На самом деле это довольно просто, точность — это то, что мы предсказываем, и то, сколько выборок, которые были предсказаны как положительные, оказались правильными. Тогда есть две возможности предсказать положительный результат: один — предсказать положительный класс как положительный класс (TP), а другой — предсказать отрицательный класс как положительный класс (FP). Скорость отзыва указана для нашей исходной выборки, которая указывает, сколько положительных примеров в выборке предсказано правильно. Есть также две возможности: одна — предсказать исходный положительный класс как положительный класс (TP), а другая — предсказать исходный положительный класс как отрицательный класс (FN).

fa9c9a963a6e4ddaa959e2af6b1ee093.png