Сводка общих показателей эффективности алгоритмов машинного обучения
Рассмотрим бинарную задачу, в которой экземпляры классифицируются как положительные или отрицательные. Для дихотомической задачи возникают четыре ситуации. Если экземпляр относится к положительному классу и также прогнозируется как положительный класс, это истинный класс (Истинно положительный), если экземпляр относится к отрицательному классу и прогнозируется как положительный класс, он называется ложноположительным классом. (Ложный положительный результат). Соответственно, если экземпляр является отрицательным классом и прогнозируется как отрицательный класс, он называется истинно отрицательным классом, а если положительный класс прогнозируется как отрицательный класс, он называется ложноотрицательным классом.
- TP: количество правильных срабатываний;
- FN: ложные срабатывания, количество совпадений найдено неправильно;
- FP: ложное срабатывание, указанное совпадение неверно;
- TN: количество правильно отклоненных несовпадающих пар;
Таблица непредвиденных обстоятельств показана в следующей таблице, где 1 представляет положительный класс, а 0 представляет отрицательный класс:
||Предсказать 1 |Предсказать 0 |
|-|-|-|
|Фактическое 1 |Истинно положительный (TP) |Ложноотрицательный (FN) |
|Фактическое 0 |Ложноположительный (FP) |Истинно отрицательный (TN) |
ТПР, ФПР и ТНР
Введите два новых существительных из таблицы непредвиденных обстоятельств. Одним из них является истинный положительный показатель (TPR), который рассчитывается как
TPR=TP/(TP+FN)
Он отображает долю положительных экземпляров, идентифицированных классификатором, по отношению ко всем положительным экземплярам.
Другой - отрицательный положительный показатель (ложноположительный показатель, FPR), формула
FPR=FP/(FP+TN)
Вычисляется доля всех отрицательных экземпляров, которые классификатор ошибочно считает положительным классом.
Существует также истинно отрицательный показатель (TNR), также известный как специфичность, который рассчитывается как
TNR=TN/(FP+TN)=1−FPR
Точность, отзыв и значение F1
Точность (правильная скорость)иотзыватьдве метрики, широко используемые в области поиска информации и статистической классификации для оценки качества результатов. Точность — это отношение количества извлеченных релевантных документов к общему количеству извлеченных документов, которое измеряет производительность поисковой системы.точность; Коэффициент отзыва относится к отношению количества извлеченных релевантных документов к количеству всех релевантных документов в библиотеке документов, что измеряет производительность системы поиска.отзывать.
Вообще говоря, точность относится к тому, сколько из извлеченных элементов (таких как документы, веб-страницы и т. д.) являются точными, а полнота относится к тому, сколько точных элементов было извлечено. Определения этих двух параметров следующие:
Precision = 提取出的正确信息条数 / 提取出的信息条数
Recall = 提取出的正确信息条数 / 样本中的信息条数
Чтобы оценить плюсы и минусы различных алгоритмов, предлагается концепция значения F1 на основе Precision and Recall для оценки Precision и Recall в целом. F1 определяется следующим образом:
F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)
Возьмем этот пример:
В пруду 1400 карпов, 300 креветок и 300 черепах. Теперь о ловле карпа. Закинув большую сеть, они поймали 700 карпов, 200 креветок и 100 мягкотелых черепах. Тогда эти показатели следующие:
正确率 = 700 / (700 + 200 + 100) = 70%
召回率 = 700 / 1400 = 50%
F1值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
Давайте посмотрим, как изменятся эти показатели, если в пруду будут уничтожены все карпы, креветки и черепахи:
正确率 = 1400 / (1400 + 300 + 300) = 70%
召回率 = 1400 / 1400 = 100%
F1值 = 70% * 100% * 2 / (70% + 100%) = 82.35%
Можно видеть, что правильная скорость — это доля целевых результатов в результатах, полученных при оценке; скорость отзыва, как следует из названия, — это доля целевой категории, вызванной из интересующей области; и значение F это оценочный индекс, объединяющий два показателя, который используется для всестороннего отражения общих показателей.
Конечно, есть надежда, что чем выше точность результата поиска, тем лучше, и чем выше отзыв, тем лучше, но на самом деле в некоторых случаях они противоречат друг другу. Например, в крайних случаях мы ищем только один результат, и он точный, тогда точность равна 100%, но отзыв очень низкий; и если мы возвращаем все результаты, например, отзыв равен 100%, но точность будет очень низкой. Поэтому в разных случаях вам нужно судить самостоятельно, хотите ли вы, чтобы Точность была выше или Отзыв был выше. Если вы проводите экспериментальное исследование, вы можете нарисовать кривую Precision-Recall, чтобы упростить анализ.
Индекс комплексной оценки F-мера
Показатели Precision и Recall иногда противоречат друг другу, поэтому их необходимо рассматривать комплексно.Наиболее распространенным методом является F-Measure (также известный как F-Score).
F-мера — это средневзвешенное гармоническое значение точности и полноты:
F=(a2+1)P⋅Ra2(P+R)
При параметре α=1 чаще всего встречается F1. Следовательно, F1 объединяет результаты P и R, и чем выше F1, тем эффективнее метод испытаний.
ROC-кривая
- Определение ROC-кривой
ROC (Receiver Operating Characteristic) переводится как «Кривая рабочих характеристик приемника». Кривая построена двумя переменными, 1-специфичностью и Чувствительностью.1-специфичность=FPR, что является отрицательной и положительной скоростью класса. Чувствительность — это истинный показатель класса, TPR (Истинно положительный показатель), который отражает степень охвата положительного класса. Это сочетание 1-специфичности к чувствительности, то есть затрат к выгодам (выгодам).
Кроме того, кривую ROC можно использовать для расчета «средней средней точности», которая представляет собой среднюю точность (PPV), которую вы получаете, когда выбираете лучший результат, изменяя пороговое значение.
Чтобы лучше понять кривую ROC, мы используем конкретные примеры для иллюстрации:
Например, при медицинском диагностировании это считается больным образцом. Затем постараться выяснить заболевание – это основная задача, то есть первый показатель ТПР, чем выше, тем лучше. И ошибочно диагностировать небольной образец как больной, то есть второй индекс ФПР, чем ниже, тем лучше.
Нетрудно обнаружить, что эти два показателя взаимно ограничивают друг друга. Если врач более чувствителен к симптомам болезни, и даже малейшие симптомы расцениваются как больные, то у него должен быть высокий первый показатель, но соответственно будет высоким и второй показатель. В самом крайнем случае он считает все образцы больными, тогда первый показатель достигает 1, а второй показатель также равен 1.
Мы берем FPR в качестве горизонтальной оси и TPR в качестве вертикальной оси и получаем следующее пространство ROC.
Мы видим, что точка в верхнем левом углу (TPR=1, FPR=0) — это идеальная классификация, то есть врач разбирается в медицине и с диагнозом все в порядке. Точка А (TPR>FPR), заключение врача А в целом правильное. Точка B на средней линии (TPR=FPR), то есть врач B весь прикрыт, наполовину правильно, наполовину неправильно; точка C (TPR Это все та же картина в начале.Предположим, что это диаграмма диагностической статистики врача, и прямая линия представляет собой порог. Мы преодолеваем все пороги и можем получить следующую кривую ROC на плоскости ROC. Чем ближе кривая к верхнему левому углу, тем лучше классификатор. Как и выше, есть три ROC-кривые, прямая линия взята на уровне 0,23. Затем, при таком же низком FPR=0,23, красный классификатор получает более высокий PTR. Это также показывает, что чем выше ROC, тем лучше эффект классификатора. Мы количественно определяем его скалярным значением AUC. Динамические причины введения ROC-кривой Мотивация1:В модели бинарной классификации для полученных непрерывных результатов предполагается, что был определен порог, например 0,6.Случаи, превышающие это значение, классифицируются как положительные, а экземпляры, меньшие этого значения, классифицируются как отрицательные. Если порог уменьшить до 0,5, то, конечно, можно выделить больше положительных классов, то есть увеличить отношение выявленных положительных примеров ко всем положительным примерам, то есть TPR, но при этом отрицательных примеров будет больше. трактуется как Приведен положительный пример, то есть улучшен FPR. Чтобы визуализировать это изменение, вводится ROC, и кривая ROC может использоваться для оценки классификатора. Мотивация2:В случае дисбаланса классов, например, 90 положительных образцов и 10 отрицательных образцов, все образцы напрямую классифицируются как положительные образцы, и уровень распознавания составляет 90%. Но это явно не имеет смысла. Простое измерение плюсов и минусов алгоритмов, основанных на точности и отзыве, уже не может охарактеризовать эту болезненную проблему. Значение AUC представляет собой площадь, охватываемую кривой ROC.Очевидно, что чем больше AUC, тем лучше классификационный эффект классификатора. AUC = 1 является идеальным классификатором.При использовании этой модели прогнозирования независимо от того, какой порог установлен, можно получить идеальный прогноз. В подавляющем большинстве случаев прогнозирования идеального классификатора не существует. 0,5
AUC = 0,5, то же, что и машинное угадывание (например, потеря медной пластины), модель не имеет прогностической ценности. AUC
Физический смысл AUC: Предполагая, что результатом работы классификатора является socre (уверенность) в том, что образец принадлежит к положительному классу, физический смысл AUC заключается в том, что при взятии любой пары (положительных и отрицательных) образцов оценка положительного образца больше. чем вероятность оценки отрицательного образца. Первый метод: AUC — это площадь под ROC-кривой, тогда мы можем напрямую рассчитать площадь. Площадь равна сумме площадей малых трапеций. Точность расчета связана с точностью порога. Второй способ: по физическому смыслу AUC вычисляем вероятность того, что оценка положительных образцов больше, чем оценка отрицательных образцов. взятыйM (N — количество положительных образцов, M — количество отрицательных образцов) два кортежа, сравнить баллы и, наконец, получить AUC. Временная сложность O(NМ). Третий метод: аналогично второму методу, непосредственно вычислите вероятность того, что оценка положительного образца больше, чем у отрицательного образца. Сначала мы сортируем все выборки в соответствии с оценкой и используем ранг для их представления по очереди, например, выборка с наибольшим количеством очков, rank=n (n=N+M), за которой следует n-1. Тогда для выборки с наибольшим рангом среди положительных выборок, rank_max, есть M-1 других положительных выборок, которые меньше, чем его оценка, затем есть (rank_max-1)-(M-1) отрицательных выборок, которые меньше, чем его оценка. его счет. Второй - (rank_second-1)-(M-2). Наконец, мы получаем вероятность того, что положительная выборка больше, чем отрицательная, как ∑(всеположительные)ранг−M(M+1)M⋅N Временная сложность O(N+M). [1] Большая сводка показателей машинного обучения:woohoo.36TV.com/archives/42… [2] Сводка общих показателей алгоритмов машинного обучения:woo woo woo.cn blog on.com/maybe2030/ боюсь…
Кривая AUC
использованная литература