Прочитайте индекс оценки модели бинарной классификации в одной статье

искусственный интеллект
Прочитайте индекс оценки модели бинарной классификации в одной статье

Рекомендуемое время чтения: 10 мин ~ 12 мин

Содержание статьи: Интерпретация различных показателей оценки моделей бинарной классификации

В моделях классификации существует множество показателей оценки производительности модели, таких как точность, прецизионность, полнота, оценка f1, roc, auc, prc и т. д. Здесь мы постепенно разберемся со значением и использованием этих индикаторов.

матрица путаницы

Прежде чем представить эти понятия, давайте введем понятие: матрица путаницы. Для k-ичной классификации это фактически таблица k x k, используемая для записи результатов прогнозирования классификатора. Для общей бинарной классификации ее матрица путаницы равна 2x2.

Предположим, вы хотите предсказать болезнь для 15 человек, используя 1 для болезни и 0 для нормального состояния. Прогнозируемые результаты следующие:

Предполагаемая стоимость: 1 1 1 1 1 0 0 0 0 0 1 1 1 0 1
реальная стоимость: 0 1 1 0 1 1 0 0 1 0 1 0 1 0 0

Преобразуйте приведенные выше результаты прогнозирования в матрицу путаницы следующим образом:

На рисунке выше показана матрица путаницы для бинарной классификации, из которой можно получить следующую информацию:

  • В выборке данных всего 5 + 2 + 4 + 4 = 15.

  • Есть 5 выборок с истинным значением 1 и предсказанным значением 1, и истинным значением 1. Есть 2 выборки с предсказанным значением 0, и истинное значение равно 0. Есть 4 выборки с предсказанным значением равно 1, а истинное значение равно 0. Прогнозируемое значение Есть 4 выборки, которые также равны 0.

Проблема бинарной классификации может получить истинно положительный (TP, истинно положительный), ложноположительный (FP, ложноположительный), ложноотрицательный (FN, ложноотрицательный) и истинно отрицательный (TN, истинно отрицательный). Эти четыре значения соответствуют четырем позициям матрицы путаницы для задачи бинарной классификации соответственно.

Советы: вышеприведенные четыре концепции часто путают (именно так матрица путаницы получила свое название?), вот небольшой способ помочь вам запомнить ее. В медицине принято считать, что положительный результат — болезнь, а отрицательный — норма. Следовательно, пока появляется ключевое слово «положительный», это означает, что результатом является заболевание. Кроме того, положительные результаты также делятся на истинные положительные и ложные положительные результаты. Это видно из названия: истинные положительные результаты указывают на истинные положительные результаты, которые означает, что они на самом деле положительные (больные), предсказание также положительное (больные); ложные срабатывания представляют собой нереальные положительные результаты, то есть фактические отрицательные (нормальные), предсказанные положительные (больные). Истинные негативы и ложно негативы также могут быть легко поняты так же, как и выше.

Очевидно, здесь TP=5, FP=2, FN=4, TN=4.

Метрики оценки

После разговора о матрице путаницы получаются TP, FP, FN, TN, С помощью этих четырех концепций можно рассчитать различные показатели оценки.

Популяризировать некоторые основные понятия: иногда «положительный», «верный», «положительный класс» и «1» относятся к одному и тому же, а «отрицательный», «ложный», «отрицательный класс» и «0» относятся к одному и тому же веществу. . Например, если результат предсказания модели для этой выборки равен 1, можно считать, что результат предсказания модели для этой выборки истинный, положительный или положительный, что по сути означает одно и то же.

accuracy

Точность, переведенная на китайский язык, обычно называется степенью точности, которая относится к правильной пропорции результатов прогнозирования модели.

В целом, чем выше точность, тем лучше эффект модели.

precision

Точность, переведенная на китайский язык, обычно называется степенью точности, которая относится к доле количества выборок, которые модель предсказывает как истину, а количество выборок, которые на самом деле верны, составляет количество всех истинных выборок, предсказанных моделью.

Как правило, чем выше точность, тем лучше эффект модели.

recall

Отзыв, переведенный на китайский язык, обычно называется коэффициентом отзыва, а в некоторых местах он будет называться коэффициентом отзыва, который относится к пропорции количества выборок, которые предсказывает модель, верны, и количества выборок, которые на самом деле являются верными учетными записями. для общего числа выборок, которые являются истинными.

В целом, чем выше полнота, тем больше положительных образцов правильно предсказывает модель и тем лучше модель.

F1-score

Оценка F1 также называется значением F1, которое является результатом всестороннего рассмотрения точности и полноты, и их веса одинаковы.

В целом, чем выше показатель F1, тем лучше эффект модели.

Fa-score

Fa-оценка является более общей формой F1-оценки, что означает, что вес отзыва равен альфа-кратному весу точности при создании оценки.

В целом, чем выше показатель F1, тем лучше эффект модели.

TPR

TPR - это аббревиатура True Positive Rate. В переводе на китайский язык это вообще называется True Positive Rate. В некоторых местах его назовут чувствительностью. Это означает то же самое. Его метод расчета такой же, как отзыв, что означает, что предсказание модели истинно Отношение количества выборок, которые действительно верны, к количеству выборок, которые действительно верны.

В целом, чем выше TPR, тем больше положительных образцов правильно предсказывает модель, и тем лучше модель.

FPR

FPR – это сокращение от False Positive Rate. В переводе на китайский язык это обычно называется ложноположительным уровнем. Он относится к пропорции количества выборок, которые модель предсказывает верно, а фактическое количество ложных выборок составляет количество всех ложные образцы.

В целом, чем ниже FPR, тем больше отрицательных выборок правильно предсказывает модель, и тем лучше модель.

TNR

TNR – это сокращение от True Negative Rate. В переводе на китайский язык это обычно называется True Negative Rate. В некоторых местах это будет называться специфичностью. Это относится к количеству выборок, которые модель предсказывает как ложные и которые на самом деле неверно пропорция количества.

В целом, чем выше TNR, тем больше отрицательных выборок правильно предсказывает модель, и тем лучше модель.

FNR

FNR является аббревиатуройFalse Negative Rate, В переводе на китайский язык это обычно называется ложноотрицательным показателем, Он относится к пропорции количества выборок, которые предсказывает модель, являются ложными, а фактическое количество истинных выборок составляет количество все подлинные образцы.

В целом, чем ниже FNR, тем больше положительных выборок правильно предсказывает модель, и тем лучше модель.

ROC

Вообще говоря, ROC (кривая рабочих характеристик приемника) относится к кривой ROC. Ордината кривой ROC — это TPR (частота ложноположительных результатов, частота истинно положительных результатов), а абсцисса — это FPR (частота ложноположительных результатов, частота ложноположительных результатов).

Как получить кривую ROC? Видно, что ROC-кривая состоит из ряда (FPR, TPR) точек, но конкретный классификатор получает только один результат классификации, то есть имеется только один набор (FPR, TPR), как получить несколько ?

Все мы знаем, что при прогнозировании каждой выборки общий классификатор может выводить значение вероятности принадлежности выборки к положительному классу (то есть 1), диапазон значения вероятности (0-1), а общий порог ( порог) также равен 0,5. То есть, если значение вероятности больше или равно 0,5, класс считается положительным, в противном случае - классом отрицательным. Теперь мы упорядочиваем предсказанные значения всех выборок (значения вероятностей, принадлежащих к положительному классу) модели в порядке убывания, а затем используем предсказанные значения вероятности в качестве порога по очереди, и каждый раз получаем количество выборок, которые модель предсказывает под порогом как положительные и отрицательные классы. Затем сгенерируйте набор значений (FPR, TPR), чтобы вы могли получить точку на кривой ROC и, наконец, соедините все точки, чтобы они появились ROC-кривая. Очевидно, что чем больше раз будет установлено пороговое значение, тем больше будет сгенерировано значений (FPR, TPR) и тем более гладкой будет нарисована кривая ROC. Другими словами, гладкость кривой ROC имеет абсолютную связь с количеством пороговых значений и не обязательно связана с количеством выборок. На самом деле, большинство кривых ROC, которые мы рисуем, не являются гладкими.

Давайте взглянем на несколько особых точек и особых линий на ROC-кривой.

  1. Первая точка (0, 1), то есть FPR = 0, TPR = 1, что означает FP (ложноположительный) = 0, FN (ложноотрицательный) = 0, что является идеальным классификатором, поскольку он может правильно классифицировать образцы. .

  2. Вторая точка (1, 0), то есть FPR = 1, TPR = 0, что означает TN (истинно отрицательные) = 0, TP (истинно положительные) = 0, что является очень плохим классификатором, потому что все прогнозы неверны. .

  3. Третья точка (0, 0) — это FPR = 0, TPR = 0, что означает FP (ложноположительный) = 0, TP (истинно положительный) = 0, что означает, что модель предсказывает все образцы как отрицательный класс.

  4. Четвертая точка (1, 1), то есть FPR = 1, TPR = 1, означает FN (ложноотрицательные результаты) = 0, TN (истинно отрицательные результаты) = 0, что означает, что модель предсказывает все образцы как положительные.

Из вышеприведенного анализа можно сделать вывод: чем ближе ROC-кривая к верхнему левому углу, тем лучше производительность модели.

Специальная линия: y = x, все точки на этой линии указывают на то, что способность модели к различению неотличима от случайного угадывания.

AUC

AUC (площадь под кривой) определяется как площадь под кривой ROC.Очевидно, что результат AUC не будет превышать 1. Обычно кривая ROC находится выше линии y = x.Поэтому значение AUC обычно находится в пределах 0,5 и 1. между.

Значение AUC не имеет ничего общего с числовым значением каждой прогнозируемой вероятности, а имеет отношение к порядку каждой прогнозируемой вероятности. Например, случайным образом выбираются положительная выборка и отрицательная выборка.Классификатор предсказывает две выборки, чтобы получить значение вероятности того, что каждая выборка принадлежит к положительному классу.После сортировки выборок в соответствии со значением вероятности положительные выборки ранжируются в перед отрицательными образцами Вероятность представляет собой значение AUC. В крайнем случае, если AUC = 1, это означает, что все положительные выборки ранжируются перед отрицательными после того, как модель предскажет все выборки в порядке убывания.

Если AUC меньше 0,5, либо предсказанные метки установлены задом наперед, либо модель действительно плохая.

В целом, чем выше значение AUC, тем лучше модельный эффект.

PRC

PRC (кривая точного отзыва) обычно относится к кривой PRC, ордината кривой PRC — это точность, а абсцисса — это отзыв. Его метод генерации похож на кривую ROC, и он также использует разные пороговые значения для создания разных точек координат и, наконец, соединяет их для генерации.

Давайте посмотрим на следующую особую точку (1, 1), то есть отзыв = 1, точность = 1, что означает FN = 0, FP = 0, и эффект модели классификатора совершенен в это время. Отсюда можно понять, что чем ближе к правому верхнему углу, тем лучше эффект модели.

Поскольку отзыв и TPR одинаковы, абсцисса кривой PRC совпадает с ординатой кривой ROC.

выберите индикатор

Почему так много оценочных показателей? На самом деле разные задачи классификации подходят для использования разных метрик для измерения.

Например, в рекомендательной системе, если вы хотите более точно понять потребности клиентов и избежать продвижения контента, который пользователям не интересен, точность важнее; при обнаружении заболеваний мы не хотим пропустить ни одного заболевания, а затем вспомнить (TPR ) важнее. Когда необходимо учитывать и то, и другое, оценка F1 является эталонной метрикой.

Данные в реальном мире часто сталкиваются с проблемой несбалансированности классов, то есть соотношение положительных и отрицательных выборок несбалансировано, и распределение положительных и отрицательных выборок в тестовых данных также может меняться со временем. Согласно расчетной формуле можно сделать вывод, что при дисбалансе тестовых данных кривая ROC может оставаться в основном неизменной, а PRC сильно изменится.