существует«Понимание перекрестной проверки»В статье мы говорили об использовании AUC для сравнения качества разных моделей, так что же такое AUC? Как он измеряет качество модели? Существуют ли другие оценки, кроме AUC? В этой статье мы обсудим эти вопросы.
матрица путаницы
Чтобы понять AUC, нам нужно начать с другого понятия - Матрица путаницы, Матрица путаницы представляет собой 2-мерную квадратную матрицу, которая в основном используется для оценки задач бинарной классификации (например: предсказание или отсутствие болезни сердца, запасы или вниз, есть только два типа вопросов) хорошо или плохо. Вы можете спросить, а как насчет задач с несколькими классификациями? Фактически, задачи множественной классификации все же можно преобразовать в задачи бинарной классификации для обработки. На следующем рисунке представлена матрица путаницы для определения наличия у вас болезни сердца:
Глядя на матрицу путаницы по вертикали, она отражает количество людей с заболеванием и без него в реальной ситуации.На приведенном выше рисунке количество людей с заболеванием сердца равно True Positive + False Negative, а количество людей без заболевания сердца равно False Positive + True Negative ; Аналогичным образом, глядя на матрицу путаницы по горизонтали, она отражает, что количество людей, по прогнозам модели, имеющих сердечные заболевания, равно True Positive + False Positive, а количество людей, у которых, по прогнозам, нет сердечных заболеваний, равно Ложноотрицательный + истинно отрицательный.
Глядя на два направления вместе, предсказывая болезнь и фактически получая болезнь, мы называем это истинно положительным, а предсказание того, что болезни нет и на самом деле нет болезни, называется истинно отрицательным. предсказание модели; ошибка предсказания модели также может быть разделена на два случая: ложноположительный (ложноположительный) означает, что болезнь прогнозируется, но на самом деле она не является болезнью, и ложноотрицательный (ложноотрицательный) означает, что прогноз не является заболеванием, но собственно болезнью не является.Болезненное состояние.
Понятий очень много, но запомнить не сложно.Вы видите, что эти существительные названы вокруг предсказания - когда предсказано заболевание, то оно называется "Истинно/Ложноположительно", а когда заболевание не предсказано , это называется «Истинно положительный»./Ложноотрицательный».
На приведенном выше рисунке правильная часть предсказания модели закрашена зеленым цветом, и ее доля также называется показателем точности (Accuracy):
Одного показателя точности недостаточно для оценки качества модели.Например, в следующем случае, хотя уровень точности может достигать 80%, в реальной больной популяции вероятность успеха прогнозирования модели составляет всего 50%. Очевидно, что это не лучшая модель.
страдать от болезней сердца | нет болезней сердца | |
---|---|---|
страдать от болезней сердца | 10 | 10 |
нет болезней сердца | 10 | 70 |
Чувствительность и специфичность
Следовательно, нам необходимо ввести больше показателей измерения.Чувствительность (или Отзыв) указывает на вероятность успеха в прогнозировании заболевания у реальных пациентов.В то же время слово Чувствительность также означает «аллергический», что соответствует заболеванию, поэтому оно легче запомнить, когда это связано. :
Поскольку есть показатель для измерения болезни (положительный пример), должен быть также показатель для измерения не заболевших (отрицательный пример).
Слово «специфичность» имеет значение «иммунитет» и может ассоциироваться с отсутствием заболевания, поэтому его также легко запомнить.
Появление этих двух индикаторов может лучше помочь вам сравнить различия между моделями и найти компромисс между ними. Например, когда точность двух моделей одинакова, если вы уделяете больше внимания эффекту прогнозирования заболевания, вам следует выбрать модель с более высоким значением чувствительности; наоборот, если вы уделяете больше внимания эффекту прогнозирования нет болезни, следует выбрать Специфичность с более высоким значением.
Кривая ROC, AUC и оценка F1
Кроме того, мы также можем получить более интуитивные результаты оценки, построив график этих показателей, и кривая ROC (рабочая характеристика приемника) является одной из наиболее часто используемых.
Мы знаем, что результатом модели классификации (такой как «логистическая регрессия») является вероятность больше 0 и меньше 1. В настоящее время нам также нужен порог, чтобы определить, является ли он больным. Обычно мы устанавливаем порог равным 0,5, так что, когда результат больше 0,5, можно считать больным, в противном случае - не больным.
Порог может принимать любое значение от 0 до 1. Для каждого порога существует соответствующая ему матрица путаницы. С помощью матрицы путаницы мы можем найти пару чувствительности и специфичности. Через эти два числа мы можем нарисовать точку на систему координат с 1-Specificity в качестве абсцисс и Sensitivity в качестве ординаты, и соедините точки, созданные всеми возможными пороговыми значениями, которые представляют собой кривую ROC.
Давайте рассмотрим конкретный пример. Предположим, мы проводим исследование на мышах и надеемся предсказать вероятность сердечных заболеваний по весу мыши. Мы используем алгоритм логистической регрессии для моделирования. На рисунке ниже показан результат прогноза. На рисунке 10. Точки выборки мышей, где красные точки представляют фактически здоровых мышей, а синие точки представляют фактических больных мышей. Эти точки соответствуют кривой логистической регрессии. На рисунке также есть линия с P = 0,5 для указывают, что порог равен 0, 5. Можно видеть, что 5 мышей выше P = 0, 5 прогнозируются как больные, а остальные 5 мышей прогнозируются как здоровые, с прогнозируемой вероятностью успеха (точность) 80%:
Затем мы используем приведенные выше данные для построения кривой ROC. Во-первых, установите порог на 1. В настоящее время прогнозируется, что все мыши не будут затронуты.В соответствии с фактической ситуацией заболевания в образце мы можем получить следующую матрицу путаницы
В соответствии с приведенной выше матрицей путаницы мы можем рассчитать набор значений чувствительности и специфичности. Затем мы постоянно корректируем порог, чтобы получить все пары "Чувствительность" и "Специфика". Поскольку здесь у нас мало точек выборки, мы можем выбрать порог в соответствии с точкой выборки. Горизонтальная линия по-прежнему используется для представления порога. Условия выборки всех порогов следующие:
Перечислим матрицы путаницы, соответствующие этим порогам:
Затем вычислите чувствительность и 1-специфичность для этих матриц путаницы:
Threshold | Sensitivity | 1- Specificity |
---|---|---|
1 | 0 | 0 |
0.99 | 0.2 | 0 |
0.97 | 0.4 | 0 |
0.94 | 0.4 | 0.2 |
0.90 | 0.6 | 0.2 |
0.71 | 0.8 | 0.2 |
0.09 | 0.8 | 0.4 |
0.043 | 1.0 | 0.4 |
0.0061 | 1.0 | 0.6 |
0.0003 | 1.0 | 0.8 |
0 | 1.0 | 1.0 |
Согласно этой таблице, возьмите 1-Specificity как горизонтальную ось и Sensitivity как вертикальную ось, чтобы нарисовать график.Обычно при построении кривой ROC мы обозначаем ось координат, соответствующую 1-Specificity, как FPR (False Positive Rate), и возьмите координату, соответствующую чувствительности, как FPR (ложноположительная скорость).Ось отмечена как TPR (истинно положительная скорость), следующим образом:
Кривая ROC имеет следующие характеристики:
- Каждая точка на диагонали от точки (0, 0) до точки (1,1) означает, что у больных вероятность успеха прогнозирования заболевания (TPR), а у лиц без заболевания вероятность успеха прогнозирования Заболевание безВероятность отказа от заболевания (FPR) равна.Для модели, чем больше TPR, тем лучше, и чем меньше FPR, тем лучше.Поэтому нам нужно сделать кривую ROC как можно дальше от диагонали можно по верхнему левому углу.
- Кривая ROC также может помочь нам выбрать соответствующий порог, то есть, когда TPR одинаков, чем дальше точка на ROC, тем лучше эффект, потому что чем дальше влево, тем меньше FPR.
Согласно первой особенности ROC-кривой: «Чем ближе кривая к верхнему левому углу, тем лучше эффект модели», а это означает, что лучшая модель имеет большую площадь под кривой. Мы называем площадь под кривая ROC AUC (площадь под кривой), с этой концепцией только одно значение может измерять качество модели. AUC приведенной выше примерной модели выглядит следующим образом:
Обычно мы используем AUC для оценки модели.Поскольку это «обычно», должны быть исключения: когда распространенность (или доля положительных образцов) очень мала, True Negative будет очень большим, и это значение сделает воздействовать на FPR, сделать FPR меньше, чтобы избежать этого эффекта, мы можем заменить FPR на другой показатель: Precision
Значение Precision заключается в прогнозировании доли больных образцов, которые действительно больны, таким образом, сочетание Precision и Sensitivity позволит нам больше сосредоточиться на прогнозирующем эффекте больных (положительных образцов), а другое — на машинном обучении. :F1 Score, отвечает за это дело
В приведенной выше формуле отзыв эквивалентен чувствительности.Как и AUC, две модели сравниваются друг с другом.Чем больше показатель F1, тем лучше эффект прогнозирования, а показатель F1 может лучше измерять эффект прогнозирования положительных образцов.
Суммировать
В этой статье используется медицинский пример - страдаете ли вы сердечными заболеваниями - чтобы рассказать, что такое матрица путаницы, кривая ROC, AUC и оценка F1, в которой мы также узнали, как вместе рисовать кривую ROC, и, наконец, мы также говорили о AUC. и F1 Score и тонкие различия между ними.
Следует отметить, что двухкатегорийная оценка не ограничивается классификацией двух случаев болезни и отсутствия болезни.Учитывая общность, вы можете полностью заменить болезнь сердца в этой статье положительным образцом и отсутствие болезни сердца. Замените отрицательными образцами.