Эта статья является третьей частью «Машинного обучения Сборник», Прочитав эту статью, вы сможете освоить показатели оценки алгоритмов классификации и регрессии.
P.S. Прикрепил в конце статьи.практические вопросы
закончить чтениеЗдравый смысл алгоритма машинного обученияПосле этого вы уже знаете, что такое недообучение и переоснащение, смещение и дисперсия, а также байесовская ошибка. В этой статье я представлю некоторые индикаторы для автономной оценки производительности модели в машинном обучении.
После того, как мы обучим несколько моделей, как измерить производительность этих моделей? Другими словами, нам нужен стандарт, который может измерять «хорошо или плохо» модели, который мы называем метрикой оценки. При сравнении эффектов разных моделей использование разных оценочных показателей часто приводит к разным выводам, а значит, эффекты моделей относительны.
Для разных типов учебных задач у нас есть разные показатели оценки.Здесь мы вводим некоторые показатели оценки наиболее распространенных алгоритмов классификации и регрессии.
Индикатор классификации
Большинство проблем классификации в жизни относятся к проблеме двух классов, поэтому здесь мы возьмем два класса в качестве примера, чтобы проиллюстрировать некоторые индикаторы, связанные с классификацией.
Прежде чем формально представить индикаторы, давайте популяризируем некоторые основные понятия: Иногда «положительно», «истинно», «положительно», «1» относятся к одному и тому же, «отрицательно», «ложно», «отрицательно», «0» относится к тоже самое. Например, если результат предсказания модели для этой выборки равен 1, можно считать, что результат предсказания модели для этой выборки истинен, положителен или положителен, что, по сути, означает одно и то же.
матрица путаницы
матрица путаницы(матрица путаницы) является широко используемым инструментом для оценки проблем классификации.Для классификации k-элементов это фактически таблица k x k, используемая для записи результатов прогнозирования классификатора. Для общей бинарной классификации ее матрица путаницы равна 2x2.
В бинарной классификации образцы можно разделить на истинно положительные (TP), истинно отрицательные (TN), ложноположительные (FP) и ложноотрицательные в соответствии с комбинацией их истинных результатов и результатов прогнозирования модели (ложноотрицательные, ФН). По TP, TN, FP, FN можно получить матрицу путаницы бинарной классификации.
Точность
Точность(точность) относится к пропорции количества выборок, которые модель предсказывает правильно (включая истинные и ложные предсказания), к общему количеству выборок, а именно
в,представляет количество образцов, правильно классифицированных моделью,представляет собой общее количество образцов.
В бинарной классификации точность может быть получена по следующей расчетной формуле.
Точность — одна из самых простых и интуитивно понятных оценочных метрик в задачах классификации, но точность имеет некоторые ограничения. Например, в бинарной классификации, когда доля отрицательных выборок составляет 99%, если модель предсказывает все выборки как отрицательные выборки, она может получить точность 99%. Хотя уровень точности выглядит высоким, на самом деле модель бесполезна, поскольку не может найти положительный образец.
точность
точность(точность) относится к пропорции количества выборок, которые предсказывает модель, является верным и фактически верным, к количеству всех истинных выборок, предсказанных моделью, то есть
Например, если полиция хочет арестовать вора и арестовать 10 человек, 6 из них воры, то коэффициент точности равен 6/10 = 0,6.
отзывать
отзывать(отзыв) иногда называют коэффициентом отзыва, который относится к отношению количества выборок, предсказанных моделью как истинных, и фактического количества истинных выборок к количеству фактических выборок, которые являются истинными, то есть
Например, возьмем приведенный выше пример полиции, поймавшей воров, арестовавшей 10 человек, из них 6 воров, а еще 3 вора скрылись, тогда коэффициент отзыва равен 6 / (6 + 3) ≈ 0,67.
Значение F1/значение Fα
Вообще говоря, точность и полнота взаимоисключающие, то есть, если точность высока, полнота будет низкой; если полнота высока, точность будет низкой. Поэтому разработано значение индикатора F1, учитывающее как точность, так и полноту. Значение F1 является гармоническим средним значением точности и полноты, т.е.
В некоторых сценариях мы не уделяем одинакового внимания точности и полноте В этом случае может быть достаточно более общей формы значения F1, значения Fα. Значение Fα определяется следующим образом
Среди них размер α представляет относительную важность отзыва для точности.
многоклассовый случай
Много раз мы сталкиваемся с проблемами множественной классификации, что означает, что каждая комбинация двух категорий соответствует бинарной матрице путаницы. Предположим, вы получили n двухклассовых матриц путаницы, как усреднить эти n результатов?
макро средний
Первый метод заключается в том, чтобы сначала вычислить результаты в каждой матрице путаницы отдельно, а затем вычислить среднее, что называется «макроусреднением».
микросреднее
В дополнение к макросреднему, указанному выше, мы также можем усреднить соответствующие элементы бинарной матрицы путаницы, чтобы получить среднее значение TP, TN, FP и FN, а затем произвести расчет на основе этих средних значений. Этот метод называется «микро- средний".
ROC
По указанным выше показателям (таким как точность, прецизионность, полнота и др.) необходимо получить результат предсказания модели (положительный или отрицательный класс).Для многих моделей предсказание представляет собой вероятность, принадлежащую положительному class.value, поэтому вам нужно указать порог, выше порога — положительный класс, в противном случае — отрицательный класс. Размер этого и он напрямую определяет обобщающую способность модели.
Существует индекс оценки, называемый кривой рабочей характеристики приемника (Receiver Operating Characteristic, ROC), этот индекс оценки не может указывать пороговое значение. Вертикальная ось кривой ROC представляет собой истинно положительную частоту (TPR), а горизонтальная ось — ложноположительную частоту (FPR).
Формула для расчета истинно положительного показателя и ложноположительного показателя выглядит следующим образом:
Можно обнаружить, что расчетные формулы TPR и Recall совпадают. Итак, как нарисовать кривую ROC? Видно, что ROC-кривая состоит из серии точек (FPR, TPR), но для конкретной модели получается только один результат классификации, то есть имеется только один набор (FPR, TPR), соответствующих в точку на кривой ROC, как получить более одного?
Располагаем предсказанные значения всех выборок (значения вероятностей, принадлежащих положительному классу) модели в порядке убывания, а затем по очереди используем предсказанные значения вероятности в качестве порога, и каждый раз получаем число выборок, которые модель предсказывает под порогом как положительные и отрицательные классы, а затем сгенерируйте набор значений (FPR, TPR), чтобы вы могли получить точку на кривой ROC и, наконец, соедините все точки для создания ROC. изгиб. Очевидно, что чем больше раз будет установлено пороговое значение, тем больше будет сгенерировано значений (FPR, TPR) и тем более гладкой будет нарисована кривая ROC. то естьГладкость кривой ROC абсолютно связана с количеством настроек порога, а не обязательно с количеством выборок.. На самом деле, большинство кривых ROC, которые мы рисуем, не являются гладкими.
Чем ближе кривая ROC к верхнему левому углу, тем лучше эффект. Координаты левого верхнего угла равны (0,1), то есть FPR = 0, TPR = 1, что означает FP (ложноположительный) = 0, FN (ложноотрицательный) = 0, что является идеальной моделью, потому что его можно использовать для всех Образцы правильно классифицированы. Все точки на диагонали (y=x) ROC-кривой указывают на то, что модель неотличима от случайного угадывания.
AUC
AUC(Площадь под кривой) определяется как площадь под кривой ROC. Очевидно, что результат AUC не будет превышать 1. Обычно кривая ROC находится выше линии y = x. Поэтому значение AUC обычно находится в диапазоне от 0,5 до 1. .
Как понять роль AUC? Случайным образом выберите положительную выборку (P) и отрицательную выборку (N). Модель предсказывает две выборки, чтобы получить значение вероятности каждой выборки, принадлежащей к положительному классу. После сортировки выборок в соответствии со значением вероятности положительные выборки ранжируется перед отрицательными образцами Вероятность представляет собой значение AUC.
AUC можно рассчитать по следующей формуле.
Среди них ранг — это порядковый номер положительных выборок после сортировки предсказанного моделью значения вероятности от меньшего к большему (сортировка начинается с 1), |P| — количество положительных выборок, а |N| количество отрицательных проб.
Следует отметить, что если несколько выборок имеют одинаковое значение вероятности, предсказанное моделью, то при вычислении ранга вам нужно только сложить эти исходные ранги и усреднить их. такДля выборок с равными показателями вероятности не имеет значения, кто впереди, а кто позади.
журнал потерь
журнал потерь(Logistic Loss, logloss) — это оценка прогнозируемой вероятности, и ее стандартная форма такова:
Логарифмическая минимизация потерь по существу использует известное распределение в выборке для решения оптимальных параметров модели, которые приводят к этому распределению, так что это распределение имеет наибольшую вероятность появления.
Формула расчета для двоичной классификации, соответствующей логарифмической потере:
где N — количество выборок,,Вероятность предсказания 1 для i-й выборки.
Логарифмическая потеря также может использоваться в задачах с несколькими классификациями, и ее формула расчета:
Среди них N — количество образцов, C — количество категорий,Указывает, что класс i-го образца равен j,— вероятность того, что i-я выборка принадлежит категории j.
logloss измеряет разницу между прогнозируемым распределением вероятностей и истинным распределением вероятностей, и чем меньше значение, тем лучше.
индикатор регрессии
В задаче регрессионного обучения у нас также есть некоторые индикаторы оценки, давайте посмотрим!
средняя абсолютная ошибка
средняя абсолютная ошибкаФормула (средняя абсолютная ошибка, MAE):
где N — количество выборок,истинное значение i-й выборки,- прогнозируемое значение i-й выборки.
среднеквадратическая ошибка
среднеквадратическая ошибка(Среднеквадратическая ошибка, MSE) формула:
средняя абсолютная ошибка в процентах
средняя абсолютная ошибка в процентах(Средняя абсолютная ошибка в процентах, MAPE) выглядит следующим образом:
MAPE представляет эффект предсказания, вычисляя процент абсолютной ошибки, и чем меньше значение, тем лучше. Если MAPE=10, это означает, что прогнозы в среднем на 10 % отличаются от истинного значения.
Поскольку расчет MAPE не зависит от размерности, в некоторых сценариях разные задачи сопоставимы. Однако недостатки MAPE также более очевидны.Нигде не определяется. Кроме того, следует отметить, что MAPE наказывает за отрицательные ошибки больше, чем за положительные ошибки.Например, если потребление в отеле прогнозируется на уровне 200 юаней, реальное значение которого составляет 150 юаней, будет больше, чем у MAPE, реальное значение которого равно 250 юаней.
Средняя квадратическая ошибка
Средняя квадратическая ошибкаФормула для (среднеквадратичной ошибки):
RMSE представляет выборочное стандартное отклонение разницы между прогнозируемым значением и истинным значением. По сравнению с MAE, RMSE имеет больший штраф за большие выборки ошибок. Однако одним из недостатков RMSE является то, что он чувствителен к выбросам, что может привести к очень высоким результатам RMSE.
На основе RMSE также существует часто используемый индекс оценки вариантов, который называетсясреднеквадратическая логарифмическая ошибка(среднеквадратичная логарифмическая ошибка, RMSLE), формула которой:
RMSLE наказывает выборки с небольшими прогнозируемыми значениями больше, чем выборки с большими прогнозируемыми значениями.Например, если средняя потребительская цена отеля составляет 200 юаней, прогнозируемый штраф в размере 150 юаней будет больше, чем прогнозируемый штраф в размере 250 юаней.
R2
R2Формула для (R-квадрата):
R2 используется для измерения доли изменения зависимой переменной, которая может быть объяснена независимой переменной.Общий диапазон значений составляет от 0 до 1. Чем ближе R2 к 1, тем больше доля суммы квадратов регрессии к общая сумма квадратов Линия регрессии и каждое наблюдение Чем ближе точки, тем больше изменение y может быть объяснено изменением x, и тем лучше соответствие регрессии.
практические вопросы
Прочитав эту статью, давайте сделаем несколькопрактические вопросыОзнакомьтесь с результатами обучения:
Почему нет абсолютной зависимости между гладкостью ROC-кривой и количеством выборок?
Если AUC модели меньше 0,5, в чем может быть причина?
В сценарии прогнозирования трафика я пробовал различные регрессионные модели, но все полученные показатели RMSE были очень высокими, подумайте, в чем может быть причина?
В задаче бинарной классификации истинный результат 15 выборок равен [0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0], а предсказанный результат модель Для [1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1] вычислить точность, точность, отзыв и значение F1.
В задаче бинарной классификации истинный результат 7 выборок [A, B, C, D, E, F, G] равен [1, 1, 0, 0, 1, 1, 0], а предсказанная вероятность модель [0,8, 0,7, 0,5, 0,5, 0,5, 0,5, 0,3], рассчитайте значение AUC.
Ответы на все вышеперечисленные практические вопросы я буду публиковать в моей планете знаний, что удобно для последующего осаждения знаний;Кроме того, если у вас есть какие-либо вопросы по статье или вы хотите узнать больше и пообщаться, вы можете присоединиться к моей планете знаний, чтобы общаться(Как присоединиться: скан нижеQR кодили нажмите "читатьоригинальный»).
Ссылаться на:
[1] Чжоу Чжихуа, Машинное обучение, Глава 2, Раздел 3 (Измерение производительности)
[2] Команда алгоритмов Meituan. Практика машинного обучения Meituan. Глава 1, Раздел 1 (Показатели оценки)
[3] https://blog.csdn.net/qq_22238533/article/details/78666436
[4] https://blog.csdn.net/u013704227/article/details/77604500