Эта статья хочет поделиться с вами документом «Одномерная граница площади при ROC».
Эта статья была впервые опубликована в общедоступном аккаунте «Code Farmer Training Factory». Я заинтересован в том, чтобы делиться машинным обучением, рекомендательными системами, интеллектуальным анализом данных, документами и технологиями глубокого обучения. Добро пожаловать, обратите внимание!
Уровень этого предложения все еще ограничен, пожалуйста, потерпите меня, любая форма обсуждения очень приветствуется, и каждый может учиться и добиваться прогресса вместе. Кодировать слова непросто, если вам понравилось, ставьте лайк, добавляйте в закладки и пересылайте три раза подряд!
Краб Краб всеобщей поддержки, приглашаем всех обратить внимание, вперед, поделиться три подряд!
Если вам нужно загрузить оригинальную статью, вы можете подписаться на официальный аккаунт, ответить «UBAUC» в фоновом режиме и загрузить статью!
Abstract & Intro
Площадь под ROC (AUC) является важным показателем для задач бинарной классификации и двудольного ранжирования. Однако сложно использовать AUC в качестве цели обучения для прямой оптимизации (потери 0-1 дискретны), поэтому большинство существующих алгоритмов оптимизируются на основе суррогатных потерь для AUC.Существенным недостатком суррогатных потерь является то, что они требуют попарного сравнения обучающих данных, что приводит к медленному времени выполнения и увеличению объема локального хранилища для онлайн-обучения.В этой статье предлагается новая суррогатная потеря, основанная на риске AUC, которая не требует попарных сравнений, но все же может ранжировать прогнозы. Далее авторы демонстрируют, что операции сортировки можно избежать, а цель обучения, основанная на этом суррогате, имеет линейную сложность как во времени, так и в хранении. Наконец, эксперименты подтверждают эффективность суррогатного онлайн-алгоритма оптимизации AUC на основе потерь и пакетного алгоритма.
Problem Definition
, для образца,для этикетки,.— индексы положительных и отрицательных выборок соответственно, где. определить индикаторную функцию, возвращает 1 для истинного и 0 для ложного. Бинарный классификатор::
параметр,является прогнозируемым порогом.
сделать- оценка прогноза i-й выборки, аПредположим, что ни один из предсказанных результатов не является точно равным.
для порога, отрицательные образцы, прогнозируемое значение которых превышает пороговое значение, являются ложными положительными результатами, которые рассчитываются следующим образом:Точно так же порог положительного образца выше, чемявляется истинно положительным, рассчитывается следующим образом:Риск AUC определяется следующим образом:Видно, что AUC — это потеря рассогласования положительных и отрицательных образцов, то есть ранжирование положительных образцов ниже, чем у отрицательных. такЭто идеальный порядок!иНезависимый.
Method
AUC Risk Without Pairwise Comparison
сделатьзаотсортированы по возрастанию, т.е.,сделать – позиция i-го положительного образца в отсортированном списке;Список после сортировки по i-му положительному образцуСоответствующий балл в , а именно:.
Предполагается на приведенном выше рисунке, второй положительный образец, обведенный кружком, стоит перед двумя отрицательными образцами, поэтому его вклад в риск AUC составляет:.И так далее, для всех положительных и отрицательных образцов в шахматном порядке имеем:,AUC risk =, что согласуется с тем, что было введено ранее.
На основании этого вывода можно вывести следующую теорему:Согласно этой теореме количество положительных и отрицательных пар auc можно вычислить интуитивно, как показано в примере выше.
Теорема 2:Когда нет ничьей для прогнозов на тренировочном наборе:
доказывать: учитывать, рейтинг отрицательных выборок ниже, чемКоличество положительных образцов равно,То есть естьотрицательные образцы оцениваются выше, чем он (что приводит к неуместной паре). Суммирование всех расположенных в шахматном порядке пар дает указанный выше результат.
Сортировка по величине в списке для оценки прогнозовНижний индекс значения,— индекс положительного образца в отсортированном списке. следовательно,Риск AUC, определенный в уравнении (2), пропорционален разнице между двумя суммами.
Univariate Bound on AUC risk
Давайте начнем формально представлять метод этой статьи. . . .
По формуле (2) можно получить новую отсортированную оценку предсказания.Альтернативная потеря риска AUC:
неотрицательно, потому что второй член всегда меньше или равен первому члену
Computing without Explicit Ranking
Уравнение (3) требует сортировки, которая по-прежнему является трудоемкой операцией.Согласно следующей теореме 3 мы можем найти эквивалентную форму (3) без сортировки.
Теорема 3: Длявещественные числа, задача суммы вершин k может быть эквивалентна:где оптимальные параметрыудовлетворить
доказывать: Сначала нам нужно знать,является решением следующей задачи линейного программирования:Соответствующее уравнение Лагранжа:в,есть множитель Лагранжа. будет околочастная производная отустановить как,Ты можешь иметь:, Применяя уравнение (13), можно получить двойственное уравнение (12):Ограничение формулы (14) говорит нам, что:, при установлении знака равенства целевая функция принимает минимальное значение.Переставьте его, чтобы получить (4). Идем дальше, когда мы выбираемудовлетворить,У нас есть:
Согласно теореме (3), уравнение (3) можно записать в следующем виде:
что далее переводится как:
По свойствам шарнирных потерь:
Итак, исходя изРегрессия численной модели , сформированная целевая функция: В формуле (5) вспомогательная переменнаяЕго можно понимать как порог, разделяющий две категории, и, как и исходное определение риска AUC,Выбор порога независим, если взять общее минимальное значение из всех возможных значений порога.
Интуитивное объяснение дается в контексте бинарной классификации, которая наказывает только те положительные примеры, предсказанное значение которых ниже порога, т.е., а предсказание отрицательной выборки больше порогового значения. Кроме того, согласно лемме 3 оптимальная
Relation with SVM Objective
Внимательные студенты могут обнаружить, что когда функция предсказания является линейной, Существует сильное сходство с целевой функцией SVM.
Восстановленная функция потерь SVM: Классификатор в SVM обычно, здесь член смещения установлен отрицательным для удобства сравнения. Если порогЭто расценивается как предвзятость в SVM, т.е., целевая функция SVM:Можно видеть, что приведенная выше формула такая же, как формула (5), обе имеют шарнирную потерю!даверхняя граница,так как
так,Это помогает объяснить некоторые долгосрочные экспериментальные наблюдения: по оценке AUC стандартные SVM не могут постоянно превосходить другие методы, которые напрямую максимизируют AUC (поскольку потеря прямой максимизации AUC имеет более жесткую границу!)
Две целевые функции также различаются по двум важным параметрам:
- Константа 1 в потерях SVM - это запас, который должен установить классификатор.
- серединаПропало при сворачивании, а в SVMвсе еще там.(так какпоследний, который может быть напрямую оптимизирован итеративно)
OPTIMIZATION
Resolving Ties in Prediction Scores
Прямая оптимизация (5)Будут проблемы: (5) вДиапазон значений не является фиксированным, поэтому цель обучения может быть уменьшена за счет уменьшения масштаба w, так что может быть получено тривиальное решение w = 0.
Основная причинаФормула основана наНет предположения о ничьей в прогнозируемых результатах, а тривиальное решение соответствует полярно противоположному результату, т.е. независимо от данных. Функция прогнозирования всегда выдает один и тот же результат (0).
Чтобы решить эту проблему, в данной статье целевая функция дополнена двумя дополнительными условиями:
где второй член соответствует члену наименьших квадратов, чтобы противодействовать эффекту центрирования w до нуля,является термином регуляризации.
Linear Predictor
когда,час,является выпуклой функцией. когда:следовательноявляется выпуклой функцией.также является выпуклой функцией.
В линейном классификаторе функция потерь выглядит следующим образом:
Batch Learning
С настройкой пакетного обучения мы знаем все обучающие выборки, поэтому мы можем использовать алгоритм спуска по блочным координатам для оптимизации (8):Оптимизация w может быть преобразована в следующую задачу ограниченной оптимизации:
Это задача квадратичной выпуклой оптимизации, которая может быть решена методом внутренних точек, когда размерность w средняя или малая. Для многомерного w алгоритм онлайн-обучения более эффективен, поскольку он позволяет избежать построения матрицы Гессе.
Online Learning
где размер шага.