Одномерная граница площади под ROC Резюме статьи

машинное обучение

Эта статья хочет поделиться с вами документом «Одномерная граница площади при ROC».

Эта статья была впервые опубликована в общедоступном аккаунте «Code Farmer Training Factory». Я заинтересован в том, чтобы делиться машинным обучением, рекомендательными системами, интеллектуальным анализом данных, документами и технологиями глубокого обучения. Добро пожаловать, обратите внимание!

Уровень этого предложения все еще ограничен, пожалуйста, потерпите меня, любая форма обсуждения очень приветствуется, и каждый может учиться и добиваться прогресса вместе. Кодировать слова непросто, если вам понравилось, ставьте лайк, добавляйте в закладки и пересылайте три раза подряд!

Краб Краб всеобщей поддержки, приглашаем всех обратить внимание, вперед, поделиться три подряд!

Если вам нужно загрузить оригинальную статью, вы можете подписаться на официальный аккаунт, ответить «UBAUC» в фоновом режиме и загрузить статью!

Abstract & Intro

Площадь под ROC (AUC) является важным показателем для задач бинарной классификации и двудольного ранжирования. Однако сложно использовать AUC в качестве цели обучения для прямой оптимизации (потери 0-1 дискретны), поэтому большинство существующих алгоритмов оптимизируются на основе суррогатных потерь для AUC.Существенным недостатком суррогатных потерь является то, что они требуют попарного сравнения обучающих данных, что приводит к медленному времени выполнения и увеличению объема локального хранилища для онлайн-обучения.В этой статье предлагается новая суррогатная потеря, основанная на риске AUC, которая не требует попарных сравнений, но все же может ранжировать прогнозы. Далее авторы демонстрируют, что операции сортировки можно избежать, а цель обучения, основанная на этом суррогате, имеет линейную сложность как во времени, так и в хранении. Наконец, эксперименты подтверждают эффективность суррогатного онлайн-алгоритма оптимизации AUC на основе потерь и пакетного алгоритма.

Problem Definition

{(xi,yi)}i=1N\{(x_i,y_i)\}_{i=1}^N, для образца,yiе{1,+1}y_i \in \{-1, +1\}для этикетки,xiеRdx_i \in \mathcal{R}^d.I+={iyi=+1},I={iyi=1}\mathcal{I}^+=\{i|y_i=+1\}, \mathcal{I}^-=\{i|y_i=-1\}— индексы положительных и отрицательных выборок соответственно, гдеN+=I+,N=I,N++N=NN^+=|\mathcal{I}^+|,N^-=|\mathcal{I}^-|, N^+ + N^- = N. определить индикаторную функциюI:Ia=1\textbf{I}: \textbf{I}_a=1, возвращает 1 для истинного и 0 для ложного. Бинарный классификатор:cw,θ:Rd{1,+1}c_{w,\theta}: \mathcal{R}^d \mapsto \{-1, +1\}:在这里插入图片描述

fw:RdR,wf_w: \mathcal{R}^d \mapsto \mathcal{R},wпараметр,θ\thetaявляется прогнозируемым порогом.

сделатьci=fw(xi)c_i=f_w(x_i)- оценка прогноза i-й выборки, аПредположим, что ни один из предсказанных результатов не является точно равным.

для порогаθ\theta, отрицательные образцы, прогнозируемое значение которых превышает пороговое значение, являются ложными положительными результатами, которые рассчитываются следующим образом:在这里插入图片描述Точно так же порог положительного образца выше, чемθ\thetaявляется истинно положительным, рассчитывается следующим образом:在这里插入图片描述Риск AUC определяется следующим образом:在这里插入图片描述Видно, что AUC — это потеря рассогласования положительных и отрицательных образцов, то есть ранжирование положительных образцов ниже, чем у отрицательных. такLAUC=0L_{AUC}=0Это идеальный порядок!LAUCL_{AUC}иθ\thetaНезависимый.

Method

AUC Risk Without Pairwise Comparison

сделать(c1,c2,,cN)(c_1^\uparrow, c_2^\uparrow,\dots,c_N^\uparrow)за(c1,c2,,cN)(c_1, c_2,\dots,c_N)отсортированы по возрастанию, т.е.c1<c2<<cNc_1^\uparrow<c_2^\uparrow<\dots<c_N^\uparrow,сделать在这里插入图片描述 rir_i– позиция i-го положительного образца в отсортированном списке;ci+c_i^{\uparrow+}Список после сортировки по i-му положительному образцу(c1,c2,,cN)(c_1^\uparrow, c_2^\uparrow,\dots,c_N^\uparrow)Соответствующий балл в , а именно:ci+=cri++c_i^{\uparrow+}=c_{r_i^+}^{\uparrow+}. 在这里插入图片描述

Предполагается на приведенном выше рисункеN+=7,N=6,(r1+,r2+,r3+,r4+,r5+,r6+,r7+)=(4,6,7,8,9,11,13)N^+=7,N^-=6, (r_1^+, r_2^+,r_3^+,r_4^+,r_5^+,r_6^+,r_7^+)=(4, 6, 7, 8, 9, 11, 13), второй положительный образец, обведенный кружком, стоит перед двумя отрицательными образцами, поэтому его вклад в риск AUC составляет:N+iri+N^-+i-r_i^+.И так далее, для всех положительных и отрицательных образцов в шахматном порядке имеем:3+2+2+2+2+1+0=123+2+2+2+2+1+0 = 12,AUC risk =126×7=27\frac{12}{6 \times 7} =\frac{2}{7}, что согласуется с тем, что было введено ранее.

На основании этого вывода можно вывести следующую теорему:在这里插入图片描述Согласно этой теореме количество положительных и отрицательных пар auc можно вычислить интуитивно, как показано в примере выше.

Теорема 2:Когда нет ничьей для прогнозов на тренировочном наборе:在这里插入图片描述

доказывать: учитыватьri+r_i^+, рейтинг отрицательных выборок ниже, чемiiКоличество положительных образцов равноri+ir_i^+-i,То есть естьN+iri+N^- + i - r_i^+отрицательные образцы оцениваются выше, чем он (что приводит к неуместной паре). Суммирование всех расположенных в шахматном порядке пар дает указанный выше результат.

i=1N+(N+i)\sum_{i=1}^{N^+} (N^- + i)Сортировка по величине в списке для оценки прогнозовN+N^+Нижний индекс значения,i=1N+ri+\sum_{i=1}^{N^+}r_i^+— индекс положительного образца в отсортированном списке. следовательно,Риск AUC, определенный в уравнении (2), пропорционален разнице между двумя суммами.

Univariate Bound on AUC risk

Давайте начнем формально представлять метод этой статьи. . . .

По формуле (2) можно получить новую отсортированную оценку предсказания.(c1,c2,,cN)(c_1^\uparrow, c_2^\uparrow,\dots,c_N^\uparrow)Альтернативная потеря риска AUC:

在这里插入图片描述

L~\tilde{L}неотрицательно, потому что второй член всегда меньше или равен первому члену

Computing L~\tilde{L} without Explicit Ranking

Уравнение (3) требует сортировки, которая по-прежнему является трудоемкой операцией.Согласно следующей теореме 3 мы можем найти эквивалентную форму (3) без сортировки.

Теорема 3: ДляNNвещественные числаz1<<zNz_1<\dots<z_N, задача суммы вершин k может быть эквивалентна:在这里插入图片描述где оптимальные параметрыλ*\lambda^*удовлетворитьzNkλ*zNk+1z_{N-k} \le \lambda^* \le z_{N-k+1}

доказывать: Сначала нам нужно знать,Nk+1Nzi\sum_{N-k+1}^Nz_iявляется решением следующей задачи линейного программирования:在这里插入图片描述Соответствующее уравнение Лагранжа:在这里插入图片描述вa0,b0a\ge 0,b \ge 0,λ\lambdaесть множитель Лагранжа. будет околоLLчастная производная отppустановить как00,Ты можешь иметь:在这里插入图片描述, Применяя уравнение (13), можно получить двойственное уравнение (12):在这里插入图片描述Ограничение формулы (14) говорит нам, что:在这里插入图片描述, при установлении знака равенства целевая функция принимает минимальное значение.Переставьте его, чтобы получить (4). Идем дальше, когда мы выбираемλ*\lambda^*удовлетворитьzNkλ*zNk+1z_{N-k} \le \lambda^* \le z_{N-k+1},У нас есть:

kλ*+i=1N[ziλ*]+=kλ*+i=Nk+1N(ziλ*)=i=Nk+1Nzik\lambda^* + \sum_{i=1}^N [z_i - \lambda^*]_+ = k \lambda^* + \sum_{i=N-k+1}^N (z_i - \lambda^*) = \sum_{i=N-k+1}^N z_i

Согласно теореме (3), уравнение (3) можно записать в следующем виде:在这里插入图片描述

что далее переводится как:在这里插入图片描述

По свойствам шарнирных потерь[a]+a=[a]+[a]_+ -a = [-a]_+:

在这里插入图片描述Итак, исходя изL~\tilde{L}Регрессия численной модели , сформированная целевая функция:在这里插入图片描述 В формуле (5) вспомогательная переменнаяλ\lambdaЕго можно понимать как порог, разделяющий две категории, и, как и исходное определение риска AUC,L~(w)\tilde{L}(w)Выбор порога независим, если взять общее минимальное значение из всех возможных значений порога.

L~(w)\tilde{L}(w)Интуитивное объяснение дается в контексте бинарной классификации, которая наказывает только те положительные примеры, предсказанное значение которых ниже порога, т.е.[λfw(xi)]+[\lambda - f_w(x_i)]_+, а предсказание отрицательной выборки больше порогового значения[fw(xi)λ]+[f_w(x_i) - \lambda]_+. Кроме того, согласно лемме 3 оптимальнаяλ*е[cN+,cN++1)\lambda^* \in [c_{N^+}^\uparrow, c_{N^++1}^\uparrow)

Relation with SVM Objective

Внимательные студенты могут обнаружить, что когда функция предсказания является линейнойfw(x)=wTxf_w(x) = w^Tx, L~(w)\tilde{L}(w)Существует сильное сходство с целевой функцией SVM.

Восстановленная функция потерь SVM: Классификатор в SVM обычноwx+bw^\top x + b, здесь член смещения установлен отрицательным для удобства сравнения. Если порогλ\lambdaЭто расценивается как предвзятость в SVM, т.е.wxλw^\top x - \lambda, целевая функция SVM:在这里插入图片描述Можно видеть, что приведенная выше формула такая же, как формула (5), обе имеют шарнирную потерю!L~SVM(w,λ)\tilde{L}_{SVM}(w,\lambda)даL~(w)\tilde{L}(w)верхняя граница,так как

[1+yi(λwxi)][yi(λwxi)][1 + y_i(\lambda - w^\top x_i)] \ge [y_i(\lambda - w^\top x_i)]

так,在这里插入图片描述Это помогает объяснить некоторые долгосрочные экспериментальные наблюдения: по оценке AUC стандартные SVM не могут постоянно превосходить другие методы, которые напрямую максимизируют AUC (поскольку потеря прямой максимизации AUC имеет более жесткую границу!)

Две целевые функции также различаются по двум важным параметрам:

  • Константа 1 в потерях SVM - это запас, который должен установить классификатор.
  • L~(w)\tilde{L}(w)серединаλ\lambdaПропало при сворачивании, а в SVMλ\lambdaвсе еще там.(так какL~(w)\tilde{L}(w)последнийλ*е[cN+,cN++1)\lambda^* \in [c_{N^+}^\uparrow, c_{N^++1}^\uparrow), который может быть напрямую оптимизирован итеративно)

OPTIMIZATION

Resolving Ties in Prediction Scores

Прямая оптимизация (5)在这里插入图片描述Будут проблемы: (5) вwwДиапазон значений не является фиксированным, поэтому цель обучения может быть уменьшена за счет уменьшения масштаба w, так что может быть получено тривиальное решение w = 0.

Основная причинаL~(w)\tilde{L}(w)Формула основана наНет предположения о ничьей в прогнозируемых результатах, а тривиальное решение соответствует полярно противоположному результату, т.е. независимо от данных. Функция прогнозирования всегда выдает один и тот же результат (0).

Чтобы решить эту проблему, в данной статье целевая функция дополнена двумя дополнительными условиями:在这里插入图片描述

где второй член соответствует члену наименьших квадратов, чтобы противодействовать эффекту центрирования w до нуля,Ом(w)\Omega(w)является термином регуляризации.

Linear Predictor

когдаfw(x)=wxf_w(x)=w^\top x,Ом(w)=12w2\Omega(w)=\frac{1}{2}||w||^2час,[xwλ]+[x^\top w -\lambda]_+является выпуклой функцией. когдаальфае[0,1],w,w',λ,λ'\alpha\in[0,1],w,w',\lambda,\lambda':在这里插入图片描述следовательноi=1N[xwλ]++N+λ\sum_{i=1}^N[x^\top w - \lambda]_+ + N^+ \lambdaявляется выпуклой функцией.mini=1N[ciλ]++N+λ\min\sum_{i=1}^N[c_i-\lambda]_+ + N^+\lambdaтакже является выпуклой функцией.

В линейном классификаторе функция потерь выглядит следующим образом:在这里插入图片描述

Batch Learning

С настройкой пакетного обучения мы знаем все обучающие выборки, поэтому мы можем использовать алгоритм спуска по блочным координатам для оптимизации (8):在这里插入图片描述Оптимизация w может быть преобразована в следующую задачу ограниченной оптимизации:在这里插入图片描述

Это задача квадратичной выпуклой оптимизации, которая может быть решена методом внутренних точек, когда размерность w средняя или малая. Для многомерного w алгоритм онлайн-обучения более эффективен, поскольку он позволяет избежать построения матрицы Гессе.

Online Learning

在这里插入图片描述где размер шаганt1t\eta_t \sim \frac{1}{\sqrt{t}}.

Experiments

在这里插入图片描述