Логистическая регрессия: наиболее широко используемая модель машинного обучения в интернет-индустрии.

Рекламный дисплей моего веб-сайта лучше, добро пожаловать в гости:Мистер Лу.info/machine- сейчас...

Логистическая регрессия широко используется в интернет-бизнесе для поиска, рекомендаций и оценки кликов по рекламе.Можно сказать, что это наиболее часто используемая модель машинного обучения и основа глубокой нейронной сети. В некоторых новых интервью с машинным обучением интервьюер часто изучает базовую формулу логистической регрессии и вывод функции потерь.

От регрессии к классификации

Проблема регрессии относится к целевому значению всей области действительных чисел, а задача классификации относится к целевому значению, являющемуся конечным дискретным значением.

В предыдущих статьях систематически обсуждались модели линейной регрессии:

f(\boldsymbol{x_i}) = \sum^n_{j=0} w_j x_{i,j} = \boldsymbol{w}^\top \boldsymbol{x_i}

Это регрессионная модель, и модель предсказывает $(-\infty, +\infty)$ Целевое значение диапазона. Когда модель решена, мы можем использовать квадрат ошибки для определения функции потерь, а параметры модели можно получить путем минимизации функции потерь.

Теперь мы хотим выполнить бинарную классификацию.Целевое значение имеет два варианта: 0 и 1.Функция бинарной классификации может быть выражена как:

y = \begin{cases} 0 &\text{if } z < 0 \\ 1 &\text{if } z \geq 0 \end{cases}

когда z<0 Когда цель классификации оценивается как отрицательный пример, когда $z\geq0$ Когда цель классификации оценивается как положительный пример. Эта классификационная функция на самом деле является ступенчатой функцией. z=0 прерывистый, или z=0 При происходит скачок, и такую функцию неудобно выводить. Нам нужно заменить эту бинарную классификационную функцию другими монотонно дифференцируемыми функциями.

Теперь на основе этой линейной регрессии мы можем поместить функцию на ее внешний слой. g(z) . Одна из самых распространенных функций:

Форма этой функции показана ниже, она называется логарифмической функцией вероятности, логистической функцией или сигмоидной функцией, которая позже будет называться логистической функцией.

Как видно из графика, Логистическая функция обладает некоторыми свойствами:

Функциональная область $(-\infty, +\infty)$ , диапазон значений.
когдаподходы $-\infty$ час,подходы;когдаподходы $+\infty$ час,подходы;когдаВыбиратьчас,равный.
Вся функция имеет S-образную форму.
Функция монотонно дифференцируема.

Строго говоря, сигмовидная функция — это огромное семейство функций, используемых для представления сигмовидных функций. Логистическая функция, которую мы сейчас обсуждаем, является одной из сигмовидных функций, а также наиболее репрезентативной. Сигмовидная функция будет играть важную роль в нейронных сетях.

Эти свойства логистической функции определяют, что она может $(-\infty, +\infty)$ сопоставить с (0, 1) , плюс принимает значение в центральной точке 0.5 , можно использовать для классификации. Поскольку логистическая функция имеет четкую разделительную линию,Части меньше 0 будут классифицироваться как отрицательные (0),Части больше 0 будут классифицироваться как положительные примеры (1).

Подгоняем линейную регрессию к логистической функции и получаем:

y = f(x) = g(w^\top x) = \frac 1{1+e^{-w^{\top}x}}

Мы добавляем логистическую функцию к линейной регрессии, чтобы можно было выполнять прогнозирование бинарной классификации. В тренировочном наборе естьданные,Данные бара аппроксимируются по следующей формуле:

y_i = f(\boldsymbol{x_i}) = g(\boldsymbol{w}^\top \boldsymbol{x_i}) = \frac 1{1+e^{-\boldsymbol{w}^{\top}\boldsymbol{x_i}}}

Это логистическая регрессия, логистическая регрессия.

Обратите внимание, что хотя в названии логистической регрессии есть слово «регрессия», на самом деле это хорошо известная модель классификации.

Интерпретация бинарной вероятности логистической функции

Логистическая функция подходит для выражения бинарных вероятностей. Предположим, мы будемвыражается как вероятность оказаться положительным примером при классификации, то 1-y есть возможность быть разделенным на отрицательные примеры. Бывает, что логистическая регрессия обладает следующими свойствами:

в, $\frac{y}{1-y}$ Называемый шансами (Odds), он представляет относительную вероятность того, что текущие данные будут классифицированы как положительные. $\ln \frac{y}{1-y}$ представляет собой логарифм шансов и называется логарифмом шансов (Log Odds или Logit).

Давайте пересмотрим наши знания о вероятности: мы знаем, что вероятности [0, 1] Значение на интервале, если предположить, что вероятность успеха вещи равна P(Success)=0.8 , вероятность отказа P(Fail) = 1-P(Success)=0.2 . Тогда шансы на то, что это событие будет успешным, составляют: $\frac{P(Success)}{1-P(Success)}=\frac{0.8}{0.2}=4$ . Тем не менее, у него очень хорошие шансы на успех.

Назад к логистической регрессии, линейной регрессии $w^\top x$ попытаться приблизить логарифм шансов $\ln \frac{y}{1-y}$ . По сути, логистическая регрессия моделирует вероятность классификации и может давать прогнозы с приблизительными вероятностями. Эта модель используется во многих задачах, основанных на вероятностном принятии решений. Например, многие компании, в том числе Google, использовали логистическую регрессию, чтобы предсказать, будут ли нажимать на интернет-рекламу: во время обучения реклама, на которую нажали, помечается как положительный пример, в противном случае это отрицательный пример; чем выше прогнозируемое значение, тем реклама будет размещена на более видном месте, чтобы привлечь пользователей к клику.

Логистическая функция будет $(-\infty, +\infty)$ сопоставляется с (0, 1) Вкл, независимо от того, насколько велико или мало значение, можно комбинировать с (0, 1) Вероятности интервалов связаны друг с другом, так что получается распределение вероятностей.

Оценка максимального правдоподобия логистической регрессии

Логистическую функцию можно связать с вероятностью, поэтому мы можем положитьВ качестве вероятностной оценки классификации рассматривается положительный пример: $P(y=1|\boldsymbol{x})$ , вероятность быть классифицированным как отрицательный пример: $P(y=0|\boldsymbol{x})$ .

P(y=1|\boldsymbol{x}) = f(\boldsymbol{x})

P(y=0|\boldsymbol{x})=1-f(\boldsymbol{x})

Вышеуказанные две вероятности можно записать в более компактную формулу:

P(Y=y | \boldsymbol{x};\boldsymbol{w}) =(f (\boldsymbol{x}))^y(1- f (\boldsymbol{x}))^{1-y}

так какЕсть только две возможности: 0 (отрицательный пример) и 1 (положительный пример): тогда, если y=1 , $(1- f (\boldsymbol{x}))^0=1$ , $P(Y=y | \boldsymbol{x})=(f(\boldsymbol{x}))^1$ ,если y=0 , $(f (\boldsymbol{x}))^0=1$ , $P(Y=y | \boldsymbol{x})=(1-f(\boldsymbol{x}))^1$ . В приведенной выше формуле точка с запятой и $\boldsymbol{w}$ Выражать, $\boldsymbol{w}$ является параметром, а не случайной величиной.

С вероятностным представлением мы можем легко выполнить вероятностную оценку максимального правдоподобия. Поскольку функция правдоподобия по форме почти аналогична функции вероятности, функция вероятности представляет собой произведение вероятностей всех встречающихся выборок, а функция правдоподобия связана с параметром $\boldsymbol{w}$ Функция.

\begin{aligned} L(\boldsymbol{w}) &= P(\boldsymbol{y}| \boldsymbol{X}; \boldsymbol{w})\\ &= \prod^m_{i=1} P(y_{i}| \boldsymbol{x_{i}}; \boldsymbol{w})\\ &= \prod^m_{i=1} (f (\boldsymbol{x_{i}}))^{y_{i}}(1- f (\boldsymbol{x_{i}}))^{1-y_{i}} \\ \end{aligned}

Как и в случае с линейной регрессией, мы принимаем приведенную выше формулу как $\log$ , что упрощает максимизацию функции правдоподобия:

\begin{aligned} \ell(\boldsymbol{w}) &=\log L(\boldsymbol{w}) \\ &= \sum^m_{i=1} y_{i} \log f(\boldsymbol{x_{i}})+(1-y_{i})\log (1-f(\boldsymbol{x_{i}})) \end{aligned}

Как найти решение вышеприведенной формулы? Как и в случае с линейной регрессией, мы можем использовать градиентное восхождение. Текущая цель состоит в том, чтобы максимизировать функцию правдоподобия, поэтому мы собираемся использовать градиентное восхождение, итерируя, чтобы найти максимальное значение. В частности, параметры обновляются следующим образом:

\boldsymbol{w} := \boldsymbol{w} +\alpha \nabla _\boldsymbol{w} \ell(\boldsymbol{w})

Наиболее важным моментом в оценке параметров является получение формулы производной. Перед выводом рассмотрим логистическую регрессию:

f(\boldsymbol{x}) = g(\boldsymbol{w}^\top \boldsymbol{x})

И логистическая функция g(z) В выводе есть: g'(z) = g(z)(1-g(z)) ,так как:

\begin{aligned} g'(z) & = \frac d{dz}\frac 1{1+e^{-z}}\\ & = \frac 1{(1+e^{-z})^2}(e^{-z})\\ & = \frac 1{(1+e^{-z})} \cdot (1- \frac 1{(1+e^{-z})})\\ & = g(z)(1-g(z))\\ \end{aligned}

Затем начинаем брать производные от параметров. Мы по-прежнему сначала предполагаем, что в обучающем наборе есть только одни данные. $(\boldsymbol{x}, y)$ . В третьей строке вывода ниже используется производное свойство логистической функции. g'(z) = g(z)(1-g(z)) .

\begin{aligned} \frac {\partial}{\partial w_j} \ell(\boldsymbol{w}) &= (y\frac 1 {f(\boldsymbol{x})} - (1-y)\frac 1 {1 - f(\boldsymbol{x})})\frac {\partial}{\partial w_j}f(\boldsymbol{x}) \\ &= (y\frac 1 {g(\boldsymbol{w} ^\top \boldsymbol{x})} - (1-y)\frac 1 {1- g(\boldsymbol{w}^\top \boldsymbol{x})} )\frac {\partial}{\partial w_j}g(\boldsymbol{w} ^\top \boldsymbol{x}) \\ &= (y\frac 1 {g(\boldsymbol{w}^\top \boldsymbol{x})} - (1-y)\frac 1 {1- g(\boldsymbol{w}^\top \boldsymbol{x})}) g(\boldsymbol{w}^\top \boldsymbol{x})(1-g(\boldsymbol{w}^\top \boldsymbol{x})) \frac {\partial}{\partial w_j}\boldsymbol{w}^\top \boldsymbol{x} \\ &= (y(1-g(\boldsymbol{w}^\top \boldsymbol{x}) ) -(1-y) g(\boldsymbol{w}^\top \boldsymbol{x})) x_j\\ &= (y-g(\boldsymbol{w}^\top \boldsymbol{x}))x_j \\ &= (y-f(\boldsymbol{x}))x_j \end{aligned}

Затем, в соответствии с формулой итеративного обновления параметров, первый параметр обучающего набора равенДанные выборки используются для расчета:

w_j := w_j + \alpha (y_{i}-f(\boldsymbol{x_{i}}))x_{i,j}

Можно сказать, что она точно такая же, как формула функции линейной регрессии, которую мы вывели ранее. Итак, в этой задаче мы можем использовать градиентное восхождение, чтобы получить оптимальное решение. Или сделайте простое преобразование в метод градиентного спуска:

w_j := w_j - \alpha (f(\boldsymbol{x_{i}})-y_{i})x_{i,j}

Предыдущая формула предполагает только то, что в обучающем наборе есть только одна выборка данных, и когда обучающий наборданные, да $\ell(\boldsymbol{w}) = \sum^m_{i=1} y_{i} \log f(\boldsymbol{x_{i}})+(1-y_{i})\log (1-f(\boldsymbol{x_{i}}))$ Для вывода вы можете получить:

\frac {\partial}{\partial w_j} \ell(\boldsymbol{w}) = \sum_{i=1}^m(y_i - f(\boldsymbol{x_i}))\boldsymbol{x_{i,j}}

Напрямую обновить параметры с полным объемом данных нереально.В большинстве случаев для решения задачи используется метод стохастического градиентного спуска.Можно случайным образом выбрать выборку для обновления параметров,а можно случайным образом выбрать небольшую партию образцов мини-партии для обновления параметров.

порог классификации

Логистическая регрессия, наконец, возвращает вероятность, Мы можем напрямую использовать прогнозируемую вероятность или установить порог для преобразования вероятности в проблему бинарной классификации.

Например, если прогнозируется, что вероятность того, что пользователь нажмет на объявление, составляет 0,00023, что намного выше, чем у других объявлений, то это объявление будет размещено на самом видном месте и, скорее всего, будет нажато пользователем. .

Мы также можем преобразовать возвращенные вероятности в двоичные значения, например, предсказать, что электронное письмо имеет высокую вероятность того, что оно является спамом, и назвать его спамом. Если модель логистической регрессии предсказывает электронное письмо с вероятностью 0,9995, то модель предсказывает, что электронное письмо, скорее всего, будет спамом. И наоборот, другое электронное письмо с прогнозируемой оценкой 0,0003 в той же модели логистической регрессии, скорее всего, не является спамом. Но что, если электронное письмо имеет прогнозируемый балл 0,6? Чтобы сопоставить значения логистической регрессии с бинарными категориями, мы должны указатьпорог классификации(Порог, также известный как порог принятия решения). Если логистическая регрессия возвращает значение выше порога, это означает «спам», если значение ниже порога, это означает «не спам».

Порог классификации может быть установлен на 0,5.На самом деле порог зависит от конкретной проблемы.Мы должны настроить порог в соответствии с конкретным бизнес-сценарием, соотношением положительных и отрицательных образцов и т. д. Выбор порога определенно повлияет на результаты прогнозирования.Один из способов - выбрать разные пороги для тестирования, рассчитать точность и отзыв при разных порогах, а затем выбрать лучший порог.

Проблема дисбаланса данных обучения класса

Введенная ранее бинарная классификация логистической функции всегда предполагала, что количество обучающих выборок в разных категориях одинаково, и если количество обучающих выборок положительных и отрицательных примеров не сильно отличается, то это обычно не оказывает большого влияния на результаты. , но если разница между положительными и отрицательными примерами велика, это будет мешать процессу обучения. Например, если в наборе данных 998 отрицательных примеров, но только 2 положительных, то модель каждый раз предсказывает отрицательные примеры и может достичь точности 99,8%, но такая модель на самом деле бесполезна. В реальных задачах классификации часто встречается проблема дисбаланса классов, например:

В сценарии идентификации спама количество писем со спамом относительно невелико по сравнению с обычными сообщениями.
В сценарии обнаружения мошенничества с кредитными картами подавляющее большинство транзакций являются нормальными, и только небольшое количество транзакций является проблематичным.
В случае аварийного сигнала отказа машины в большинстве случаев машина работает нормально, а время отказа намного короче, чем время нормальной работы.

В логистической регрессии мы используем предсказанныйзначение сравнивается с порогом, обычно при y>0.5 Когда это оценивается как положительный пример, в противном случае это отрицательный пример.На самом деле, он выражает возможность этого фрагмента данных в качестве положительного примера, вероятность $\frac{y}{1-y}$ отражает отношение вероятности положительного случая к вероятности отрицательного случая, когда y=0.5 , вероятность $\frac{y}{1-y} = 1$ Указывает, что положительные и отрицательные возможности одинаковы. Исходя из этого предположения, если $\frac{y}{1-y} > 1$ , прогноз положительный.

Однако при большой разнице в количестве положительных и отрицательных примеров в обучающей выборке пусть m^+ представляет количество положительных примеров, m^- представляет количество отрицательных примеров, то вероятность наблюдения в обучающей выборке равна $\frac{m^+}{m^-}$ . Тогда вероятность прогноза больше вероятности обучающего набора, или $\frac{y}{1-y} > \frac{m^+}{m^-}$ , следует расценивать как положительный. Поэтому в данном случае явно нецелесообразно по-прежнему использовать 0,5 в качестве порога.

Чтобы решить проблему дисбаланса данных, нам нужно настроить обучающую выборку, Есть два общих подхода:

Недостаточная или избыточная выборка обучающего набора, уменьшите или увеличьте данные, чтобы количество положительных и отрицательных примеров в обучающем наборе было близким, а затем изучите.
Непосредственно используйте исходный обучающий набор для обучения, но больше не используйте 0,5 в качестве порога классификации, а настройте порог в соответствии с бизнес-сценарием и количеством положительных и отрицательных образцов.

Как определить положительные и отрицательные образцы необходимо подробно обсудить в соответствии с конкретными проблемами. Недостаточная выборка отбрасывает некоторые данные, делая обучающую выборку намного меньше исходных данных, что может привести к потере важной информации, что, в свою очередь, повлияет на производительность модели. Передискретизация имитирует некоторые данные, но нельзя просто копировать сэмплы из исходных данных, иначе это приведет к переобучению. Репрезентативным алгоритмом передискретизации является SMOTE (Synthetic Minority Over-sampling Technique), основная идея которого заключается в фальсификации данных посредством интерполяции. Например, предполагая, что все признаки набора данных непрерывны, можно сформировать признаковое пространство.Сначала из набора данных находится точка выборки, а затем соседняя с ней выборка того же вида.В пространстве признаков , между этими двумя точками может быть сформирована линия, и на этой линии случайным образом находится точка для генерации новых данных и добавления их в обучающую выборку.

Конечно, если выборочные данные несбалансированы, может быть более подходящим выбрать другую модель алгоритма, например модель дерева решений.Принцип дерева решений определяет, что он лучше работает на несбалансированных выборках.

использованная литература

Эндрю Нг: Конспект лекций CS229
Чжихуа Чжоу: машинное обучение
Developers.Google.com/machine - аааа...