Объясните интуицию, лежащую в основе логистической регрессии.

машинное обучение

(Уведомление:В этом посте делается попытка объяснить интуицию, лежащую в основе логистической регрессии, читателям, которые не полностью знакомы со статистикой. Так что вы, вероятно, не найдете здесь серьезной математической работы. )

Логистическая регрессия — это алгоритм классификации, который включает линейную дискриминацию.
что это обозначает?

1. В отличие от измеряемой регрессии, логистическая регрессия не пытается предсказать значение числовой переменной при заданном наборе входных данных. Вместо этого вывод состоит в том, что данная точка ввода принадлежит определенному классу.вероятность. Для простоты предположим, что у нас есть только два класса (для задач с несколькими классами вы можете посмотретьПолиномиальная логистическая регрессия), и рассматриваемая вероятность равна P+ -> вероятность того, что некоторая точка данных принадлежит классу «+». Конечно, P_ = 1-P+. Следовательно, результат логистической регрессии всегда находится в [0,1].

2. Основная предпосылка логистической регрессии предполагает, что ваше входное пространство можно разделить на две удобные «области», по одной для каждого класса.линейный(читай: прямая линия)граница. Итак, что вы подразумеваете под «линейной» границей? В обоих измерениях это прямая линия без изгибов. Для трех измерений это плоскость. и Т. Д. Эта граница будет определяться вашими входными данными и алгоритмом обучения. Но чтобы принять это как должное, ясно, что точки данных должны быть разделены на две вышеупомянутые области линейной границей. Если ваши точки данных удовлетворяют этому ограничению, говорят, что они линейно разделимы. См. изображение ниже.

linearly_separable_4

Эта разделительная плоскость называетсяЛинейный дискриминант, так как 1. его функция линейна, 2. Это помогает модели «различать» точки, принадлежащие разным классам. (Примечание. Если ваши точки не являются линейно разделимыми в исходном концептуальном пространстве, вы можете рассмотреть возможность преобразования вектора признаков в пространство более высокой размерности путем добавления измерений условий взаимодействия, членов более высокой размерности и т. д. Такие линейные алгоритмы имеют более высокую размерность. пространство дает вам некоторые преимущества обучения нелинейным функциям, поскольку граница будет нелинейной, если ее отобразить в исходном входном пространстве.)

========== X ===========

Но как логистическая регрессия использует эту линейную границу для количественной оценки вероятности того, что точка данных принадлежит определенному классу?

Во-первых, давайте попробуем понять геометрический смысл «разделения» входного пространства на две отдельные области. Предполагая две входные простые переменные (в отличие от трехмерного графика, показанного выше) x1 и x2, функция, соответствующая границе, будет выглядеть примерно так:

\ beta_0 + \ beta_1 x_1 + \ beta_2 x_2

. (Крайне важно отметить, что входных переменных x1 и x2 две, а выходные переменные не являются частью пространства понятий — в отличие от таких методов, как линейная регрессия.) Рассмотрим (a, b). Вводим значения x1 и x2 в граничную функцию и получаем ее вывод

\ beta_0 + \ beta_1 a + \ beta_2 b

. Теперь в зависимости от положения (a, b) есть три возможности:

1. (a,b) лежит в области, определяемой точкой класса +. результат

\ beta_0 + \ beta_1 a + \ beta_2 b

будет положительным где-то в точке (0, ∞). Математически, чем больше величина значения, тем больше расстояние между точкой и границей. Интуитивно понятно, что чем выше вероятность того, что (a,b) принадлежит классу +. Следовательно, P+ будет в (0,5,1).

2. (a,b) находится в области, определяемой -классом. в настоящее время,

\ beta_0 + \ beta_1 a + \ beta_2 b

будет отрицательным, лежащим (-∞, 0). Но в положительном случае, чем выше абсолютное значение выхода функции, тем выше вероятность того, что (a,b) принадлежит классу -. P+ теперь будет на [0,0,5].

3. (a,b) лежит на линейной границе. при этих обстоятельствах,

\ beta_0 + \ beta_1 a + \ beta_2 b = 0

. Это означает, что модель не может действительно сказать, принадлежит ли (a, b) к +-классу или к -классу. В результате Р+ будет ровно 0,5.

Итак, теперь у нас есть функция, которая выводит значение (-∞,∞) с учетом точек входных данных. Но как нам сопоставить это с P+, вероятностью, начинающейся с [0,1]? ответ

шансы
в функции. Пусть P(X) обозначает вероятность события X. В этом случае отношение шансов (OR(X)) определяется как

\压裂{P(X)} {1-P(X)}

, что в основном представляет собой отношение вероятности того, что событие произойдет, к вероятности того, что оно не произойдет. Ясно, что вероятность и шансы передают одно и то же сообщение. Но когда $P(X)$ изменяется от 0 до 1, OR(X) изменяется от 0 до ∞.

Однако мы все еще не подали заявку, потому что наша граничная функция переходит от заданного значения - ∞ к ∞. Итак, что нам нужно сделать, так это

логарифм
OR(X) для , известная как логарифмическая функция шансов (log-odds function). Математически OR(X) изменяется от 0 до ∞, а log(OR(X)) изменяется от -∞ до ∞!

Итак, у нас наконец есть способ интерпретировать результаты внесения входных свойств в граничную функцию. Граничная функция фактически определяет логарифмические шансы класса + в нашей модели. Таким образом, в двухмерном примере при заданной точке
(a,b), логистическая регрессия будет делать следующее:

шаг 1. Вычислить значение граничной функции (или функции логарифмических шансов)

\ beta_0 + \ beta_1 a + \ beta_2 b

. Назовем это значение просто t.

Шаг 2. Рассчитайте отношение шансов, сделав это

OR_ + = e ^ t

. (поскольку t — логарифм OR+).

Шаг 3. Зная ИЛИ+, он вычисляет P+, используя простое математическое соотношение

P_ + = \ frac {OR _ +} {1 + OR_ +}

. На самом деле, как только вы узнаете t, полученное на шаге 1, вы можете объединить шаги 2 и 3, чтобы получить

P_ + = \ frac {e ^ t} {1 + e ^ t}

RHS приведенного выше уравнения называетсяЛогическая функция. Следовательно, также дайте этой модели обучения имя :-).

========== X ===========

Теперь мы понимаем интуицию, лежащую в основе логистической регрессии, но остается вопрос — как она изучает граничные функции.

\ beta_0 + \ beta_1 x_1 + \ beta_2 x_2

? Математика, стоящая за этим, выходит за рамки этого поста, но вот грубая идея: рассмотрим функцию g(x), где x — точка данных в обучающем наборе данных. g(x) можно просто определить следующим образом: если x является частью класса +, g(x)=P+, (где P+ — результат, заданный моделью логистической регрессии). Если x является частью класса -, g(x)=1-P+. Интуитивно g(x) количественно определяет вашу модель

правильный
Вероятность классификации тренировочных баллов. Таким образом, если вы усредните g(x) по всем обучающим данным, вы получите вероятность того, что система правильно классифицирует случайную точку данных, независимо от того, к какому классу она принадлежит. Немного упрощая, логистическая регрессия учится максимизировать «среднее» g(x). Используемый метод называетсяоценка максимального правдоподобия(по понятным причинам). Если вы не математик, вы можете
как
Там, где происходит оптимизация, делайте это, пока вы знаете, что у вас есть хорошее представление о том, для чего оптимизировать — в основном потому, что большинство библиотек статистики или ML имеют встроенные способы сделать это.

========== X ===========

Это все на данный момент! Как и все мои сообщения в блоге, я надеюсь, что это поможет кому-то, кто пытается погуглить и узнать что-то самостоятельно, чтобы понять неправильные представления о методах логистической регрессии.

Нажмите на оригинальную английскую ссылку

Для получения дополнительных статей, пожалуйста, посетите: http://www.apexyun.com

Общедоступный номер: Galaxy № 1

Контактный адрес электронной почты: public@space-explore.com

(Пожалуйста, не перепечатывайте без разрешения)