(Уведомление:В этом посте делается попытка объяснить интуицию, лежащую в основе логистической регрессии, читателям, которые не полностью знакомы со статистикой. Так что вы, вероятно, не найдете здесь серьезной математической работы. )
1. В отличие от измеряемой регрессии, логистическая регрессия не пытается предсказать значение числовой переменной при заданном наборе входных данных. Вместо этого вывод состоит в том, что данная точка ввода принадлежит определенному классу.вероятность. Для простоты предположим, что у нас есть только два класса (для задач с несколькими классами вы можете посмотретьПолиномиальная логистическая регрессия), и рассматриваемая вероятность равна P+ -> вероятность того, что некоторая точка данных принадлежит классу «+». Конечно, P_ = 1-P+. Следовательно, результат логистической регрессии всегда находится в [0,1].
2. Основная предпосылка логистической регрессии предполагает, что ваше входное пространство можно разделить на две удобные «области», по одной для каждого класса.линейный(читай: прямая линия)граница. Итак, что вы подразумеваете под «линейной» границей? В обоих измерениях это прямая линия без изгибов. Для трех измерений это плоскость. и Т. Д. Эта граница будет определяться вашими входными данными и алгоритмом обучения. Но чтобы принять это как должное, ясно, что точки данных должны быть разделены на две вышеупомянутые области линейной границей. Если ваши точки данных удовлетворяют этому ограничению, говорят, что они линейно разделимы. См. изображение ниже.
Эта разделительная плоскость называетсяЛинейный дискриминант, так как 1. его функция линейна, 2. Это помогает модели «различать» точки, принадлежащие разным классам. (Примечание. Если ваши точки не являются линейно разделимыми в исходном концептуальном пространстве, вы можете рассмотреть возможность преобразования вектора признаков в пространство более высокой размерности путем добавления измерений условий взаимодействия, членов более высокой размерности и т. д. Такие линейные алгоритмы имеют более высокую размерность. пространство дает вам некоторые преимущества обучения нелинейным функциям, поскольку граница будет нелинейной, если ее отобразить в исходном входном пространстве.)
========== X ===========
Во-первых, давайте попробуем понять геометрический смысл «разделения» входного пространства на две отдельные области. Предполагая две входные простые переменные (в отличие от трехмерного графика, показанного выше) x1 и x2, функция, соответствующая границе, будет выглядеть примерно так:
. (Крайне важно отметить, что входных переменных x1 и x2 две, а выходные переменные не являются частью пространства понятий — в отличие от таких методов, как линейная регрессия.) Рассмотрим (a, b). Вводим значения x1 и x2 в граничную функцию и получаем ее вывод
. Теперь в зависимости от положения (a, b) есть три возможности:
1. (a,b) лежит в области, определяемой точкой класса +. результат
будет положительным где-то в точке (0, ∞). Математически, чем больше величина значения, тем больше расстояние между точкой и границей. Интуитивно понятно, что чем выше вероятность того, что (a,b) принадлежит классу +. Следовательно, P+ будет в (0,5,1).
2. (a,b) находится в области, определяемой -классом. в настоящее время,
будет отрицательным, лежащим (-∞, 0). Но в положительном случае, чем выше абсолютное значение выхода функции, тем выше вероятность того, что (a,b) принадлежит классу -. P+ теперь будет на [0,0,5].
3. (a,b) лежит на линейной границе. при этих обстоятельствах,
. Это означает, что модель не может действительно сказать, принадлежит ли (a, b) к +-классу или к -классу. В результате Р+ будет ровно 0,5.
Итак, теперь у нас есть функция, которая выводит значение (-∞,∞) с учетом точек входных данных. Но как нам сопоставить это с P+, вероятностью, начинающейся с [0,1]? ответ
, что в основном представляет собой отношение вероятности того, что событие произойдет, к вероятности того, что оно не произойдет. Ясно, что вероятность и шансы передают одно и то же сообщение. Но когда $P(X)$ изменяется от 0 до 1, OR(X) изменяется от 0 до ∞.
Однако мы все еще не подали заявку, потому что наша граничная функция переходит от заданного значения - ∞ к ∞. Итак, что нам нужно сделать, так это
Итак, у нас наконец есть способ интерпретировать результаты внесения входных свойств в граничную функцию. Граничная функция фактически определяет логарифмические шансы класса + в нашей модели. Таким образом, в двухмерном примере при заданной точке
(a,b), логистическая регрессия будет делать следующее:
шаг 1. Вычислить значение граничной функции (или функции логарифмических шансов)
. Назовем это значение просто t.
Шаг 2. Рассчитайте отношение шансов, сделав это
. (поскольку t — логарифм OR+).
Шаг 3. Зная ИЛИ+, он вычисляет P+, используя простое математическое соотношение
. На самом деле, как только вы узнаете t, полученное на шаге 1, вы можете объединить шаги 2 и 3, чтобы получить
RHS приведенного выше уравнения называетсяЛогическая функция. Следовательно, также дайте этой модели обучения имя :-).
========== X ===========
Теперь мы понимаем интуицию, лежащую в основе логистической регрессии, но остается вопрос — как она изучает граничные функции.
? Математика, стоящая за этим, выходит за рамки этого поста, но вот грубая идея: рассмотрим функцию g(x), где x — точка данных в обучающем наборе данных. g(x) можно просто определить следующим образом: если x является частью класса +, g(x)=P+, (где P+ — результат, заданный моделью логистической регрессии). Если x является частью класса -, g(x)=1-P+. Интуитивно g(x) количественно определяет вашу модель
========== X ===========
Это все на данный момент! Как и все мои сообщения в блоге, я надеюсь, что это поможет кому-то, кто пытается погуглить и узнать что-то самостоятельно, чтобы понять неправильные представления о методах логистической регрессии.
Нажмите на оригинальную английскую ссылку
Для получения дополнительных статей, пожалуйста, посетите: http://www.apexyun.com
Общедоступный номер: Galaxy № 1
Контактный адрес электронной почты: public@space-explore.com
(Пожалуйста, не перепечатывайте без разрешения)