Прежде чем продолжить изучение дерева решений GBDT (Gradient Boosting Dicision Tree), нам нужно сначала понять алгоритм логистической регрессии (логистическая регрессия), потому что GBDT более сложен, но на основе логистической регрессии его будет легче понять.
Логистическая регрессия — это самый простой алгоритм машинного обучения и один из наиболее часто используемых алгоритмов в отрасли, потому что он прост, эффективен и практичен.
Хотя линейная регрессия также очень проста, она непрактична, потому что логистическая регрессия по сути является вероятностной моделью.В практических приложениях существует гораздо больше сценариев для прогнозирования значения вероятности между 0-1, чем для действительного числа.Например, в рекламного бизнеса, мы часто ищем вероятность того, что пользователь нажмет на рекламу.
Логистическая регрессия является вероятностной моделью, но с помощью определенного преобразования мы все же можем преобразовать диапазон предсказания модели от 0-1 до диапазона действительных чисел, поэтому ее и линейную регрессию можно обобщить в «Обобщенную линейную модель» (Обобщенная линейная модель). Линейная модель) Модель), чтобы понять это преобразование, нам нужно ввести понятие: шансы и логарифм(шансы).
шансы и журнал (шансы)
Odds означает шансы и шансы Согласно Википедии, это понятие в основном используется в сфере азартных игр и статистики, а его история восходит к 16 веку, до развития теории вероятностей.
Коэффициенты легко понять. Возьмем в качестве примера футбольный матч. Предположим, что китайская команда играет с бразильской командой. У китайской команды есть выигрышная сторона 1 и проигравшая сторона 99. Тогда шансы на победу китайской команды равны 1/ 99, а шансы проиграть 99, шансы и вероятность.Разницу также легко увидеть на этом примере.С точки зрения вероятности, вероятность того, что китайская команда выиграет у сборной Бразилии, составляет 0,01, а вероятность проигрыша составляет 0,99.
Приведенный выше пример также показывает, что шансы на победу китайской команды и коэффициенты на победу бразильской команды попадают в разные диапазоны значений. степень, но два числа 1/99 и 99, их шкалы разные, трудно принять решение по этому поводу.Для решения этой проблемы используется интуитивное суждение; и логарифм(шансы):
Китайская команда побеждает | Бразилия побеждает | |
---|---|---|
odds | 1/99 | 99 |
log(odds) | -4.60 | 4.60 |
Можно видеть, что после добавления логарифма к коэффициентам абсолютное значение логарифма (коэффициентов) в двух случаях, когда выигрывает китайская команда и бразильская команда, составляет 4,6, то есть степень выигрыша и проигрыша одинакова. что можно увидеть с первого взгляда, и когда Когда мы вычисляем логарифм (шансы) выигравшей стороны, мы можем судить о том, является ли выигравшая сторона больше или меньше по знаку Например, -4,6 означает, что у китайской команды меньше Выигравшая сторона Кроме того, когда журнал (шансы) равен 0, выигравшая сторона и проигравшая сторона имеют одинаковое количество граней.
log(шансы) — полезный индикатор, вы можете написать программу, которая непрерывно генерирует случайные числа в диапазоне от 0 до 100., затем поставьтесоответствующийПостройте это с помощью гистограммы, и вы увидите, что она соответствует нормальному распределению:
В практических приложениях мы можем принять вышеизложенноеЗамените его показателями, такими как клики или покупки веб-сайта, рассчитайте соответствующее распределение логарифмов (шансов) на основе исторических данных, а затем найдите набор связанных функций, соответствующих этому распределению, что мы и называем CTR (коэффициент кликов). или модель CVR (коэффициент конверсии), за которым следует пользователь, мы вносим его релевантные функции в модель и вычисляем соответствующий логарифм (шансы), то есть вероятность того, что пользователь нажмет или купит определенный продукт.
До сих пор некоторые студенты спрашивают, какое это имеет отношение к логистической регрессии? На самом деле у log(odds) другой метод расчета:
На самом деле это легко понять.Это все тот же пример выше.Вероятность победы китайской команды p=0.1, а логарифм(коэффициенты) победы китайской команды равен
Мы находим один в обеих частях уравнениямощность для вычисления p-значения, то есть
Это то, что мы знаем как логистическая регрессия, Выражение в правой части уравнения обычно называется сигмовидной функцией, а log (шансы) также называется логит-функцией, Соотношение преобразования между ними показано на рисунке ниже, где x можно рассматривать как вектор признаков.
Как видно из рисунка, если логистическую регрессию преобразовать в логарифмическую (шансы), есть два очевидных изменения:
- log(шансы) - прямая линия
- log(шансы) может расширить диапазон логистической регрессии от (0, 1) до (-∞, +∞)
Внезапно это немного похоже на линейную регрессию, но отличие от линейной регрессии в том, что выборка логистической регрессии имеет только два значения 0 и 1, а преобразование в логарифм (шансы) точно равно -∞ и +∞, поэтому когда вы используете MSE для соответствия, полученная потеря всегда бесконечна, поэтому невозможно использовать линейную регрессию для соответствия логистической регрессии. В логистической регрессии мы используем максимальное правдоподобие как потерю модели.
Maximum Likelihood
Максимальное правдоподобие также является очень интуитивно понятным понятием, то есть теперь у меня есть куча положительных и отрицательных выборок, и какую кривую логистической регрессии я использую для подбора этих выборок, можно максимизировать произведение их вероятностей.
Например, предположим, что левая часть рисунка ниже представляет собой экспериментальные данные о весе и ожирении, где зеленые точки обозначают норму, а красные точки — ожирение, и теперь нам нужно использовать логистическую регрессию для моделирования этих выборок, предполагая, что лучшая модель показана в правой части рисунка ниже:
При расчете этой модели предполагается, что вероятности ожирения, соответствующие зеленым образцам, составляют 0,01, 0,02, 0,03 и 0,9 слева направо, зеленые - нормальные образцы, и необходимо рассчитать вероятность того, что они не страдают ожирением. поэтому используйте 1, чтобы вычесть эти значения, то есть: 0,99, 0,98, 0,97 и 0,1; таким же образом рассчитайте вероятность того, что красный образец страдает ожирением, как 0,1, 0,97, 0,98 и 0,99 соответственно, потому что кривая уже оптимальна, поэтому вероятность, соответствующая этим 8 точкам Произведение равно -0,0089, что является максимальным значением, которое можно получить во всех возможных моделях. Можно видеть, что максимальное правдоподобие на самом деле имеет буквальное значение.
В линейной регрессии мы используем MSE для измерения качества линейной модели, Чем меньше MSE, тем лучше соответствие, а в логистической регрессии используется максимальное правдоподобие, и чем больше показатель, тем лучше модель.
для образца, когда это положительный образец, соответствующая вероятность равна, а когда это отрицательный образец, соответствующая вероятность равна, для удобства расчета нам нужно использовать только одну формулу для выражения этих двух случаев:
Здесь y представляет значение выборки, поскольку y имеет только два значения, 0 и 1, когда y является положительной выборкой 1, поднесите ее к приведенной выше формуле, чтобы получить, и когда y является отрицательной выборкой 0, поднесите его к приведенной выше формуле, чтобы получить, поэтому представление вероятности каждой выборки унифицировано, так что общая Вероятность хорошо представлена:
В приведенной выше формуле n указывает на наличие n выборок, нижний индекс i указывает на i-ю выборку, x — вектор признаков, y — наблюдаемое целевое значение,- вес вектора признаков, а также параметр модели. L - вероятность всех выборок и функция потерь в логистической регрессии. Наша цель - настроить, чтобы максимизировать L.
Обычно мы будем преобразовывать непрерывное умножение в суммирование через логарифм, брать отрицательный знак и преобразовывать максимальное значение в минимальное значение следующим образом:
Следующим шагом является нахождение градиента потери, а затем изменение параметров в соответствии с градиентом и продолжение итерации процесса сходимости.Чтобы уменьшить дискомфорт при чтении, мы не будем продолжать вывод здесь.Проведите некоторые расчеты по черновик, чтобы углубить ваше понимание.
Логистическая регрессия и байесовская классификация
Ядром байесовской классификации по-прежнему является классическая байесовская формула:
В задаче классификации мы на самом деле спрашиваем вероятность того, что при появлении выборки x она принадлежит классу c., который равен p(c|x) приведенной выше формулы. правая часть уравненияВыражено для категорий, отличных от c, p(c) иЭто можно понимать как априорная вероятность.В общем, вы можете установить их равными.Например, мы можем установить априорную вероятность бинарной классификации на 0,5.
Тогда p(x|c) можно выразить как вероятность появления выборки x в категории c. Аналогично,вВероятность того, что в классификации наблюдается экземпляр x. Таким образом, p(c|x) является апостериорной вероятностью.
Разобравшись с байесовской классификацией, мы делим и числитель, и знаменатель в правой части уравнения на,следующее:
Пока что эта формула очень похожа на сигмовидную функцию, мы устанавливаем:
Затем установите априорные вероятности равными и возьмите логарифм в обеих частях уравнения, мы получим:
Переместите знак минус вправо:
Наконец, верните z к исходной формуле:
Вывод состоит в том, что логистическая регрессия на самом деле является просто байесовской классификацией, они оба являются моделью апостериорной вероятности.
Суммировать
В этой статье мы в основном изучили принцип алгоритма логистической регрессии с помощью концепций журнала (шансов) и байесовской классификации и узнали, что логистическая регрессия использует максимальную вероятность в качестве функции потерь, Надеюсь, вы, как и я, пройдете эту статью , Получить более глубокое понимание логистической регрессии.
Ссылаться на:
Статьи по Теме: