Отказ от ответственности: эта статья написанаЛо ЧжоуянОригинал, перепечатка с указанием автора и источника
Эта статья предназначена для чтения классических учебников Стэнфорда.Speech and Language Processing-Logistic RegressionСделанные пометки рекомендуется читать в оригинальном тексте.
Логистическую регрессию можно использовать для задач бинарной классификации и задач множественной классификации (полиномиальная логистическая регрессия). Логистическая регрессия — это алгоритм классификации, а не алгоритм регрессии. Логистическая регрессия относится кдискриминационный классификатор, а наивный байесовский принадлежитгенеративный классификатор.
Дискриминативные и генеративные классификаторы
Чтобы различить эти два классификатора, мы можем взять простой пример: различить, является ли животное на фотографии кошкой или собакой.
Цель генеративной модели — понять, что такое кошка и что такое собака, а затем вынести суждение. Дискриминативная модель, с другой стороны, фокусируется на том, чтобы научиться различать двух животных, а не на том, что они из себя представляют.
Для математически более интуитивного сравнения сначала взгляните на нашу наивную формулу байесовской классификации:
Для генеративных моделей (например, наивного Байеса) используйте термин правдоподобия для расчета, этот термин представляет собой функцию создания документа, если мы знаем, что это класс c. А для дискриминативной модели он попытается вычислить напрямую.
Состав вероятностных классификаторов машинного обучения
Классификатор машинного обучения на основе вероятности состоит из следующих компонентов:
- Представление функций, то есть представление каждого входа
- Функция классификации, которая оценивает класс текущего ввода, например.sigmoidиsoftmax
- Целевая функция, обычно включающая минимизацию ошибки на тренировочном наборе, например.Функция кросс-энтропийных потерь
- Алгоритм, который оптимизирует целевую функцию, например.SGD
Sigmoid
Цель бинарной логистической регрессии — обучить классификатор, способный принимать бинарные решения, и сигмоид — один из возможных способов.
Логистическая регрессия путем изучения двух параметров из обучающего набораипринимать решения.
Формула оценки класса для логистической регрессии выглядит следующим образом:
Два параметра, которые необходимо изучить, также напрямую отражены в приведенной выше формуле.
В линейной алгебре указанная выше взвешенная сумма обычно равнаОн представлен ** скалярным произведением **, поэтому приведенная выше формула эквивалентна:
Тогда полученный результат представляет собой число с плавающей запятой.Для задачи с двумя категориями результат всего лишь0
и1
Два, так как мы можем судить об этомz
принадлежит0
категория или1
Что насчет категорий?
Давайте сначала посмотрим, как выглядит сигмовидная функция.
Изображение выглядит следующим образом:
Видно, что диапазон сигмовидной функции равен (0,1) и симметричен относительно (0,0,5), поэтому легко получить границу решения:
-
z<=0.5
принадлежит0
категория -
z>0.5
принадлежит1
категория
Сигмовидная функция имеет много хороших свойств:
- Его входной диапазон, диапазон выходных значений, это естественное вероятностное представление!
- существует
x=0
Почти линейный с небольшими изменениями при очень отрицательном или очень положительном значении
На этом этапе мы можем вычислить категорию0
и категория1
Вероятность:
функция кросс-энтропийных потерь
Когда дело доходит до функций потерь, вы можете подуматьСреднеквадратичные потери (MSE):
Эта потеря часто используется в линейной регрессии, но применительно к вероятностной классификации ее становится трудно оптимизировать (в основном невыпуклость).
условная оценка максимального правдоподобия: выберите параметричтобы максимизировать разницу между метками и обучающими данными () логарифмической вероятности.
Поскольку распределение классовРаспределение Бернулли, поэтому мы можем легко написать:
потому что, когдаy=1
час,,когдаy=0
час,.
Отсюда можно получитьлогарифмическая вероятность:
Наш процесс обучения состоит в том, чтобы максимизировать эту логарифмическую вероятность. Если вы возьмете отрицательные числа с обеих сторон приведенного выше уравнения, задача максимизации станет задачей минимизации, то есть цель обучения состоит в том, чтобы минимизировать:
Также из-за, так что нашПотеря отрицательного логарифмического правдоподобияФормула:
Это нашкросс-энтропийная потеря, что касается того, почему это имя, потому что приведенная выше формула:Распределение вероятностей и оценочное распределениеперекрестная энтропия между.
Таким образом, по всему пакету данных мы можем получить среднюю потерю как:
градиентный спуск
Цель градиентного спуска — минимизировать потери, что выражается формулой:
Для нашей логистической регрессииэтои.
Так как же минимизировать эту потерю?градиентный спускЭто способ найти минимальное значение, которое выполняется возвратно-поступательным движением, чтобы получить самое быстрое направление затухания функции.
Для этой функции потерь для логистической регрессии этовыпуклая функция, так что он имеет только один минимум и не имеет локального минимума, поэтому точка глобального минимума определенно может быть найдена в процессе оптимизации.
Возьмите двухмерный пример и почувствуйте процесс, как показано на следующем рисунке:
Можно видеть, что процесс оптимизации приведенной выше функции потерьПеремещение на небольшой шаг в положительном направлении градиента за раз!может быть выражена в виде следующей формулы:
вышерешил этоОдин маленький шагсколько еще называетсяскорость обучения.
градиент вышеРезультат - константа.
еслиN
Что насчет многомерного пространства? Тогда градиент представляет собой вектор следующим образом:
Тогда наше обновление параметра:
Градиент логистической регрессии
Потеря для логистической регрессии выглядит следующим образом:
У нас есть:
Для пакета данных наш градиент выглядит следующим образом:
Регуляризация
Модель, обученная выше, может появитьсяпереоснащение, чтобы решить эту проблему, нам нужна техника, называемаярегуляризация.
Регуляризация — это ограничение на веса, в частности, для максимизации логарифмической вероятностиНа основании весаограничения.
Таким образом, наша цель может быть описана следующей формулой:
в,этосрок регуляризации.
Как видно из приведенной выше формулы, регулярный термин заключается в штрафовании больших весов. Среди моделей с похожими эффектами мы всегда склонны выбиратьМеньший. так называемыйменьшеимеет меньше возможностей, т.е.В векторе больше нулей.
Обычно используемые методы регуляризации:Регуляризация L2иРегуляризация L1.
Регулярный расчет L2 - это евклидово расстояние, и формула выглядит следующим образом:
Обычный расчет L1 - это расстояние Махатона, и формула выглядит следующим образом:
Итак, каковы преимущества и недостатки регулярности L2 и регулярности L1?
- Регуляризацию L2 легче оптимизировать, потому что ее производная, а производная L1 разрывна в 0
- Регуляризация L2 более склонна требовать небольших значений веса, а регуляризация L1 более склонна к некоторым большим значениям веса, но в то же время большее количество значений веса равно 0, что означает, что результат регуляризации L1 имеет тенденцию быть разреженная матрица весов.
Обе регуляризации L1 и L2 имеют байесовскую интерпретацию. Регулярность L1 можно интерпретировать как априорную вероятность веса по Лапласу, а регулярность L2 соответствует предположению, что распределение веса является средним значением 0 () имеет нормальное распределение.
Гауссово распределение весов выглядит следующим образом:
Согласно закону Байеса, наши веса можно оценить по следующей формуле:
Рассчитайте априорную вероятность, используя приведенное выше распределение Гаусса., вы можете получить:
мы позволяем,, логарифмируя, имеем:
Multinomial logistic regression
Выше мы обсуждали все проблемы бинарной классификации, что, если мы хотим мультиклассифицировать? На этот раз вам нужноMultinomial logistic regression, эта мультиклассификация также называетсяsoftmax regressionилиmaxent classifier.
Многоклассовый набор категорий неСуществует два вида, поэтому мы заменяем функцию, которая вычисляет вероятность выходного результата, на замену сигмоида, который является версией сигмоида Panhua.softmax.
в,.
Итак, для ввода
У нас есть:
Очевидно, что знаменатель функции softmax — это накопление, поэтому softmax выводит значение вероятности для каждого входа, а сумма значений вероятности всех входов равна 1!
Подобно сигмовидной, положитьВнесите:
Обратите внимание, что нашиВсе они соответствуют классификации на данный момент, поэтому записываются каки.
Точно так же наша функция потерь становится обобщенной версией:
в,1{y=k}
выражатьзначение равно 1, иначе 0.
Следовательно, могут быть получены следующие производные (без процесса вывода):
мыслительные вопросы
- Логистическая регрессия очень похожа на нейронные сети? Можете ли вы назвать сходства и различия между ними?
свяжитесь со мной
- WeChat: luozhouyang0528
- Email: stupidme.me.lzy@gmail.com
- Публичный номер: тупыммедотме