Что такое логистическая регрессия? Как это связано с линейной регрессией?
Проще говоря, логистическая регрессия — это метод машинного обучения для решения задач бинарной классификации (0 или 1) для оценки вероятности чего-либо. Например, возможность того, что пользователь купит определенный продукт, возможность пациента, страдающего определенным заболеванием, и возможность того, что пользователь нажмет на рекламу. (Обратите внимание, что здесь используется «вероятность», а не математическая «вероятность». Результат логистической регрессии не является значением вероятности в математическом определении и не может использоваться непосредственно в качестве значения вероятности. Этот результат часто используется с другими функциями. -взвешенное суммирование вместо прямого умножения)
Логистическая регрессия и линейная регрессия являются обобщенными линейными моделями. Логистическая регрессия предполагает, что зависимая переменная y следует распределению Бернулли, а линейная регрессия предполагает, что зависимая переменная y следует распределению Гаусса. Следовательно, есть много общего с линейной регрессией.Если сигмовидная функция отображения удалена, алгоритм логистической регрессии представляет собой линейную регрессию. Можно сказать, что логистическая регрессия теоретически поддерживается линейной регрессией, но логистическая регрессия вводит нелинейные факторы через сигмовидную функцию, поэтому она может легко справляться с проблемами классификации 0/1.
Распределение Бернулли:This.Wikipedia.org/wiki/%E4%BC…
Гауссово распределение:This.Wikipedia.org/wiki/%E6%AD…
логистическая регрессия
Предположим, имеется следующий набор данных, представляющий вероятность наличия у пациента рака при различных размерах опухоли.:
pic1.pngПредположение, из приведенного выше рисунка мы можем примерно предсказать:
Приведенные выше данные согласуются с линейным уравнением, но еслиy = 1
Выборка данных отображается в нестабильном положении, что может привести к сбою всей линейной регрессии:
Для такого рода задач нам нужно наше уравнение регрессии:
и:
Sigmoid Fuction (Logisitic Function)
Он вполне может удовлетворить вышеуказанные требования, и его функциональное выражение:
Его функциональное изображение:
pic3.pngТаким образом, для вышеуказанной проблемы с опухолью можно предположить, что:
который:
такКакое значение можно использовать, чтобы правильно вернуться к вышеуказанному肿瘤大小与患癌症概率
Что насчет набора данных?
граница решения
в конкретномПеред этим давайте разбиратьсяграница решенияконцепции, в качестве примера возьмем следующие данные:
pic4.pngПредположение, модель данных слева может быть правильно регрессирована, тогда:
если
Так, то в это время
pic5.pngявляется границей решения, то есть, приняв ее за границу, мы можем знать, что вЕсли это определено, когда набор данных,Когда
Граница решения — это граница, используемая для проведения четкой границы.Форма границы может быть неопределенной, это может быть точка, линия или плоскость. Границей решения является функция предсказаниясвойства, а не свойства обучающего набора.
решать задачи логистической регрессии
Уравнение логистической регрессии, которое мы нашли:
как решитьШерстяная ткань? Просмотрите функцию стоимости линейной регрессии:
Его также можно выразить в следующем виде, но для логистической регрессии
Однако график его функции стоимости представляет собой вогнутую волнистую форму, такая волнистая кривая стоимости заставит нас запутаться при градиентном спуске, любое минимальное значение можно принять за минимальное значение, но получить максимальное значение невозможно. точность предсказания. Но на кривой затрат справа, как на слайде, мы легко можем достичь минимума:
pic6.pngСледовательно, функция стоимости логистической регрессии не может просто применить модель линейной регрессии.Для логистической регрессии ее функция стоимости:
если у = 1,Подобное выглядит следующим образом:
pic7.pngВыше, Стоимость = 0, тогда лучший, но когдаПри приближении к 0 Cost стремится к бесконечности. То есть предсказание в это время весьма необоснованно, в данном случае:
Если y = 0, график функции стоимости выглядит следующим образом:
pic8.pngНа самом деле вышеизложенноеЕго можно упростить до следующего вида:
Этот способ написания через статистическиймаксимальная вероятностьПолученный :zhuanlan.zhihu.com/p/26614750
Таким образом, функция стоимости логистической регрессии:
Ее можно решить с помощью алгоритма градиентного спуска.:
Приведенная выше формула для градиентного спуска на самом деле похожа на линейную регрессию, но разница заключается в следующем:
Мы можем написать код, чтобы выяснить это с помощью градиентного спуска., но помимо градиентного спуска есть еще несколько более продвинутых алгоритмов, способных решать:
pic9.pngНам не нужно реализовывать вышеуказанные алгоритмы самостоятельно, мы можем вызвать некоторые существующие библиотеки:
pic10.pngfminunc
Минимальное значение функции при неограниченных условиях можно найти, а указанную выше функцию можно найти, запустив указанную выше функцию на октаве:
exitFlag=1 означает, что алгоритм сошелся.
Для логистической регрессии нам просто нужно заменить приведенный выше алгоритм на:
Классификация «один ко многим»
Что такое задача классификации «один ко многим» (мультиклассификация)?
Например, вы помещаете электронное письмо в разные папки, такие как работа, друзья, хобби и т. д.
Проблемы с множественной классификацией можно решить, преобразовав один ко многим в один к одному:
pic11.pngТо есть есть несколько категорий, которые нам нужны для обучения нескольких классификаторов логистической регрессии, На приведенном выше рисунке необходимо реализовать классификаторы 3, которые удовлетворяют:
Но если вы введете, то какой классификатор выбрать?
Нам нужно только выбрать тот, у которого наибольший результат расчета
pic12.pngСправочная статья: