Прочитав это, я понял 80% логистической регрессии.

машинное обучение

1. Что такое логистическая регрессия

Логистическая регрессия используется в качестве алгоритма классификации. Все знакомы с линейной регрессией. Общая форма Y = aX + b, а диапазон значений y равен [-∞, +∞]. Как классифицировать с таким количеством значений? Не волнуйтесь, великие математики нашли для нас способ.

То есть результат Y приводится к нелинейному преобразованиюСигмовидная функция, можно получить число S в диапазоне значений между [0,1]. S можно рассматривать как значение вероятности. Если мы установим порог вероятности равным 0,5, то S больше 0,5 можно рассматривать как положительный образец, и менее 0,5 Как отрицательный образец его можно классифицировать.

2. Что такое сигмовидная функция

Формула функции выглядит следующим образом:

image

Независимо от того, какое значение t принимает в функции, результат находится в интервале [0,-1].Напомним, что задача классификации имеет два ответа, один «да», другой «нет», затем 0 нет», 1 соответствует «да», затем кто-то снова спросил, не является ли это интервалом [0,1], почему есть только 0 и 1? Хороший вопрос, допустим категоричныйпорогЕсли он равен 0,5, то он классифицируется как 1, если он превышает 0,5, и классифицируется как 0, если он ниже 0,5.Порог можно установить самостоятельно.

Затем мы вводим aX+b в t, чтобы получить наше общее модельное уравнение для логистической регрессии:

H(a,b)=\frac{1}{1+e^{(aX+b)}}

Результат P также можно понимать как вероятность, Другими словами, те, у кого вероятность больше 0,5, относятся к категории 1, а те, у кого вероятность меньше 0,5, относятся к категории 0, что достигает цели классификации.

3. Что такое функция потерь

Функция потерь для логистической регрессии:log loss, это,функция логарифмического правдоподобия, формула функции выглядит следующим образом:

image

y=1 в формуле означает, что первая формула используется, когда действительное значение равно 1, а вторая формула используется для расчета убытка, когда используется действительное y=0. Зачем добавлять функцию журнала? Вы можете себе представить, что когда реальная выборка равна 1, но вероятность h=0, то log0=∞, что является наибольшим штрафом для модели; когда h=1, тогда log1=0, что эквивалентно отсутствию штрафа, то есть без потерь для достижения оптимальных результатов. Поэтому математики придумали логарифмическую функцию для представления функции потерь.

Наконец, в соответствии с методом градиентного спуска решите точку минимума, чтобы получить желаемый эффект модели.

4. Возможна ли мультиклассификация?

Да, на самом деле мы можем перейти от задачи с двумя классами к проблеме с несколькими классами (один против остальных) Шаги мышления следующие:

1. Рассмотрим тип class1 как положительную выборку, а все остальные типы как отрицательные выборки, и тогда мы можем получить вероятность p1 того, что тип метки выборки является этим типом.

2. Затем другой тип class2 рассматривается как положительная выборка, а все остальные типы рассматриваются как отрицательная выборка, и p2 получается таким же образом.

3. В этом цикле мы можем получить вероятность pi, когда тип метки выборки, которую нужно предсказать, является классом типа i соответственно, и, наконец, мы берем тип метки выборки, соответствующий наибольшей вероятности в pi, в качестве нашего типа предсказываемой выборки. .

image

Короче говоря, он делится на две категории по очереди, и получается максимально вероятностный результат.

5. Каковы преимущества логистической регрессии

  • LR может выводить результаты в виде вероятностей, а не только решений 0,1.
  • LR обладает сильной интерпретируемостью и высокой управляемостью (вы хотите сказать боссу...).
  • Обучение проходит быстро, а эффект от фиче-инжиниринга отличный.
  • Поскольку результатом является вероятность, можно использовать модель ранжирования.

6. Каковы приложения логистической регрессии

  • Оценка CTR/обучение ранжированию системы рекомендаций/различные сценарии классификации.
  • Ориентировочная базовая версия рекламного CTR фабрики поисковых систем — LR.
  • Базовая версия оценки рейтинга рейтинга поиска/рекламы электронной коммерции — LR.
  • Словосочетание для покупок в электронной коммерции рекомендовало много LR.
  • Базовым рейтингом новостного приложения, которое зарабатывает 1000+ долларов на рекламе в день, является LR.

7. Каковы наиболее часто используемые методы оптимизации для логистической регрессии?

7.1 Методы первого порядка

Градиентный спуск, стохастический градиентный спуск, мини стохастический градиентный спуск. Стохастический градиентный спуск не только быстрее, чем исходный градиентный спуск, но и может в определенной степени подавлять возникновение локальных оптимальных решений в задачах локальной оптимизации.

7.2 Методы второго порядка: метод Ньютона, метод квазиньютона:

Вот подробное описание основных принципов метода Ньютона и применения метода Ньютона. Фактически, метод Ньютона заключается в постоянном обновлении положения касательной через пересечение касательной и оси x до тех пор, пока не будет достигнуто пересечение кривой и оси x для получения решения уравнения. В практических приложениях нам часто приходится решать задачи выпуклой оптимизации, то есть решать положение, в котором первая производная функции равна 0, и метод Ньютона может дать решение этой задачи. В практических приложениях метод Ньютона сначала выбирает точку в качестве отправной точки и выполняет разложение Тейлора второго порядка, чтобы получить точку с производной 0 для обновления до тех пор, пока не будут выполнены требования. В это время метод Ньютона становится вторым решение задачи первого порядка, которое более эффективно, чем решение первого порядка, быстрее. X, который мы часто видим, обычно представляет собой многомерный вектор, что приводит к понятию матрицы Гессе (то есть матрицы второй производной от x).

Недостатки: метод Ньютона представляет собой итерацию фиксированной длины и не имеет ступенчатого множителя, поэтому он не может гарантировать стабильное снижение значения функции и даже дает сбой в тяжелых случаях. Кроме того, метод Ньютона требует, чтобы функция была производной второго порядка. А обратная сложность вычисления матрицы Гессе очень велика.

Метод квазиньютона. Метод построения приближенной положительно определенной симметричной матрицы матрицы Гессе без использования частных производных второго порядка называется методом квазиньютона. Идея квазиньютоновского метода заключается в использовании специального выражения для имитации матрицы Гессе или ее обратной так, чтобы выражение удовлетворяло квазиньютоновскому условию. В основном это метод DFP (аппроксимирующий обратную матрицу Hession), BFGS (непосредственно аппроксимирующий матрицу Hession) и L-BFGS (который может уменьшить объем памяти, требуемый BFGS).

8. Почему логистическая регрессия дискретизирует признаки?

  1. Нелинейный! Нелинейный! Нелинейный! Логистическая регрессия относится к обобщенной линейной модели, и ее выразительная способность ограничена; после дискретизации одномерной переменной в N каждая переменная имеет отдельный вес, что эквивалентно введению в модель нелинейности, что может улучшить выразительную способность модели и увеличивайте подгонку;
  2. высокоскоростной! высокоскоростной! высокоскоростной! Умножение разреженного векторного внутреннего произведения выполняется быстро, а результаты вычислений легко хранить и расширять;
  3. Прочность! Прочность! Прочность! Дискретизированные функции очень устойчивы к аномальным данным: например, функция, возраст которой > 30 лет, равна 1, в противном случае она равна 0. Если функции не дискретизированы, аномальные данные «возраст 300» вызовут большие помехи в модели;
  4. Удобный кроссовер и комбинация признаков: кроссовер признаков может быть выполнен после дискретизации, перехода от переменных M+N к переменным M*N, дальнейшего введения нелинейности и улучшения способности выражения;
  5. Стабильность: после дискретизации признаков модель будет более стабильной, например, если возраст пользователя дискретизирован, в качестве интервала используется 20-30, и пользователь не станет совершенно другим человеком, потому что возраст пользователя на год старше. Конечно, выборки, примыкающие к интервалу, будут как раз наоборот, так что как делить интервал — вопрос знания;
  6. Упрощенная модель: после дискретизации признаков модель логистической регрессии упрощается, а риск переобучения модели снижается.

9. К чему приведет увеличение регуляризации L1 в целевой функции логистической регрессии.

Все параметры w станут равными 0.

10. Реализация кода

Гитхаб:GitHub.com/NLP-love/ml…

Машинное обучение легко понять серия статей

3.png


автор:@mantchs

Гитхаб:GitHub.com/NLP-love/ml…

Приглашаются все желающие присоединиться к обсуждению! Улучшайте этот проект вместе! Номер группы: [541954936]NLP面试学习群