Расширенное машинное обучение — глубокие мысли о логистической регрессии

машинное обучение алгоритм
Расширенное машинное обучение — глубокие мысли о логистической регрессии

фон проблемы

Допустим, есть такая потребность: определить, является ли цветок ирисом или нет. Мы знаем, что разные сорта цветов растут по-разному, поэтому мы можем представить этот цветок по нескольким внешним характеристикам цветка (длина чашелистика, ширина чашелистика, длина лепестка, ширина лепестка и т. д.). Основываясь на этой идее, мы собираем N цветов и маркируем их, чтобы получить следующий набор данных.图片

Рассмотрим простейший случай Y (будь то цветок ириса), который линейно связан с признаком X, а W определяется как коэффициент корреляции, то есть модель F может быть выражена следующей формулой:

图片

Упрощенно в векторизованной форме:图片, то есть линейная регрессия,图片

Теперь возникает вопрос: «да» и «нет» — это два состояния, в информатике мы часто используем переключатель 1/0 для выражения, но из диапазона значений выражения посмотрите на математическую формулу:图片Может принимать любое значение, нет возможности напрямую выразить значение переключателя 0/1. Итак, как решить эту проблему? Преобразуйте линейную регрессию в логистическую регрессию с помощью функции преобразования (также известной как функция активации).图片

Идеи моделирования

Не всякая функция может быть использована в качестве функции активации.Функция активации имеет следующие хорошие свойства:
Нелинейная, составная линейная функция линейной функции по-прежнему является линейной функцией, поэтому линейная функция активации не может привести к нелинейному преобразованию, и использование такой функции активации не может повысить выразительную способность модели, поэтому нет способа подогнать сложные проблемы реализации. , поэтому функция активации должна быть нелинейной.
Непрерывно дифференцируемая, если функция не дифференцируема, нет возможности итеративно оптимизировать метод градиентного спуска для получения приближенного оптимального решения. Если функция активации не дифференцируема, для ее решения могут потребоваться другие сложные математические инструменты.Одна из них заключается в том, что решения может не быть, а другая заключается в том, что вычислительные затраты слишком высоки для реализации и реализации.
Монотонность, сама линейная функция является монотонной, что само по себе имеет определенный физический смысл, поэтому это свойство сохраняется после преобразования функции активации, и ее монотонность не может быть изменена. удовлетворить图片

прямое преобразование

Через кусочную функцию f (x) напрямую отображается в 0 или 1, как показано в формуле:
图片
Однако эта кусочная функция не является непрерывной, дифференцируемой и монотонной, а также принимает дополнительный параметр k, поэтому эта кусочная функция не подходит для функций активации.

косвенное отображение

Вместо прямого преобразования в 0 или 1 диапазон f(x) сжимается до (0,1), как показано в формуле:
图片
Это сигмовидная функция.На следующем рисунке показано изображение сигмовидной функции.
图片
Очевидно, эта функция обладает тремя превосходными свойствами упомянутой выше функции активации. В то же время вывод сжимается до интервала (0,1).Есть очень интуитивное ощущение, что мы можем понять это выходное значение как вероятность.В данном случае это относится к вероятности радужной оболочки.Когда вероятность значение больше 0,5, что указывает на то, что вероятность радужной оболочки равна 1, в противном случае это не радужная оболочка, которая равна 0, что может реализовать дискриминацию классификации.

реализовать логику

Итак, теперь, когда у нас есть сигмовидная функция активации, как мы можем использовать ее для обучения модели? Причина, по которой модель может быть обучена, зависит от двух артефактов: функция потерь и градиентный спуск, Первый может количественно оценить ошибку между нашим прогнозом модели и реальным результатом и определить целевую функцию оптимизации, а второй может знать, как уменьшить ошибку и оптимизировать целевую функцию.

функция потерь

Выходное значение сигмовидной функции активации можно рассматривать как вероятность, В частности, мы можем рассматривать эту вероятность как вероятность того, что результат прогноза положительный.
图片
Результат классификации, который нам нужно предсказать, - либо да, либо нет. Есть только два случая. Очевидно, что выборка X подчиняется распределению Бернулли (0-1). Предполагая выборку X, когда истинное значение метки классификации y равно 1, мы видим, что y_pred также является выходным значением сигмоиды (вероятность того, что модель предсказывает да), а 0 является взаимоисключающим событием 1. Когда истинное значение метки классификации равно 0, мы просто смотрим на 1-y_pred (вероятность того, что модель не предсказывает), поэтому условная вероятность P(Y|X) может количественно оценить точность предсказания модели.
图片
Объединяйте и упрощайте, интегрируйте в единую форму
图片
P(Y|X) — результат предсказания модели.Очевидно, что чем ближе значение P(Y|X) к 1, тем точнее результат предсказания модели. Набор данных имеет N выборок, и каждая выборка независима, поэтому модель хороша или плоха для всех данных, что можно определить следующим образом:
图片
Очевидно, что для наилучшей работы модели необходимо найти оптимальный параметр图片сделать图片Максимальное значение может быть получено, что является максимальной зависимой оценкой (MLE) в методе оптимизации, и мы нашли функцию потерь.
图片
Далее нам нужно посмотреть, как преобразовать эту функцию потерь: добавить отрицательный знак (задача максимального значения преобразуется в задачу минимального значения, и градиентный спуск может найти минимальное значение), взять логарифм (не меняя монотонность, и сделать сложное умножение простым непрерывным сложением)
图片

градиентный спуск

После того, как целевая функция определена, следующим шагом является использование градиентного спуска для итеративного обновления параметра W, чтобы он приближался к крайней точке целевой функции.
图片
Получение градиента:
图片
Параллельный тип ②③ видимый
图片
Можно видеть, что ошибка прогнозирования модели во время t + 1 всегда меньше, чем во время t, Благодаря этой итерации модель может продолжать учиться и корректироваться до (локальной) оптимальной экстремальной точки, где частная производная 0. В это время параметры уже нельзя настраивать, и модель прекращает переобучение.

Эпилог

Логистическая регрессия является одной из самых простых и базовых моделей и основных парадигм в машинном обучении. Не будет преувеличением сказать, что это один из краеугольных камней машинного обучения. Многие последующие модели машинного обучения основаны на этом фундаменте. , предлагаются различные формы расширения и улучшения.
Глубокое понимание модели логистической регрессии, анализ идей моделирования, причинно-следственных связей и логики реализации модели логистической регрессии может дать нам более полное и четкое понимание методологии машинного обучения.