Линейная регрессия: это, вероятно, самая простая модель в машинном обучении.

машинное обучение
Линейная регрессия: это, вероятно, самая простая модель в машинном обучении.
Эта статья является 7-й частью "Машинное обучение Сборник", Прочитав эту статью, вы сможете освоить модель линейной регрессии в машинном обучении.

В первых 6 статьях «Коллекции машинного обучения» мы в основном говорим о некотором базовом здравом смысле, показателях оценки модели, методах оценки модели и проблемах утечки данных в машинном обучении, В этой статье мы поговорим о принципах некоторых моделей. Эта статья представляет собой введение в принципы моделей линейной регрессии.

Что такое линейная регрессия

Модель линейной регрессии — это очень простая модель машинного обучения. Она в основном используется для поиска причинно-следственной связи между переменными. Есть надежда, что линейная комбинация может быть использована для выражения связи между функцией и целью. Предположим, что в данныхСодержит n функций:Указывает значение, соответствующее i-му признаку. Мы можем выразить линейную регрессию с помощью следующей формулы:

в,представляет истинное значение цели,Представляет целевое прогнозируемое значение, если оно записано в векторной форме, тогда:

в,,представляет константу. Когда можно определить параметрыи, то модель может быть определена, поэтому процесс обучения фактически состоит в том, чтобы найтиипроцесс. Кроме того, посколькуВажность каждого признака в прогнозировании выражена интуитивно, поэтому линейная модель имеет хорошую интерпретируемость.

Простейшей линейной регрессией является одномерная линейная регрессия, то есть когда имеется только один признак, если количество признаков превышает один, то это множественная линейная регрессия. Давайте интуитивно почувствуем, как выглядит модель линейной регрессии. Например, мы хотим предсказать цену пиццы на основе диаметра пиццы.С помощью линейной регрессии мы подгоняем следующий график.

График, соответствующий одномерной линейной регрессии, на самом деле представляет собой прямую линию.Синие точки представляют истинное значение цены пиццы, зеленая прямая линия соответствует обученной модели, а красная вертикальная линия представляет прогнозируемое значение цены пиццы и истинное значение разница. Видно, что пока можно определить параметрыи, то модель можно использовать для прогнозирования цены пиццы на основе ее диаметра.

Функция потерь для линейной регрессии

На самом деле параметриМожет принимать много значений, нам нужно решить, как определить параметрыиПринцип определения оптимального значения заключается в том, чтобы сделать разницу между прогнозируемым значением модели и фактическим значением как можно меньше.и истинное значениеРазница между, мы можем использоватьфункция потерь(функция потерь) для измерения.

Среди них m представляет количество выборок,представляет истинное значение i-го образца,представляет прогнозируемое значение для i-го образца. Вся формула означает нахождение суммы квадратов разницы между истинным значением и предсказанным значением в m выборках.

Почему функция потерь должна быть суммой квадратов разницы между истинным значением и прогнозируемым значением, а не абсолютным значением, кубической и четвертой формой? Вот объяснение.

Мы устанавливаем отношение между истинным значением, прогнозируемым значением и ошибкой следующим образом:

Конечной целью регрессионной модели является построение функцийс цельюотношения между (через функциональное выражение), надеюсь, черезболее точное представление цели. В реальной жизни в принципе маловероятно, что мы все приведем к целямПоявляющиеся функцииОшибка между прогнозируемым значением и фактическим значением модели также вызвана этими необнаруженными функциями.Предполагая, что эти необнаруженные функции независимы друг от друга, согласно центральной предельной теореме, можно знать, что сумма этих необнаруженных функций подчиняется нормальному распределению, то:

Таким образом, можно получить функцию плотности вероятности ошибки:

С помощью функции плотности вероятности ошибки мы хотим использовать распределение ошибок m обучающих выборок (наблюдаемых выборок), чтобы найти оптимальные параметры, которые приводят к этому распределению.и, чтобы вероятность появления этого распределения была наибольшей, в этот момент получаем параметры при m отсчетахиФункция правдоподобия:

Следующее, что нужно сделать, это сделатьМаксимум, для облегчения решения, взяв логарифм с обеих сторон уравнения, можно получить:

Поскольку данные (m) стремятся к бесконечности, ожидайтеи дисперсияявляется константой, поэтому необходимо только минимизироватьТо есть это функция потерь, которую мы хотим оптимизировать ранее.

Когда есть функция потерь, проблема становится проблемой оптимизации функции потерь.Существует много методов оптимизации.Вот общий алгоритм оптимизации:Наименьших квадратов.

Наименьших квадратов

Для одномерной линейной регрессии функция потерьсоответственноиНайдите частную производную первого порядка, а затем установите частную производную первого порядка на 0, чтобы получитьиФормула решения выглядит следующим образом:


В реальной жизни это скорее множественная линейная регрессия.Для удобства описания далее мы представляем набор данных D в виде матрицы X размера mx(n+1), где каждая строка соответствует выборке, а первый столбец каждой строки равно 1, остальные значения соответствующих признаков. будети b всасываются в вектор,Сейчасявляется вектор-столбцом (n + 1), а цель y является вектор-столбцом m, то матричная форма множественной линейной регрессии может быть получена как:

Аббревиатура:

Соответствующая функция потерь:

После ряда производных можно получить:

Можно видеть, что очень удобно использовать метод наименьших квадратов для решения минимального значения функции потерь, но когда объем данных велик или имеется много признаков, эффективность расчета метода наименьших квадратов будет относительно Кроме того, использование метода наименьших квадратов предполагает, чтоЭто должна быть обратимая матрица, но во многих случаях в реальной жизни количество признаков превышает количество выборок, что приводит кимеет больше столбцов, чем строк,Очевидно, что это необратимая матрица, обычное решение состоит в том, чтобы ввестиРегуляризация(регуляризация).

Регуляризация

Когда количество выборок невелико, а признаки большие, параметры, полученные при оптимизации функции потерь вышеиЛегко привести модель к переоснащению, и мы можем решить эту проблему, введя член регуляризации в функцию потерь. Обычно используемые регуляризации: термин регуляризации L1 и термин регуляризации L2.

Модель, использующая термин регуляризации L1, называется регрессией Лассо, а функция потерь выглядит следующим образом:

в,, Представляет параметр регуляризации.Можно видеть, что член регуляризации L1 вычисляет все весаСумма абсолютных значений , используя член регуляризации L1, может сделать изученные весаГенерируется много нулей, то есть веса могут быть очень разреженными, что часто используется для выбора признаков, а также может в определенной степени предотвратить переоснащение.

Модель, в которой используется термин регуляризации L2, называется регрессией Риджа, а функция потерь выглядит следующим образом:

в,, Представляет параметр регуляризации.Можно видеть, что член регуляризации L2 вычисляет все весаСумма квадратов , используя член регуляризации L2, может сделать изученные весастановится очень маленьким, чтобы предотвратить переоснащение. Почему ты это сказал? Поскольку обычно считается, что модель с небольшим значением параметра относительно проста, она может адаптироваться к различным наборам данных, а также в определенной степени избегает явления переобучения. Можно представить, что для уравнения линейной регрессии, если параметр велик, то пока данные немного смещены, это окажет большое влияние на результат; но если параметр достаточно мал, данные не будут быть сдвинуты немного какое влияние.

Как модели линейной регрессии обрабатывают категориальные признаки

из формулыВидно, что линейная регрессия может обрабатывать все числовые признаки, но в реальной жизни есть много признаков классификации.Например, группа крови является классификационным признаком.Его значения: A, B, O и AB.Линейная Модель регрессии обычно используется для кодирования One-Hot для получения 4-мерного вектора.После обработки исходная функция становится 4 функциями в модели линейной регрессии.

Исходное значение Горячее значение
A [1, 0, 0, 0]
B [0, 1, 0, 0]
O [0, 0, 1, 0]
AB [0, 0, 0, 1]

Поняв теоретические знания о линейной регрессии, как их использовать для решения практических задач?Добро пожаловать на мою планету знаний, давайте учиться и общаться глубже(Как присоединиться: скан нижеQR кодили нажмите "читатьоригинальный»).

Ссылаться на:

  1. Чжихуа Чжоу, Машинное обучение, Глава 3 (Линейные модели)

  2. Объясните семейство регрессии машинного обучения простыми словами

    (http://www.52caml.com/head_first_ml/ml-chapter1-regression-family/)

  3. Вывод функции потерь линейной регрессии и логистической регрессии

    (https://blog.csdn.net/gangyin5071/article/details/81280019#t1)

  4. Вывод функции потерь линейной регрессии - максимальное правдоподобие

    (https://blog.csdn.net/jshazhang/article/details/80487825)

  5. Зачем использовать квадратную форму функции потерь линейной регрессии

    (https://blog.csdn.net/saltriver/article/details/57544704)

  6. Закон больших чисел и центральная предельная теорема

    (https://blog.csdn.net/jshazhang/article/details/79732057#t7)