Как байесовские методы связаны с регрессией Риджа? Без лишних слов, давайте посмотрим непосредственно.
Для удобства иллюстрации рассмотрим одномерную независимую переменную и расположим ряд независимых переменных в виде вектора:, соответствующая целевая функция.
Будем считать, что каждая из выборокнезависимы и подчиняются нормальному распределению со средним(Также можно не указывать форму, если речь идет оифункция), обратная дисперсии, то функция правдоподобия
Логарифмируя функцию правдоподобия, а затем записывая конкретную форму нормального распределения, мы имеем
Максимизация функции правдоподобия эквивалентна минимизации ее отрицательного логарифма, что также эквивалентно минимизации. Мы обнаружили, что на самом деле это использование МНК для решения задачи линейной регрессии. другими словами,Использование МНК для решения линейной регрессии эквивалентно решению задачи максимального правдоподобия в предположении нормального распределения..
Так что же происходит при байесовском подходе? Поскольку байесовский метод требует предварительного распределения параметров, здесь предполагается, что параметрыАприорное распределение - это гиперпараметр, определяемыйПростое нормальное распределение для контроля, обратите внимание, что это многомерное нормальное распределение:
вдаобщее количество элементов.
По теореме Байеса имеем
То, что мы хотим максимизировать, этоАпостериорная вероятность такого метода есть МАР (максимальная апостериорная).
Возьмем отрицательный логарифм правой части приведенного выше уравнения, округлим и получимПосле нерелевантных предметов это становится:
Мы обнаружили, что в предположении, что исходные данные подчиняются нормальному распределению, после добавления предположения о нулевом среднем, гомоскедастическом и некоррелированном многомерном нормальном распределении параметров байесовским методом оптимизации является регрессия Риджа. Что оптимизировать в , возьмите регуляризацию параметр, оба результата совпадают.