Связь между байесовскими методами и регрессией Риджа

машинное обучение

Как байесовские методы связаны с регрессией Риджа? Без лишних слов, давайте посмотрим непосредственно.

Для удобства иллюстрации рассмотрим одномерную независимую переменную и расположим ряд независимых переменных в виде вектора:x=(x1,,xN)T\mathbf{x}=(x_1,\cdots,x_N)^T, соответствующая целевая функцияt=(t1,,tN)T\mathbf{t}=(t_1,\cdots,t_N)^T.

Будем считать, что каждая из выборокttнезависимы и подчиняются нормальному распределению со среднимy(x,w)=j=0Mwjxjy(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j(Также можно не указывать форму, если речь идет оxxиw\mathbf{w}функция), обратная дисперсиибета\beta, то функция правдоподобия

p(tx,w,бета)=n=1NN(tny(x,w),бета1)p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N} \mathcal{N}(t_n|y(x,\mathbf{w}),\beta^{-1})

Логарифмируя функцию правдоподобия, а затем записывая конкретную форму нормального распределения, мы имеем

lnp(tx,w,бета)=бета2n=1N[y(xn,w)tn]2+N2lnбетаN2ln(2число Пи)\ln{p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)}=-\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{N}{2}\ln{\beta}-\dfrac{N}{2}\ln(2\pi)

Максимизация функции правдоподобия эквивалентна минимизации ее отрицательного логарифма, что также эквивалентно минимизацииn=1N[y(xn,w)tn]2\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2. Мы обнаружили, что на самом деле это использование МНК для решения задачи линейной регрессии. другими словами,Использование МНК для решения линейной регрессии эквивалентно решению задачи максимального правдоподобия в предположении нормального распределения..

Так что же происходит при байесовском подходе? Поскольку байесовский метод требует предварительного распределения параметров, здесь предполагается, что параметрыw\mathbf{w}Априорное распределение - это гиперпараметр, определяемыйальфа\alphaПростое нормальное распределение для контроля, обратите внимание, что это многомерное нормальное распределение:

p(wальфа)=N(w0,альфа1I)=(альфа2число Пи)M+12exp(альфа2wTw)\begin{aligned} p(\mathbf{w}|\alpha)&=\mathcal{N}(\mathbf{w}| \mathbf{0},\alpha^{-1}\mathbf{I})\\ &=(\dfrac{\alpha}{2\pi})^{\dfrac{M+1}{2}}\exp(-\dfrac{\alpha}{2}\mathbf{w}^T \mathbf{w}) \end{aligned}

вM+1M+1даw\mathbf{w}общее количество элементов.

По теореме Байеса имеем

p(wx,t,альфа,бета)p(tx,w,бета)p(wальфа)p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)

То, что мы хотим максимизировать, этоw\mathbf{w}Апостериорная вероятность такого метода есть МАР (максимальная апостериорная).

Возьмем отрицательный логарифм правой части приведенного выше уравнения, округлим и получимw\mathbf{w}После нерелевантных предметов это становится:

бета2n=1N[y(xn,w)tn]2+альфа2wTw\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{\alpha}{2}\mathbf{w}^T\mathbf{w}

Мы обнаружили, что в предположении, что исходные данные подчиняются нормальному распределению, после добавления предположения о нулевом среднем, гомоскедастическом и некоррелированном многомерном нормальном распределении параметров байесовским методом оптимизации является регрессия Риджа. Что оптимизировать в , возьмите регуляризацию параметрλ=альфабета\lambda=\dfrac{\alpha}{\beta}, оба результата совпадают.