QR-разложение и линейная регрессия

математика

1 Унарная и множественная регрессия

Любая книга по эконометрике, статистике или машинному обучению начального уровня подробно расскажет о решении множественной линейной регрессии, поэтому я не буду повторяться здесь.

Приведем некоторые настройки, используемые в этой статье.yyзаNNразмерный вектор зависимых переменных, гипотетическийy=Xβ+ϵy=X\beta+\epsilon, если независимая переменнаяppобъемный, будетXXоценивается какN×(p+1)N\times (p+1)матрица, где первый столбецx0=1Nx_{\cdot 0}=1_Nдля всех11Термин перехвата , мы имеем оценку наименьших квадратов:

β^=(X'X)1X'y\hat \beta = (X'X)^{-1}X'y

Если это одномерная регрессия и член пересечения отсутствует, запишите независимую переменную какNNразмерный векторxx,y=x'βy=x'\betaсерединаβ\betaОценка методом наименьших квадратов

β^=x'yx'x\hat\beta=\dfrac{x'y}{x'x}

Какая связь между ними? Если в многомерной регрессииXXВекторы-столбцы ортогональны друг другу, т.е.X'XX'Xявляется диагональной матрицей, то можно сделать вывод, что оценочное значение каждого коэффициента равноβ^j=xj'yxj'xj\hat\beta_j=\dfrac{x_{\cdot j}'y}{x_{\cdot j}'x_{\cdot j}}.

Это дает нам подсказку, можем ли мы построить некоторые измерения, которые ортогональны друг другу?

2 Процесс Грама – Шмидта

Для расчета используем следующую процедуруβ^p\hat\beta_p:

  1. z0=x0=1Nz_{\cdot 0}=x_{\cdot 0}=1_N;
  2. траверсj=1,,pj = 1,\ldots,p:использоватьxjx_{\cdot j}правильноl=0,,j1l=0,\ldots, j-1каждогоzlz_{\cdot l}Выполните одномерную линейную регрессию без точки пересечения соответственно и получите коэффициенты соответственноγ^lj=zl'xjzl'zl\hat\gamma_{lj}=\dfrac{z_{\cdot l}'x_{\cdot j}}{z_{\cdot l}'z_{\cdot l}}, и, наконец, получитьzj=xjk=0j=1γ^kjzkz_{\cdot j}=x_{\cdot j}-\sum_{k=0}^{j=1}\hat\gamma_{kj}z_{\cdot k};
  3. повторное использованиеyyправильноzpz_{\cdot p}Выполните одномерную регрессию без члена перехвата, чтобы получить окончательный результат.β^p=zp'yzp'zp\hat\beta_p=\dfrac{z_{\cdot p}'y}{z_{\cdot p}'z_{\cdot p}}.

так какxpx_{\cdot p}только вzpz_{\cdot p}появляется в и сz0,,zp1z_{\cdot 0},\ldots,z_{\cdot p-1}ортогональны, поэтому получаются приведенные выше результаты. какϵN(0,о2IN)\epsilon\sim N(0,\sigma^2 I_N), то предполагаемая дисперсия может быть записана как

Var(β^p)=zp'zp'zpVar(y)zpzp'zp=о2zp'zp\text{Var}(\hat\beta_p)=\dfrac{z_{\cdot p}'}{z_{\cdot p}'z_{\cdot p}} \text{Var}(y) \dfrac{z_{\cdot p}}{z_{\cdot p}'z_{\cdot p}} = \dfrac{\sigma^2}{z_{\cdot p}'z_{\cdot p}}

Обратите внимание, что каждое измерение может использоваться какppизмерение, следовательно, каждыйβ^j\hat\beta_jможно вывести таким образом.

3 QR-разложение

если добавленоγ^jj=0\hat\gamma_{jj}=0j=0,,pj=0,\ldots,p, поставить всеγ^ij\hat\gamma_{ij}расстановка(p+1)×(p+1)(p+1)\times (p+1)изверхний треугольникматрицаΓ\Gammaпри запоминанииZ=(z0,z1,,zp)Z=(z_{\cdot 0}, z_{\cdot 1},\ldots, z_{\cdot p}), то есть

X=ZΓX=Z\Gamma

построить еще один(p+1)×(p+1)(p+1)\times (p+1)диагональная матрицаDD, диагональные элементыDii=ziD_{ii}=\Vert z_{\cdot i}\Vert,СейчасZ'Z=D2Z'Z=D^2, вставьте в середину приведенной выше формулыD1D=Ip+1D^{-1}D=I_{p+1}, то есть

X=ZΓ=ZD1DΓX=Z\Gamma = ZD^{-1}D\Gamma

ПомнитеQ=ZD1Q=ZD^{-1},R=DΓR=D\Gamma, что является матрицейXXизQR-разложение:X=QRX=QR.

так какZZВекторы-столбцы ортогональны друг другу, поэтомуQ'Q=D1Z'ZD=Ip+1Q'Q=D^{-1}Z'ZD=I_{p+1}RRЭто также верхняя треугольная матрица. Используя разложение QR, мы можем записать оценку методом наименьших квадратов как

β^=R1Q'y\hat\beta = R^{-1}Q'y

и имеет установленное значение

y^=QQ'y\hat y=QQ'y

так какRR— верхняя треугольная матрица, а последняя строка(0,,0,zp)(0,\ldots,0,\Vert z_{\cdot p}\Vert),следовательноR1R^{-1}также является верхнетреугольной матрицей, а последняя строка(0,,0,1/zp)(0,\ldots,0,1/\Vert z_{\cdot p}\Vert). Повторное использованиеQ=(z0/z0,z1/z1,,zp/zp)Q=(z_{\cdot 0}/\Vert z_{\cdot 0}\Vert, z_{\cdot 1}/\Vert z_{\cdot 1}\Vert,\ldots, z_{\cdot p}/\Vert z_{\cdot p}\Vert), мы можем получитьR1Q'R^{-1}Q'последний актzp'/zp2z_{\cdot p}'/\Vert z_{\cdot p}\Vert^2, так что есть

β^p=zp'y/zp2\hat\beta_p=z_{\cdot p}'y/\Vert z_{\cdot p}\Vert^2

Это также согласуется с результатами, полученными в разделе 2.

использованная литература

  • Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media, 2009.