Регрессия МНК для больших выборок IID

машинное обучение

В этой статье будет обобщена регрессия МНК с малых выборок на большие выборки. Информацию о регрессии OLS для малой выборки см. в разделах «Основы регрессии OLS для малой выборки» и «Картирование регрессии OLS для малой выборки».

Хотя предположения, выводы и выводы в случае больших выборок отличаются от в случае малых выборок, общая идея остается той же:

  • провеститочечная оценка, а затем изучить свойства оценщика;
  • Постройте статистику, выведите их асимптотические распределения при больших выборках и выполнитегипотетический тест.

В этой статье рассматривается простейший случай в случае большой выборки:Независимые и одинаково распределенныеслучайная выборка из .

1 Обозначения и предположения

Поскольку может быть рассмотрена ситуация временных рядов, здесь принят индекс единичной выборки.tt, больше не используетсяii. ПомнитеQ=E(xtxt')Q=\text{E}(x_t x_t'),V=Var(xtεt)V=\text{Var}(x_t\varepsilon_t), а остальные обозначения те же, что и в случае малой выборки.

  • Допущение 1 Независимая и одинаково распределенная:{xt',yt}'\{x_t',y_t\}',t=1,,Nt=1,\ldots,N— наблюдаемая независимая и одинаково распределенная случайная выборка;
  • Допущение 2 Линейность:yt=xt'β+εty_t=x_t'\beta+\varepsilon_t, которую можно записать в матричной формеy=Xβ+εy=X\beta+\varepsilon;
  • Допущение 3 Модель настроена правильно:E(εtxt)=0\text{E}(\varepsilon_t|x_t)=0иE(εt2)=о2<\text{E}(\varepsilon_t^2)=\sigma^2<\infty;
  • Допущение 4. Несингулярность.:K×KK\times KматрицаQQсимметрична, конечна и неособа;
  • Предположение 5:K×KK\times KматрицаVVсимметрична, конечна и положительно определена;
  • Допущение 6. Условная гомоскедастичность:E(εt2xt)=о2\text{E}(\varepsilon_t^2|x_t)=\sigma^2.

Из предположения 1 и предположения 3 можно сделать выводE(εtX)=0\text{E}(\varepsilon_t|X)=0, что удовлетворяет строгой экзогенности. Также в силу гарантии предположения 3V=Var(xtεt)=E(xtxt'εt2)V=\text{Var}(x_t\varepsilon_t)=\text{E}(x_t x_t' \varepsilon^2_t).

Можно видеть, что при больших выборках нет необходимости делать предположение о нормальном распределении члена возмущения. Независимое и одинаково распределенное предположение здесь также гарантирует, чтоЧлен возмущения не имеет автокорреляции, поэтому при последующем выводе необходимо только учитывать, выполняется ли предположение 6. Если предположение 6 выполняется, то предположение 5 может быть гарантировано предположением 4. Если предположение 6 не выполняется, имеет место условная гетероскедастичность, которую можно использоватьE(εt4)<\text{E}(\varepsilon_t^4)<\inftyиE(xtk4)<\text{E}(x_{tk}^4)<\inftyМоментное условие гипотезы 5 гарантируется совместно. При выводе последующих выводов, как правило, необходимо классифицировать и обсудить, выполняется ли гипотеза 6.

2 Некоторые теоремы

Теорема 1. Слабый закон больших чисел для случайных выборок IID.: предполагать{Zt}t=1n\{Z_t\}_{t=1}^nявляется независимой и одинаково распределенной случайной выборкой,E(Zt)=μ\text{E}(Z_t)=\muиE(Zt)<\text{E}(\vert Z_t\vert)<\infty,определениеZˉn=n1t=1nZt\bar Z_n=n^{-1}\sum_{t=1}^{n}Z_t, потом, когдаnn\to \inftyкогда естьZˉnpμ\bar{Z}_n \xrightarrow{p}\mu.

Теорема 2. Многомерная центральная предельная теорема для случайных выборок IID.:как{Zt}t=1n\{Z_t\}_{t=1}^nявляется независимой и одинаково распределенной случайной выборкой,E(Zt)=0\text{E}(Z_t)=0иVar(Zt)=V\text{Var}(Z_t)=Vявляется конечной, симметричной, положительно определенной матрицей. определениеZˉn=n1t=1nZt\bar{Z}_n=n^{-1}\sum_{t=1}^{n} Z_t, потом, когдаnn\to\inftyкогда естьnZˉndN(0,V)\sqrt{n}\bar{Z}_n\xrightarrow{d}\mathcal{N}(0,V)

Теорема 3. Непрерывность сходимости по вероятности: Джоданnn\to\inftyчас,AnpAA_n\xrightarrow{p}A,BnpBB_n\xrightarrow{p}Bg()g(\cdot)иf()f(\cdot)являются непрерывными функциями, то

g(An)+h(Bn)pg(A)+h(B)g(An)h(Bn)pg(A)h(B)\begin{aligned} g(A_n)+h(B_n)&\xrightarrow{p}g(A)+h(B)\\ g(A_n)h(B_n)&\xrightarrow{p}g(A)h(B) \end{aligned}

Теорема 4 Теорема Слуцкого:какZndZZ_n\xrightarrow{d}Z,anpaa_n\xrightarrow{p}aиbnpbb_n\xrightarrow{p}baaиbbявляется константой, то когдаnn\to\inftyиногдаan+bnZnda+bZa_n+b_nZ_n \xrightarrow{d}a+bZ.

3 β^\hat\betaприрода

β\betaТочечная оценка такая же, как и в случае малой выборки:β^=(X'X)1X'y\hat\beta=(X'X)^{-1}X'y. В последующем выводе основное использованиеβ^\hat\betaиβ\betaРазница,β^β=(X'X)1X'ε\hat\beta-\beta=(X'X)^{-1}X'\varepsilon.

Для удобства использования закона больших чисел и центральной предельной теоремы его можно переписать какβ^β=(1NX'X)1(1NX'ε)\hat\beta-\beta=(\dfrac{1}{N}X'X)^{-1}(\dfrac{1}{N}X'\varepsilon). Если матричная форма расширена, приведенная выше формула становится

β^β=(1Nt=1Nxtxt')1(1Nt=1Nxtεt)\hat\beta-\beta=(\dfrac{1}{N}\sum_{t=1}^{N}x_t x_t')^{-1}(\dfrac{1}{N}\sum_{t=1}^{N}x_t\varepsilon_t)

в1Nt=1Nxtxt'=1NXX'\dfrac{1}{N}\sum_{t=1}^{N}x_t x_t'=\dfrac{1}{N}XX'На самом деле этоQQОбразец прямоугольной формы , обозначаемый какQ^\hat Q. По закону больших чисел,Q^pQ\hat Q\xrightarrow{p}Q, а операцию обращения матрицы можно рассматривать как непрерывную функцию, поэтому имеемQ^1pQ1\hat {Q}^{-1}\xrightarrow{p}Q^{-1}.

Также используя закон больших чисел и предположение 3, мы можем получить1Nt=1NxtεtpE(xtεt)=0\dfrac{1}{N}\sum_{t=1}^{N}x_t\varepsilon_t \xrightarrow{p} \text{E}(x_t\varepsilon_t)=0. Тогда по теореме 3 мы видим, чтоβ^βp0\hat\beta-\beta\xrightarrow{p}0. это оценщикβ^\hat\betaизпоследовательность.

4 β^\hat\betaАсимптотическое распределение и проверка гипотез

4.1 β^\hat\betaасимптотическое распределение

По центральной предельной теореме можно получить

N1Nt=1NxtεtdN(0,V)\sqrt{N}\cdot\dfrac{1}{N}\sum_{t=1}^{N}x_t\varepsilon_t\xrightarrow{d}\mathcal{N}(0,V)

следовательно

N(β^β)dN(0,Q1VQ1)\sqrt{N}(\hat\beta-\beta)\xrightarrow{d}\mathcal{N}(0,Q^{-1}VQ^{-1})

Дисперсия его асимптотического распределения также называется асимптотической дисперсией и обозначается какAvar(Nβ^)=Q1VQ1\text{Avar}(\sqrt{N}\hat\beta)=Q^{-1}VQ^{-1}.

Если гипотеза 6 выполняется, то есть при условной гомоскедастичности,V=о2QV=\sigma^2Q, асимптотическое распределение принимает вид

N(β^β)dN(0,о2Q1)\sqrt{N}(\hat\beta-\beta)\xrightarrow{d}\mathcal{N}(0,\sigma^2 Q^{-1})

4.2 Проверка гипотез

Проверить нулевую гипотезуH0:Rβ=rH_0: R\beta=rRRзаJ×KJ\times Kматрица.

4.2.1 Условная гетероскедастичность

Если нулевая гипотеза верна, тоR(β^β)=Rβ^rR(\hat\beta-\beta)=R\hat\beta-r, а асимптотическое распределение слева уже известно, поэтому его можно построить

N(Rβ^r)'(RQ1VQ1R')1N(Rβ^r)dхJ2\sqrt{N}(R\hat\beta-r)'(RQ^{-1}VQ^{-1}R')^{-1}\sqrt{N}(R\hat\beta-r)\xrightarrow{d}\chi^2_J

в формулеQQиVVНам еще нужно сделать расчет. Это видно из предыдущегоQ^pQ\hat Q\xrightarrow{p}Q,заVV, мы также можем оценить его в виде выборки:

V^=N1t=1Nxtxt'et2=X'D(e)D(e)'XN\begin{aligned} \hat V&=N^{-1}\sum_{t=1}^{N}x_tx_t' e_t^2\\ &=\dfrac{X'D(e)D(e)'X}{N} \end{aligned}

вD(e)=diag(e1,,eN)D(e)=\text{diag}(e_1,\ldots,e_N).

можно доказать,V^pV\hat V\xrightarrow{p}V. Чтобы доказать, что толькоete_tнаписано какet=εt(β^β)'xte_t=\varepsilon_t-(\hat\beta-\beta)'x_tпотомкиV^\hat V, и тогда поэлементный вывод может сходиться в соответствии с вероятностью.

Наконец, мы используемQ^\hat QиV^\hat VЗамените, чтобы получить:

N(Rβ^r)'(RQ^1V^Q^1R')1(Rβ^r)dхJ2N(R\hat\beta-r)'(R\hat{Q}^{-1}\hat V\hat{Q}^{-1}R')^{-1}(R\hat\beta-r)\xrightarrow{d}\chi^2_J

когдаJ=1J=1час,х12\chi^2_1Знак корня представляет собой стандартное нормальное распределение, поэтому его можно построить напрямую.ttСтатистика:

N(Rβ^r)RQ^1V^Q^1R'dN(0,1)\dfrac{\sqrt{N}(R\hat\beta-r)}{\sqrt{R\hat{Q}^{-1}\hat{V}\hat{Q}^{-1}R'}}\xrightarrow{d}\mathcal{N}(0,1)

Стоит отметить, что при больших выборкахttстатистическийtNKt_{N-K}Распределение становится стандартным нормальным распределением.

4.2.2 Условная гомоскедастичность

Если предположение 6 выполнено, тоV=о2QV=\sigma^2 Q, подставляя в предыдущий раздел, имеем

N(Rβ^r)'(о2RQ^1R')1(Rβ^r)dхJ2N(R\hat\beta-r)'(\sigma^2 R\hat{Q}^{-1}R')^{-1}(R\hat\beta-r)\xrightarrow{d}\chi^2_J

Как и в случае с малой выборкой, из-за неизвестногоо2\sigma^2, статистика не может быть рассчитана напрямую. Поэтому то же самое можно использоватьs2s^2заменятьо2\sigma^2, которая также является последовательной оценкой, т. е.s2pо2s^2\xrightarrow{p}\sigma^2. наконец-то доступно

N(Rβ^r)'(s2RQ^1R')1(Rβ^r)dхJ2N(R\hat\beta-r)'(s^2 R\hat{Q}^{-1}R')^{-1}(R\hat\beta-r)\xrightarrow{d}\chi^2_J

когдаJ=1J=1когда можно получить

N(Rβ^r)s2RQ^1R'dN(0,1)\dfrac{\sqrt{N}(R\hat\beta-r)}{\sqrt{s^2 R\hat{Q}^{-1}R'}}\xrightarrow{d}\mathcal{N}(0,1)