Регрессионное расчесывание МНК для небольшой выборки

машинное обучение

Предыдущий«Структура для регрессии МНК для малых выборок»Объясняется основная структура регрессии МНК для малой выборки.Эта статья следует этой структуре, чтобы сделать всесторонний обзор регрессии МНК для малой выборки.

1 предположение

Здесь все гипотезы, которые могут быть использованы в регрессии МНК для небольшой выборки, собраны вместе для удобства просмотра. Конечно, каждый из следующих выводов использует не все допущения, а лишь некоторые из них, которые будут подробно объяснены, когда мы поговорим о каждом выводе позже.

  • Допущение 1 Линейность:yi=xi'β+εiy_i=x_i'\beta+\varepsilon_iβ\betaпредставляет собой вектор неизвестных параметров, который объединяет всеNNСоединяя выборки вместе, это можно записать какy=Xβ+εy=X\beta+\varepsilonXXдаN×KN\times Kматрица;
  • Допущение 2. Строго экзогенное:E(εX)=0\mathbb{E}(\varepsilon|X)=0;
  • Допущение 3. Несингулярность:X'XX'Xне единственное число;
  • Допущение 4. Сферический член возмущения:E(εX)=о2In\mathbb{E}(\varepsilon|X)=\sigma^2I_n;
  • Допущение 5 Условно-нормальный термин возмущения εXN(0,о2In)\varepsilon|X\sim \mathcal{N}(0,\sigma^2I_n);
  • Допущение 6. Отсутствие приблизительной мультиколлинеарности:когдаnn\to \inftyчас,X'XX'Xнаименьшее собственное значениеλmin(X'X)\lambda_\text{min}(X'X)\to\inftyВероятность равна 1.

где предположение 3 эквивалентноrank(X)=K\text{rank}(X)=K. Если предположить, что число 6 встречается только в отдельных данных, это исключает возможность приблизительной мультиколлинеарности. Кроме того, Гипотеза 4 утверждает, что член возмущения не имеет автокорреляции и является гомоскедастичным, Гипотеза 5 включает Гипотезу 4, а Гипотезу 5 нужно только вывестиβ^\hat\betaНеобходимы выборочное распределение и связанные с ним проблемы.

2 β\betaТочечная оценка и ее свойства

2.1 β\betaточечная оценка

путем решенияβ^=argminSSR(β)\hat{\beta}=\arg\min \text{SSR}(\beta), легко добраться, когда предположение 3β^=(X'X)1Xy\hat\beta=(X'X)^{-1}Xy, что является точечной оценкой.

Обозначим остатки линейной регрессии какe=yXβ^e=y-X\hat\beta.

В последующем выводе в основном используется точечная оценкаβ^\hat\betaс правдойβ\betaразности , используя предположение 1, имеемβ^β=(X'X)1X'ε\hat\beta-\beta=(X'X)^{-1}X'\varepsilon.

2.2 β^\hat\betaприрода

Во-первых,β^\hat\betaизусловное ожиданиеэквивалентноβ\beta, т. е. этобеспристрастное условие, используя предположение 4, мы можем получитьE(β^βX)=0\mathbb{E}(\hat\beta-\beta|X)=0. Конечно, безоговорочно и беспристрастно.

этоУсловная дисперсияХорошо рассчитанный, по определению и допущению 4,Var(β^X)=о2(X'X)1\text{Var}(\hat\beta|X)=\sigma^2(X'X)^{-1}. Если также выполняется предположение 6, то для любогоK×1K\times 1и удовлетворитьт'т=1\tau'\tau=1векторт\tau, когдаnn\to \inftyчас,т'Var(β^X)т0\tau'\text{Var}(\hat\beta|X)\tau\to 0. Это означает, что пока нет приблизительной мультиколлинеарности, пока данных достаточно,β^\hat\betaДисперсия будет приближаться к 0. Наоборот, если имеет место приблизительная мультиколлинеарность, дисперсию будет трудно восстановить путем сбора данных.

Можно показать, что во всех линейных несмещенных оценкахβ^\hat\betaимеет наименьшую дисперсию, т.Теорема Гаусса-Маркова. Это показывает, что для любой другой линейной несмещенной оценкиb^\hat b,Var(b^X)Var(β^X)\text{Var}(\hat b|X)-\text{Var}(\hat\beta|X)Должна быть положительной полуопределенной матрицей.

для неизвестных параметрово2\sigma^2,Можно использоватьоценщик остаточной дисперсииs2=e'e/(NK)s^2=e'e/(N-K)оценить его. Это также несмещенная оценка, т.е.E(s2X)=о2\mathbb{E}(s^2|X)=\sigma^2.

3 β^\hat\betaРаспределение выборки и проверка гипотез

3.1 β^\hat\betaВыборочное распределение

Из-за небольшого размера выборки предположения о распределении члена возмущения имеют решающее значение. Одного допущения 4 недостаточно, необходимо использовать более сильное допущение 5.

С предположением 5 мы можем получитьβ^\hat\betaТакже подлежит условному нормальному распределению:

β^βXN(0,о2(X'X)1)\hat\beta-\beta|X\sim \mathcal{N}\left(0,\sigma^2(X'X)^{-1}\right)

для любогоJ×KJ\times Kнеслучайная матрицаRR,имеют

R(β^β)XN(0,о2R(X'X)1R')R(\hat\beta-\beta)|X\sim \mathcal{N}\left(0,\sigma^2R(X'X)^{-1}R'\right)

3.2 Качество подгонки

Насколько хорошо модель линейной регрессии соответствует данным? Это может быть выражено в терминах качества подгонки. Следующая формулаДецентрализацияR2R^2выражение:

Ruc2y^'y^y'y=1e'ey'yR^2_{uc}\equiv \dfrac{\hat y'\hat y}{y'y} = 1-\dfrac{e'e}{y'y}

Следующая формулацентрализованныйR2R^2, он жерешающий фактор(Коэффициент детерминации):

R21e'e(yyˉ)'(yyˉ)R^2\equiv 1-\dfrac{e'e}{(y-\bar y \ell)'(y-\bar y\ell)}

фактически,R2R^2этоyyиy^\hat yКвадрат коэффициента корреляции между:R2=ρ^yy^2R^2=\hat\rho^2_{y\hat y}.

3.3 Некоторые вспомогательные выводы и теоремы

Теорема 1 Квадратичная форма нормальной случайной величины mmразмерный случайный векторvN(0,Im)v\sim\mathcal{N}(0,I_m),QQдаm×mm\times mНеслучайная симметричная идемпотентная матрица ,rank(Q)=qm\text{rank}(Q)=q\le m,ноv'Qvхq2v'Qv\sim\chi^2_q.

Теорема 2 qqразмерный случайный векторZN(0,V)Z\sim\mathcal{N}(0,V)V=Var(v)V=\text{Var}(v)даq×qq\times qСимметричная невырожденная ковариационная матрица , затемZ'V1Zхq2Z'V^{-1}Z\sim\chi^2_q.

Из теоремы 1 можно получить(NK)s2о2хNK2\dfrac{(N-K)s^2}{\sigma^2}\sim\chi^2_{N-K}.

Кроме того,Cov(β^,eX)=0\text{Cov}(\hat\beta, e|X)=0eeиβ^\hat\betaследует совместному нормальному распределению, потому что

[eβ^β]=[InX(X'X)1X'(X'X)1X']ε\left[\begin{matrix} e\\ \hat\beta-\beta \end{matrix}\right] =\left[\begin{matrix} I_n-X(X'X)^{-1}X'\\ (X'X)^{-1}X' \end{matrix}\right]\varepsilon

И по предположению 5,ε\varepsilonподчиняются условному нормальному распределению, поэтому приведенная выше формула имеет видε\varepsilonЛинейная комбинация , также подчиняетсяXXявляется условным совместным нормальным распределением. Для совместного нормального распределения некорреляция эквивалентна независимости, поэтомуeeиβ^\hat\betaданезависимыйиз.

3.4 Проверка гипотез

3.4.1 FFконтрольная работа

мы можем какRβ=rR\beta=rПроверка гипотезы выполняется на такой нулевой гипотезе, гдеRRзаJ×KJ\times Kматрица.

Если нулевая гипотеза верна, то

Rβ^r=R(β^β)R\hat\beta-r=R(\hat\beta-\beta)

Из раздела 3.1 мы знаем, что

Rβ^rXN(0,о2R(X'X)1R')R\hat\beta-r|X\sim \mathcal{N}\left(0,\sigma^2R(X'X)^{-1}R'\right)

Снова используя теорему 2, мы можем получить

(Rβ^r)'[о2R(X'X)1R']1(Rβ^r)XхJ2(R\hat\beta-r)'[\sigma^2R(X'X)^{-1}R']^{-1}(R\hat\beta-r)|X \sim \chi^2_J

Из-за распространенияхJ2\chi^2_JЭто не зависит отXX, поэтому безусловное распределение приведенной выше формулы также подчиняетсяхJ2\chi^2_Jраспределенный.

Но проблема в томо2\sigma^2неизвестна, поэтому приведенная выше формула не может быть рассчитана. Решение заключается в использованииs2s^2Подставьте его, поэтому после подстановки сделайте небольшую обработку (делите наJJ), мы можем получить другое распределение, т.FFСтатистика:

F=(Rβ^r)'[R(X'X)1R']1(Rβ^r)/Js2=(Rβ^r)'[о2R(X'X)1R']1(Rβ^r)/J(NK)s2/о2/(NK)FJ,NK\begin{aligned} F=&\dfrac{(R\hat\beta-r)'[R(X'X)^{-1}R']^{-1}(R\hat\beta-r)/J}{s^2}\\ =& \dfrac{(R\hat\beta-r)'[\sigma^2R(X'X)^{-1}R']^{-1}(R\hat\beta-r)/J}{(N-K)s^2/\sigma^2/(N-K)}\\ \sim& F_{J, N-K} \end{aligned}

зачем подчинятьсяFFраспределяется? можно превратить из молекулы вхJ2\chi^2_Jраспределение, разделенное наJJ, знаменательхNK2\chi^2_{N-K}распределение, разделенное наNKN-K, переменные в числителе и знаменателеβ^\hat\betaиeeЭти три условия не зависят друг от друга.

Помните, с другого ракурсаee- остаток неограниченной регрессии, обозначаемыйe~\tilde eбыть ограниченнымRβ=rR\beta=rОстатки регрессии ниже, затемFFСтатистику можно записать как

F=(e~'e~e'e)/Je'e/(NK)F=\dfrac{(\tilde e'\tilde e-e'e)/J}{e'e/(N-K)}

3.4.2 ttконтрольная работа

когдаJ=1J=1час,Rβ^rR\hat\beta-rио2R(X'X)1R'\sigma^2R(X'X)^{-1}R'становится скаляром, и его больше не нужно строить в квадратичной формех12\chi^2_1распределения, но может напрямую построить форму нормального распределения:

[о2R(X'X)1R']1/2(Rβ^r)N(0,1)[\sigma^2R(X'X)^{-1}R']^{-1/2}(R\hat\beta-r)\sim \mathcal{N}(0,1)

Просто вернитесь к предыдущему разделуFFЗнаменатель статистики также имеет квадратный корень соответственно, мы можем получитьTTСтатистика:

TRβ^rs2R(X'X)1R'=[о2R(X'X)1R']1/2(Rβ^r)(NK)s2/о2/(NK)tNK\begin{aligned} T\equiv& \dfrac{R\hat\beta-r}{\sqrt{s^2R(X'X)^{-1}R'}}\\ =& \dfrac{[\sigma^2R(X'X)^{-1}R']^{-1/2}(R\hat\beta-r)}{\sqrt{(N-K)s^2/\sigma^2/(N-K)}}\\ \sim& t_{N-K} \end{aligned}

так что это может бытьttконтрольная работа.