Предыдущий«Структура для регрессии МНК для малых выборок»Объясняется основная структура регрессии МНК для малой выборки.Эта статья следует этой структуре, чтобы сделать всесторонний обзор регрессии МНК для малой выборки.
1 предположение
Здесь все гипотезы, которые могут быть использованы в регрессии МНК для небольшой выборки, собраны вместе для удобства просмотра. Конечно, каждый из следующих выводов использует не все допущения, а лишь некоторые из них, которые будут подробно объяснены, когда мы поговорим о каждом выводе позже.
Допущение 1 Линейность:yi=xi'β+εi,вβпредставляет собой вектор неизвестных параметров, который объединяет всеNСоединяя выборки вместе, это можно записать какy=Xβ+ε,вXдаN×Kматрица;
Допущение 4. Сферический член возмущения:оE(ε∣X)=о2In;
Допущение 5 Условно-нормальный термин возмущенияоε∣X∼N(0,о2In);
Допущение 6. Отсутствие приблизительной мультиколлинеарности:когдаn→∞час,X'Xнаименьшее собственное значениеλmin(X'X)→∞Вероятность равна 1.
где предположение 3 эквивалентноrank(X)=K. Если предположить, что число 6 встречается только в отдельных данных, это исключает возможность приблизительной мультиколлинеарности. Кроме того, Гипотеза 4 утверждает, что член возмущения не имеет автокорреляции и является гомоскедастичным, Гипотеза 5 включает Гипотезу 4, а Гипотезу 5 нужно только вывестиβ^Необходимы выборочное распределение и связанные с ним проблемы.
2 βТочечная оценка и ее свойства
2.1 βточечная оценка
путем решенияβ^=argminSSR(β), легко добраться, когда предположение 3β^=(X'X)−1Xy, что является точечной оценкой.
Обозначим остатки линейной регрессии какe=y−Xβ^.
В последующем выводе в основном используется точечная оценкаβ^с правдойβразности , используя предположение 1, имеемβ^−β=(X'X)−1X'ε.
2.2 β^природа
Во-первых,β^изусловное ожиданиеэквивалентноβ, т. е. этобеспристрастное условие, используя предположение 4, мы можем получитьE(β^−β∣X)=0. Конечно, безоговорочно и беспристрастно.
этоУсловная дисперсияХорошо рассчитанный, по определению и допущению 4,оVar(β^∣X)=о2(X'X)−1. Если также выполняется предположение 6, то для любогоK×1и удовлетворитьттт'т=1вектортт, когдаn→∞час,ттт'Var(β^∣X)т→0. Это означает, что пока нет приблизительной мультиколлинеарности, пока данных достаточно,β^Дисперсия будет приближаться к 0. Наоборот, если имеет место приблизительная мультиколлинеарность, дисперсию будет трудно восстановить путем сбора данных.
Можно показать, что во всех линейных несмещенных оценкахβ^имеет наименьшую дисперсию, т.Теорема Гаусса-Маркова. Это показывает, что для любой другой линейной несмещенной оценкиb^,Var(b^∣X)−Var(β^∣X)Должна быть положительной полуопределенной матрицей.
для неизвестных параметровоо2,Можно использоватьоценщик остаточной дисперсииs2=e'e/(N−K)оценить его. Это также несмещенная оценка, т.е.оE(s2∣X)=о2.
3 β^Распределение выборки и проверка гипотез
3.1 β^Выборочное распределение
Из-за небольшого размера выборки предположения о распределении члена возмущения имеют решающее значение. Одного допущения 4 недостаточно, необходимо использовать более сильное допущение 5.
С предположением 5 мы можем получитьβ^Также подлежит условному нормальному распределению:
оβ^−β∣X∼N(0,о2(X'X)−1)
для любогоJ×Kнеслучайная матрицаR,имеют
оR(β^−β)∣X∼N(0,о2R(X'X)−1R')
3.2 Качество подгонки
Насколько хорошо модель линейной регрессии соответствует данным? Это может быть выражено в терминах качества подгонки. Следующая формулаДецентрализацияR2выражение:
Ruc2≡y'yy^'y^=1−y'ye'e
Следующая формулацентрализованныйR2, он жерешающий фактор(Коэффициент детерминации):
Кроме того,Cov(β^,e∣X)=0,иeиβ^следует совместному нормальному распределению, потому что
[eβ^−β]=[In−X(X'X)−1X'(X'X)−1X']ε
И по предположению 5,εподчиняются условному нормальному распределению, поэтому приведенная выше формула имеет видεЛинейная комбинация , также подчиняетсяXявляется условным совместным нормальным распределением. Для совместного нормального распределения некорреляция эквивалентна независимости, поэтомуeиβ^данезависимыйиз.
3.4 Проверка гипотез
3.4.1 Fконтрольная работа
мы можем какRβ=rПроверка гипотезы выполняется на такой нулевой гипотезе, гдеRзаJ×Kматрица.
Если нулевая гипотеза верна, то
Rβ^−r=R(β^−β)
Из раздела 3.1 мы знаем, что
оRβ^−r∣X∼N(0,о2R(X'X)−1R')
Снова используя теорему 2, мы можем получить
ох(Rβ^−r)'[о2R(X'X)−1R']−1(Rβ^−r)∣X∼хJ2
Из-за распространенияххJ2Это не зависит отX, поэтому безусловное распределение приведенной выше формулы также подчиняетсяххJ2распределенный.
Но проблема в томоо2неизвестна, поэтому приведенная выше формула не может быть рассчитана. Решение заключается в использованииs2Подставьте его, поэтому после подстановки сделайте небольшую обработку (делите наJ), мы можем получить другое распределение, т.FСтатистика:
зачем подчинятьсяFраспределяется? можно превратить из молекулы вххJ2распределение, разделенное наJ, знаменательххN−K2распределение, разделенное наN−K, переменные в числителе и знаменателеβ^иeЭти три условия не зависят друг от друга.
Помните, с другого ракурсаe- остаток неограниченной регрессии, обозначаемыйe~быть ограниченнымRβ=rОстатки регрессии ниже, затемFСтатистику можно записать как
F=e'e/(N−K)(e~'e~−e'e)/J
3.4.2 tконтрольная работа
когдаJ=1час,Rβ^−rиоо2R(X'X)−1R'становится скаляром, и его больше не нужно строить в квадратичной формехх12распределения, но может напрямую построить форму нормального распределения:
о[о2R(X'X)−1R']−1/2(Rβ^−r)∼N(0,1)
Просто вернитесь к предыдущему разделуFЗнаменатель статистики также имеет квадратный корень соответственно, мы можем получитьTСтатистика: