Общие проблемы регрессии, линейная регрессия и правильная спецификация модели

математика

1 Общая проблема регрессии

Вообще говоря, учебники по эконометрике начинаются с линейной регрессии, но здесь мы обсудим более общие проблемы регрессии перед линейной регрессией.

Давайте сначала определим, что такое регрессия:

Определение 1Функция регрессии:E(yx)\mathbb{E}(y|\mathbf{x})этоyyправильноx\mathbf{x}функция регрессии.

Давайте определим еще одну метрику, которая измеряет, насколько хорошо делаются прогнозы:

Определение 2Среднеквадратическая ошибка (MSE): Предположим, мы используемg(x)g(\mathbf{x})предсказыватьyy, то прогнозg(x)g(\mathbf{x})Среднеквадратическая ошибкаMSE(g)=E[yg(x)]2\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2

Какова форма функции наилучшего прогноза? Следующая теорема показывает, что лучшая предикторная функция — это именно функция регрессии, условное математическое ожидание.

Теорема 1Оптимальное решение MSE:E(yx)\mathbb{E}(y|\mathbf{x})является оптимальным решением следующей задачи:E(yx)=argmingеFMSE(g)=argmingеFE[yg(x)]2\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2вF\mathbb{F}есть пространство всех измеримых и интегрируемых с квадратом функций:F={g:Rk+1Rg2(x)fX(x)dx<}\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\}

В этой теореме непосредственное решение задачи о максимальном значении сложнее, и необходимо использовать вариационный метод, относительно просто доказать теорему конструктивным методом.MSE(g)\text{MSE}(g)Вы можете сделать декомпозицию. сделатьg0(x)E(yx)g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x}), то есть

MSE(g)=E[yg0(x)+g0(x)g(x)]2=E[yg0(x)]2+E[g0(x)g(x)]2+2E[(yg0(x))(g0(x)g(x))]2=E[yg0(x)]2+E[g0(x)g(x)]2\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned}

Очевидно, что первый член является константой, только если второй член00которыйg(x)=g0(x)g(\mathbf{x})=g_0(\mathbf{x})час,MSE(g)\text{MSE}(g)Сведите к минимуму.

Давайте посмотрим на другую теорему о члене возмущения в регрессии:

Теорема 2Идентичность регрессии: даноE(yx)\mathbb{E}(y|\mathbf{x}), всегдаy=E(yx)+εy=\mathbb{E}(y|\mathbf{x})+\varepsilonвε\varepsilon- член возмущения регрессии, удовлетворяющийE(εx)=0\mathbb{E}(\varepsilon|\mathbf{x})=0.

Следующий вопрос: как мыg0(x)g_0(\mathbf{x})моделирование? В простейшем случае его можно аппроксимировать линейной функцией.

2 Линейная регрессия

Сначала введем понятие аффинной функции:

Определение 3Аффинные функции: помнитьx=(1,x1,,xk)'\mathbf{x}=(1,x_1,\ldots,x_k)',β=(β0,β1,,βk)'\beta=(\beta_0,\beta_1,\ldots,\beta_k)', то семейство аффинных функций определяется какA={g:Rk+1Rg(x)=x'β}\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\}

когда мы будемg(x)g(x)После того, как множество функций сужено с множества всех измеримых и суммируемых с квадратом функций на множество аффинных функций, задача превращается в решение оптимальных параметровβ*\beta^*Для минимизации MSE этот параметр называется оптимальным коэффициентом аппроксимации методом наименьших квадратов.

Теорема 3Лучший линейный прогноз методом наименьших квадратов: предположенияE(y2)<E(y^2)<\inftyи матрицаE(xx')\mathbb{E}(\mathbf{x}\mathbf{x}')невырожденная, то задача оптимизацииmingеAE[yg(x)]2=minβеRk+1E(yx'β)2\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2Решение , то есть оптимальное линейное предсказание методом наименьших квадратов, равноg*(x)=x'β*g^*(\mathbf{x})=\mathbf{x}'\beta^*вβ*=[E(xx')]1E(xy)\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)

Доказательство очень простое, только для условия первого порядкаdE(yx'β)2dββ=β*=0\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0Ее можно решить, поскольку условием второго порядка является матрица Гессеd2E(yx'β)2dβdβ'=E(xx')\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')существуетE(xx')\mathbb{E}(\mathbf{x}\mathbf{x}')Оно должно быть положительно определенным, если оно не является сингулярным.

Модель линейной регрессии формально определяется следующим образом:

Определение 4Модель линейной регрессии:y=x'β+u,βеRk+1y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}вuu— ошибка регрессионной модели.

Итак, модель линейной регрессии и предсказать оптимальную линейную наименьших квадратов Какая связь между ними?

Теорема 4Предполагая, что выполнены условия теоремы 3,y=x'β+uy=\mathbf{x}'\beta+u, и разрешиβ*=[E(xx')]1E(xy)\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)— оптимальный линейный коэффициент аппроксимации методом наименьших квадратов. ноβ=β*\beta=\beta^*ЭквивалентноE(xu)=0\mathbb{E}(\mathbf{x}u)=0.

Доказательство этой теоремы очень простое, и его нужно доказывать как с точки зрения необходимости, так и с точки зрения достаточности, поэтому оно не будет здесь расширяться.

Из теоремы следует, что пока условие ортогональностиE(xu)=0\mathbb{E}(\mathbf{x}u)=0Удовлетворение, то значение параметра модели линейной регрессии равно оптимальному коэффициенту линейной аппроксимации методом наименьших квадратовβ*\beta^*, они эквивалентны.

3 Правильная настройка модели

Как правильно настроить среднюю модель?

Определение 5Правильная спецификация модели в условном среднем: модель линейной регрессииy=x'β+u,βеRk+1y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}условное среднееE(yx)\mathbb{E}(y|\mathbf{x})правильная установка , если параметр существуетβoеRk+1\beta^o \in \mathbb{R}^{k+1}сделатьE(yx)=x'β\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta. С другой стороны, если для какого-либоβеRk+1\beta\in \mathbb{R}^{k+1}обаE(yx)x'β\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta, модель линейной регрессииE(yx)\mathbb{E}(y|\mathbf{x})неправильная установка.

Из этого определения видно, что правильным условием для модели линейной регрессии является наличие определенного параметраβo\beta^oсделатьE(ux)=0\mathbb{E}(u|\mathbf{x})=0. Другими словами, необходимые и достаточные условия для правильной настройки модели линейной регрессии таковы:E(ux)=0\mathbb{E}(u|\mathbf{x})=0u=yx'βou=y-\mathbf{x}'\beta^o.

Следующая теорема утверждает, что, когда модель среднего установлена ​​правильно, член ошибки модели регрессииuuс истинным членом возмущения регрессииε\varepsilonОтношение:

Теорема 5Если модель линейной регрессииy=x'β+uy=\mathbf{x}'\beta+uусловное среднееE(yx)\mathbb{E}(y|\mathbf{x})правильная настройка, то (1) Есть параметрβo\beta^oи случайная величинаε\varepsilon,имеютy=x'βo+εy=\mathbf{x}'\beta^o+\varepsilonE(εx)=0\mathbb{E}(\varepsilon|\mathbf{x})=0; (2)β*=βo\beta^*=\beta^o.

Из определения 5 (1) можно получить непосредственно, для (2) можно получить из (1)E(εx)=0\mathbb{E}(\varepsilon|\mathbf{x})=0посадочная дистанцияE(xε)=0\mathbb{E}(\mathbf{x}\varepsilon)=0, а затем использовать теорему 4, чтобы доказать это.

Для простоты понимания в следующем примере используется пример, иллюстрирующий правильную и неправильную настройку модели:

Предположим, что процесс генерации данных (DGP)y=1+12x1+14(x121)+εy=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilonx1x_1иε\varepsilonнезависимы друг от другаN(0,1)\mathcal{N}(0,1)Случайные переменные. Теперь, если мы используем модель линейной регрессииy=x'β+uy=\mathbf{x}'\beta+uАппроксимируйте этот DGP, гдеx=(1,x1)'\mathbf{x}=(1,x_1)'.

После расчета мы можем решить оптимальное линейное приближение методом наименьших квадратовβ*=(1,12)'\beta^*=(1,\dfrac{1}{2})'g*(x)=1+12x1g^*(\mathbf{x})=1+\dfrac{1}{2}x_1, то видно, что в нем нет нелинейной части. Если в регрессионной модели взятьβ=β*\beta=\beta^*, согласно теореме 4 имеемE(xu)=0\mathbb{E}(\mathbf{x}u)=0, однако в это времяE(ux)=14(x121)0\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0, то есть модель установлена ​​неправильно.

Модель установлена ​​неправильно, каковы последствия этого? Расчет показывает, что реальный ожидаемый предельный эффект равенE(yx)dx1=12+12x1\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1, но он не равенβ1*=12\beta^*_1=\dfrac{1}{2}. Другими словами, неправильная спецификация модели приведет к тому, что решение оптимального линейного приближения методом наименьших квадратов не будет соответствовать реальной ожидаемой предельной полезности.

использованная литература

  • Хун Юнмяо, Продвинутая эконометрика, 2011 г.