1 Общая проблема регрессии
Вообще говоря, учебники по эконометрике начинаются с линейной регрессии, но здесь мы обсудим более общие проблемы регрессии перед линейной регрессией.
Давайте сначала определим, что такое регрессия:
Определение 1Функция регрессии:этоправильнофункция регрессии.
Давайте определим еще одну метрику, которая измеряет, насколько хорошо делаются прогнозы:
Определение 2Среднеквадратическая ошибка (MSE): Предположим, мы используемпредсказывать, то прогнозСреднеквадратическая ошибка
Какова форма функции наилучшего прогноза? Следующая теорема показывает, что лучшая предикторная функция — это именно функция регрессии, условное математическое ожидание.
Теорема 1Оптимальное решение MSE:является оптимальным решением следующей задачи:весть пространство всех измеримых и интегрируемых с квадратом функций:
В этой теореме непосредственное решение задачи о максимальном значении сложнее, и необходимо использовать вариационный метод, относительно просто доказать теорему конструктивным методом.Вы можете сделать декомпозицию. сделать, то есть
Очевидно, что первый член является константой, только если второй членкоторыйчас,Сведите к минимуму.
Давайте посмотрим на другую теорему о члене возмущения в регрессии:
Теорема 2Идентичность регрессии: дано, всегдав- член возмущения регрессии, удовлетворяющий.
Следующий вопрос: как мымоделирование? В простейшем случае его можно аппроксимировать линейной функцией.
2 Линейная регрессия
Сначала введем понятие аффинной функции:
Определение 3Аффинные функции: помнить,, то семейство аффинных функций определяется как
когда мы будемПосле того, как множество функций сужено с множества всех измеримых и суммируемых с квадратом функций на множество аффинных функций, задача превращается в решение оптимальных параметровДля минимизации MSE этот параметр называется оптимальным коэффициентом аппроксимации методом наименьших квадратов.
Теорема 3Лучший линейный прогноз методом наименьших квадратов: предположенияи матрицаневырожденная, то задача оптимизацииРешение , то есть оптимальное линейное предсказание методом наименьших квадратов, равнов
Доказательство очень простое, только для условия первого порядкаЕе можно решить, поскольку условием второго порядка является матрица ГессесуществуетОно должно быть положительно определенным, если оно не является сингулярным.
Модель линейной регрессии формально определяется следующим образом:
Определение 4Модель линейной регрессии:в— ошибка регрессионной модели.
Итак, модель линейной регрессии и предсказать оптимальную линейную наименьших квадратов Какая связь между ними?
Теорема 4Предполагая, что выполнены условия теоремы 3,, и разреши— оптимальный линейный коэффициент аппроксимации методом наименьших квадратов. ноЭквивалентно.
Доказательство этой теоремы очень простое, и его нужно доказывать как с точки зрения необходимости, так и с точки зрения достаточности, поэтому оно не будет здесь расширяться.
Из теоремы следует, что пока условие ортогональностиУдовлетворение, то значение параметра модели линейной регрессии равно оптимальному коэффициенту линейной аппроксимации методом наименьших квадратов, они эквивалентны.
3 Правильная настройка модели
Как правильно настроить среднюю модель?
Определение 5Правильная спецификация модели в условном среднем: модель линейной регрессииусловное среднееправильная установка , если параметр существуетсделать. С другой стороны, если для какого-либооба, модель линейной регрессиинеправильная установка.
Из этого определения видно, что правильным условием для модели линейной регрессии является наличие определенного параметрасделать. Другими словами, необходимые и достаточные условия для правильной настройки модели линейной регрессии таковы:,в.
Следующая теорема утверждает, что, когда модель среднего установлена правильно, член ошибки модели регрессиис истинным членом возмущения регрессииОтношение:
Теорема 5Если модель линейной регрессииусловное среднееправильная настройка, то (1) Есть параметри случайная величина,имеют,в; (2).
Из определения 5 (1) можно получить непосредственно, для (2) можно получить из (1)посадочная дистанция, а затем использовать теорему 4, чтобы доказать это.
Для простоты понимания в следующем примере используется пример, иллюстрирующий правильную и неправильную настройку модели:
Предположим, что процесс генерации данных (DGP),винезависимы друг от другаСлучайные переменные. Теперь, если мы используем модель линейной регрессииАппроксимируйте этот DGP, где.
После расчета мы можем решить оптимальное линейное приближение методом наименьших квадратов,и, то видно, что в нем нет нелинейной части. Если в регрессионной модели взять, согласно теореме 4 имеем, однако в это время, то есть модель установлена неправильно.
Модель установлена неправильно, каковы последствия этого? Расчет показывает, что реальный ожидаемый предельный эффект равен, но он не равен. Другими словами, неправильная спецификация модели приведет к тому, что решение оптимального линейного приближения методом наименьших квадратов не будет соответствовать реальной ожидаемой предельной полезности.
использованная литература
- Хун Юнмяо, Продвинутая эконометрика, 2011 г.