1 История наименьших квадратов
Будь то машинное обучение, эконометрика, математическая статистика, первый алгоритм, с которым сталкиваются многие люди, — это метод наименьших квадратов.
Это очень старый метод. Еще в начале 18 века идея метода наименьших квадратов появилась в области астрономии и навигации. Первая официальная публикация метода была сделана французским ученым Лежандром в 1806 году, а математик Гаусс, как говорят, открыл метод раньше, но официально он не использовался до 1809 года, когда он опубликовал расчет орбит небесных тел. двое также спорили о том, кто первым узнал.
В конце концов, Гаусс — король математики, и в 1829 году он впервые доказал, что в классе линейных несмещенных оценок МНК-оценка имеет наименьшую выборочную дисперсию. В его доказательстве члены ошибки в модели линейной регрессии предполагались независимыми и нормально распределенными, а позже Марков смягчил это предположение, потребовав только, чтобы члены ошибки были некоррелированными, гомоскедастичными и, как ожидается, равными нулю. Следовательно, теорема в конечном итоге была названаТеорема Гаусса-Маркова.
2 Структура регрессии МНК для небольшой выборки
Какова цель регрессии МНК? Короче говоря, после принятия процесса генерации данныхи собрать сериюПосле данных мы можем сделать 3 вещи, которые также являются нашим путем изучения регрессии МНК:
- получить точечные оценки коэффициентов;
- Определить, насколько хорошо подходят данные?
- Получите интервальную оценку коэффициента и выполните проверку гипотезы.
Во-первых, мы сначала используем данные, чтобы получить точечную оценку, из которого также можно получить ряд свойств, а затем вычислив такиеПодождите, пока ряд индикаторов покажет, насколько хорошо подходит, и, наконец, после получения оценки интервала, вы можете выполнить проверку гипотез на предварительных гипотезах о коэффициентах.
2.1 Балльная оценка и ее свойства
После использования регрессии МНК можно получить
Это точечная оценка коэффициента, и вы можете видеть, какими свойствами он обладает.
Во-первых, этоЛинейная комбинация , обладает линейностью, и, кроме того, после наложения некоторых предположений ее условное математическое ожидание представляет собой несмещенную оценку коэффициентов, т.е., а его дисперсия гарантируется теоремой Гаусса-Маркова наименьшей, что является «СИНИМ» (лучшая линейная несмещенная оценка).
2.2 Качество подгонки
Для соответствия базовые показатели централизованы или децентрализованы..
Для выбора модели, если вы используетеВ качестве критерия выбора модели очевидно, что чем больше независимых переменных добавляется, тем большебудет выше, поэтому необходимо использовать другие показатели. Например, AIC (информационный критерий Akaike), BIC (байесовский информационный критерий), корректировкакоторыйИ так далее, вы можете выбрать модель.
2.3 Интервальная оценка и проверка гипотез
Если предположить(внеизвестно), тоОн также соответствует нормальному распределению, поэтому можно получить его интервальную оценку. Но получение его интервальной оценки не является нашей конечной целью, наша конечная цель состоит в том, чтобы проверить, например,(взаматрица) выполняется ли такое предположение.
Из статистических знаний можно построить такую квадратичную форму
Хотя можно доказать, что приведенная выше формула подчиняетсяраздача, но леваяМы не знаем, поэтому мы не можем использовать приведенную выше формулу для построения статистики.
Одним из решений является использованиеоценить, можно показать, что эта оценка несмещена, т.е., и удовлетворить
и
Следовательно, мы можем построитьСтатистика для проверки:
Таким образом, мы можем совместно проверить коэффициент корреляциилинейная гипотеза, просто запишите гипотезу какв виде . Если нужно проверить только одну гипотезу, т., то потому что, поэтому статистику можно преобразовать враспространение, напрямуюПросто проверьте.