Это 29-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления
Статья небольшая, и большинство из них - это вывод формул, но каждый шаг в процессе вывода был объяснен максимально четко.Читая, каждый хорошо понимает, как использовать метод наименьших квадратов и метод максимального правдоподобия. решить линейную модель.
Линейная регрессия
- Наименьших квадратов
- Метод наименьших квадратов с геометрической точки зрения
- Метод наименьших квадратов с вероятностной точки зрения
Что такое проблема регрессии
Сегодня давайте обсудим линейную модель, Мы узнали, что линейная модель непроблема регрессии,проблема регрессииОн в основном используется для прогнозирования определенного значения, такого как прогнозирование цен на жилье, цен на акции (это приложение использует для решения случайный процесс), будущих погодных условий и т. д. Например, мы оцениваем значение PM2,5 региона в определенный день на основе изменений значений PM2,5 в регионе за несколько лет Чем ближе прогнозируемое значение к фактическому значению дня, тем выше надежность алгоритма регрессионного анализа.
Линейная модель используется для задач регрессии, то есть для обучения линейной модели (соответствующей существующим точкам выборки) на основе заданных выборочных данных, а затем использования этой линейной модели для оценки значения для новой выборки. обычная модель
использоватьОдномерная линейная модельЧтобы решить проблему регрессии, тогда задача называется одномерной линейной регрессией. Решение одномерной линейной регрессии может быть решено методом наименьших квадратов или итерационным методом.
Подготовить данные
В обучении с учителем образцы D обычно представляются таким образом, и каждый образец состоит из вектора X n-мерных признаков и y, представляющего метку. В задачах регрессии y — это конкретное значение, а в задачах классификации y — это класс, к которому принадлежит выборка.
После того, как у вас есть образец, вы можете начать определять модель. Модель на самом деле описывает некоторые вещи и отношения между вещами на математическом языке. Это мое личное понимание модели, которая должна описывать вещи и отношения между вещами в математический язык. Алгоритм заключается в том, как решить задачу оптимизации на основе модели.
Определите модель
Тогда модель здесь должна представлять отношение между X и Y в образце. Давайте определим линейную функцию для представления отношения между x и y. Параметры функциипредставить, можно записать в следующем виде
здесьУказывает на предвзятость.
установить целевую функцию
Вычисляя расстояние от точки выборки до линейной модели (линии или гиперплоскости), мы оцениваем соответствие нашей модели данным, что является целью, которую мы хотим оптимизировать. Потому что в качестве цели используется минимальное расстояние между оценочными значениями путем измерения истинного значения. Наша цель — минимизировать значение целевой функции (также называемой функцией потерь).Здесь мы используемЧто касается расстояния между точками, то у вас могут возникнуть сомнения в том, что расстояние между точками и линиями не является вертикальной линией, которая проводит из точки прямую линию. На самом деле это эквивалентная задача. расстояние, а расстояние между прогнозируемым значением и фактическим значением меньше.Квадрат разницы равен расстоянию между точками выборки и линией линейной дисперсии.
Если количество данных находится в пределах 1 миллиона, мы можем использовать метод наименьших квадратов, чтобы решить проблему напрямую, без использования градиентного спуска.
Метод наименьших квадратов (LMS)
В линейной задаче мы находим линию, соответствующую выборке, а затем вычисляем расстояние между точками, чтобы оценить, насколько хорошо мы нашли модель.
Затем для представления модели используется система линейных уравнений Причина использования матрицы заключается в том, что некоторые математические задачи системы линейных уравнений могут быть преобразованы в космические задачи.
Попробуйте сейчас сматричная формаЧтобы представить эту систему линейных уравнений, матрица A представляет нашу выборку, каждая строка представляет выборку, каждый столбец представляет характеристики выборки, имеется N выборок, а строчная буква n представляет количество признаков каждой выборки. То есть для каждого образцаДополненная матрица,
Из-за параметров в уравнении мы будем использовать точку пересечения какчтобы представить, что первый столбец матрицы выборки A имеет значение 1, потому что этот столбец будет суммироваться для представления(перехват) умноженный, здесьдаФорма матрицы параметров, форма матрицы параметров представлена формой матрицы A и меткой YФорма вектора определена.
Матрица данных Aиполучить матрицу1, которая является формой этикетки.
С матричным представлением мы можем представить нашу функцию потерь в матричной форме
Далее матрица строится по модулю и упрощается. Подробный процесс вывода выглядит следующим образом.Здесь нам нужно ввести операцию матрицы, особенно операцию транспонирования матрицы.Сложение и вычитание в матрице легче понять, но умножение более специальное.Есть нет обменного курса в матрице.
формаиформатакумножить, чтобы получитьМатрица умножается наэтоВектор является скаляром, вы можете попытаться вывести егоGet также является скаляром, потому что все они скаляры, их можно сложить вместе, чтобы получить
Раньше мы использовали градиентный спуск для постоянного обновления параметров. Конкретный метод заключается в том, что мы берем вывод параметров в функцию потерь, а затем обновляем параметры.Следующее - умножить производную на скорость обучения.Скорость обучения представляет собой скорость обучения модели, то есть величину каждого параметра обновления, а затем используйте это значение для обновления параметров, чтобы получить новый параметр.
Параметры оптимизируются путем непрерывной итерациичтобы найти оптимальное решение. Это общие шаги между нами при решении проблем регрессии.
Это линейная модель, о которой мы узнали ранее с помощью регрессии, и сегодня мы будем систематически изучать линейную модель.
Что касается вывода матриц, вы уже узнали, что существуют следующие формулы
Тогда мы можем начать находить матрицуЧастная производная от , упрощается, чтобы получить следующую формулу
эта частьЭто трудность вывода, и затем мы сосредоточимся на преодолении этой части вывода.
СвязанныйвекторДля вывода сначала введем формулу
Здесь uv — функция x. Мы узнали о выводе матриц в линейной алгебре. Выше приведена формула для вывода матриц. В следующем процессе вывода мы будем использовать эту формулу. Если вы не понимаете, вернитесь и посмотрите на линейная алгебра.
Глядя дальше, мы вводим квадратную матрицу B. Обратите внимание, что, поскольку B здесь является квадратной матрицей, BX можно рассматривать как единое целое для решения следующих проблем.
мы знаемЭто квадратная матрица, так что наша задача может быть решена. Выводим уравнение сверху
Для случая, когда количество данных не очень велико, можно выбрать метод наименьших квадратов, потому что обращение матрицы приносит много операций, и вычисляется обращение матрицы.Для задачи градиентного спуска, сходимость относительно медленная.
Концепции геометрии наименьших квадратов
оказатьсяпроекция вектора на плоскость y
Вероятностный подход к пониманию метода наименьших квадратов
Угол вероятности (максимальная вероятность)
Взгляните на проблему линейной регрессии с вероятностной точки зрения и наименьших квадратов
Наименьших квадратов
Данные имеют определенный уровень шума, то есть данные обладают определенной случайностью.
Оценка максимального правдоподобия (MLE)
Оценка максимального правдоподобия, в популярных терминах, заключается в использовании известной информации о результатах выборки для вывода значений параметров модели, которые с наибольшей вероятностью (максимальная вероятность) вызовут появление этих результатов выборки.
Теперь, когда модель определена, мы используем выборочные данные для оценки параметров, то есть какие параметры и выборочные данные объединяются для получения. На самом деле, мы сначала знаем, что между y и x существует заданная связь, которая определяется соотношениемопределенный.
Это можно понять и таким образом, предполагая, что мы можем найтиТакЗазор с этой функцией можно считать подчиняющимся нормальному распределению.
На самом деле, мы только что нашлиМаксимизируйте значение целевой функции выше, потому чтоявляется постоянным значением, то если мы хотим, чтобы целевая функция была больше, нам нужно позволитьменьше
Оценка методом наименьших квадратов