Каталог связанных статей:
- Линейная регрессия для машинного обучения
- Логистическая регрессия и реализация машинного обучения на Python
- Борьба с проектами машинного обучения Обнаружение аномалий данных транзакций
- Дерево решений для машинного обучения
- Реализация дерева решений машинного обучения (Decision Tree) на Python
- PCA (анализ основных компонентов) для машинного обучения
- разработка функций машинного обучения
линейная регрессия
Обозначения, которые мы будем использовать для описания проблемы регрессии, следующие:
представляет количество экземпляров в обучающем наборе
количество репрезентативных признаков
означает первыйобучающий экземпляр, является i-й строкой матрицы признаков, является вектором
представляет первый в матрице признаковпервый в очередиособенность, первыйпервый тренировочный экземплярОсобенности
Представляет целевую переменную, которая является выходной переменной
представляет экземпляр в обучающем наборе
представительэкземпляр наблюдения
Функция, представляющая алгоритм обучения или гипотезу
Для многомерной линейной регрессии функция предположения может быть установлена как
Для упрощения формулы введемЗатем предположим, что функция становится
После векторизации окончательный результат
нам нужно спросить, так что для каждой выборки, внесенной в функцию гипотезы, можно получить соответствующее прогнозируемое значение, а наша цель — сделать полученное прогнозируемое значение как можно более близким к истинному значению
Выведите целевую функцию оценкой максимального правдоподобия
Поскольку между нашим фактическим прогнозируемым значением и истинным значением обязательно будет ошибка для каждого образца:
в,- фактическое реальное значение текущей выборки,Чтобы предсказать результат,ошибка предсказания
Тогда для всего набора данных:
ошибканезависимы и имеют одинаковое распределение и подчиняются среднему значению 0 и дисперсиинормальное распределение
Поскольку ошибка следует нормальному распределению, поэтому:
Внесите:
Мы хотим, чтобы ошибка была как можно ближе к 0. Поскольку ошибка следует нормальному распределению со средним значением 0, тем ближе соответствующая ошибка в центре распределения, тем лучше. Мы можем приблизительно использовать соответствующую вероятностьЧтобы представить значение ординаты текущего нормального распределения, поскольку ошибки каждой выборки не зависят друг от друга, умножьте вероятность ошибки каждой выборки, чтобы получить общую функцию правдоподобия как:
Наша задача найти правильный, в сочетании с нашими данными максимально близко к истинному значению Итак, нам нужно решить приведенную выше функцию правдоподобия дляМаксимальное значение, то есть для решения функции максимального правдоподобия
Поскольку операция кумулятивного умножения в приведенной выше функции правдоподобия слишком сложна, мы можем преобразовать ее в логарифмическую вероятность и просуммировать, то есть:
В приведенной выше формулеизвестны, тольконеизвестно. Итак, наша цель — найти множество, чтобы максимизировать указанную выше функцию правдоподобия, то есть найти функцию максимального правдоподобия. Так как тольконеизвестно. Вышеупомянутая проблема может быть преобразована в,минимальное значение
В конечном счете, наша целевая функция (также известная как функция стоимости):
Для векторизации:
нормальное уравнение
ТребоватьПри достижении минимального значения соответствующийзначение, один из способов состоит в том, чтобы найти частную производную. так какявляется выпуклой функцией, поэтому минимальное значение получается, когда частная производная равна 0. В это времято, что нам нужно, а также является оптимальным решением Это напрямую устанавливает частную производную равной 0, и решение уравнения даетМетод называется нормальным уравнением
сделать,придется:
Хотя через нормальное уравнение можно получить оптимальное решение, но в реальном проекте количество наших образцов и характеристики каждого образца Число очень велико.В настоящее время, используя нормальное уравнение, временная сложность алгоритма слишком высока, затраты времени слишком велики, и даже невозможно рассчитать, потому что выборки и признаки слишком велики, или матрица необратима. Это особенно верно для матричных инверсий. Следовательно, этот метод решения обычно можно использовать, когда количество выборок и признаков невелико.
В общем случае нам нужно использовать другой очень классический алгоритм оптимизации, а именно Градиентный спуск
Градиентный спуск
Для метода прямого решения нормального уравнения, во-первых, оно не обязательно разрешимо, а кроме того, слишком велика временная сложность. Обычная процедура машинного обучения заключается в использовании метода градиентного спуска для решения проблемы минимального значения.
Идея градиентного спуска заключается в следующем:
В начале случайным образом выбираем набор параметров, Вычислить соответствующую функцию стоимости, а затем нам нужно найти следующий набор комбинаций параметров, которые могут максимально уменьшить значение функции стоимости, и повторять этот процесс до тех пор, пока окончательное значение функции стоимости не сойдется, то есть не будет найден локальный минимум. В это время соответствующийЭто тот результат, который нам нужен.
Мы не пытались найти всекомбинация параметров, поэтому неясно, является ли полученный локальный минимум глобальным минимумом. Однако для функции стоимости линейной регрессии это на самом деле проблема выпуклой оптимизации, поэтому локальный минимум является глобальным минимумом!
Другой способ мышления, чтобы понять, например, вы стоите в определенной точке горы, вам нужно спуститься с горы и достичь подножия горы (то есть вам нужно найти точку минимума)
В градиентном спуске все, что вам нужно сделать, это осмотреться, найти направление, сделать один шаг вниз, затем снова найти направление, сделать один шаг вниз и так далее, пока вы не достигнете подножия горы.
В приведенном выше сценарии есть два фактора, влияющих на достижение подножия горы: один — это направление, а другой — длина шага.
Чтобы быстро добраться до подножия горы, нам сначала нужно убедиться, что каждый шаг находится в самом крутом направлении, а затем делать большие шаги.
Самое крутое направление — это градиент, и, поскольку он ищет минимальное значение, он должен следовать направлению отрицательного градиента, что является методом градиентного спуска.
А теперь поговорим официально
Базовая структура градиентного спуска (минимизация) (в следующем выраженииПредставляет несколько итераций)
- Выбор начальной точки, т.е. выбор набора параметров
- Выберите направление поиска, что делает функцию убывающей быстрее всего
- Определяем размер шага, так чтозаминимизировать, построить
- Порог может быть установлен в начале,если, затем остановите итерацию и выведите решение, иначе продолжайте повторять итерацию. Конечно, мы также можем напрямую установить количество итераций.
Следует отметить, что вышеизложенноеотносится к набору параметров на k-й итерации, а именно
Давайте поговорим о трех методах градиентного спуска, а именно: пакетный градиентный спуск, стохастический градиентный спуск и мини-пакетный градиентный спуск.
пакетный градиентный спуск
Пакетный градиентный спуск фактически обновляет набор параметров на каждой итерации.Когда любая из функций стоимости требуется для всей выборкиНайдите соответствующий градиент
Его преимущество в том, что оптимальное решение получить легко, но очень медленно, потому что каждый раз нужно рассматривать все выборки.
Давайте посмотрим на конкретное математическое выражение
для итерации
в,, то есть количество признаков
После векторизации для каждой итерации
Стохастический градиентный спуск
Стохастический градиентный спуск, по сути, заключается в обновлении набора параметров на каждой итерации.При использовании любого из них необходимо только найти образец для получения соответствующего градиента и обновить его.
Его преимущество в том, что скорость итерации высокая, но не обязательно каждый раз в направлении сходимости.
Конкретное математическое выражение:
Мини-пакетный градиентный спуск
Мини-пакетный градиентный спуск фактически обновляет набор параметров на каждой итерации.Когда любой из них будет найден, найдите часть образцов, чтобы найти соответствующий градиент и обновить его.
Градиентный спуск небольшими партиями на самом деле является компромиссом между двумя вышеупомянутыми методами, и в практических приложениях большинство из них также используют этот алгоритм.
скорость обучения (размер шага)
В методе градиентного спуска есть два фактора: один — это направление, то есть градиент, а другой — скорость обучения., что является длиной шага.
Если скорость обучения слишком мала, количество итераций, необходимых для достижения сходимости (то есть приближения к минимуму), может быть очень большим. Если скорость обучения слишком велика, она может пересечь точку локального минимума, что приведет к невозможности сходимости.
Добро пожаловать, чтобы обратить внимание на мою личную общедоступную учетную запись AI Computer Vision Workshop, Эта общедоступная учетная запись иногда выдвигает связанные статьи о машинном обучении, глубоком обучении, компьютерном зрении и т. д. Приветствую всех, кто учится и общается со мной.