Это мой 11-й день ноябрьского испытания обновлений.
Усовершенствования стохастического градиентного спуска
Гессенская технология
Метод Гессе - это метод минимизации функции стоимости, для. пройти черезРасширение Тейлора(Если функция удовлетворяет определенным условиям, формула Тейлора может использовать значения производной функции в определенной точке в качестве коэффициентов для построения многочлена для аппроксимации функции), а функция стоимости может быть выражена в точкеаппроксимируется как:
Это можно упростить до:
представляет вектор градиента,- матрица Гессе, первая в матрицепредмет.
Для упрощения вычислений члены более высокого порядка можно опустить, чтобы получить приблизительныеценность:
Докажите, что правое выражение можно минимизировать (т. е. график функции вогнут), метод: найти, матрица Гессе обладает тем свойством, что, когда это положительно определенная матрица, частная производная второго порядка функции всегда> 0,Матрица Гессе и функция bump. сделать:
но:
В практических приложениях,вДля обучения есть ставка. Метод Гессе сходится быстрее, чем стандартный метод градиентного спуска, и, вводя информацию о вариации второго порядка функции стоимости, метод Гессе может избежать проблемы множественных патологий, часто возникающей при градиентном спуске.
Однако вычисление матрицы Гессе в методе Гессе очень хлопотно.Для взвешенной сети соответствующая матрица Гессе будет иметьэлементы, объем вычислений очень велик.
градиентный спуск на основе импульса
Градиентный спуск на основе импульса улучшает метод Гессе, чтобы избежать проблемы генерации слишком большой матрицы (т. е. избежать генерации матрицы производных второго порядка), и является методом оптимизации. Метод импульса вводит в физику понятие скорости и вводит параметр скоростии член, представляющий силу трения(коэффициент момента),Метод представления становится:
Чтобы понять эту формулу, рассмотрим сначала(т. е. без трения), что происходит, когда, для каждого шага вы можете видеть, что скорость увеличивается с каждым шагом, поэтому он будет достигать дна все быстрее и быстрее, тем самым гарантируя, что метод импульса работает быстрее, чем стандартный градиентный спуск.
Однако, как упоминалось ранее, чрезмерно большой размер шага спуска (или скорость) вызовет колебания по дну впадины, когда спуск будет близок к дну, что повлияет на скорость обучения и создаст трение для решения этой проблемы.Этот параметр управляет скоростью спуска, когдаПри отсутствии трения скорость полностью определяется градиентомразмер определяет.Когда скорость не имеет значения, вернемся к исходному методу градиентного спуска. На практике подходящий набор данных обычно выбирается путем предоставления проверочного набора данных., и выбранный ранееметод аналогичен.
Другие модели искусственных нейронов
Все нейроны, упомянутые ранее, являются сигмовидными нейронами, и теоретически сигмовидные нейроны могут соответствовать любому распределению. Но на практике другие нейроны могут лучше обучаться для некоторых приложений.
Тан нейроны
Используйте гиперболический тангенс вместо сигмовидной функции:
Напомним формулу для сигмиодной функции:
Упражнение:доказывать
Таким образом, функция тангенса на самом деле формируется пропорциональным изменением сигмовидной функции, и ее форма также аналогична, как показано ниже:
Разница между этими двумя функциями заключается в том, что выходной сигнал тангенциального нейрона имеет диапазон (-1, 1) вместо (0, 1), поэтому при использовании тангенсового нейрона может потребоваться упорядочить окончательный выходной сигнал, чтобы ограничить активации между 0-1.
Различия в использовании tanh и сигмовидных нейронов
При использовании сигмовидных нейронов все активации положительны, а градиент обратного распространения равен, значение активации должно быть положительным, тогда положительный и отрицательный градиенты представляют собой только суммуВ связи с этим все веса одного и того же нейрона будут либо увеличиваться, либо уменьшаться вместе. В некоторых случаях веса одного и того же нейрона должны иметь противоположные изменения. Использование нейронов tanh может быть лучшим выбором. Это всего лишь эвристическая идея, текущее исследованиеНе существует быстрого и точного правила, указывающего, какой тип нейрона быстрее обучается для конкретного приложения или обобщает больше всего..
нейрон ReLU
Нейрон ReLU, а именно выпрямленный линейный нейрон или выпрямленный линейный блок, его выход:
Изображение выглядит так:
Нейроны ReLU показали хорошие результаты в некоторых работах по распознаванию изображений.