Формула Адама + анализ параметров

глубокое обучение

содержание

Алгоритм Адама:

Цель алгоритма:

​Когда он не сходится, выполните в цикле следующую программу (псевдокод):

Объяснение параметра:

Соответствующее описание параметров:


Алгоритм Адама:

Цель алгоритма:

Минимизируйте (или максимизируйте) функцию потерь E(x) путем улучшения метода обучения, тем самым регулируя веса обновления модели и параметры смещения.

Если он не сходится, он выполняет следующую программу (псевдокод):

Объяснение параметра:

  1. t: t - временной шаг, инициализированный до 0
  2. : градиент на временном шаге t
  3. : параметр для обновления
  4. :параметрСлучайная целевая функция
  5. : экспоненциальные скорости убывания первого и второго моментов соответственно
  6. : первая моментная оценка градиента
  7. : вторая моментная оценка градиента
  8. :правильнокоррекция
  9. :в степени т
  10. :правильноисправление
  11. : скорость обучения
  12. : константа добавлена ​​для поддержания числовой стабильности

Соответствующее описание параметров:

  1. Настройки по умолчанию для некоторых параметров:
  2. Предоставляет параметр для увеличения скорости обучения и возможность ускорить обучение. Потому что чем больше накопленный импульс первого порядка (градиент), чем больше он обновляется в одном направлении, тем больше он должен сходиться. Его начальное значение равно 0.
  3.   дает возможность снизить скорость обучения, потому чтоЧем больше кумулятивный импульс второго порядка (квадрат градиента), чем чаще обновляется параметр, тем серьезнее колебания, поэтому необходимо уменьшать скорость обучения. Его начальное значение равно 0.
  4. : диапазон [0, 1), который играет роль в экспоненциальном затухании импульса первого и второго порядка, избегаяСовокупный слишком большой
  5. : функция градиентного спуска состоит в том, чтобы найти минимальное значение, контролировать дисперсию, обновить параметры модели и, наконец, заставить модель сходиться. В основном используется для обновления веса в нейронных сетях, то есть обновления и настройки параметров модели в одном направлении для минимизации функции потерь.
  6. Момент первого порядка представляет средний градиент, момент второго порядка представляет дисперсию, момент первого порядка управляет направлением обновления модели, а момент второго порядка управляет скоростью обучения.

 


использованная литература

【1】Блог Woohoo.cn на.com/Wu Chengze/Afraid…

【2】blog.CSDN.net/Vice 6543210/Ах…