Вариационное понимание 2 - Основной подход

глубокое обучение алгоритм

Эта статья является второй статьей из серии «Вариационное понимание», см. первую статью.Понимание вариационных методов 1 - Введение в функционалы,Основные пункты этой статьи следующие:

  • Базовые концепты
  • две леммы
  • Что такое изменение функции
  • Чем отличается функционал
  • Доказательство уравнения Эйлера – Лагранжа.

Базовые концепты

Набор функций с некоторым общим свойством называетсяфункция класса, обозначаемый как Ф. Например, в примере наискорейшего спуска все кривые проходят через точки О и А, а прохождение через точки О и А является общим свойством множеств функций.

Если функция из класса функций может заставить функционал получить экстремальное значение или может получить экстремальное значение, то функция этого класса называется вариационной задачей.Желаемая функция класса. В желаемом классе функций бесконечно много функций, любая из них называетсяЖелаемая функция.

В классе функций функция или кривая, которая может заставить функционал получить экстремальное значение или может получить экстремальное значение, называется функцией или кривой.Функции экстремальных значений, также известные как решения вариационных задач..

Основная проблема вариационных методовОн заключается в решении экстремальной функции функционала и функционального экстремума, соответствующего экстремальной функции.

Если концы кривых искомого класса кривых заданы заранее и являются фиксированными значениями, то задача нахождения экстремума функционала называетсяИсправлена ​​проблема вариации конечной точки.

лемма

Лемма 1

Если функция f(x) непрерывна на [a,b],\eta(x) \in [a,b]удовлетворен\eta(a)=\eta(b)=0любая функция от , если

\int_a^b f(x)\eta(x)dx=0

установлено, то для всехx \in [a,b],имеютf(x) \equiv 0.

доказывать:

Противоречивый метод, пусть f(x) не всегда равно 0

Зависит от\eta(x)произвол, возьми\eta(x)=-f(x)(x-a)(x-b), x - это переменная, которая изменяется между a и b, поэтому (x-a)(x-b) отрицательно, поскольку f(x) не всегда равно 0, есть:

\int_a^b f(x)\eta(x)dx=\int_a^b -f(x)^2 (x-a)(x-b)>0

противоречит условию, поэтомуf(x) \equiv 0

Лемма 2

Если функции f(x),g(x) непрерывны в [a,b],\eta(x),\xi(x) \in [a,b]удовлетворен\eta(a)=\eta(b)=0и\xi(a)=\xi(b)=0любая функция от , если

\int_a^b [f(x)\eta(x)+ g(x)\xi(x)]dx=0

установлено, то для всехx \in [a,b],имеютf(x) \equiv g(x) \equiv 0.

доказывать:

Противоречивый метод, пусть f(x) и g(x) не всегда равны 0

Зависит от\eta(x),\xi(x)произвол, возьми\eta(x)=-f(x)(x-a)(x-b),\xi(x)=-g(x)(x-a)(x-b), x - это переменная, которая варьируется между a и b, поэтому (x-a)(x-b) отрицательно, тогда:

\int_a^b [f(x)\eta(x)+ g(x)\xi(x)]dx=\int_a^b [f(x)^2+ g(x)^2][-(x-a)(x-b)]dx > 0

Это противоречит условию, поэтомуf(x) \equiv g(x) \equiv 0

Вариация функции

для любого фиксированного значенияx \in [x_0,x_1], желаемая функция y(x) и другая желаемая функцияy_0(x)Разницаy(x)-y_0(x)называется функцией y(x) вy_0(x)гдеВариация или вариация функции, Упоминается как\delta y\deltaназывается вариационным оператором, то

\delta y = y(x)-y_0(x)=\epsilon \eta(x)

о\epsilon \eta(x) будет подробно ниже

Обратите внимание здесьВариация функции \delta yиприращение функции\Delta yРазница между, как показано на рисунке:

  • Вариация функции\delta yдве разные функции y(x) иy_0(x)Разница, когда независимая переменная x фиксирована,Это функция изменена.
  • приращение функции\Delta y- приращение независимой переменной x, такое, что функция y (x) производит приращение,Функция по-прежнему такая же, как исходная функция.

Вариация простейшего функционала

Пусть F(x,y(x),y'(x)) — три независимые переменные x,y(x),y'(x) в интервале[x_0,x_1]Известная функция на и непрерывно дифференцируемая второго порядка, где y(x) и y'(x) — неизвестные функции от x, то функционал:

J[y(x)]=\int_{x_0}^{x_1} F(x,y(x),y'(x))dx

называетсяминимальный функционал, подынтегральная функция F становитсяфункциональное ядро.

существуетy=y(x)В окрестности первого порядка возьмем любую кривуюy=y_1(x),но:

\delta y = y_1(x)-y(x),\delta y'=y'_1(x)-y'(x)

Тогда простейший функционал J[y(x)]Инкрементныйза:

\Delta J = J[y_1(x)]-J[y(x)]=J[y(x)+\delta y]-J[y(x)]

= \int_{x_0}^{x_1} F(x,y+\delta y,y'+\delta y')dx-\int_{x_0}^{x_1} F(x,y,y')dx

=\int_{x_0}^{x_1} [F(x,y+\delta y,y'+\delta y')-F(x,y,y')] dx

может доказать \Delta J=\delta J+d[y(x),\delta y]d[y(x),\delta y]да\delta yбесконечно малые высшего порядка, и\delta JназываетсяВариация функционала:

\delta J = \int_{x_0}^{x_1} (F_y \delta y + F_{y'} \delta y')dx

Уравнение Эйлера – Лагранжа

обзорПонимание вариационных методов 1 - Введение в функционалыЗадача о самой крутой линии в:

Предполагать\tilde y(x)является желаемой функцией класса, то есть набором всех сплошных и пунктирных линий на графике.

в желательной функции класса\tilde y(x)имеется дифференцируемая второго порядкаФункция экстремального значения y(x)(сплошная линия на рисунке) делает время от O до точки A кратчайшим, т. е. y(x) может сделать функционал\displaystyle t=J[\tilde y(x)]=\int_0^p \sqrt{\frac{(1 + (\tilde y)'^2)}{2g \tilde y}}dxПолучите экстремальное значение.

Все кривые в желаемой функции класса могут быть представлены y (x):

\tilde{y}(x)= y(x)+\delta y= y(x)+\epsilon \eta(x)

в\epsilonВещественные числа введены для Лагранжа,\eta(x)удовлетворен\eta(x_0)=\eta(x_1)=0Дифференцируемая функция , видно, что в\epsilon=0Время\tilde{y}(x)= y(x), делая функционал\displaystyle t=J[\tilde y(x)]=\int_0^p \sqrt{\frac{(1 + (\tilde y)'^2)}{2g \tilde y}}dxВозьмите экстремальное значение J[y(x)].

в то время как функциональныйJ[\tilde y(x)]Это может быть выражено как:

\phi(\epsilon)=J[\tilde y(x)]=J[y(x)+\epsilon \eta(x)] = \int_{x_0}^{x_1} F(x,y(x)+\epsilon \eta(x),y'(x)+\epsilon \eta'(x))dx

Вышеприведенная формула представляет собойО х Интеграл, после решения интеграла остается только\epsilon,следовательноэто на самом деле\epsilonфункция, свойства этой функциив\epsilon=0При достижении экстремального значения J[y(x)], т.е.\epsilon=0час,\phi(\epsilon)удовлетворить:

\frac{d \phi}{d \epsilon}|_{\epsilon=0} = 0

В силу коммутативности вывода и порядка интегрирования\displaystyle \frac{d \phi}{d \epsilon}Форма выглядит следующим образом:

\frac{d \phi}{d \epsilon} = \int_{x_0}^{x_1} {F_y[x,y(x)+\epsilon \eta(x),y'(x)+\epsilon \eta'(x)]\eta(x)+ F_{y'}[x,y(x)+\epsilon \eta(x),y'(x)+\epsilon \eta'(x)]\eta'(x) }dx

сделать\epsilon=0:

\frac{d \phi}{d \epsilon}|{\epsilon=0} = \int{x_0}^{x_1} [F_y \eta(x)+ F_{y'}\eta'(x)]dx=0

применениецелое по частям

0 =\int_{x_0}^{x_1} [F_y \eta(x)+ F_{y'}\eta'(x)]dx

=\int_{x_0}^{x_1}F_y \eta(x) dx + \int_{x_0}^{x_1} F_{y'}\eta'(x)dx

=\int_{x_0}^{x_1}F_y \eta(x) dx + \int_{x_0}^{x_1} F_{y'}d\eta(x)

 =\int_{x_0}^{x_1}F_y \eta(x) dx + F_{y'}\eta(x)|{x_0}^{x_1} - \int{x_0}^{x_1} \eta(x) (\frac{d}{dx}F'y) dx

= \int{x_0}^{x_1} (F_y-\frac{d}{dx}F'y)\eta(x) + F{y'}\eta(x)|_{x_0}^{x_1}

так как\eta(x_0)=\eta(x_1)=0,следовательно:F_{y'}\eta(x)|_{x_0}^{x_1}=0

посадочная дистанция:

\int_{x_0}^{x_1} (F_y-\frac{d}{dx}F'_y)\eta(x)=0

Тогда по лемме 1:

F_y-\frac{d}{dx}F'_y=0

Это уравнение Эйлера – Лагранжа..

Когда уравнение Эйлера – Лагранжа также может использовать функционалы для получения экстремальных значений,\delta J=0чтобы доказать.

\eta(x)Фактически это возмущение, добавленное к y(x),Смысл уравнения Эйлера – Лагранжа.Она заключается в том, что независимо от формы возмущения, если функционал принимает экстремальное значение,\displaystyle F_y-\frac{d}{dx}F'_y=0учредил.