Оптимальное управление: LQR

Оригинальный адрес:Optimal Control: LQR

Оригинальный автор:Марин Властелица Поганчич

Перевод с:Программа перевода самородков

Постоянная ссылка на эту статью:GitHub.com/rare earth/gold-no…

Переводчик:EmilyQiRabbit

Корректор:ezioyuan,TUARAN

Простое в использовании учебное пособие начального уровня по LQR, фундаментальным концепциям оптимального управления.

В этом посте я расскажу об оптимальном управлении и более подробно расскажу о хорошо работающих линейно-квадратичных регуляторах. Он очень часто используется в области оптимального управления, а также указывает на сходство между оптимальным управлением и популярным в последнее время обучением с подкреплением. Оба они используются для решения схожих задач в последовательных процессах принятия решений, но, что интересно, называются по-разному. Сказав это, небольшое предупреждение читателю состоит в том, что могут быть задействованы некоторые математические проблемы:

Эта статья включает в себя некоторые операции линейной алгебры и исчисления, но не волнуйтесь, они просты, и у вас все получится.

Без дальнейших церемоний, давайте начнем. Сначала дадим общее определение задачи оптимального управления или, в лучшем случае, задачи оптимизации. На самом деле это означает максимизацию или минимизацию некоторой функции, ограниченной определенными переменными. Типичная функция задачи оптимального управления выглядит следующим образом:

Эта функция очень проста, она заключается в минимизации функции с учетом определенных ограничений.f(st — сокращение от ограничения). В области оптимизации сложность также меняется в зависимости от целевой функции и ограничений. И в зависимости от реальной проблемы, конечно, ограничения останутся прежними или изменятся. Излишне говорить, что невыпуклые функции в задачах оптимизации оптимизировать труднее, но если они выпуклые, мы можем решить их эффективно и быстро. В любом случае, выпуклая функция очень важна, поэтому, когда вы найдете ее в решаемой задаче, ваша реакция будет выглядеть примерно так:

В задачах управления мы минимизируем функцию затрат или максимизируем функцию вознаграждения, оптимизируя траекторию, точно так же, как и в обучении с подкреплением. Естественно, условия также динамически меняются, т.е. функция, которая дает нам наше следующее состояние, основана на текущем поведении и состоянии и также является частью ограничений оптимизации. Таким образом, мы можем описать задачу оптимизации управления следующим образом:

Это пример конечного множества N. Давайте разобьём его на куски. x - переменная состояния в каждый момент времени.uявляется поведенческой функцией. E - конечная стоимость конечного состояния,gфункция стоимости для каждой пары функций состояния-действия. подкладкаxэто начальное состояние, в котором мы хотим начать оптимизацию,fявляется динамической функцией. В этом примере нет ограничений неравенства. Оказывается, еслиfфункция примерноxиuлинейная функция от , иgфункцияxиuКвадратичная функция , то задача будет значительно проще. Таким образом, мы получаем определение задачи линейно-квадратичной корректировки:

В этих выражениях Q, R и E являются матрицами стоимости, которые определяют полиномиальные коэффициенты. Мы также можем записать стоимость в каждый момент времени в матричной форме, упростив выражение.

В приведенном выше примере мы игнорируем S, а точнее предполагаем S = 0, но это существенно не меняет результат математической операции, S также может быть некоторой матрицей в функции стоимости, влияющей на взаимосвязь между x и u.

Далее мы собираемся применить принцип оптимальности, который гласит, что если существует оптимальный путь между A и C, а затем мы возьмем точку B на этом пути, то подпуть из A в B также будет оптимальным. дорожка. Это действительно интуитивный факт. На основании этого мы можем определить оптимальную функцию стоимости или общую стоимость рекурсивного пути. Отсюда получаем уравнение Гамильтона-Якоби-Беллмана:

Функция J* является оптимальной функцией стоимости. В этом примере мы объявляем целевую функцию как полиномиальную функцию, поэтому логически мы можем предположить, что оптимальная функция стоимости также является полиномиальной функцией, поэтому мы можем написать:

И конечная функция стоимости также логически основана на определении оптимальной задачи следующим образом:

Теперь, если мы подставим определение функции g и переменных динамического условия в уравнение Беллмана, мы получим:

Основываясь на предположении о квадратичной стоимости, как нам найти минимальное значение этой функции? Очень просто, мы берем градиент u и делаем его равным 0, и помещаем все переменные в большую центральную матрицу:

Для простоты заменим ее следующей матрицей (это говорит само за себя):

Умножьте каждое слагаемое, так как мы собираемсяuвывод, поэтому нужно сосредоточиться только на содержанииu, поэтому можно получить следующие промежуточные результаты:

После вычисления градиентов и перестановки мы получаем u*, минимизирующую стоимость, функцию оптимального поведения:

Может быть, теперь вы можете остановиться и подумать на мгновение. Что означает эта формула? Это означает, что у нас есть решение в замкнутой форме для функции оптимального поведения. Этот ответ довольно аккуратный. Итак, что нам нужно сделать дальше, чтобы разобрать его? Нам также понадобится матрица P для k+1 моментов времени. Основываясь на следующем уравнении, мы можем рекурсивно вычислить от последней временной точки:

Это известно как алгебраическое уравнение Риккати. В некоторых случаях нам нужно решение в какой-то фиксированный момент времени, и в течение бесконечного времени уравнение может быть решено для фиксированного P. В этом случае нам даже не нужна рекурсия. Мы можем напрямую получить ответ оптимального управления с обратной связью.

В принципе, это все для этой статьи. Вы должны оценить возможности LQR. Конечно, многие задачи нельзя свести к линейным динамическим задачам, но если удастся, то ответы, которые мы сможем получить, весьма удивительны. Этот метод используется даже тогда, когда динамическая функция нелинейна, и в этом случае мы используем разложение Тейлора, чтобы преобразовать ее в линейную задачу. Этот метод часто используется в сложных задачах оптимизации траектории и называется дифференциальным динамическим программированием (DDP).Примером может служить iLQR (Iterative LQR), на который может ссылаться читатель.

Теперь, когда вы изучили кунг-фу LQR, у вас есть инструменты для понимания оптимального управления.

Я надеюсь, что объяснение LQR таким образом поможет вам понять. Это очень простая, но очень полезная концепция, являющаяся краеугольным камнем многих алгоритмов оптимального управления.

Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.

Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из ИнтернетаНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллекти другие поля, если вы хотите видеть больше качественных переводов, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.