Реферат: Синтез оптимальных уравнений

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Механико-математический факультет

Кафедра теоретической механики и робототехники

Курсовая работа

Тема: Синтез оптимальных уравнений

Студента 3-го курса 13 группы

Павловского Сергея Александровича

Научный руководитель

Лютов Алексей Иванович

Минск 2001г.

ОГЛАВЛЕНИЕ

Г л а в а I. Введение ................................................................................................ 2

§ 1. Задача об оптимальном быстродействии.................................................... 2

1.Понятие об оптимальном быстродействии.................................................. 2

2.Задача управления........................................................................................ 3

3.Уравнения движения объекта....................................................................... 5

4.Допустимые управления............................................................................... 6

§ 2. Об основных направлениях в теории оптимальных процессов.................. 7

5.Метод динамического программирования.................................................. 7

6.Принцип максимума..................................................................................... 9

§ 3. Пример. Задача синтеза............................................................................... 12

7.Пример применения принципа максимума............................................... 12

8.Проблема синтеза оптимальных управлений............................................ 14

Г л а в а II. Линейные оптимальные быстродействия ..................................... 15

§ 4 Линейная задача оптимального управления............................................... 15

9.Формулировка задачи................................................................................ 15

10.Принцип максимума................................................................................. 16

11.Принцип максимума — необходимое и достаточное условие

оптимальности............................................................................................... 17

12.Основные теоремы о линейных оптимальных быстродействиях........... 18

§ 5. Решение задачи синтеза для линейных задач второго порядка................ 18

13.Упрощение уравнений линейного управляемого объекта...................... 18

Г л а в а III. Синтез оптимальных управлений для уравнения второго

порядка .......................................................................................................... 20

§ 6. Решение задачи синтеза в случае комплексных собственных значений...... 20

14.Задача синтеза для малых колебаний маятника...................................... 20

Список используемой литературы....................................................................... 23

Г л а в а I

ВВЕДЕНИЕ

Управляемые объекты прочно вошли в нашу повседневную жизнь и стали обиходными, обыденными явлениями. Мы видим их буквально на каждом шагу: автомобиль, самолёт, всевозможные электроприборы, снабжённые регуляторами (например, электрохолодильник), и т. п. Общим во всех этих случаях является то, что мы можем «управлять» объектом, можем в той или иной степени влиять на его поведение.

Обычно переход управляемого объекта из одного состояния в другое может быть осуществлён многими различными способами. Поэтому возникает вопрос о выборе такого пути, который с некоторой (но вполне определённой) точки зрения окажется наиболее выгодным. Это и есть (несколько расплывчато сформулированная) задача об оптимальном управлении.

§ 1. Задача об оптимальном быстродействии

1. Понятие об управляемых объектах. Рассмотрим прямолинейное движение автомобиля. В каждый момент времени состояние автомобиля можно характеризовать двумя числами: пройденным расстоянием s и скоростью движения v. Эти две величины меняются с течением времени, но не самопроизвольно, а сообразно воле водителя, который может по своему желанию управлять работой двигателя, увеличивая или уменьшая развиваемую этим двигателем силу F. Таким образом, мы имеем три связанных между собой параметра: s ,v ,F ,показанных на схеме (рис. 1). Величины s ,v ,характеризующие состояние автомобиля, называют его фазовыми координатами ,а величину F – управляющим параметром .

Если мы будем рассматривать движение автомобиля по плоскости (а не по прямой), то фазовых координат будет четыре (две «географические» координаты и две компоненты скорости), а управляющих параметров – два (например, сила тяги двигателя и угол поворота руля). У летящего самолёта можно рассматривать шесть фазовых координат (три пространственные координаты и три компоненты скорости) и несколько управляющих параметров (тяга двигателя, величины, характеризующие положение рулей высоты и направления, элеронов).

Разумеется, в проводимом ниже математическом исследовании мы будем иметь дело не с самими реальными объектами, а с некоторой математической моделью. Сказанное выше делает естественным следующее математическое описание управляемого объекта. Состояние объекта задаётся (в каждый момент времени) n числами x ¹ , x ² ,…, xⁿ , которые называются фазовыми координатами объекта. Движение объекта заключается с математической точки зрения в том, что его состояние с течением времени изменяется, т. е. x ¹ , x ² ,…, xⁿ являются переменными величинами (функциями времени). Движение объекта происходит не самопроизвольно. Им можно управлять; для этого объект снабжён «рулями», положение которых характеризуется (в каждый момент времени) r числами u ¹ , u ² ,…, u^r ; эти числа называются управляющими параметрами . Рулями можно «манипулировать», т. е. по своему желанию менять (конечно, в допустимых пределах) управляющие параметры u ¹ , u ² ,…, u^r . Иначе говоря, мы можем по желанию выбрать функции u ¹ ( t), u ² ( t),…, u^r ( t), описывающие изменение управляющих параметров с течением времени. Мы будем предполагать (как это обычно и бывает), что, зная фазовое состояние объекта в начальный момент времени и выбрав управляющие функции u ¹ ( t), u ² ( t),…, u^r ( t) (для t> t ₀ ), мы можем точно и однозначно рассчитать поведение объекта для всех t> t₀ ,т. е. можем найти функции x ¹ ( t), x ² ( t),…, xⁿ ( t), характеризующие изменение фазовых координат с течением времени. Таким образом, изменение фазовых координат x ¹ , x ² ,…, xⁿ уже не зависит непосредственно от нашего желания, но на движение объекта мы всё же можем в той или иной мере воздействовать, выбирая по своему желанию управляющие функции u ¹ ( t), u ² ( t),…, u^r ( t) .

Управляемый объект, о котором только что шла речь, в теории автоматического управления принято изображать так, как это показано на рис. 2. Величины u ¹ , u ² ,…, u^r (управляющие параметры) часто называют также «входными переменными», а величины x ¹ , x ² ,…, xⁿ (фазовые координаты) – «выходными переменными». Говорят ещё, что «на вход» объекта поданы величины u ¹ , u ² ,…, u^r , а «на выходе» мы получаем величины x ¹ , x ² ,…, xⁿ . Разумеется, на рис. 2 показано лишь условное обозначение управляемого объекта и никак не отражено его «внутреннее устройство», знание которого необходимо, чтобы выяснить, каким образом, зная управляющие функции u ¹ ( t), u ² ( t),…, u^r ( t) , можно вычислить изменение фазовых координат x ¹ ( t), x ² ( t),…, xⁿ ( t) .

Величины u ¹ , u ² ,…, u^r удобно считать координатами некоторого вектора u= (u ¹ , u ² ,…, u^r ), также называемого управляющим параметром (векторным). Точно так же величины x ¹ , x ² ,…, xⁿ удобно рассматривать как координаты некоторого вектора (или точки) x= (x ¹ , x ² ,…, xⁿ ) в n – мерном пространстве с координатами x ¹ , x ² ,…, xⁿ . Эту точку называют фазовым состоянием объекта, а n – мерное пространство, в котором в виде точек изображаются фазовые состояния, называется фазовым пространством рассматриваемого объекта. Если объект таков, что его фазовое состояние характеризуется только двумя фазовыми координатами x ¹ , x ² (см. рис. 1), то мы будем говорить о фазовой плоскости . В этом случае фазовые состояния объекта изображаются особенно наглядно.

Итак, в векторных обозначениях рассматриваемый управляемый объект можно изобразить так, как показано на рис. 3. Входящая величина u= (u ¹ , u ² ,…, u^r ) представляет собой управляющий параметр, а выходная величина x= (x ¹ , x ² ,…, xⁿ ) представляет собой точку фазового пространства (или, иначе, фазовое состояние объекта).

Как сказано выше, чтобы полностью задать движение объекта, надо задать его фазовое состояние x₀ = (x ₀ ¹ , x ₀ ² ,…, x ₀ ⁿ ) в начальный момент времени t₀ и выбрать управляющие функции u ¹ ( t), u ² ( t),…, u^r ( t) (для t >t ₀ ), т. е. выбрать векторную функцию u( t)= u ¹ ( t), u ² ( t),…, u^r ( t) ). Эту функцию u( t) мы будем называть управлением . Задание начального фазового состояния x₀ и управления u( t) однозначно определяет дальнейшее движение объекта. Это движение заключается в том, что фазовая точка x (t)= (x ¹ ( t), x ² ( t),…, xⁿ ( t) ), изображающая состояние объекта, с течением времени перемещается, описывая в фазовом пространстве некоторую линию, называемую фазовой траекторией рассматриваемого движение объекта (случай n= 2 изображён на рис. 4). Очевидно, что эта линия исходит из точки x ₀ , поскольку x (t ₀ )=x ₀ .

Пару векторных функций (u( t), x( t) ), т. е. управление u( t) и соответствующую фазовую траекторию x( t) , мы будем называть в дальнейшем процессом управления или просто процессом .

Итак, резюмируем. Состояние управляемого объекта в каждый момент времени характеризуется фазовой точкой x= (x ¹ , x ² ,…, xⁿ ). На движение объекта можно воздействовать при помощи управляющего параметра u= (u ¹ , u ² ,…, u^r ). Изменение величин u, x с течением времени мы называем процессом ; процесс (u( t), x( t) ) составляется из управления u( t) и фазовой траектории x( t) . Процесс полностью определяется, если задано управление u( t) (при t >t ₀ ) и начальное фазовое состояние x ₀ = x( t ₀ ) .

2. Задача управления. Часто встречается следующая задача, связанная с управляемыми объектами. В начальный момент времени t ₀ объект находится в фазовом состоянии x ₀ ; требуется выбрать такое управление u( t) , которое переведёт объект в заранее заданное конечное фазовое состояние x ₁ (отличное от x ₀ ; рис. 5). При этом нередко бывает, что начальное состояние x ₀ заранее не известно. Рассмотрим один из наиболее типичных примеров. Объект должен устойчиво работать в некотором режиме (т. е. находиться в некотором фазовом состоянии x ₁ ). В результате тех или иных причин (например, под воздействием неожиданного толчка) объект может выйти из рабочего состояния x ₁ и оказаться в некотором другом состоянии x ₀ . При этом точка x ₀ , в которую может попасть объект, заранее не известна, и мы должны уметь так управлять объектом, чтобы из любой точки x ₀ (или хотя бы из точек x ₀ достаточно близких к x ₁ ) вернуть его в рабочее состояние x ₁ (рис. 6).

Такое управление часто осуществляется человеком (оператором), который следит за приборами и старается выбирать управление, поддерживающее объект в требуемом рабочем режиме.

Однако в современных условиях высокого развития техники оператор зачастую не может успешно справиться с этой задачей ввиду сложности поведения объекта, большой быстроты протекания процессов и т. п. Поэтому чрезвычайно важно создать такие приборы, которые сами, без участия человека, управляли бы работой объекта (например, в случае выхода объекта из рабочего состояния возвращали бы его в это рабочее состояние). Такие приборы («регуляторы», «автоматические управляющие устройства» и т. п.) сейчас очень распространены в технике, их изучением занимается теория автоматического управления.

Первым устройством этого рода был центробежный регулятор Уатта, сконструированный для управления работой паровой машины (см. рис. 9). Схема этого регулятора показана на рис. 7. В общем случае (рис. 8) на вход регулятора подаются фазовые координаты объекта.

Обычно требуется, чтобы переходный процесс (т. е. процесс перехода из начального фазового состояния x ₀ в предписанное состояние x ₁ , рис. 5) был в определённом смысле «наилучшим», например, чтобы время перехода было наименьшим или чтобы энергия, затраченная в течение переходного процесса, была минимальной и т. п. Такой «наилучший» переходный процесс называется оптимальным процессом . Термин «оптимальный процесс» требует уточнения, т. к. необходимо разъяснить, в каком смысле понимается оптимальность. Если речь идёт о наименьшем времени перехода, то такие процессы называются оптимальными в смысле быстродействия . Иначе говоря, процесс, в результате которого объект переходит из точки x ₀ в точку x ₁ (рис. 5), называется оптимальным в смысле быстродействия, если не существует процесса, переводящего объект из x ₀ в x ₁ за меньшее время (здесь и далее предполагается, что x ₁ ≠x ₀ ). Разумеется, желательно, чтобы регулятор не просто возвращал объект в рабочее состояние, а делал это наилучшим образом, например, в смысле быстродействия (т. е. возвращал объект в рабочее состояние за кратчайшее время). В связи с этим в теории автоматического управления рассматриваются весьма различные регуляторы. Рассмотрение регуляторов приводит к тому, что уменьшение времени переходного процесса связано с усложнением конструкции регулятора; поэтому, усложняя конструкцию регулятора, можно лишь приближаться к «идеальному», «оптимальному» регулятору, который во всех случаях осуществляет переходный процесс за кратчайшее время. В точности же «оптимального» регулятора, по-видимому, осуществить нельзя. Однако такой вывод является ошибочным, т. к. сейчас уже создали математический аппарат, рассчитывающий такие регуляторы. Можно предполагать, что оптимальные регуляторы будут играть важную роль в технике будущего.

3. Уравнения движения объекта. Начнём с рассмотрения одного простого примера. Пусть G – тело, которое может совершать прямолинейное движение (рис. 10). Массу этого тела будем предполагать постоянной и равной m , а его размерами будем пренебрегать (т. е. будем считать G материальной точкой.) Координату тела G (отсчитываемую от некоторой точки O той прямой, по которой оно движется) будем обозначать через x ¹ . При движении тела G его координата x ¹ меняется с течением времени. Производная представляет собой скорость движения тела G . Будем предполагать, что на тело G действуют две внешние силы: сила трения ─и упругая сила ─ kx ¹ и что, кроме того, тело G снабжено двигателем. Развиваемую двигателем силу воздействия на тело G обозначим через u . Таким образом, по второму закону Ньютона движение телаG с течением времени будет описываться дифференциальным уравнением

Обозначив скорость движения через x² (т. е. положив ), мы сможем записать этот закон движения в виде следующей системы дифференциальных уравнений:

(1.1)

Здесь величины x ¹ , x ² являются фазовыми координатами тела G , а величина u – управляющим параметром, т. е. мы имеем объект, схематически изображённый на рис. 11.

Уравнения (1.1) представляют собой закон изменения фазовых координат с течением времени (с учётом воздействия управляющего параметра), т. е. представляют собой закон движения фазовой точки в фазовой плоскости.

Мы рассмотрели лишь один частный случай, но можно было бы указать целый ряд других примеров, в которых закон движения объекта описывается дифференциальными уравнениями. Чаще всего (см.(1.1)) эти уравнения дают выражения производных от фазовых координат через сами фазовые координаты и управляющие параметры, т. е. имеют вид

(1.2)

где f ¹ , f ² ,…, fⁿ – некоторые функции, определяемые внутренним устройством объекта.

В дальнейшем мы сосредоточим своё внимание именно на таких объектах (рис. 2), закон движения которых описывается системой дифференциальных уравнений вида (1.2). В векторной форме систему (1.2) можно записать в виде

(1.3)

где x ─ вектор с координатами x ¹ ,…, xⁿ , u – вектор с координатами u ¹ ,…, u^r и, наконец, f (x, u ) – вектор, координатами которого служат правые части системы (1.2).

Разумеется, невозможно решить систему дифференциальных уравнений (1.2) (т. е. найти закон движения объекта), не зная каким образом будут меняться с течением времени управляющие параметры u ¹ , u ² ,…, u^r . Напротив, зная поведение величин u ¹ , u ² ,…,u^r , т. е. зная управляющие функции u ¹ (t), u ² (t),…, u^r (t) для t >t ₀ мы сможем из системы уравнений

(1.4)

или, что то же самое, из векторного уравнения

(1.5)

однозначно определить движение объекта (при t >t ₀ ), если нам известно начальное фазовое состояние объекта (в момент t=t ₀ ). Иначе говоря, задание управления u(t) и начального фазового состояния x ₀ однозначно определяет фазовую траекторию x(t) при t >t ₀ , что согласуется со сделанными ранее (стр. 1) предположениями о свойствах объекта.

Тот факт, что задание начального фазового состояния (в момент t=t ₀ ) позволяет из системы (1.4) однозначно определить фазовую траекторию x(t), t >t ₀ , вытекает из теоремы о существовании и единственности решений системы дифференциальных уравнений. Предположим, что, зная начальное фазовое состояние x ₀ и управление u(t)=(u ¹ (t),…, u^r (t)), мы определили фазовую траекторию x(t) (с помощью системы (1.4)). Если мы изменим управление u(t) (сохранив то же начальное состояние x ₀ ), то получим некоторую другую траекторию, исходящую из той же точки x ₀ ; вновь изменим управлениеu( t) – получим ещё одну траекторию и т. д. Таким образом, рассматривая различные управления u( t) , мы получим много траекторий, исходящих из точки x ₀ (рис. 12). (Разумеется, это не противоречит теореме единственности в теории дифференциальных уравнений, так как, заменяя функции u ¹ ( t),…, u^r ( t) другими функциями, мы переходим от системы дифференциальных уравнений относительно фазовых координат x ¹ ,…, xⁿ . )

Напомним, что задача оптимального быстродействия заключается в отыскании такого управления u( t) , для которого фазовая траектория x( t) , соответствующая этому управлению в силу уравнения (1.5), проходит через точку x ₁ и переход из x ₀ вx ₁ осуществляется за кратчайшее время. Такое управление u( t) будем называть оптимальным управлением (в смысле быстродействия) ; точно так же соответствующую траекторию x( t) буде называть оптимальной траекторией .

4. Допустимые управления. Обычно управляющие параметры u ¹ ,…, u^r не могут принимать совершенно произвольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 4, естественно предположить, что сила u , развиваемая двигателем, не может быть как угодно большой по величине, а подчинена ограничениям α ≤u ≤β , где α и β – некоторые постоянные, характеризующие двигатель. В частности, при α= ─1, β= 1 мы получаем ограничение ─1≤u ≤1, которое означает, что двигатель может развивать силу, направленную вдоль оси x ¹ как в положительном, так и в отрицательном направлении, но не превосходящую единицы по абсолютной величине.

Для объектов, содержащих r управляющих параметров u ¹ ,…, u^r , в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следующих пределах:

α ¹ ≤u ¹ ≤ β ¹ , α ² ≤u ² ≤β ² ,…, α ^r ≤u^r ≤β^r .

Иначе говоря, каждая из величин u ¹ , u ² ,…, u ^r в уравнениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных

управляющих параметров и задаётся неравенствами

α ⁱ ≤uⁱ ≤β ⁱ , i= 1,…,r. (1.6)

Заметим, что при r =2 точки u= (u ¹ , u ² ), координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r= 3 неравенства (1.6) определяют в пространстве переменных u ¹ , u ² , u ³ прямоугольный параллелепипед; в случае произвольного r говорят, что неравенства (1.6) определяют r-мерный параллелепипед.

В общем случае будем считать, что в соответствии с конструкцией объекта и условиями его эксплуатации задано в пространстве переменных u ¹ ,…, u^r некоторое множество U и управляющие параметры u ¹ , u ² ,…, u^r должны в каждый момент времени принимать лишь такие значения, чтобы точка u= (u ¹ , u ² ,…, u^r ) принадлежала множеству U . Иначе говоря, разрешается рассматривать лишь такие управления u( t) , что u( t) U для любого t . Множество U в дальнейшем будем называть областью управления . Область управления U не всегда будет параллелепипедом; она может иметь геометрически более или менее сложный характер, так как в силу конструкции объекта между управляющими параметрами u ¹ , u ² ,…, u^r могут существовать связи, выражаемые, например, уравнениями вида φ(u ¹ , u ² ,…, u^r )=0 или неравенствами ψ(u ¹ , u ² ,…, u^r )≤0. Так, если параметры u ¹ , u ² характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произвольно, то эти параметры подчинены только одному условию

(u ¹ )² +(u ² )² ─1≤0 (1.7)

и область управления U представляет собой круг. В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания управляемого объекта надо указать закон его движения (1.2) и область управления U .

Наконец, сделаем ещё одно, весьма существенное предположение о характере управлений. Именно, будем предполагать, что «рули», положения которых характеризуются управляющими параметрами u ¹ , u ² ,…, u^r , безынерционны, так что мы можем, если нужно, мгновенно переключать эти «рули» из одного положения в другое, т. е. менять скачком значения управляющих параметров u ¹ , u ² ,…, u^r . В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывные управления u( t) . Кроме того, будем предполагать, что каждое рассматриваемое управление u( t) непрерывно на концах отрезка t ₀ ≤t ≤t ₁ , на котором оно задано, т. е. что все точки разрыва, если они есть, расположены на интервале t ₀ <t <t ₁ . Для удобства условимся называть допустимым управлением всякую кусочно-непрерывную функцию u (t ), t ₀ ≤t ≤t ₁ , со значениями в области управления U , непрерывную справа в точках разрыва (для определённости нам так удобно предполагать) и непрерывную в концах отрезка [t ₀ ; t ₁ ], на котором она задана.

Задача об оптимальных быстродействиях уточняется теперь следующим образом:

Среди всех допустимых управлений u= u( t), под воздействием которых управляемый объект (1.3) переходит из заданного начального фазового состояния x ₀ в предписанное конечное состояние x ₁ , найти такое, для которого этот переход осуществляется за кратчайшее время

§ 2. Об основных направлениях в теории оптимальных процессов

5. Метод динамического программирования. Для управляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x ₁ . При этом конечную фазовую точку x ₁ будем считать фиксированной, а в качестве начальной точки x будем рассматривать различные точки фазового пространства. Мы будем предполагать в этом пункте, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:

Г и п о т е з а 1. Какова бы ни была отличная от x ₁ точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки x ₀ в точку x ₁ (рис. 6).

Время, в течение которого осуществляется оптимальный переход из точки x ₀ в точку x ₁ , обозначим через T( x ). В дальнейших рассуждениях будет удобно вместо T( x ) ввести функцию ω (x ), отличающуюся от неё знаком

ω (x )= ─T(x ). (1.8)

Так как каждая точка x фазового пространства имеет координаты x ¹ ,…, xⁿ , то ω (x )= ─T( x ) является функцией от n переменных, т. е. ω (x )= ω (x ¹ ,…, xⁿ ). Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных x ¹ ,…, xⁿ ) и о дифференцируемости этой функции по каждой из переменных x ¹ ,…, xⁿ .

А также будем предполагать, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:

Г и п о т е з а 2. Функция ω (x ) непрерывна и всюду, кроме точки x ₁ , имеет непрерывные частные производные

Пусть теперь x ₀ ─ произвольная отличная от x ₁ точка фазового пространства, а u ₀ ─ произвольная точка области U . Предположим, что объект находится в момент t ₀ в фазовом состоянии x ₀ и движется в течение некоторого времени под воздействием постоянного управления u= u ₀ . Фазовую траекторию объекта при этом движении обозначим через y (t)=(y ¹ ( t),…, yⁿ ( t )). Таким образом, фазовая траектория y( t ) при t> t ₀ удовлетворяет уравнениям

(1.9)

(см. (1.2), (1.3)) и начальному условию

y (t ₀ )=x ₀ . (1.10)

Если мы будем двигаться из точки x ₀ до точки y( t ) (по рассматриваемой фазовой траектории), то затратим на это движение время t ─ t ₀ . Двигаясь затем из точки y( t ) оптимально, мы затратим на движение от точки y (t ) до точки x ₁ время T( y( t )). В результате мы совершим переход из точки x ₀ в точку x ₁ , затратив на этот переход время (t ─t ₀ )+T (y (t)). Но так как оптимальное время движения от точки x ₀ до точки x ₁ равно T (x ₀ ), т. е. равно T (y (t ₀ )), то T (y(t ₀ ))≤(t ─t ₀ )+T (y (t )). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину t ─t ₀ , получаем отсюда и поэтому, переходя к пределу при t→ t ₀ , находим

│_при ≤1. (1.11)

Но производная, указанная в левой части этого неравенства, вычисляется по формуле полной производной Поэтому согласно (1.9) и (1.10) неравенство (1.11) принимает вид Точки x ₀ , u ₀ здесь были произвольными. Таким образом, для любой (отличной от x ₁ ) точки x фазового пространства и любой точки u области управления U выполнено соотношение

(1.12)

Пусть теперь (u (t ), x (t )) ─ оптимальный процесс, переводящий объект из фазового состояния x ₀ в состояние x ₁ , и t ₀ ≤t ≤t ₁ ─ отрезок времени, в течение которого это оптимальное движение происходит, так что x (t ₀ )=x ₀ , x (t ₁ )=x ₁ и t ₁ =t ₀ + T (x ₀ ). Движение по рассматриваемой оптимальной траектории от точки x ₀ до точки x (t ) осуществляется в течение времени t ─t ₀ , а движение от точки x (t ) до точкиx ₁ ─ в течение времени T (x ₀ ) ─ (t ─t ₀ ). Быстрее, чем за время T (x ₀ ) ─ (t ─t ₀ ), из точки x (t ) попасть в точку x ₁ невозможно. Итак, T (x ₀ ) ─ (t ─t ₀ ) есть время оптимального движения из точки x (t ) в точку x ₁ , т. е. T (x (t ))=T (x ₀ ) ─ (t ─t ₀ ). Заменив здесь T через ω , т. е. ω (x (t ))=ω (x ₀ ) + t ─t ₀ ) и взяв производную по t , получаем

t ₀ ≤t ≤t ₁ . (1.13)

Таким образом, для каждого оптимального процесса в течение всего движения выполняется равенство (1.13).

Если мы теперь введём в рассмотрение функцию

B (x, u (t ))=, (1.14)

То соотношения (1.12) и (1.13) могут быть записаны следующим образом:

B (x, u )≤1 для всех точек x ≠x ₁ и u ; (1.15)

B (x, u )≡1 для любого оптимального процесса (u (t ), x (t )). (1.16)

Итак, справедлива следующая

Т е о р е м а 1.1. Если для управляемого объекта, описываемого уравнением (1.5) и предписанного конечного состояния x ₁ выполнены гипотезы 1 и 2, то имеют место соотношения (1.15) и (1.16) (оптимальность понимается в смысле быстродействия).

Эта теорема и составляет сущность метода динамического программирования для рассматриваемой задачи. Эту теорему можно сформулировать и несколько иначе. Написав соотношение (1.16)

Для t =t ₀ , получим B (x ₀ , u (t ₀ ))=1, т. е. для любой точки x ₀ (отличной от x ₁ ) найдётся в U такая точка u (а именно u= u (t ₀ )), что B (x ₀ , u )=1. В сопоставлении с неравенством (1.15) получаем соотношение

для любой точки x ≠x ₁ . (1.16^* )

Метод динамического программирования (1.15), (1.16) (или, что то же самое, (1.16^* ), (1.16)) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции ω (x ), так как эта функция входит в соотношения (1.15) ─ (1.16^* ). Во-вторых, уравнение Беллмана (1.16^* ) (или соотношения (1.15), (1.16)) представляет собой уравнение в частных производных относительно функции ω , осложнённое к тому же знаком максимума. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является предположение о выполнении гипотез 1 и 2. Ведь оптимальные управления и функция ω нам заранее не известны, так что гипотезы 1 и 2 содержат предположение о неизвестной функции, и проверить выполнение этих гипотез по уравнениям движения объекта невозможно. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи этим методом оказалось, что функция ω (x ) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших, линейных задачах оптимального управления функция ω (x ) не является, как правило, всюду дифференцируемой. Тем не менее, методом динамического программирования можно нередко пользоваться как ценным эвристическим средством.

6. Принцип максимума. Продолжим теперь рассуждения предыдущего пункта, предположив функцию ω (x ) уже дважды непрерывно дифференцируемой (всюду, кроме точки x ₁ ). Итак, будем предполагать, что выполнена следующая

Г и п о т е з а 3. функция ω (x ) имеет при x≠ x ₁ вторые непрерывные производные i, j= 1,2,…,n , а функции fⁱ (x, u ) ─ первые непрерывные производные где i, j= 1,2,…,n.

Пусть (u( t), x( t) ), t ₀ ≤t ≤t ₁ , ─ оптимальный процесс, переводящий объект (1.2) (или (1.3)) из фазового состояния x ₀ в состояние x ₁ . Фиксируем некоторый момент времени t , t ₀ ≤t ≤t ₁ , и рассмотрим функцию B (x, u (t ))=переменного x. В силу гипотезы 3 вытекает, что функция B (x, u (t )) всюду, кроме точки x ₁ , имеет непрерывные производные по переменным x ¹ ,x ² ,…,xⁿ :

(1.17)

В частности, так как x (t )≠x ₁ (поскольку t <t ₁ ), то функция B (x, u (t )) имеет вблизи точки x =x (t ) непрерывные производные по переменным x ¹ ,x ² ,…,xⁿ . Далее, мы имеем в силу (1.15), (1.16) B (x, u (t ))≤1 для любого x≠ x ₁ ; B (x, u (t ))=1 при x= x (t ).

Эти два соотношения означают, что функция B (x, u (t )) достигает в точке x =x (t ) максимума, и потому её частные производные по x ¹ ,…, xⁿ обращаются в нуль в этой точке:

(1.18)

Кроме того, дифференцируя функцию по t, находим

Поэтому соотношение (1.18) может быть переписано в следующем виде:

(1.19)

Заметим теперь, что в формулы (1.15), (1.16), (1.17) и (1.19) сама функция ω не входит, а входят только её частные производные . Поэтому мы введём для удобства следующие обозначения:

(1.20)

Тогда функция B (см. (1.14)) записывается таким образом:

B (x (t ), u (t ))=

и соотношение (1.16) принимает вид

, для оптимального процесса (x (t ), u (t )), t ₀ ≤t <t ₁ . (1.21)

Кроме того, согласно (1.15)

для любой точки uU и всех t ₀ ≤t <t ₁ . (1.22)

Наконец, соотношения (1.19) записываются следующим образом:

(1.23)

Итак, если (u (t ), x (t )), t ₀ ≤t <t ₁ , ─ оптимальный процесс, то существуют такие функции ψ ₁ (t ), ψ ₂ (t ),…, ψ _n (t ) (они определяются равенствами (1.20)), что имеют место соотношения (1.21), (1.22), (1.23).

Рассмотрение левых частей соотношений (1.21), (1.22) подсказывает нам, что целесообразно ввести в рассмотрение следующую функцию:

(1.24)

зависящую от 2n+ r аргументов ψ ₁ , ψ ₂ ,…, ψ _n , x ¹ ,…, xⁿ , u ¹ ,…, u^r . С помощью этой функции соотношения (1.21), (1.22) записываются в следующем виде:

для оптимального процесса (u (t ), x (t )), t ₀ ≤t <t ₁ , (1.25)

где ψ (t )=(ψ ₁ (t ),…,ψ _n (t )) определяются равенствами (1.20);

для любой точки uU и всех t ₀ ≤t <t ₁ . (1.26)

Вместо неравенства (1.26) мы можем в силу (1.25) написать следующее соотношение:

t ₀ ≤t <t ₁ . (1.27)

Наконец, соотношения (1.23) можно, очевидно, переписать так:

(1.28)

Итак, если (u (t ), x (t )), t ₀ ≤t <t ₁ , ─ оптимальный процесс , то существует такая функция ψ (t )=(ψ ₁ (t ),…, ψ _n (t )), что выполняются соотношения (1.25), (1.27), (1.28), где функция H определяется соотношением (1.24).

Так как в соотношениях (1.24), (1.25), (1.27), (1.28) нигде не участвует явно функция ω (x ), то равенства (1.20), выражающие функции ψ ₁ (t ),…, ψ _n (t ) через ω , никаких добавочных сведений не дают, и о них можно забыть, ограничившись утверждением, что какие-то функции ψ ₁ (t ),…, ψ _n (t ), удовлетворяющие перечисленным соотношениям (1.25), (1.27), (1.28), существуют. Соотношения (1.28) представляют собой систему уравнений, которым эти функции удовлетворяют. Заметим, что функции ψ ₁ (t ),…, ψ _n (t ) составляют нетривиальное решение этой системы (т. е. ни в какой момент времени t все эти функции одновременно в нуль не обращаются); действительно, если бы при некотором t было ψ ₁ (t )= ψ ₂ (t )=…=ψ _n (t )=0, то в силу (1.24) мы получили бы H (ψ (t ), x (t ), u (t ))=0, что противоречит равенству (1.25). Таким образом, мы получаем следующую теорему, которая носит название принципа максимума.

Т е о р е м а 1.2. Предположим, что для рассматриваемого управляемого объекта, описываемого уравнением (в векторной форме )

(A)

и предписанного конечного состояния x ₁ выполнены гипотезы 1, 2 и 3. Пусть (u (t ), x (t )), t ₀ ≤t ≤t ₁ , ─ некоторый процесс, переводящий объект из начального состояния x ₀ в состояние x ₁ . Введём в рассмотрение функцию H, зависящую от переменных x ¹ (t ),…, xⁿ (t ), u ¹ ,…, u^r и некоторых вспомогательных переменных ψ ₁ (t ),…, ψ _n (t ) (см. (1.24)):

(B)

С помощью этой функции H запишем следующую систему дифференциальных уравнений для вспомогательных переменных:

(C)

где (u (t ), x (t )) ─ рассматриваемый процесс (см. (1.28)). Тогда, если процесс (u (t ), x (t )), t ₀ ≤t <t ₁ , является оптимальным, то существует такое нетривиальное решение ψ (t )=(ψ ₁ (t ),…, ψ _n (t )), t ₀ ≤t <t ₁ , системы (C), что для любого момента t, t ₀ ≤t <t ₁ , выполнено условие максимума

(D)

(см. (1.27)) и условие (1.25) H (ψ (t ),x (t ),u (t ))=1.

Однако в приведённой здесь форме принцип максимума страдает одним недостатком: он выведен в предположение дифференцируемости (и даже двукратной) функции ω (x ), а эта функция в действительности не является (в обычно встречающихся случаях) всюду дифференцируемой.

Из-за предположения о выполнении сформулированных гипотез (о функции ω (x )) принцип максимума в том виде, в каком он сформулирован выше, не является удобным условием оптимальности. По форме он выведен как необходимое условие оптимальности: если процесс оптимален, то выполнено соотношение (1.16^* ) и соответственно (D), т. е. выполнение этого условия необходимо для оптимальности. Однако это условие выведено лишь в предположении выполнения гипотез 1, 2, 3, а их выполнение отнюдь не необходимо для оптимальности. Вот почему сформулированные выше теоремы не могут считаться необходимыми условиями оптимальности.

Замечательным, однако, является тот факт, что если в теореме 1.2 решение ψ (t ) и условие максимума (D) рассматривать на всём отрезке t ₀ ≤t ≤t ₁ (а не только при t ₀ ≤t <t ₁ ), а заключительное условие

H (ψ (t ₁ ), x (t ₁ ), u (t ₁ ))≥0, (E)

то в этой форме принцип максимума будет справедлив без каких бы то ни было предположений о функции ω, т. е. принцип максимума станет весьма удобным и широко применимым необходимым условием оптимальности.

§ 3. Пример. Задача синтеза

7. Пример применения принципа максимума. В этом пункте мы разберём один пример вычисления оптимальных процессов. Именно, рассмотрим управляемый объект, упомянутый в п. 3 (см. уравнения (1.1)), при условии, что сила трения и упругая сила отсутствуют (т. е. b =0, k =0), масса m равна единице (m =1), а управляющий параметр подчинён ограничениям |u |≤1. Иначе говоря, мы рассматриваем материальную точку G массы m= 1 (см. рис. 10), свободно и без трения движущуюся по горизонтальной прямой и снабжённую двигателем, развивающим силу u , где |u |≤1. Согласно (1.1) уравнения движения этого объекта имеют вид:

(1.29)

─1≤u ≤1. (1.30)

Для этого объекта рассмотрим задачу о быстрейшем попадании в начало координат (0, 0) из заданного начального состояния x ₀ =(x ₀ ¹ , x ₀ ² ). Иначе говоря, будем рассматривать задачу об оптимальном быстродействии в случае, когда конечным положением служит точка x ₁ =(0, 0). Механически это означает, что материальную точку, имеющую заданное положение x ₀ ¹ и заданную начальную скорость x ₀ ² , мы хотим за кратчайшее время привести в начало отсчёта с нулевой скоростью (т. е. добиться того, чтобы точка пришла в начало отсчёта и остановилась там).

Функция H в рассматриваемом случае имеет вид

H =ψ ₁ x ² +ψ ₂ u (1.31)

(см. (1.29) и (B)). Далее, для вспомогательных переменных ψ ₁ , ψ ₂ мы получаем систему уравнений . Из этой системы уравнений находим: ψ ₁ =d ₁ ; ψ ₂ = ─d ₁ t+ d ₂ , где d 1, d₂ ─ постоянные интегрирования. Далее, в силу соотношения максимума (D) мы находим, учитывая (1.31) и (1.30):

u (t )= +1, если ψ ₂ (t )>0; u (t )= ─1, если ψ ₂ (t )<0.

Иначе говоря, u (t )=signψ ₂ (t )=sign (─ d ₁ t + d ₂ ). Отсюда следует, что каждое оптимальное управление u (t ), t ₀ ≤t ≤t ₁ , является кусочно-постоянной функцией, принимающей значения и имеющей не более двух интервалов постоянства (ибо линейная функция ─d ₁ t + d ₂ не более одного раза меняет знак на отрезке t ₀ ≤t ≤t ₁ ).

Для отрезка времени, на котором u1, мы имеем (в силу системы (1.29)) , откуда находим

x ¹ =1/2(x ² )² +c . (1.32)

Таким образом, кусок фазовой траектории, для которого u

1, представляет собой дугу параболы (1.32). Семейство парабол (1.32) показано на рис. 13 (они получаются друг из друга сдвигом в направлении осиx ¹ ). По этим параболам фазовые точки движутся снизу вверх (ибо

= u 1, т. е.

Аналогично для отрезка времени, на котором u ─1, мы имеем, откуда находим

x ¹ = ─1/2(x ² )² + c ’. (1.33)

Семейство парабол (1.33) (также получающихся друг из друга сдвигом в направлении оси x ¹ ) показано на рис. 14. По параболам (1.33) фазовые точки движутся сверху вниз (ибо )

Как было указано выше, каждое оптимальное управление u (t ) является кусочно-постоянной функцией, принимающей значения

и имеющей не более двух интервалов постоянства. Если управление u (t ) сначала, в течение некоторого времени, равно +1, а затем равно ─1, то фазовая траектория состоит из двух кусков парабол (рис. 15), примыкающих друг к другу, причём второй из этих кусков лежит на той из парабол (1.33), которая проходит через начало координат (ибо искомая траектория должна вести в начало координат). Если же, наоборот, сначала u= ─1, а затем u= + 1, то мы получаем фазовую траекторию, изображённую на рис. 16. На рис. 15, 16 надписаны на дугах парабол соответствующие значения управляющего параметра u .

На рис. 17 изображено всё семейство полученных таким образом фазовых траекторий (здесь AO ─ дуга параболы x ¹ =1/2(x ² )² , расположенная в нижней полуплоскости; BO ─ дуга параболы x ¹ = ─1/2(x ² )² , расположенная в верхней полуплоскости).

Итак, согласно принципу максимума только изображённые на рис. 17 траектории могут быть оптимальными, причём видно, что из каждой точки фазовой плоскости исходит только одна траектория, ведущая в начало координат, которая может быть оптимальной (т. е. задание начальной точки x ₀ однозначно определяет соответствующую траекторию).

8. Проблема синтеза оптимальных управлений. Посмотрим на разобранный в предыдущих пунктах пример с несколько иной точки зрения. Найденное выше решение оптимальной задачи можно истолковать следующим образом. Обозначим через v (x )= +1 ниже линии AOB и на дуге AO , v (x )= ─1 выше линии AOB и на дугеBO . Тогда (см. 17) на каждой оптимальной траектории значение u (t ) управляющего параметра (в произвольный момент времени t ) равно v (x (t )), т. е. равно значению функции v в той точке, в которой в момент t находится движущаяся фазовая точка, пробегающая оптимальную траекторию u (t )=v (x (t )). Это означает, что, заменив в системе (1.29) величину u функцией v (x ), мы получим систему

(1.34)

решение которой (при произвольном начальном состоянииx ₀ ) даёт оптимальную фазовую траекторию, ведущую в начало координат. Иначе говоря, система (1.34) представляет собой систему дифференциальных уравнений (с разрывной правой частью) для нахождения оптимальных траекторий, ведущих в начало координат.

Рассмотренный пример показывает, что решение задачи об оптимальных управлениях естественно ожидать в следующей форме. Будем решать оптимальную задачу в общей постановке:

(см. п. 3), рассматривая всевозможные начальные состояния и каждый раз предписывая в качестве конечного состояния начало координат O фазового пространства. Тогда (насколько можно судить по разобранному выше примеру) существует такая функция v (x ), заданная в фазовом пространстве V принимающая значения в области управления U, что уравнение

(1.35)

определяет все оптимальные траектории, ведущие в начало координат. Иначе говоря, оптимальное управление оказывается естественным искать не в форме u= u (t ), а в форме u= v (x ), т. е. искомое оптимальное управление в каждый момент зависит лишь от того, в какой точке пространства находится в данный момент фазовая точка .

Функцию v (x ), дающую уравнение оптимальных траекторий в форме (1.35), называют синтезирующей функцией, а задачу нахождения синтезирующей функции ─ задачей синтеза оптимальных управлений. В разобранном примере синтезирующая функция была кусочно-непрерывной (даже кусочно-постоянной).

Г л а в а II

ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ

§ 4. Линейная задача оптимального управления

9. Формулировка задачи. Ниже будут подробно изучены управляемые объекты, движение которых описывается линейными дифференциальными уравнениями относительно величин x ¹ ,…,xⁿ , u ¹ ,…,u^r , т. е. уравнениями вида

i =1,2,…,n , (2.1)

где aⁱ _α и bⁱ _β ─ некоторые постоянные коэффициенты.

Одним из наиболее важных для приложений является случай, когда каждая из величин u ¹ , u ² ,…, u^r в уравнениях (2.1) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных управляющих параметров и задаётся неравенствами

β =1,…,r . (2.2)

Как было указано выше (см. п. 4), эти неравенства определяют r -мерный параллелепипед .

В дальнейшем при рассмотрении объектов вида (2.1) будет предполагаться, что управляющий параметр u= (u ¹ ,u ² ,…, u^r ) может меняться в замкнутой области управления U , представляющей собой выпуклый многогранник (лежащий в пространстве переменных u ¹ ,u ² ,…, u^r ).

Для того чтобы записать уравнения (2.1) в векторной форме, мы введём в рассмотрение матрицы

(2.3)

элементами которых являются коэффициенты aⁱ _α , bⁱ _β , входящие в уравнения (2.1). Как обычно, результат применения матрицы A к векторуx =(x ¹ , x ² ,…, xⁿ ) мы будем обозначать символом Ax , т. е. y =Ax есть n- мерный вектор, координаты которого определяются формулами

(2.4)

Аналогично для любого r- мерного вектора u= (u ¹ , u ² ,…, u^r ) через Bu обозначается вектор, i- я координата которого равна Таким образом, матрица A определяет линейное отображение координатного n- мерного пространства снова в n- мерное пространство, а матрица B определяет отображение r- мерного пространства в n- мерное.

Пользуясь матрицами A и B , мы можем теперь записать уравнения (2.1) в векторной форме:

(2.5)

Пусть u (t )=(u ¹ , u ² ,…, u^r ) ─ произвольное допустимое (в смысле п. 4) управление, заданное на некотором отрезке t ₀ ≤t ≤t ₁ , и x ₀ =(x ¹ ₀ ,…, xⁿ ₀ ) ─ некоторая точка фазового пространства. Обозначим θ ₁ , θ ₂ ,…, θ _k все точки, в которых хотя бы одна из функций u ¹ (t ), u ² (t ),…, u^r (t ) терпит разрыв, причём занумеруем эти точки таким образом, что t ₀ <θ ₁ <θ ₂ <…<θ _k <t ₁ . Подставив функции u ¹ (t ), u ² (t ),…, u^r (t ) в правые части системы (2.1),мы придём к системе уравнений

(2.6)

или в векторной форме,

(2.7)

Систему (2.7) мы рассмотрим сначала для значений t , удовлетворяющих неравенствам t ₀ ≤t ≤θ ₁ . На этом отрезке изменения аргумента существуют такие функции x ¹ (t ),…, xⁿ (t ), определённые и непрерывные на всём отрезке t ₀ ≤t ≤θ ₁ , которые, рассматриваемые на интервале t ₀ <t <θ ₁ , являются решениями системы (2.6) и, кроме того, удовлетворяют начальным условиям x ¹ (t ₀ )=x ¹ ₀ , x ² (t ₀ )=x ² ₀ ,…, xⁿ (t ₀ )=xⁿ ₀ (согласно сведениям из дифференциальных уравнений (см. книгу Л.С. Понтрягина «Обыкновенные дифференциальные уравнения», «Наука», М., 1965 (стр. 23, 24 и 168-172))).

Теперь мы можем рассмотреть систему (2.6) на отрезке θ ₁ ≤t ≤θ ₂ , воспользовавшись точкой γ ₁ =(x ¹ (θ ₁ ),…, xⁿ (θ ₁ ), θ ₁ ) в качестве начального значения. На отрезке θ ₁ ≤t ≤θ ₂ снова существует решение с начальным значением γ ₁ . Это решение мы снова обозначим через x (t )=(x ¹ (t ),…, xⁿ (t )). Теперь функция x (t ) построена на отрезке t ₀ ≤t ≤θ ₂ и непрерывна на всём этом отрезке (и, в частности, в «точке сопряжения» θ ₁ ;). Воспользовавшись, далее, новым начальным значением γ ₂ =(x ¹ (θ ₂ ),…, xⁿ (θ ₂ ), θ ₂ ), мы продолжим эту функцию x (t ) на отрезок θ ₂ ≤t ≤θ ₃ и т. д. В конце концов мы определим x (t ) на всём отрезке t ₀ ≤t ≤t ₁ .

Полученная функция x (t )=(x ¹ (t ),…, xⁿ (t )) непрерывна на всём отрезке t ₀ ≤t ≤t ₁ и является на нём кусочно-дифференцируемой ; именно, во всех точках интервала t ₀ <t <t ₁ , кроме θ ₁ , θ ₂ ,…, θ _k , функция x (t ) непрерывно дифференцируема (и удовлетворяет системе (2.6)). Построенную функцию мы будем называть решением системы (2.6) (или уравнения (2.7)), соответствующим управлению u (t ), при начальном условии x ¹ (t ₀ )=x ¹ ₀ , x ² (t ₀ )=x ² ₀ ,…, xⁿ (t ₀ )=xⁿ ₀ . Наконец, мы будем говорить, что допустимое управление u (t ), t ₀ ≤t ≤t ₁ , переводит фазовую точку из состояния x ₀ в состояние x ₁ (в силу закона движения (2.1) или (2.5)), если соответствующее ему решение x (t ) системы (2.1), удовлетворяющее начальному условию x (t ₀ )=x ₀ , приходит в момент t ₁ в точку x ₁ , т. е. удовлетворяет также «конечному» условию x (t ₁ )=x ₁ .

Теперь можно уточнить постановку задачи.

Линейной задачей оптимального управления мы будем называть задачу об отыскании оптимальных быстродействий в случае, когда выполнены следующие три условия:

1 ) уравнения движения объекта линейны (см. (2.1) или (2.5));

2 ) предписанное конечное состояние x ₁ совпадает с началом координат (0, 0,…, 0) n -мерного фазового пространства переменных x ¹ , x ² ,…,xⁿ ;

3 ) область управления U является r -мерным выпуклым многогранником в r -мерном пространстве (u ¹ , u ² ,…, u^r ), причём начало координат этого пространства принадлежит многограннику U , но не является его вершиной.

Заметим, что начало координат xⁱ =0, i =1,…,n , является положением равновесия системы

(2.8)

получающейся из системы (2.1) отбрасыванием управлений (т. е. получающейся из (2.1) при u ¹ = u ² =…=u^r =0). Таким образом, условие 2) означает, что ищется управление, переводящее объект из заданного начального состояния x ₀ в положение равновесия.

10. Принцип максимума. В пункте 6 мы сформулировали необходимое условие оптимальности, называемое принципом максимума . Данный пункт посвящён принципу максимума в случае линейной задачи оптимального управления. Вначале укажем те упрощения в формулировке принципа максимума, которые возникают в этом частном случае (т. е. в случае линейной задачи оптимального управления).

Заметим, прежде всего, что функция H (см. формулу (B) на стр. 10) принимает вид

(2.9)

(Здесь в правой части записаны скалярные произведения; например, ψ Ax есть скалярное произведение векторов ψ и Ax .)

Далее, рассмотрим систему дифференциальных уравнений для вспомогательных переменных ψ ₁ , ψ ₂ ,…, ψ _n (см. формулу (C) на стр. 10). Мы имеем

Следовательно, система уравнений для вспомогательных переменных принимает вид

(2.10)

т. е. представляет собой так называемую сопряжённую систему (по отношению к линейной системе (2.8)). В векторной форме система (2.10) записывается в виде

(2.11)

где

─ матрица, получающаяся из матрицы A транспонированием (т. е. заменой строк столбцами).

Так как в правой части соотношения (2.9) первое слагаемое совсем не зависит от u , то при написании соотношения (D) (см. стр. 11) достаточно рассмотреть лишь второе слагаемое. Таким образом, соотношение (D) принимает в рассматриваемом случае вид

(2.12)

для любого момента τ , t ₀ ≤τ≤ t ₁ .

Наконец, соотношение (E) (стр. 11) становится просто ненужным, так как в рассматриваемом случае оно всегда выполняется. Действительно, так как x (t ₁ )=(0, 0,…, 0) (условие 2) на стр. 15), то в H (ψ (t ₁ ), x (t ₁ ), u (t ₁ )) первое слагаемое обращается в нуль (см. (2.9)). Второе же слагаемое, в силу (2.12), заведомо неотрицательно, ибо при u ¹ =…=u^r =0 (эта точка, в силу условия 3) на стр.15, принадлежит многограннику U ) мы имеем ψ (τ )Bu =0, а потому максимальное значение выражения ψ (τ )Bu неотрицатнльно. Итак, соотношение H (ψ (t ₁ ), x (t ₁ ), u (t ₁ ))³0 для линейной оптимальной задачи всегда выполнено.

Сказанное можно резюмировать следующим образом. Пусть u (t ), t ₀ £t £t ₁ , - допустимое управление, переводящее объект (2.5) из заданного начального состояния x ₀ в положение равновесия (0, 0,…, 0). Будем говорить, что управление u (t ) удовлетворяет принципу максимума , если существует такое нетривиальное решение y(t ) уравнения (2.11), для которого выполняется условие максимума (2.12) (в каждый момент времени t, t ₀ £t£t ₁ ). Для оптимальности управления u (t ) необходимо, чтобы оно удовлетворяло принципу максимума . Это и есть та упрощённая формулировка принципа максимума, к которой мы приходим в случае линейной задачи оптимального управления.

11. Принцип максимума — необходимое и достаточное условие оптимальности. Замечательным фактом является то, что в случае линейной задачи оптимального управления принцип максимума представляет собой не только необходимое, но и достаточное условие оптимальности. Однако факт этот имеет место не для произвольной линейной задачи — имеются малосущественные исключения. Поэтому мы наложим на линейную задачу некоторое ограничение, называемое условием общности положения . Сформулируем это условие:

Условие общности положения : если w — вектор, параллельный произвольному ребру многогранника U, то вектор B w не принадлежит никакому собственному инвариантному подпространству относительно преобразования A . Невыполнение условия общности положения означает, что хотя бы для одного ребра многогранника U векторы B w , AB w , A ² B w ,…, Aⁿ ^-1 B w линейно зависимы, т. е. определитель n- го порядка, составленный из координат этих векторов, обращается в нуль. Однако всюду в дальнейшем условие общности положения предполагается (если не оговорено противное ) выполненным .

Теперь перейдём к теореме, упоминавшейся в начале этого пункта.

Т е о р е м а 2.1. Пусть u (t ), t ₀ £t £t ₁ , — допустимое управление, переводящее объект из заданного начального состояния x ₀ в положение равновесия (0, 0,…, 0). Для оптимальности управления u (t ) необходимо и достаточно, чтобы оно удовлетворяло принципу максимума .

12. Основные теоремы о линейных оптимальных быстродействиях.

Т е о р е м а 2.2. Для каждого нетривиального решения y (t ) уравнения (2.11) соотношение (2.12) однозначно определяет допустимое управление u (t ); при этом оказывается, что функция u (t ) кусочно-постоянна и её значениями являются лишь вершины многогранника U .

Каждую точку разрыва оптимального управления мы будем называть точкой переключения .

Т е о р е м а 2.3. Предположим, что многогранник U является r-мерным параллелепипедом (2.2) и что все собственные значения матрицы A= (aⁱ _j ), составленной из коэффициентов уравнений (2.1), действительны. Тогда в оптимальном управлении u (t )=(u ¹ (t ),…, u^r (t )) каждая из функций u ^b (t ), b=1,…,r , кусочно-постоянна, принимает только значения a ^b и b ^b (см. (2.2)) и имеет не более n- 1 переключений (т. е. не более n интервалов постоянства ), где n — порядок системы (2.1).

Т е о р е м а 2.4 (т е о р е м а е д и н с т в е н н о с т и). Пусть u ₁ (t ) и u ₂ (t ) — два оптимальных управления, заданных соответственно на отрезках t ₀ £t £t ₁ и t ₀ £t £t ₂ и переводящих точку x ₀ в начало координат . Тогда эти управления совпадают , т. е. t ₁ =t ₂ и u ₁ (t )ºu ₂ (t ) на отрезке t ₀ £t £t ₁ .

Областью управляемости для объекта (2.5)мы будем называть множество всех точек x ₀ фазового пространства X , из которых возможно при помощи какого-либо допустимого управления попасть в начало координат. Само начало координат мы также будем причислять к области управляемости. Ясно, что вопрос о нахождении оптимальных процессов разумно ставить лишь в случае, если начальное фазовое состояние x ₀ принадлежит области управляемости (ведь из точек, не принадлежащих области управляемости, вообще нельзя попасть в начало координат).

Т е о р е м а 2.5 (т е о р е м а с у щ е с т в о в а н и я). Область управляемости является выпуклым открытым множеством фазового пространства X ; для любой точки x ₀ , принадлежащей области управляемости , существует оптимальное управление , переводящее точку x ₀ в начало координат .

Т е о р е м а 2.6. Если в линейной задаче оптимального управления матрица A (см. (2.3)) устойчива , т. е. все её собственные значения имеют отрицательные действительные части, то область управляемости совпадает со всем фазовым пространством X . Следовательно , для любой точки x ₀ Î X существует оптимальное управление , переводящее фазовую точку x ₀ в начало координат .

§ 5. Решение задачи синтеза для линейных задач второго порядка

13. Упрощение уравнений линейного управляемого объекта. Нередко бывает, что в линейной задаче общая запись уравнений движения объекта в виде (2.1) неудобна и целесообразно воспользоваться некоторыми упрощениями. Мы здесь отметим стандартные упрощения, которые можно осуществить с помощью замены координат.

- Прежде всего, рассмотрим вопрос о замене координат в фазовом пространстве X рассматриваемого управляемого объекта. Предположим, что в пространстве X вместо координат x ¹ ,…, xⁿ введены новые координаты y ¹ ,…, yⁿ , связанные с прежними координатами соотношениями

(2.13)

(где матрицы P =(pⁱ _j ) и Q=(qⁱ _j ) взаимно обратны). Ясно, что при такой замене линейная система (2.1) превращается в новую линейную систему

коэффициенты которой легко вычисляются:

Таким образом, ,

Переходя к векторным обозначениям, можно сказать, что указанная замена координат переводит уравнение (2.5) в уравнение где матрицы C и D выражаются через матрицы A, B, P, Q по формулам C =QAP , D =QB .

Очевидно, при такой замене условия 1), 2), указанные на стр. 15, сохраняются и для уравнения получаемого после замены. Далее, каждый процесс (u (t ), x (t )), удовлетворяющий уравнению переходит в процесс (u (t ), y(t )), удовлетворяющий уравнению (и обратно). Так как при этом время t не меняется, то указанная замена переводит оптимальные процессы для уравнения (и наоборот). В частности, синтез оптимальных управлений для уравнения переводится с помощью преобразования координат (2.13) в синтез оптимальных управлений для уравнения .

Таким образом, если уравнение окажется проще и для него синтез оптимальных управлений можно будет построить, то из этого синтеза можно (с помощью афинного преобразования (2.13)) получит синтез и для первоначального уравнения . В этом и заключается смысл замены координат (2.13): она позволяет заменить матрицу A трансформированной матрицей C =QAP, в то же время вызывая лишь афинное искажение картины синтеза оптимальных управлений. Таким образом, преобразованием (2.13) можно воспользоваться для упрощения матрицы A , составленной из коэффициентов при фазовых координатах.

- Предположим, что в уравнении матрица A уже приведена к простейшему виду (с помощью описанного выше приёма). Укажем теперь, каким образом может быть упрощена матрица B , составленная из коэффициентов при управляющих параметрах.

С этой целью положим

(2.14)

Это означает, что вместо r управляющих параметров u ¹ ,…,u^r вводятся n других управляющих параметров v ¹ ,…, vⁿ , благодаря чему система (2.1) заменяется следующей:

или в векторной форме,

Нужно только выяснить, в каких пределах может изменяться точка v =(v ¹ , v ² ,…, vⁿ ). Удобно считать, что эта точка v =(v ¹ , v ² ,…, vⁿ ) расположена в том же пространстве X , что и точка x =(x ¹ ,…, xⁿ ).

Соотношения (2.14) определяют линейное отображение r- мерного пространства переменных u ¹ ,…,u^r в фазовое пространство X . Образом многогранника U при отображении (2.14) является некоторый выпуклый многогранник в пространстве X , который мы обозначим через V .

Таким образом, получаем два линейных уравнения:

(2.15)

(2.16)

Г л а в а III

СИНТЕЗ ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ ДЛЯ УРАВНЕНИЯ ВТОРОГО ПОРЯДКА

§ 6. Решение задачи синтеза в случае комплексных собственных значений

14. Задача синтеза для малых колебаний маятника. Здесь будет дано полное решение задачи синтеза оптимальных управлений для линейных объектов, описываемых уравнениями второго порядка. Фазовое пространство X в этом случае представляет собой плоскость.

Рассмотрим колебание плоского маятника. Как известно колебание маятника, подвешенного к точке опоры, описывается дифференциальным уравнением второго порядка:

(в нашем случае положим β =1)

при малых колебаниях маятника Sinφ≈φ тогда уравнение движения маятника запишется в виде:

(3.1)

Управляющий параметр u (скалярный) будем предполагать изменяющимся в пределах -1£u £1.

Пусть — угол отклонения, а — скорость маятника. Тогда уравнение (3.1) перепишется в виде следующей нормальной системы:

(3.2)

На плоскости x ¹ , x ² «многогранник» U будет представляться отрезком [-1, 1], расположенным на оси x ² . Легко видеть, что ось x ² не является собственным инвариантным подпространством матрицы A , которая для системы (3.2) имеет вид:

A =,

и потому условие общности положения всегда выполнено.

Найдём собственные значения матрицы A . Для этого составим характеристическое уравнение |λE─ A |=0, т. е. λ ² +λ +1=0. Откуда находим, что собственные значения матрицы A такие:

т. е. собственные значения матрицы A комплексные. Введём обозначения где b ≠0.

Тогда матрица A преобразуется к виду:

Будем рассматривать систему, соответствующую матрице , т. е. систему вида:

(3.3)

Вначале рассмотрим соответствующую однородную систему:

(3.4)

Общее решение этой системы имеет вид:

где c, γ – произвольные постоянные интегрирования.

Запишем функцию H и применим принцип максимума.

где ψ₁ , ψ₂ определяются системой, сопряжённой к системе (3.3), т. е. системой вида:

(3.5)

Общее решение этой системы имеет вид:

где c’, γ’ – произвольные постоянные интегрирования. Т. е. функция H имеет вид:

Подставим в функцию H представление решений x ¹ , x ² :

Т. к. собственный вектор матрицы A , соответствующий собственному значению l имеет вид q ₁ ─iq ₂ , где q ₁ =(1;─1/2); q ₂ =(0;─).

Пусть q ₁ и q ₂ – базисные векторы новой косоугольной системы координат y ¹ , y ² . Тогда переход от системы y ¹ , y ² к системе x ¹ , x ² выражается формулами:

Тогда в новых координатах система уравнений (3.2) запишется в виде

или, иначе, в виде

где v =(v ¹ , v ² ) ─ управляющая точка, которая может меняться в пределах многогранника V , представляющего собой отрезок [] оси y ² .

Согласно теории вершинам e ₁ =(0, ), e ₂ =(0, ) многогранника V соответствуют точки h ₁ =(1, -), h ₂ =(-1, ) (координаты указаны в системе y ¹ , y ² ), а каждый из углов a ₁ , a ₂ , соответствующих этим вершинам, равен p.

Теперь уже нетрудно построить синтез оптимальных управлений в плоскости y ¹ , y ² . Кусками фазовых траекторий будут дуги логарифмических спиралей, т. к. у нас b=1, т. е. b>0 (рис. 18).

При переходе от координат y ¹ , y ² к координатам x ¹ , x ² картина синтеза афинно искажается.

Список используемой литературы:

1. В.Г. Болтянский. «Математические методы оптимального управления», М.: «Наука», 1968г.

2. Л.С. Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. «Математическая теория оптимальных процессов», 4-е издательство. М.: «Наука», 1983г.

3. Р. Габасов, Ф.М. Кириллова. «Методы оптимизации», Минск, издательство БГУ, 1981г.