Sie sind auf Seite 1von 18

Universidad Nacional de Ingeniera - Facultad de Ingeniera Mecanica

Departamento Academico de Ingeniera Aplicada


CONTROL MODERNO Y OPTIMO (MT 227C)
Clase10-02 Elizabeth Villota Cerna
Semestre 2010I - UNI 09/06/2010

5. Problema del Regulador Cuadratico Lineal (LQR, por sus siglas


en ingles)
Consideremos ahora el problema con planta lineal y criterio de desempeno cuadratico. En esta parte
investigaremos el uso de la ecuacion de Hamilton-Jacobi-Bellman como una forma de resolver la forma
general del problema del regulador cuadratico lineal.

El sistema a ser controlado es descrito por las ecuaciones espacio de estado:

x(t) = A(t)x(t) + B(t)u(t), x(to ) = xo ,


(1)
y(t) = Cx(t)

y el ndice de desempeno asociado a ser minimizado es:


Z tf
1 T 1 T
x (t)Q(t)x(t) + uT (t)R(t)u(t) dt,

J(x) = x (tf )F x(tf ) + (2)
2 to 2

donde Q = QT 0 y F = F T son matrices reales simetricas semidefinidas positiva y R = RT > 0 es una


matriz real simetrica y definida positiva, el estado inicial to y el estado final tf son especificados, y u(t) y
x(t) no estan restringidos.

5.1. Ecuacion de Riccati Diferencial (DRE, por sus siglas en ingles)


Para usar la ecuacion de Hamilton-Jacobi-Bellman, primero escribimos el Hamiltoniano H:
1 T
H(x(t), u(t), Jx , t) = [x (t)Q(t)x(t) + uT (t)R(t)u(t)] + Jx (x(t), t)[A(t)x(t) + B(t)u(t)], (3)
2

Una condicion necesaria para u(t) que minimiza H es que H/u = 0; entonces:

H
(x(t), u(t), Jx , t) = R(t)u(t) + B T (t)Jx (x(t), t) = 0. (4)
u

La condicion suficiente esta dada por 2 H/u2 > 0, luego se tiene que:

2H
(x(t), u(t), Jx , t) = R(t), (5)
u2
que es definida positiva y H posee forma cuadratica en u. El control que satisface (4) minimiza H (global-
mente). Resolviendo (4) para u (t) resulta:

u (t) = R1 (t)B T (t)Jx (x(t), t). (6)

Reemplazando u (t) en (3) se obtiene:


1 T 1 T
H(x(t), u (t), Jx , t) = x Qx + J BR1 B T Jx + JxT Ax JxT BR1 B T Jx
2 2 x 1
(7)
1 T 1 T
= x Qx J BR1 B T Jx + JxT Ax
2 2 x
1 Cuando sea evidente se ha omitido la dependencia del tiempo
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

La ecuacion de Hamilton-Jacobi-Bellman se reduce a:


1 1
0 = Jt + xT Qx JxT BR1 B T Jx + JxT Ax (8)
2 2

De (2) la condicion de frontera es:


1 T
J (x(tf ), tf ) = x (tf )F x(t). (9)
2

Del analisis de estabilidad realizado en secciones anteriores para sistemas lineales, debe existir una funcion
de Lyapunov V (t) = xT (t)P (t)x(t) que garantice la estabilidad asintotica en lazo cerrado; esto es, existe
alguna matriz definida positiva P (t) y la derivada en funcion del tiempo dV /dt evaluada en las trayectorias
del sistema en lazo cerrado es definida negativa.

Luego, asumiendo la solucion J (x(t), t) de la siguiente forma:


1 T
J (x(t), t) = x (t)P (t)x(t), (10)
2
donde P (t) es una matriz real simetrica definida positiva que debe ser determinada. Sustituyendo la solucion
asumida en (8) resulta:
1 T 1 1
0= x P x + xT Qx xT P BR1 B T P x + xT P Ax (11)
2 2 2

La matriz P A que aparece en el ultimo termino puede ser escrita como la suma de una parte simetrica
y otra parte anti-simetrica,
1 1
P A = [P A + (P A)T ] + [P A (P A)T ]. (12)
2 2
Usando la propiedad de matrices (P A)T = AT P T y sabiendo que la transpuesta de un escalar es igual a
si misma se puede demostrar que solo la parte simetrica de P A contribuye en (26). Luego (26) puede ser
escrita como:
1 1 1 1 1
0 = xT P x + xT Qx xT P BR1 B T P x + xT P Ax + xT AT P x. (13)
2 2 2 2 2
Esta ecuacion debe cumplirse para todo x(t), luego:

0 = P (t) + Q(t) P (t)B(t)R1 (t)B T (t)P (t) + P (t)A(t) + AT (t)P (t), (14)

y la condicion de frontera de (9) y (10).

P (tf ) = F (15)

La ecuacion en (14) es conocida como la ecuacion diferencial de Riccati.

A continuacion consideremos las implicancias del resultado obtenido: primero, la ecuacion diferencial
parcial de H-J-B se reduce a un conjunto de ecuaciones diferenciales no lineales ordinarias. Segundo, la
matriz P (t) puede ser determinada por integracion numerica de (14) retrocediendo en el tiempo - a partir
de t = tf hacia t = to - usando la condicion de frontera P (tf ) = F . En realidad dado que la matriz P (t) es
simetrica, necesitamos integrar solo n(n + 1)/2 ecuaciones diferenciales.

Una vez que P (t) ha sido determinado, la ley de control optima esta dada por:

u (t) = R1 (t)B T (t)P (t)x(t), (16)

donde al haber asumido (10), la ley de control optima es lineal, variante en el tiempo y por realimentacion
de estados. Por similitud con el control por realimentacion de estados podemos reescribir:

u (t) = K(t)x(t). (17)

La Fig. 1 muestra el diagrama de bloques de la realimentacion de estados para el regulador cuadratico


lineal. Se observa que en general la ganancia LQR sera dependiente del tiempo aun cuando el sistema sea

Clase10-02, pag. 18
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

Figura 1: Sistema en lazo cerrado con LQR.

LTI y la funcion de costo tenga matrices de ponderacion Q y R constantes. Notese que la ganancia del
controlador LQR es un controlador lineal por realimentacion de estados y que la ganancia LQR solo depende
de parametros que se conocen con anticipacion y luego podra ser calculado facilmente offline.

Una vez obtenida la ley de control optima, el sistema en lazo cerrado esta dado por:

x(t) = Ac (t)x(t) = [A(t) B(t)K(t)]x(t) (18)

5.2. Valor del Indice de Desempeno


El valor del ndice de desempeno puede ser evaluado en base a la solucion de la ecuacion de Riccati.
Primero, notar que:
d T
(x P x) = xT P x + xT P x + xT P x.
dt
Usando las ecuaciones (1), (14) y (16), se encuentra que:

d T
(x P x) = xT Qx uT Ru.
dt
Luego en el ndice de desempeno (2) se obtiene:

1 tf d T
Z  
1 T
J(u ) = x (tf )F x(tf ) x (t)P (t)x(t) dt,
2 2 to dt
1 1 T 1
= xT (tf )F x(tf ) x (tf )P (tf )x(tf ) + xT (to )P (to )x(to )dt
2 2 2
Usando (15) los dos primeros terminos desaparecen y el valor optimo (mnimo) del ndice de desempeno es:

Jmn = 21 xT (to )P (to )x(to ) (19)

5.3. Ejemplo integrador doble con LQR


Considere un integrador doble descrito por la ecuacion espacio de estado:
    
0 1 p(t) 0
x(t) = Ax(t) + Bu(t) = + u(t)
0 0 v(t) 1

Clase10-02, pag. 19
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

El vector de estados esta formado por la posicion p(t) y la velocidad v(t) y la entrada de control es la
aceleracion u(t). El ndice de desempeno a ser minimizado es:
tf
1 1
Z
J = xT (tf )F x(tf ) +
 T
x (t)Qx(t) + u2 (t) dt

2 2 to

Aqui las matrices han sido seleccionadas como:


 
f11 f12
F = ,
f12 f22
 
rp 0
Q= ,
0 rv
> 0.
Para que F y Q sean semidefinidas positivas, los parametros rp , rv y y los autovalores de F deben ser no
negativos. Introduciendo las matrices de ponderacion en la ecuacion de Riccati diferencial resulta:

P (t) = Q(t) P (t)B(t)R1 (t)B T (t)P (t) + P (t)A(t) + AT (t)P (t)


       
rp 0 0 1  0 0 0 0
= P (t) 0 1 P (t) + P (t) + P (t)
0 rv 1 1 0 1 0

 
p11 p12
Como P (t) es simetrico tenemos que resolver tres ecuaciones para los elementos de P (t) = :
p12 p22

p11 = rp 1 p212
p12 = p11 1 p12 p22
p22 = rv + 2p12 1 p222

Estas ecuaciones tienen que ser resueltas retrocediendo en el tiempo desde el valor inicial en el tiempo tf
donde P (tf ) = F . Integracion numerica con los valores f11 = f12 = f22 = 1, rp = 3, rv = 4 y = 1 resulta
en la solucion mostrada en la Fig. 2. Se observa de la figura que los tres valores de los elementos de la matriz
P (t) se aproximan a una constante cuando tf t comienza a crecer.

5
p11

3
P(t)
p22
2
p12

0 4 8 10
time [sec]

Figura 2: Solucion de la ecuacion de Ricatti para el integrador doble.

La Fig. 3 muestra la respuesta del control optimo para diversos valores de la matriz Q. Se observa que
para grandes valores de los elementos de la matriz Q, la respuesta es mas rapida pero con un mayor esfuerzo
de control (senal de control mas grande).

Clase10-02, pag. 20
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

position

velocity

1
0 1 2 3

0
Control signal rp = 3 , rv = 4
rp = rv = 100
rp = rv = 10000
4
NB. The dotted signal has a minimum at 60.

0 1 2 3
time [sec]

Figura 3: Respuesta del sistema integrador doble con LQR.

6. Regulador Cuadratico Lineal en Estado Estacionario - Horizon-


te Infinito

El control LQR antes mostrado es el control optimo que minimiza el ndice de desempeno sobre un in-
tervalo de tiempo finito [to , tf ]. Se ha demuestra que lleva a una ganancia de control variante en el tiempo
que puede ser calculada offline. En la mayoria de los casos es mas conveniente tener una matriz de ganan-
cia constante. Es preferible entonces analizar el problema de control optimo con un ndice de desempeno
extendido hasta el infinito:
Z t 
T T T
J(u) = lm [x (t)Qx (t) + u (t)Ru(t) dt. (20)
t to

Adicionalmente asumiremos que el sistema es invariante en el tiempo:

x(t) = Ax(t) + Bu(t), (21)

tal que todas las matrices son consideradas constantes y Q = QT 0 y R = RT > 0.

Siendo que el problema de control LQR estandar consiste en mover los estados del sistema hacia cero de
forma optima, el vector de estados x(t) se aproximara al vector cero a medida que tf si el sistema en
lazo cerrado es estable. Luego no es relevante incluir el termino del estado final en el ndice de desempeno,
que es lo mismo que considerar F = 0 en (2).

El valor optimo del ndice esta dado por (14). Siendo que el sistema es LTI, el valor de Jmn es indepen-
diente del tiempo, lo que significa que la matriz P debe ser constante. Esto implica que P = 0 y la ecuacion
de Riccati se reduce a:
0 = Q P BR1 B T P + P A + AT P. (22)
Este es un conjunto de ecuaciones algebraicas no lineales acopladas cuadraticas. En la practica se le llama
ecuacion de Riccati algebraica.

Clase10-02, pag. 21
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

La ecuacion (34) pueda tener multiples soluciones pero solo una de ellas provee una matriz P semidefinida
positiva (siempre y cuando el sistema sea estabilizable) y la solucion particular lleva a:

Jmn = 21 xTo P xo . (23)

donde P es la solucion constante de (34).

La matriz de ganancias optima para el control LQR en estado estacionario queda definida por:

K = R1 B T P , (24)

y la senal de control resulta:


u(t) = K x(t). (25)

En conclusion, el controlador lineal por realimentacion de estados optimo que minimiza el ndice de
desempeno: Z t 
T T T
J(u) = lm [x (t)Qx (t) + u (t)Ru(t) dt.
t 0
sujeto a
x(t) = Ax(t) + Bu(t), x(0) = xo
satisface el teorema a continuacion.

El objetivo es construir un controlador lineal por realimentacion de estados de la forma u = Kx que


estabiliza al sistema y minimiza el ndice de desempeno J(u). Denotar dicha ley de control lineal como u .
Primero, asumimos que el controlador lineal por realimentacion de estados optimo existe tal que el sistema
en lazo cerrado optimo
x = (A BK)x
es asintoticamente estable. Esta suposicion implica que existe una funcion de Lyapunov V = xT P x para el
sistema en lazo cerrado; esto es, para alguna matriz definida positiva P la derivada en funcion del tiempo
dV
dt evaluada en las trayectorias del sistema en lazo cerrado es definida negativa.

Teorema 1. Si el controlador por realimentacion de estados u = Kx es tal que


 
dV T T
minu + x Qx + u Ru = 0, (26)
dt

para algun V = xT P x, entonces el controlador es optimo.

Demostracion Podemos escribir la condicion del teorema como:



dV
+ xT Qx + uT Ru = 0.
dt u=u
Luego,
dV
= xT Qx uT Ru .
dt u=u
Integrando ambos lados de la ecuacion resultante con respecto al tiempo desde 0 hasta , obtenemos
Z
V (x()) V (x(0) = (xT Qx + uT Ru )dt.
0

Debido a la suposicion de que el sistema en lazo cerrado es asintoticamente estable, x() = 0, y luego
Z
V (x(0) = xTo P xo = (xT Qx + uT Ru )dt.
0

Entonces, hemos demostrado que si un controlador lineal por realimentacion de estados satisface la
suposicion del teorema, entonces el valor del ndice de desempeno para tal controlador es

J(u ) = xTo P xo .

Clase10-02, pag. 22
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

Para demostrar que tal controlador es de hecho optimo, usamos una prueba por contradiccion. Asumimos
que (26) se cumple y que u no es optima. Supongase que u resulta en un menor valor de J, esto es,

J(u) < J(u ).

De (26) tenemos que


dV
+ xT Qx + uT Ru 0,
dt u=u
esto es,
dV
xT Qx uT Ru.
dt u=u
Integrando la expresion arriba con respecto al tiempo de 0 a resulta
Z
V (x(0)) (xT Qx + uT Ru)dt
0

lo que implica que


J(u ) J(u),
lo que es una contradiccion, y la demostracion se ha completado.

6.1. Ejemplos
6.1.1. Ejemplo 1

Considere el siguiente modelo de un sistema dinamico:

x = 2u1 + 2u2 , x(0) = 3,

asi como el ndice de desempeno asociado


Z
J= (x2 + ru21 + ru22 )dt,
0

donde r > 0 es un parametro.

1. Primero encontramos las solucion de ARE correspondiente al controlador lineal por realimentacion de
estados optimo. Tenemos
 
A = 0, B= 2 2 , Q = 1, R = rI2 .

La ARE para este problema es


8
0 = AT P + P A + Q P BR1 B T P = 1 p2 ,
r
cuya solucion es r
r
p= .
8
2. Ahora escribimos el sistema en lazo cerrado que se obtiene usando el controlador optimo. El controlador
optimo tienen la forma  
1 T 1 1
u = R B P x = x.
2r 1
Entonces, el sistema en lazo cerrado optimo es descrito por
  4
x = 2 2 u = x.
2r

3. Finalmente, encontramos el valor de J para el sistema en lazo cerrado optimo. Tenemos que
r
9 r
J = x(0)T P x(0) = .
2 2

Clase10-02, pag. 23
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

6.1.2. Ejemplo integrador doble con LQR en estado estacionario

Considere un integrador doble descrito por la ecuacion espacio de estado:


   
0 1 0
x(t) = x(t) + u(t)
0 0 1

El controlador tiene que minimizar el siguiente ndice de desempeno:


Z
 T
x (t)Qx(t) + u2 (t) dt

J=
0

Aqui las matrices han sido seleccionadas como:


 
rp 0
Q= ,
0 rv

> 0,
donde rp y rv son los pesos de posicion y velocidad respectivamente. Con los valores dados la ecuacion de
Riccati algebraica resulta en las siguientes ecuaciones acopladas:

0 = rp 1 p212
0 = p11 1 p12 p22
0 = rv + 2p12 1 p222

 
p11 p12
Aqui, P = , es la solucion de la ARE. Resolviendo estas ecuaciones algebraicas se obtiene
p12 p22
la solucion definida positiva unica:
p
p11 = rp 2 rp + rv

p12 = prp

p22 = 2 rp + rv

El controlador resulta en el control por realimentacion de estados con la senal de control:

u(t) = K x(t) = (R1 B T P )x(t)


"r s r #
rp rp rv
= 2 + x(t)

Se observa que la ganancia de control se incrementa a medida que los pesos de los estados se incrementan,
en otras palabras, rp y rv se incrementan en comparacion al peso de la senal de control. La ecuacion
caracterstic del sistema en lazo cerrado puede ser encontrada como:
s r
2 rp rv rp
s + 2 + s+ =0

La frecuencia natural correspondiente al sistema en lazo cerrado y el factor de amortiguamiento son


calculados como:
rp
r
= 4

1 rv
r
= 1+
2 2 rp


Para = 1, si rv = 0 los polos en lazo cerrado tienen un factor de amortiguamiento de 1/ 2 0,71.
El root locus como funcion de las ponderaciones se observa en la Fig. (4), donde rp varia desde 0 hasta
10. Para este sistema en particular se observa que el factor de amortiguamiento de los polos en lazo cerrado
siempre seran mayores que 0.71 para elementos de la matriz de ponderacion positivos.

Clase10-02, pag. 24
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

1.5

0.5

0
rv = 5 2 1 0.5 0.1 0

0.5

1.5
2 1.5 1 0.5 0 0.5 1

Figura 4: Root-locus del sistema integrador doble con LQR en estado estacionario para una variacion de rp .

6.2. Resolviendo la ARE usando el Metodo del Autovector

A continuacion presentamos un metodo para resolver la ARE referido como el metodo del autovector.
Comenzamos representando la ARE de la forma
A BR1 B T
  
  In
P In = 0. (27)
Q AT P
La matriz 2n 2n en la mitad es denominada de matriz Hamiltoniana. usamos el smbolo H para denotar
a la matriz Hamiltoniana, esto es,
A BR1 B T
 
H= .
Q AT
Entonces, la ARE puede ser representada como
 
  In
P In H =0
P
Si premultiplicamos la ecuacion arriba por X 1 y luego postmultiplicamos esta por X, donde X es una
matriz no singular n n,  
 1  X
X P X 1 H = 0. (28)
PX
Observar que si pudiesemos encontrar matrices X y P X tal que
   
X X
H = ,
PX PX
luego la ecuacion (28) resulta en
 
  X
X 1 P X 1 = 0.
PX

Luego hemos reducido el problema de resolver la ARE a aquel en el que construimos matrices X y P X
apropiadas. Continuando, sea vi el autovector de H y sea si el autovalor correspondiente; entonces
Hvi = si vi .
Si asumimos que H tiene al menos n autovalores reales distintos entre sus 2n autovalores. (Los resultados
obtenidos pueden ser generalizados para el cado cuando los autovalores de H son complejos o iguales.)
Entonces, podemos escribir

s1 0 ... 0
0 s2 ... 0

  
H v1 v2 ... vn = v1 v2 ... vn . . . .
.. .. ..

0 0 ... sn

Clase10-02, pag. 25
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

Sea  
X  
= v1 v2 ... vn
PX
y
s1 0 ... 0
0 s2 ... 0
= .. .. .. .

. . .
0 0 ... sn
La seleccion de X y P X constituye una posible solucion de la ecuacion
 
 1  X
X P X 1
= 0.
PX

 
Para construir P , particionamos la matriz de autovectores v1 v2 ... vn de orden 2n n en dos
submatrices de orden n n como sigue
 
  W
v1 v2 ... vn = .
Z

Luego,    
X W
= .
PX Z
Tomando X = W y P X = Z y asumiendo que W es invertible, obtenemos

P = ZW 1 . (29)

Ahora tenemos que elegir que conjunto de n autovalores elegir, dentro de todos los autovalores de H,
para poder contruir P . En el caso en que los 2n autovalores de H son diferentes, el numero de matrices P
generadas con el metodo descrito arriba son
(2n)!
.
(n!)2

Sea Q = C T C una factorizacion de rango completo de Q. Del Teorema 3 de Kucera (ver referencias al
final) se concluye que la matriz Hamiltoniana H tiene n autovalores en el semiplano complejo izquierdo y n
en el semiplano complejo derecho si y solo si el sistema como definido en (1) es estabilizable y detectable.
La matriz P que nosotros buscamos corresponde a los autovalores asintoticamente estables de H. Con P
construido como deseado, tenemos el siguiente resultado.

Teorema 2. Los polos del sistema en lazo cerrado

x(t) = (A BR1 B T P )x(t)

son aquellos autovalores de H que tienen parte real negativa.


 
  W
Demostracion Siendo que v1 v2 ... vn = , podemos escribir
Z

A BR1 B T
    
W W
= .
Q AT Z Z

Realizando las multiplicaciones apropiadas de bloques de matrices n n resulta

AW BR1 B T Z = W ,

o
A BR1 B T ZW 1 = A BR1 B T P = W W 1 ,
dado que P = ZW 1 . Entonces, la matriz A BR1 B T P es similar a la matriz cuyos autovalores son
los autovalores asintoticamente estables de H. Luego, la demostracion ha sido completada.

Clase10-02, pag. 26
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

6.2.1. Ejemplo 1

Considere el siguiente modelo de un sistema dinamico

x = 2x + u,

asi como el ndice de desempeno asociado


Z
J= (x2 + ru2 )dt.
0

Encuentre el valor de r tal que el sistema en lazo cerrado optimo tenga un polo en 3.

1. Formamos la matriz Hamiltoniana asociada


A BR1 B T 2 1r
   
H= = .
Q AT 1 2

2. La ecuacion caracterstica de H es
1
det(sI2 H) = s2 4 = 0.
r
Luego,
1
r=
5
resulta en el sistema en lazo cerrado optimo teniendo su polo localizado en 3.

6.2.2. Ejemplo 2

Considere un modelo simple de un robot manipulador como mostrado en la Fig. 5. El movimiento del
brazo del robot es controlado por un motor DC a traves de un engranaje. El motor DC es controlado por
armadura y su figura esquematica es presentada en la Fig. 6. Asumimos que el momento de inercia del motor
es despreciable en comparacion con el del brazo del robot. Modelamos el brazo como una masa puntual m
ubicada en el extremo final de la barra (sin masa) de longitud l. Entonces el momento de inercia del brazo
Ib = ml2 . Asumimos que el tren de engranajes no tiene juego, y que todos los ejes conectores son rgidos.
Como podemos ver de la Fig. 5, la rotacion del brazo en sentido contrario a las agujas del reloj es definida
como positiva, y la rotacion siguiendo las agujas del reloj es considerada como negativa; mientras que la
rotacion del eje del motor en sentido contrario a las agujas del reloj es definida como negativa, y la rotacion
del eje siguiendo las agujas del reloj es definida como positiva. El torque entregado por el motor es

Tm = Km ia ,

donde Km es la constante del torque del motor, y ia es la corriente de armadura. Sea N la razon de los
engranajes. Luego tenemos:
p radio del engranaje del motor numero de dientes del engranaje del motor 1
= = = .
m radio del engranaje del brazo numero de dientes del engranaje del brazo N

Esto ocurre puesto que los engranajes estan en contacto y luego

p radio del engranaje del brazo = m radio del engranaje del motor,

y los radios de los engranajes son proporcionales a sus numeros de dientes. El trabajo realizado por cada
engranaje debe ser igual. Sea Tp que denota el torque aplicado al brazo del robot. Entonces,

Tp p = Tm m .

Entonces, el torque aplicado al pendulo es

Tp = N Tm = N Km ia .

Clase10-02, pag. 27
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

Mass m
p

Massless rod of length l

1: N

DC motor Gear

u
Control voltage

Figura 5: Robot manipulador controlador por un motor DC via un engranaje.

La Ra

m motor shaft
ia position

u eb back emf


Armature circuit if constant
Field circuit

Figura 6: Figura esquematica de un motor DC controlado por armadura.

Usando la segunda Ley de Newton para escribir la ecuacion que modela la dinamica del brazo,
d2 p
Ib = mgl sin p + Tp . (30)
dt2
Sustituyendo en (30) las expresiones para Ib y Tp y luego rearreglando tenemos

d2 p
ml2 = mgl sin p + N Km ia (31)
dt2
donde g = 9,8m/s2 es la aceleracion de la gravedad. Aplicado la Ley de Kirchhoff (voltaje) al circuito de
armadura resulta en
dia dp
La + Ra ia + Kb N = u,
dt dt
donde Kb es la constante emf. Asumiendo que La 0. Entonces,
dp
u = Ra ia + Kb N , (32)
dt
A continuacion calculamos ia de (32) y sustituimos el resultado en (31) para obtener
d
!
2 Kb N dtp
2 d p u
ml = mgl sin p + N Km . (33)
dt2 Ra Ra

Ahora podemos construir el modelo de espacio de estados para el robot de un brazo. Escogiendo los siguientes
estados y variables de salida:
dp
x1 = p , x2 = = p , y y = x1 .
dt
Entonces, usando (33), obtenemos el siguiente modelo de espacio de estados simple del robot manipulador:
 " #
x2

x1
= g Kb Km N 2 N Km
x2 l sin x1 ml2 Ra x2 + ml2 Ra u

Clase10-02, pag. 28
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

y = x1 .
Parametros razonables para el robot son: l = 1m, m = 1kg, N = 10, Km = 0,1Nm/A, Kb = 0,1Vsec/rad,
Ra = 1. Usando los valores de los parametros el modelo del robot toma la siguiente forma:
   
x1 x2
=
x2 9,8 sin x1 x2 + u
y = x1 .

Respuestas en el tiempo para las trayectorias de estado del sistema no lineal sin control, u = 0, son
mostrados en la Fig. 7 para las condiciones iniciales x1 (0) = 1 y x2 (0) = 0. Un plano de fase del sistema no
lineal sin control es mostrado en la Fig. 8. El modelo linealizado alrededor de x = 0, u = 0 tiene la forma
   
d 0 1 0
dt x = x + u,
 9,8 1
 1 (34)
y = 1 0 x.

4
x1
3

2
x1 , x 2

1
x2
0

3
0 2 4 6 8 10
Time (sec)
Figure 5.13
Figura 7: Graficas de y = x1 y x2 versus tiempo para el sistema no lineal sin control.

10
8
6
4
2
x2 0
2
4
6
8
10
10 5 0 5 10
x1

Figura 8: Un plano de fase del sistema no lineal sin control.

En la Fig. 9 son mostradas las graficas de y = x1 y x2 versus tiempo para el sistema lineal sin control.
Un plano de fase del sistema linealizado es mostrado en la Fig. 10. Sea
Z
J= (y 2 + u2 )dt.
0

Encontraremos una ley de control lineal por realimentacion de estados u = kx que minimice J sujeto a las
ecuaciones dadas por (34). Tenemos
 
1 0
Q = cT c = y R = [1].
0 0

Clase10-02, pag. 29
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

25

20
x2

15

x 1, x 2
10
x1

0
0 0.2 0.4 0.6 0.8 1
Time (sec)

Figura 9: Graficas de y = x1 y x2 versus tiempo para el sistema linealizado sin control.

10
8
6
4
2
x2 0
2
4
6
8
10
10 5 0 5 10
x1

Figura 10: Un plano de fase del sistema linealizado sin control.

Resolviendo la ecuacion de Riccati, se define la matriz Hamiltoniana asociada como



0 1 0 0
A BR1 B T
 
9,8 1 0 1
H= = ,
Q AT 1 0 0 9,8
0 0 1 1

y calculando los autovalores y autovectores de H tenemos que



0,3443 0,0485 0,2604 0,0496
0,9298 0,1770 0,9499 0,1339
H 0,1124 0,9196 0,1691

0,9555
0,0661 0,3473 0,0364 0,2582

0,3443 0,0485 0,2604 0,0496 2,7003 0 0 0
0,9298 0,1770 0,9499 0,1339 0 3,6481 0 0
= 0,1124 0,9196 0,1691
.
0,9555 0 0 3,6481 0
0,0661 0,3473 0,0364 0,2582 0 0 0 2,7003

Identificando los autovectores correspondientes a los autovalores con parte real negativa se puede definir
   
0,2604 0,0496 0,1691 0,9555
W = y Z= ,
0,9499 0,1339 0,0364 0,2582

luego sabiendo que P = ZW 1 se obtiene


 
72,3371 19,6509
P = . (35)
19,6509 5,3484

Entonces  
k= 19,6509 5,3484 (36)

Clase10-02, pag. 30
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

y  
0 1
Ac = x.
9,8509 6,3484

Las graficas de x1 y x2 versus tiempo del sistema en lazo cerrado

x = (A bk)x = Ac x
y = x1 ,

cuando las condiciones iniciales son x1 (0) = 1 y x2 (0) = 0, son mostradas en la Fig. 11. Un plano de fase
del sistema linealizado en lazo cerrado es mostrado en la Fig. 12. Aplicando el controlador optimo al modelo
no lineal, las graficas de x1 y x2 versus tiempo para el sistema no lineal en lazo cerrado son mostradas en
la Fig. 13. Un plano de fase del sistema no lineal en lazo cerrado es mostrado en la Fig. 14. Los polos del
sistema linealizado en lazo cerrado -esto es, los autovalores de Ac - son 1 = 2,7003 y 2 = 3,6481.
1

0.5

x1
0
x1, x2

x2
0.5

1.5
0 1 2 3 4 5
Time (sec)

Figura 11: Graficas de x1 y x2 versus tiempo para el sistema linealizado en lazo cerrado.

10
8
6
4
2
x2 0
2
4
6
8
10
10 5 0 5 10
x1
A phase portrait of the linear closed-loop system of Example 5.13.
Figura 12: Un plano de fase del sistema linealizado en lazo cerrado.

0.5
x1

0
x1, x2

0.5

x2
1

1.5
0 1 2 3 4 5
Time (sec)

Figura 13: Graficas de x1 y x2 versus tiempo para el sistema no lineal en lazo cerrado.

Clase10-02, pag. 31
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

10
8
6
4
2
x2 0
2
4
6
8
10
10 5 0 5 10
x1

Figura 14: Un plano de fase del sistema no lineal en lazo cerrado.

6.2.3. Ejemplo Aeronave de Impulsion

Considere la dinamica original de la aeronave de impulsion presentada en clases anteriores, escrita en la


forma espacio de estados como:

z4 0

z5
0

dz z6 0
= c
+ 1 1
.
dt g sin mc z4 m cos F1 m sin F2


g cos z5 1 sin F1 + 1 cos F2
m m m
r
0 J F1

Los parametros del sistema son m = 4kg, J = 0,0475kgm2 , r = 0,25m, g = 9,8m/s2 , c = 0,05Ns/m, que
corresponde a un modelo escalado del sistema. El punto de equilibrio para el sistema esta dado por F1 = 0,
F2 = mg y ze = (xe , ye , 0, 0, 0, 0). Para derivar el sistema linealizado cerca del punto de equilibrio, calculamos
el sistema linealizado:

0 0 0 1 0 0 0 0
0 0 0 0 1 0 0 0

0 0 0 0 0 1 0 0
A= , B= 1 .
0 0 g c/m 0 0 m 01


0 0 0 0 c/m 0 0
m
r
0 0 0 0 0 0 J 0
   
1 0 0 0 0 0 0 0
C= , D= .
0 1 0 0 0 0 0 0
Haciendo z = z ze y v = u ue , el sistema linealizado esta dado por:
dz
= Az + Bv,
dt
y = Cz.
Se puede verificar que el sistema es alcanzable.

Para calcular el regulador cuadratico lineal para el sistema, escribimos la funcion costo como:
Z
J= (z T Qz + v T Rv)dt,
0

donde z = z ze y v = u ue representan las coordenadas locales en torno al punto de equilibrio (ze , ue ).


Comenzamos con matrices diagonales para los costos del estado y la entrada:

1 0 0 0 0 0
0 1 0 0 0 0
 
0 0 1 0 0 0 1 0
Q=
,
R= .
0 0 0 1 0 0 0 1
0 0 0 0 1 0
0 0 0 0 0 1

Clase10-02, pag. 32
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

Luego la ley de control de la forma v = Kz sera usada para derivar la ley de control en terminos de las
variables originales:
u = v + ue = K(z ze ) + ue .
Como especificado en clases anteriores, los puntos de equilibrio corresponden a ue = (0, mg) y ze =
(xe , ye , 0, 0, 0, 0). La respuesta del controlador a un cambio de la funcion escalon para la posicion desea-
da es mostrada en la Fig. 6a. La respuesta puede ser afinada cambiando los pesos en la funcion de costo. La
Fig. 15b muestra6.3. la STATE FEEDBACK
respuesta en laDESIGN 193que R = I2 .
direccion x para diferentes selecciones del peso , siendo
Position x , y [m]

Position x [m]
1 1

0.5 0.5
x
y 0
0
0 2 4 6 8 10 0 2 4 6 8 10
Time t [s] Time t [s]
(a) Step response in x and y (b) Effect of control weight
Figure 6.12: Step response for a vectored thrust aircraft. The plot in (a) shows the x and y

Figura 15: Respuestapositions of the aircraft


al escalon de una when it is commanded
aeronave to move 1La
de impulsion. m inFig.
eachadirection.
muestraIn las
(b) the x
posiciones x e y
motion
de la aeronave cuando seisleshown for control
comanda weights1m en
moverse 1, 10 2 , 104direccion.
cada . A higher weight of thebinput
En Fig. term in el movimiento
se muestra
x variando los pesosthedecostcontrol
functioncauses
= 1,a10more
2 sluggish
, 104 . Un response.
peso mas grande en el termino de control de la funcion
costo causa una respuesa mas lenta.
level. Since other processes may be running on the server, the web server must
adjust its parameters in response to changes in the load.
6.3. Propiedades A blockdediagram for thedel
robustez control systemLQR
diseno is shown in Figure 6.13. We focus on
the special case where we wish to control only the processor load using both the
Un sistema de control queand usa el regulador parameters. We alsopresenta
cuadratico lineal include las
a disturbance on
siguientes caractersticas de
thelos
robustez. Esto es, measured
margenesloadde
thatestabilidad
represents thede use of the processing
la matriz cyclesdebytransferencia
de funciones other processes
en lazo L(s) =
running on the server.lasThe
K(sI A)1 B (equivalentemente, system haspara
condiciones the same
que basic structure
|1 + L(i)| > as
1) the generic
estan dadoscontrol
por:
system in Figure 6.5, with the variation that the disturbance enters after the process
dynamics.
The dynamics
(GM): of theGM
system
< 1. are given by a set of difference equations of the
1
Margen de ganancia 2 <

Margen deform
fase (PM): PM > 60o .
x [k 1] Ax [k ] Bu [k ] ycpu [k ] Ccpu x [k ] dcpu [k ]
where x xcpu xmemde isNyquist
La Fig. 16 presenta el diagrama
the state,deu la funcion
u ka u mcdeistransferencia
the input, dcpude
is the processing
lazo, L(s), para un modelo
load from
simplificado de un satelite.
other processes on the computer and y cpu is the total processor load.
We choose our controller to be a state feedback controller of the form
0 ycpu
   
0 1
,u B = K , C = kr r1cpu 0 , D = 0.
 
A=
0 0 1 xmem

Feedback d
Precompensation Controller Server
rcpu e u y
kr C P

1
Figure 6.13: Feedback control of a web server. The controller sets the values of the web
server parameters based on the difference between the nominal parameters (determined by
kr r ) and the current load ycpu . The disturbance d represents the load due to other processes
running on the server. Note that the measurement is taken after the disturbance so that we
measure the total load on the server.

Figura 16: Diagram de Nyquist mostrando margenes de estabilidad del LQR.

Clase10-02, pag. 33
CONTROL OPTIMO - REGULADOR CUADRATICO LINEAL

6.4. Regla de Bryson para seleccion de matrices Q y R

Si se conocen los valores maximos de los estados finales, estados contnuos y entradas contnuas, luego se
puede aplicar la siguiente regla para la seleccion de matrices de ponderacion F , Q y R:

1
Fii =
max([xi (tf )]2 )
1
Qii =
(tf to ) max([xi (t)]2 )
1
Rjj =
(tf to ) max([ui (t)]2 )

donde i = 1, 2, ..., n y j = 1, 2, ..., m. Si el tiempo no es importante en la aplicacion evaluada luego el intervalo


de tiempo entre parentesis, (tf to ), puede elegirse igual a 1. Los terminos fuera de la diagonal de las matrices
de ponderacion pueden ser usados si existe interaccion entre los componentes de las entradas o estados.

Fuente: Captulo 5 del libro Systems and Control de Stanislaw H. Zak, Oxford University Press, 2003.

Fuente: Captulo 5 del libro Linear Systems Control - Deterministic and Stochastic Methods de Elbert
Hendricks, Ole Jannerup y Paul Sorensen, Springer, 2008.

Fuente: Captulo 6 del libro Feedback Systems: An Introduction for Scientists and Engineers, de Karl J.
Astrom y Richard M. Murray.

Clase10-02, pag. 34

Das könnte Ihnen auch gefallen