Beruflich Dokumente
Kultur Dokumente
Von Zuben
DCA/FEEC/Unicamp
1 Escalar
• uma variável que assume valores no eixo dos números reais é denominada escalar.
Os escalares são descritos por letras minúsculas do alfabeto romano expressas em
itálico, ou do alfabeto grego. O conjunto de todos os escalares reais é representado
por ℜ ou ℜ1.
x se x ≥ 0
• o módulo de um escalar real x é dado na forma: x =
− x se x < 0
2 Vetor
x1
x
x = 2 ou x = [x1 x2 xn ] .
T
x
n
3 Matriz
x1i
x
• as colunas da matriz X são vetores-coluna descritos por x i = , i=1,...,n.
2i
x
mi
Tópico 1 − Fundamentos Básicos de Álgebra Linear e Otimização 5
• um conjunto pode ser definido como uma agregação de objetos. Os conjuntos são
descritos por letras maiúsculas do alfabeto romano expressas em itálico. Por
conveniência de notação, alguns conjuntos especiais são descritos por símbolos
específicos. Exemplos:
x ∈ X: x pertence a X
x ∉ X: x não pertence a X
X = {x1 , x 2 ,..., x n }
Y União: X 1 ∪ X 2 = {x : x ∈ X 1 ou x ∈ X 2 };
Y Interseção: X 1 ∩ X 2 = {x : x ∈ X 1 e x ∈ X 2 };
• X 1 ∩ X 2 = ∅ (conjunto vazio) se X1 e X2 são conjuntos disjuntos.
X = {x : x ∉ X }.
[a, b] = {x : a ≤ x ≤ b}
(a, b] = {x : a < x ≤ b}
[a, b ) = {x : a ≤ x < b}
(a, b ) = {x : a < x < b}
• se X é um conjunto de números reais, então o menor limitante superior de X, dado
por
x = sup x = sup{x : x ∈ X },
x∈X
x = inf x = inf {x : x ∈ X },
x∈X
5.1 Axiomas
• x + y = y + x (propriedade comutativa)
x + ( y + z) = (x + y ) + z
• (propriedade associativa)
α ⋅ (β ⋅ x ) = ( α ⋅ β) ⋅ x
α ⋅ (x + y ) = α ⋅ x + α ⋅ y
• (propriedade distributiva)
( α + β) ⋅ x = α ⋅ x + β ⋅ x
• x + 0 = x (vetor nulo)
• 0⋅x = 0
• α⋅0 = 0
• x + y= x+ z ⇒ y = z
• α⋅x = α⋅y, α ≠ 0 ⇒ x = y
• α⋅x = β⋅x, x ≠ 0 ⇒ α = β
α ⋅ (x − y ) = α ⋅ x − α ⋅ y
• (propriedade distributiva)
( α − β) ⋅ x = α ⋅ x − β ⋅ x
5.3 Exemplos
• considere o campo F como sendo o conjunto dos números reais (ℜ):
1. conjunto dos números reais: X ≡ ℜ
2. conjunto dos vetores n-dimensionais, com elementos reais: X ≡ ℜn
3. conjunto das matrizes m × n com elementos reais: X ≡ ℜm × ℜn ou X ≡ ℜm×n
• por convenção, X n ≡ ×
XX
×
×
X
n vezes
• exemplos: 1. S ≡ {0}
2. S ≡ ℜn é subespaço de X ≡ n
x2
x2
x1
x1
X
X
Convexo Não-Convexo
• exemplos:
1. normalmente, (sub-)espaços vetoriais lineares são convexos.
2. o conjunto vazio ∅ é convexo, por definição.
3. dados X e Y convexos, então X ∩ Y é convexo.
• seja S = {x1, x2, ..., xn} um conjunto de vetores de um espaço vetorial linear (X,ℜ).
Combinações lineares de elementos de S são formadas através de
a1x1 + a 2 x 2 + + a n x n ,
• um conjunto de vetores linearmente independentes {x1, x2, ..., xn} forma uma base
para X se X ≡ [x1, x2, ..., xn].
• neste caso, diz-se que X tem dimensão n. Se n é finito, então X é um espaço
vetorial de dimensão finita.
x1 y1 x1 y 2 x1 y m
x y x2 y2
xy T = 2 1
x y x n y m
n 1
¾ 〈x,y〉 = 〈y,x〉
¾ 〈α⋅x,y〉 = α⋅〈x,y〉
¾ 〈x,x〉 ≥ 0 ∀ x ∈ X, e 〈x,x〉 = 0 ⇔ x = 0
n
x, y = ∑ xi y i = x T y
i =1
• toda vez que se associa uma norma a um espaço vetorial (sendo que a este espaço
já está associado um campo), diz-se que se tem um espaço vetorial normado.
• uma semi-norma satisfaz todas as propriedades de norma, com exceção do
primeiro axioma. Para X ≡ ℜn, o subespaço linear X0 ⊂ ℜn, cujos elementos
obedecem x = 0, é denominado espaço nulo da semi-norma.
Y x ∞
≤ x 2
≤ nx ∞
Y x ∞
≤ x 1 ≤ n x ∞.
1
1
n
2 1
Y x, x 2 é a conhecida norma euclidiana, pois x 2
= ∑ xi2 = x, x 2 .
i =1
Y relação entre produto interno e norma euclidiana (desigualdade de Cauchy-
2
Schwartz-Buniakowsky): x, y ≤ x, x ⋅ y , y ⇒ x , y ≤ x 2 ⋅ y 2
x2
+1 1
p=1
n pp
x p
= ∑ xi
−1 +1 x1 i =1
−1
x2 n
+1 p=2 p = 1 ⇒ x 1 = ∑ xi
i =1
−1 +1 x1
−1
n
∑ xi
2
p=2⇒ x 2
=
x2 i =1
+1
p=+∞
x1
−1 +1 p = +∞ ⇒ x ∞
= max xi
i
−1
x p
≤1
• para qualquer inteiro n ≥ 2, dados dois vetores x,y ∈ X ⊂ ℜn, x,y ≠ 0, o co-seno
do ângulo θ formado pelos vetores x e y é dado na forma:
xT y
cos(θ) = .
x2⋅ y 2
Etapa (1) y 1 = x1
i −1 xi , y j
yi = xi − ∑ ⋅ y j , i = 2, ..., m
j =1 y j,y j
yi
Etapa (2) u i = 1/ 2
, i = 1, ..., m
yi , yi
6 Transformações e funcionais
• o posto de uma matriz A ∈ ℜm×n é dado pelo número de colunas (ou linhas) LI, de
modo que posto(A) ≤ min(m,n).
• se posto(A) = min(m,n), então diz-se que a matriz tem posto completo.
• uma matriz quadrada de posto completo é inversível (matrizes inversas serão
discutidas mais adiante).
• posto(A) = dim(τ( A) )
• posto(A) = posto(AT) = posto(ATA) = posto(AAT)
• a matriz resultante do produto de duas matrizes quaisquer nunca vai ter um posto
maior que o menor posto das matrizes que participam do produto.
Cofator
• dada uma matriz A de dimensão n×n, o cofator do elemento aij (i,j=1,2,...,n) é
dado na forma:
cij = (− 1) + mij ,
i j
Determinante
• dada uma matriz A de dimensão n×n, o determinante de A é dado na forma:
seguintes propriedades:
j ≠ k, 1≤ j,k ≤n;
Y Homogeneidade: det ([a1 ba j a n ]) = b.det ([a1 a j a n ])
Traço
• dada uma matriz A de dimensão n×n, o traço de A, representado por tr(A), é a
soma dos elementos da diagonal de A, ou seja:
n
tr ( A) = ∑ a ii
i =1
Adjunta
• dada uma matriz A de dimensão n×n, a adjunta de A, representada por adj(A), é
dada na forma:
adj(A) = { aij′ }
• uma matriz A de dimensão n×n é dita ser singular quando dim(η( A) ) ≠ 0 , ou seja,
quando det(A) = 0.
• A ∈ ℜn×n é não-singular se e somente se dim(η( A) ) = 0 .
• seja uma matriz A de dimensão n×n. Diz-se que um escalar λ ∈ (conjunto dos
números complexos) é um autovalor de A se existe um vetor não-nulo x ∈ n,
chamado de autovetor associado a λ, tal que
Ax = λx.
Propriedades:
• ∇Q A ( y ) = 2 A y
• ∇ 2Q A ( y ) = 2 A
• A e QA são chamadas de:
¾ semi-definida positiva se Q A ( y ) = y T Ay ≥ 0, ∀ y ∈ ℜ n .
¾ semi-definida negativa se Q A ( y ) = y T Ay ≤ 0, ∀ y ∈ ℜ n .
Dados x ∈ ℜ n , y ∈ ℜ n e A ∈ ℜ n ×n :
•
∂y
(
∂ T
y Ax = Ax)
• y T Ax = x T AT y ⇒
∂ T
∂x
(
y Ax =
∂ T T
∂x
) (
x A y = AT y )
•
∂ T
∂x
( )
x Ax = AT x + Ax
• para AT = A ,
∂ T
∂x
(
x Ax = 2 Ax )
• se a matriz quadrada é tal que A ∈ n×n, então ela será hermitiana se ( A *)T = A ,
ou seja, se A for idêntica ao transposto de seu complexo conjugado.
• matrizes simétricas só admitem autovalores reais.
• autovetores associados a autovalores distintos de uma matriz simétrica com
elementos reais (A ∈ ℜn×n) são ortogonais.
• mesmo que os autovalores não sejam distintos, é possível obter autovetores
ortogonais para matrizes simétricas A ∈ ℜn × ℜn. Sendo assim, dados os
autovetores ortogonais v1, ..., vn, é possível construir a matriz T abaixo:
v v2 vn
T = 1 , onde ⋅ ≡ ⋅ 2 .
v1 v2 vn
• a matriz T é ortogonal, pois T −1 = T T , como pode ser verificado a seguir:
v1T
v 1 0
1 v1 vn
T TT = = = I n ×n
vn
T
v1 v n
0 1
v
n
• com a matriz T, é possível obter uma matriz diagonal a partir da matriz A, tendo
os autovalores de A na diagonal, como a seguir:
1. da definição de autovalores tem-se: Avi = λivi, i=1,...,n.
v1 v n Av 1 Av n λ 1 v 1 λnvn
AT = A = = =
v1 v n v1 v n v1 v n
2. λ 1 0
= v1 v n
= TΛ
v v n
1 0 λ n
Λ = T −1 AT = T T AT
3. AT = TΛ ⇒
A = TΛT −1 = TΛT T
( )T
Q A ( x ) = x T Ax = x T TΛT T x = T T x Λ (T T x )
• fazendo y = T T x ⇒ x = Ty , resulta:
Q A ( x ) x =Ty = y T Λy = λ 1 y 12 + λ 2 y 22 + + λ n y 2n
• como a matriz T tem posto completo, então y ∈ ℜn pode ser qualquer. Logo:
¾ A > 0 ⇒ λi > 0 para i=1,...,n
¾ A ≥ 0 ⇒ λi ≥ 0 para i=1,...,n
¾ A < 0 ⇒ λi < 0 para i=1,...,n
¾ A ≤ 0 ⇒ λi ≤ 0 para i=1,...,n
• se A ∈ ℜn×n é uma matriz simétrica definida positiva, então são condições
equivalentes:
¾ A é definida positiva;
• assuma que A e C são matrizes quadradas arbitrárias para as quais existe a inversa,
e B é uma terceira matriz tal que BCBT tem a mesma dimensão de A. Então o
chamado lema de inversão de matrizes é dado na forma:
(A + BCB ) T −1
(
= A−1 − A −1 B B T A −1 B + C −1 )
−1
B T A−1
• a matriz C geralmente tem dimensões menores que a matriz A.
• a pseudo-inversa de uma matriz A ∈ ℜm×n é uma matriz M ∈ ℜn×m tal que valem
as seguintes propriedades:
Y AMA = A
Y MAM = M
A + = a −1 , se a ≠ 0
• caso escalar (m = n = 1): A = a ⇒
A + = 0, se a = 0
+ aT
A = T , se a ≠ 0
• caso vetorial (m > 1 e n = 1): A = a ⇒ a a
A + = 0 T , se a = 0
• quando múltiplas soluções são possíveis, como no caso acima, pode-se adotar
aquela solução que otimiza algum critério. Por exemplo, a solução com norma
euclidiana mínima é aquela que toma y = 0.
x = xˆ + ~
x
onde x̂ ∈ X e ~
x⊥X .
• neste caso, diz-se que x̂ é a projeção ortogonal de x em X.
• de todas as decomposições na forma x = x ′ + x ′′ , onde x ′ ∈ X , aquela em que
x ′′ ⊥ X é tal que x ′′ 2 é mínima.
matriz ( AT ) + AT é simétrica.
• y = x é uma escolha possível, e como ~
x é único, então a expressão
(
x = I − AA+ x
~ )
Tópico 1 − Fundamentos Básicos de Álgebra Linear e Otimização 45
• além disso, a matriz A pode ter elementos reais ou complexos. Neste estudo,
iremos considerar apenas matrizes com elementos reais.
• em termos geométricos, os valores singulares de uma matriz A correspondem aos
comprimentos dos semi-eixos do hiperelipsóide E = {Ax : x 2
= 1}
• note também que o número de valores singulares positivos coincide com o posto
da matriz A, o que implica que a decomposição em valores singulares representa
um método prático para se obter o posto da matriz A.
Σ 0
• é possível verificar também que UTAV = e que as colunas de U são
0 0
autovetores de AAT, enquanto que as colunas de V são autovetores de ATA.
Σ 0
• como UUT = In, então , AV = U o que implica que:
0 0
Av i = σ i u i , i = 1,..., r
Av i = 0, i = r + 1,..., m
onde vi e ui são, respectivamente, as i-ésimas colunas de V e U.
• sendo assim, é possível expressar a matriz A na forma:
r
A = ∑ σ i u i v Ti
i =1
+ Σ −1 0 T T T −1
A =V U = A (AA ) , quando n < m
0 0
6.16 Funcional
f (α ⋅ x1 + (1 − α ) ⋅ x 2 ) ≤ α ⋅ f ( x1 ) + (1 − α ) ⋅ f ( x 2 )
Interpretação Geométrica
α⋅f(x1) + (1−α)⋅f(x2)
f(x1)
f(x2)
x1 x2
α⋅x1 + (1−α)⋅x2
f (y ) ≥ f (x ) + ∇f (x ) (y − x )
T
para todo x, y ∈ X.
Interpretação Geométrica
f(y)
∇f(x)T(y−x)
f(x)
x y
7 Mínimos Locais
f(x)
x01 x02 x
• f: ℜn → ℜ x ∈ ℜn
• expansão em série de Taylor em torno do ponto x* ∈ ℜn:
1
f ( x ) = f ( x*) + ∇f ( x*)T (x − x *) + (x − x *)T ∇ 2 f (x*)(x − x *) + O (3)
2
Prova: Por absurdo, suponha que x* é mínimo local de f(x) e que ∇f ( x*) ≠ 0 . Para
ε > 0 suficientemente pequeno, é possível definir um x ∈ ℜn tal que
x = x * − ε∇f ( x*) . Portanto:
Logo, em uma vizinhança de x*, ∃ x tal que f(x) < f(x*). ← ABSURDO!
1
f ( x ) ≅ f ( x*) + ∇f ( x*)T (x − x *) +(x − x *)T ∇ 2 f (x*)(x − x *) =
2
1 ε2
= f ( x*) + (− εd )T ∇ 2 f ( x*)(− εd ) = f ( x*) + d T ∇ 2 f ( x*)d
2 2
>0
Como d ∈ ℜn é qualquer, então existe uma vizinhança de x* tal que f(x) > f(x*).
Logo, x* é um mínimo local.
(b) um mínimo global estrito de f(x) se ∇ 2 f ( x ) > 0 ∀ x ∈ ℜn, ou seja, f(x*) < f(x) ∀
x ∈ ℜn, x ≠ x*.
(d) um máximo global estrito de f(x) se ∇ 2 f ( x ) < 0 ∀ x ∈ ℜn, ou seja, f(x*) > f(x)
∀ x ∈ ℜn, x ≠ x*.
Exemplo:
1
• Resolva o problema min x T Ax + b T x , onde A = AT > 0 e x ∈ ℜ n .
x 2
Solução:
1
• Definindo f ( x ) = x T Ax + b T x , a aplicação da condição necessária de
2
otimalidade ao problema min f ( x ) produz:
x
∇f ( x ) = Ax + b = 0 ⇒ x* = − A−1b
11 Referências bibliográficas
ANDERSON, B.D.O. & MOORE, J.B. “Optimal Control – Linear Quadratic Methods”, Prentice-Hall, 1989.
ATHANS, M. & FALB, P.L. “Optimal Control: An Introduction to the Theory and Its Application”, McGraw Hill, 1966.
BAZARAA, M. S., SHERALY, H. D. & SHETTY, C. “Nonlinear Programming: Theory and Algorithms”, 2nd edition, John Willey
& Sons, 1992.
BRONSON, R. “Theory and Problems of Matrix Operations”, Schaum’s Outline Series, McGraw Hill, 1989.
FERREIRA, P.A.V. “Notas de Aula - Curso EA932: Sistemas de Controle II”, 1997.
FRANKLIN, G.F., POWELL, J.D. & EMAMI-NAEINI, A. “Feedback Control of Dynamic Systems”, 3rd. edition, Addison-Wesley
Publishing Company, 1994.
GOLUB, G.H. & VAN LOAN, C.F. “Matrix Computations”, Johns Hopkins Series in the Mathematical Sciences, Johns Hopkins
University Press, 3rd edition, 1996.
HAYKIN, S. “Adaptive Filter Theory”, Prentice Hall, Third Edition, 1996.
KIRK, D.E. “Optimal Control: An Introduction”, Prentice-Hall, 1970.
KWAKERNAAK, H. & SIVAN, R. “Linear Optimal Control Systems”, John Wiley & Sons, 1972.
LEVINE, W.S. (ed.) “The Control Handbook”, CRC Press, 1996.
LEWIS, F.L. & SYRMOS, V.L. “Optimal Control”, 2nd edition, John Wiley & Sons, 1995.
LUENBERGER, D. G. “Linear and Nonlinear Programming”, 2nd edition, Addison Wesley, 1984.
LUENBERGER, D.G. “Optimization by Vector Space Methods”, John Wiley & Sons, 1969 (Paperback, 1997).
LUENBERGER, D.G. “Introduction to Dynamic Systems – Theory, Models, and Applications”, John Wiley & Sons, 1979.
MARDIA, K.V., KENT, J.T. & BIBBY, J.M. “Multivariate Analysis”, Academic Press, 1979.
OGATA, K. “Modern Control Engineering”, Third Edition, Prentice Hall, 1997.
PERES, P.L.D. “Notas de Aula - Curso IA600: Controle Ótimo”, 1993.
SAGE, A.P. & WHITE III, C.C. “Optimum Systems Control”, 2nd edition, Prentice-Hall, 1977.
SKELTON, R.E. “Dynamic Systems Control: Linear Systems Analysis and Synthesis”, John Wiley & Sons, 1988.
STRANG, G. “Linear Algebra and Its Applications”, Harcourt Brace College Publishers, 1988 (4th edition, 2000).