Chap 3

Chapitre 3
Optimisation
3.1 Dnitions et rappels
3.1.1 Dnition des problmes doptimisation
Lobjectif de ce chapitre est de rechercher des minima ou des maxima dune fonction f C(IR
N
, IR) avec ou
sans contrainte. Le problme doptimisation sans contrainte scrit :
_
Trouver x IR
N
tel que :
f( x) f(y), y IR
N
.
(3.1)
Le problme doptimisation avec contrainte scrit :
_
Trouver x Ktel que :
f( x) f(y), y K.
(3.2)
o K IR
N
et K ,= IR
N
Si x est solution du problme (3.1), on dit que x arg min
IR
N
f, et si x est solution du problme (3.2), on dit que
x arg min
K
f.
3.1.2 Rappels et notations de calcul diffrentiel
Dnition 3.1 Soient E et F des espaces vectoriels norms, f une application de E dans F et x E. On dit que
f est diffrentiable en x sil existe T L(E, F) (o L(E, F) est lensemble des applications linaires de E dans
F) telle que f(x + h) = f(x) + T(h) +|h|(h) avec (h) 0 quand h 0. Lapplication T est alors unique
et on note Df(x) = T L(E, F).
On peut remarquer quen dimension innie, T dpend des normes associes E et F. Voyons maintenant quelques
cas particuliers despaces E et F :
Cas o E = IR
N
et F = IR
p
Soit f : IR
N
IR
p
, x IR
N
et supposons que f est diffrentiable en x ; alors
Df(x) L(IR
N
, IR
p
), et il existe A(x) /
p,N
(IR) telle que Df(x)(y)
. .
IR
p
= Ay
..
IR
p
, y IR
N
. On confond alors
lapplication linaire Df(x) L(IR
N
, IR
p
) et la matrice A(x) /
p,N
(IR) qui la reprsente. On crit donc :
A(x) = Df(x) = (a
i,j
)
1ip,1jN
o a
i,j
=
j
f
i
(x),
j
dsignant la drive partielle par rapport la j-me variable.
Exemple 3.2 Prenons N = 3 et p = 2, notons x = (x
1
, x
2
, x
3
)
t
et considrons f : IR
3
IR
3
dnie par :
f(x) =
_
x
2
1
+ x
3
2
+ x
4
3
2x
1
x
2
_
111
3.2. OPTIMISATION SANS CONTRAINTE CHAPITRE 3. OPTIMISATION
On vriera par le calcul (exercice) que pour h == (h
1
, h
2
, h
3
)
t
, on a :
Df(x)h =
_
_
2x
1
h
1
+ 3x
2
2
h
2
+ 4x
3
3
h
3
2h
1
h
2
_
_
et donc, avec les notations prcdentes,
A(x) =
_
_
2x
1
3x
2
2
4x
3
3
2 1 0
_
_
.
Cas o E = IR
N
, F = IR Cest un sous-cas du paragraphe prcdent, puisquon est ici dans le cas p = 1. Soit
x IR
N
et f une fonction de E dans F diffrentiable en x; on a donc (avec labus de notation signal dans le
paragraphe prcdent) Df(x) /
1,N
(IR), et on peut dnir le gradient de f en x par f(x) = (Df(x))
t
IR
N
. Pour (x, y) (IR
N
)
2
, on a donc
Df(x)y =
N
j=i
j
f(x)y
j
= f(x) y o f(x) =
_
1
f(x)
.
.
.
N
f(x)
_
_
IR
N
.
Cas o E est un espace de Hilbert et F = IR On gnralise ici le cas prsent au paragraphe prcdent. Soit
f : E IR diffrentiable en x E. Alors Df(x) L(E, IR) = E
, o E
dsigne le dual topologique de

E, c..d. lensemble des formes linaires continues sur E. Par le thorme de reprsentation de Riesz, il existe un
unique u E tel que Df(x)(y) = (u[y)
E
pour tout y E, o (.[.)
E
dsigne le produit scalaire sur E. On appelle
encore gradient de f en x ce vecteur u. On a donc u = f(x) E et pour y E, Df(x)(y) = (f(x)[y)
E
.
Diffrentielle dordre 2, matrice hessienne Revenons maintenant au cas gnral de deux espaces vectoriels
norms E et F, et supposons maintenant que f C
2
(E, F). Le fait que f C
2
(E, F) signie que Df
C
1
(E, L(E, F)). Par dnition, on a D
2
f(x) L(E, L(E, F)) et donc pour y E, D
2
f(x)(y) L(E, F) ; en
particulier, pour z E, D
2
f(x)(y)(z) F.
Considrons maintenant le cas particulier E = IR
N
et F = IR. On a :
f C
2
(IR
N
, IR) [f C
1
(IR
N
, IR) et f C
1
(IR
N
, IR
N
)].
Soit g = f C
1
(IR
N
, IR
N
), et x IR
N
, alors Dg(x) /
N
(IR) et on peut dnir la matrice hessienne de
f, quon note H
f
, par : H
f
(x) = Dg(x) = D(Df)(x) = (b
i,j
)
i,j=1...N
/
N
(IR) o b
i,j
=
2
i,j
f(x) o
2
i,j
dsigne la drive partielle par rapport la variable i de la drive partielle par rapport la variable j. Notons que
par dnition, Dg(x) est la matrice jacobienne de g en x.
3.2 Optimisation sans contrainte
3.2.1 Dnition et condition doptimalit
Soit f C(E, IR) et E un espace vectoriel norm. On cherche soit un minimum global de f, c..d. :
x E tel que f( x) f(y) y E, (3.3)
ou un minimum local, c..d. :
x tel que > 0 f( x) f(y) y B( x, ). (3.4)
Proposition 3.3 (Condition ncessaire doptimalit)
Soit E un espace vectoriel norm, et soient f C(E, IR), et x E tel que f est diffrentiable en x. Si x est
solution de (3.4) alors Df( x) = 0.
Analyse numrique I, Tl-enseignement, L3 112 Universit Aix-Marseille 1, R. Herbin, 12 dcembre 2011
Dmonstration Supposons quil existe > 0 tel que f( x) f(y) pour tout y B( x, ). Soit z E 0, alors
si [t[ <

z
, on a x + tz B( x, ) (o B( x, ) dsigne la boule ouverte de centre x et de rayon ) et on a donc
f( x) f( x + tz). Comme f est diffrentiable en x, on a :
f( x + tz) = f( x) + Df( x)(tz) +[t[
z
(t),
o
z
(t) 0 lorsque t 0. On a donc f( x) + tDf( x)(z) + [t[
z
(t) f( x). Et pour

|z|
> t > 0, on a
Df( x)(z) +
z
(t) 0. En faisant tendre t vers 0, on obtient que
Df( x)(z) 0, z E.
On a aussi Df( x)(z) 0 z E, et donc : Df( x)(z) 0 z E.
On en conclut que
Df( x) = 0.
Remarque 3.4 Attention, la proposition prcdente donne une condition ncessaire mais non sufsante. En effet,
Df( x) = 0 nentrane pas que f atteigne un minimum (ou un maximum) mme local, en x. Prendre par exemple
E = IR, x = 0 et la fonction f dnie par : f(x) = x
3
pour sen convaincre.
3.2.2 Rsultats dexistence et dunicit
Thorme 3.5 (Existence) Soit E = IR
N
et f : E IR une application telle que
(i) f est continue,
(ii) f(x) +quand |x| +.
Alors il existe x IR
N
tel que f( x) f(y) pour tout y IR
N
.
Dmonstration La condition (ii) peut encore scrire
A IR, R IR; |x| R f(x) A. (3.5)
On crit (3.5) avec A = f(0). On obtient alors :
R IR tel que |x| R f(x) f(0).
On en dduit que inf
IR
N f = inf
BR
f, o B
R
= x IR
N
; [x[ R. Or, B
R
est un compact de IR
N
et f est
continue donc il existe x B
R
tel que f( x) = inf
BR
f et donc f( x) = inf
IR
Nf.
Remarque 3.6
1. Le thorme est faux si E est de dimension innie (i.e. si E est espace de Banach au lieu de E = IR
N
), car
si E est de dimension innie, B
R
nest pas compacte.
2. Lhypothse (ii) du thorme peut tre remplace par
(ii)
b IR
N
, R > 0 tel que |x| R f(x) f(b).
3. Sous les hypothses du thorme il ny a pas toujours unicit de x mme dans le cas N = 1, prendre pour
sen convaincre la fonction f dnie de IR dans IR par f(x) = x
2
(x 1)(x + 1).
Dnition 3.7 (Convexit) Soit E un espace vectoriel et f : E IR. On dit que f est convexe si
f(tx + (1 t)y) tf(x) + (1 t)f(y) pour tout (x, y) E
2
t.q. x ,= y et t [0, 1].
On dit que f est strictement convexe si
f(tx + (1 t)y) < tf(x) + (1 t)f(y) pour tout (x, y) E
2
t.q. x ,= y et t ]0, 1[.
Thorme 3.8 (Condition sufsante dunicit) Soit E un espace vectoriel norm et f : E IR strictement
convexe alors il existe au plus un x E tel que f( x) f(y), y E.
Dmonstration
Soit f strictement convexe, supposons quil existe x et

x E tels que f( x) = f(
x) = inf
IR
N f. Comme f est
strictement convexe, si x ,=

x alors
f(
1
2
x +
1
2
x) <
1
2
f( x) +
1
2
f(
x) = inf
IR
N
f,
ce qui est impossible ; donc x =

x.
Remarque 3.9 Ce thorme ne donne pas lexistence. Par exemple dans le cas N = 1 la fonction f dnie par
f(x) = e
x
natteint pas son minimumn ; en effet, inf
IR
N
f = 0 et f(x) ,= 0 pour tout x IR, et pourtant f est
strictement convexe.
Par contre, si on runit les hypothses des thormes 3.5 et 3.8, on obtient le rsultat dexistence et unicit suivant :
Thorme 3.10 (Existence et unicit) Soit E = IR
N
, et soit f : E IR. On suppose que :
(i) f continue,
(ii) f(x) +quand |x| +,
(iii) f est strictement convexe ;
alors il existe un unique x IR
N
tel que f( x) = inf
IR
N
f.
Remarque 3.11 Le thorme reste vrai (voir cours de matrise) si E est un espace de Hilbert ; on a besoin dans
ce cas pour la partie existence des hypothses (i), (ii) et de la convexit de f.
Proposition 3.12 (1re caractrisation de la convexit) Soit E un espace vectoriel norm (sur IR) et f C
1
(E, IR)
alors :
1. f convexe si et seulement si f(y) f(x) + Df(x)(y x), pour tout couple (x, y) E
2
,
2. f est strictement convexe si et seulement si f(y) > f(x) + Df(x)(y x) pour tout couple (x, y) E
2
tel
que x ,= y.
Dmonstration
Dmonstration de 1.
() Supposons que f est convexe : soit (x, y) E
2
; on veut montrer que f(y) f(x) + Df(x)(y x). Soit
t [0, 1], alors f(ty + (1 t)x) tf(y) + (1 t)f(x) grce au fait que f est convexe. On a donc :
f(x + t(y x)) f(x) t(f(y) f(x)). (3.6)
Comme f est diffrentiable, f(x+t(y x)) = f(x) +Df(x)(t(y x)) +t(t) o (t) tend vers 0 lorsque t tend
vers 0. Donc en reportant dans (3.6),
(t) + Df(x)(y x) f(y) f(x), t ]0, 1[.
En faisant tendre t vers 0, on obtient alors :
f(y) Df(x)(y x) + f(x).
() Montrons maintenant la rciproque : Soit (x, y) E
2
, et t ]0, 1[ (pour t = 0 ou = 1 on na rien dmontrer).
On veut montrer que f(tx+(1t)y) tf(x)+(1t)f(y). On pose z = tx+(1t)y. On a alors par hypothse :
f(y) f(z) + Df(z)(y z),
et f(x) f(z) + Df(z)(x z).
En multipliant la premire ingalit par 1 t, la deuxime par t et en les additionnant, on obtient :
(1 t)f(y) + tf(x) f(z) + (1 t)Df(z)(y z) + tDf(z)(x z)
(1 t)f(y) + tf(x) f(z) + Df(z)((1 t)(y z) + t(x z)).
Et comme (1 t)(y z) + t(x z) = 0, on a donc (1 t)f(y) + tf(x) f(z) = f(tx + (1 t)y).
Dmonstration de 2
() On suppose que f est strictement convexe, on veut montrer que f(y) > f(x) + Df(x)(y x) si y ,= x.
Soit donc (x, y) E
2
, x ,= y. On pose z =
1
2
(y x), et comme f est convexe, on peut appliquer la partie 1. du
thorme et crire que f(x + z) f(x) + Df(x)(z). On a donc f(x) + Df(x)(
yx
2
) f(
x+y
2
). Comme f est
strictement convexe, ceci entrane que f(x) + Df(x)(
yx
2
) <
1
2
(f(x) + f(y)), do le rsultat.
() La mthode de dmonstration est la mme que pour le 1.
Proposition 3.13 (Caractrisation des points tels que f( x) = inf
E
f)
Soit E espace vectoriel norm et f une fonction de E dans IR. On suppose que f C
1
(E, IR) et que f est
convexe. Soit x E. Alors :
f( x) = inf
E
f Df( x) = 0.
En particulier si E = IR
N
alors f( x) = inf
xIR
N
f(x) f( x) = 0.
Dmonstration
() Supposons que f( x) = inf
E
f alors on sait (voir Proposition 3.3) que Df( x) = 0 (la convexit est inutile).
() Si f est convexe et diffrentiable, daprs la proposition 3.12, on a : f(y) f( x) + Df( x)(y x) pour tout
y E et comme par hypothse Df( x) = 0, on en dduit que f(y) f( x) pour tout y E. Donc f( x) = inf
E
f.
Proposition 3.14 (2me caractrisation de la convexit) Soit E = IR
N
et f C
2
(E, IR). Soit H
f
(x) la hes-
sienne de f au point x, i.e. (H
f
(x))
i,j
=
2
i,j
f(x). Alors
1. f est convexe si et seulement si H
f
(x) est symtrique et positive pour tout x E (c..d. H
f
(x)
t
= H
f
(x)
et H
f
(x)y y 0 pour tout y IR
N
)
2. f est strictement convexe si H
f
(x) est symtrique dnie positive pour tout x E. (Attention la rciproque
est fausse.)
Dmonstration
Dmonstration de 1.
() Soit f convexe, on veut montrer que H
f
(x) est symtrique positive. Il est clair que H
f
(x) est symtrique car
2
i,j
f =
2
j,i
f car f est C
2
. Par dnition, H
f
(x) = D(f(x)) et f C
1
(IR
N
, IR
N
). Soit (x, y) E
2
, comme
f est convexe et de classe C
1
, on a, grce la proposition 3.12 :
f(y) f(x) +f(x) (y x). (3.7)
Soit C
2
(IR, IR) dnie par (t) = f(x + t(y x)). Alors :
f(y) f(x) = (1) (0) =
_
1
0
(t)dt = [
(t)(t 1)]
1
0

_
1
0
(t)(t 1)dt,
cest dire : f(y) f(x) =
(0) +
_
1
0

(t)(1 t)dt. Or
(t) = f(x + t(y x)) (y x), et
(t) = D(f(x + t(y x))(y x) (y x) = H

f
(x + t(y x))(y x) (y x).
On a donc :
f(y) f(x) = f(x)(y x) +
_
1
0
H
f
(x + t(y x))(y x) (y x)(1 t)dt. (3.8)
Les ingalits (3.7) et (3.8) entranent :
_
1
0
H
f
(x+t(y x))(y x) (y x)(1 t)dt 0 x, y E. On a donc :
_
1
0
H
f
(x + tz)z z(1 t)dt 0 x, z E. (3.9)
En xant x E, on crit (3.9) avec z = y, > 0, y IR
N
. On obtient :
2
_
1
0
H
f
(x + ty)y y(1 t)dt 0 x, y E, > 0, et donc :
_
1
0
Hf(x + ty)y y(1 t)dt 0 > 0.
Pour (x, y) E
2
x, H
f
(x + ty) tend vers H
f
(x) uniformment lorsque 0, pour t [0, 1]. On a donc :
_
1
0
H
f
(x)y y(1 t)dt 0, c..d.
1
2
H
f
(x)y y 0.
3.3. ALGORITHMES DOPTIMISATION SANS CONTRAINTE CHAPITRE 3. OPTIMISATION
Donc pour tout (x, y) (IR
N
)
2
, H
f
(x)y y 0 donc H
f
(x) est positive.
() Montrons maintenant la rciproque : On suppose que H
f
(x) est positive pour tout x E. On veut dmontrer
que f est convexe ; on va pour cela utiliser la proposition 3.12 et montrer que : f(y) f(x) + f(x) (y x)
pour tout (x, y) E
2
. Grce (3.8), on a :
f(y) f(x) = f(x) (y x) +
_
1
0
H
f
(x + t(y x))(y x) (y x)(1 t)dt.
Or H
f
(x + t(y x))(y x) (y x) 0 pour tout couple (x, y) E
2
, et 1 t 0 sur [0, 1]. On a donc
f(y) f(x) +f(x) (y x) pour tout couple (x, y) E
2
. La fonction f est donc bien convexe.
Dmonstration de 2.
() On suppose que H
f
(x) est strictement positive pour tout x E, et on veut montrer que f est strictement
convexe. On va encore utiliser la caractrisation de la proposition 3.12. Soit donc (x, y) E
2
tel que y ,= x.
Alors :
f(y) = f(x) + f(x) (y x) +
_
1
0
H
f
(x + t(y x))(y x) (y x)
. .
>0 si x=y
(1 t)
. .
=0 si t]0,1[
dt.
Donc f(y) > f(x) +f(x)(y x) si x ,= y, ce qui prouve que f est strictement convexe.
Contre-exemple Pour montrer que la rciproque de 2. est fausse, on propose le contre-exemple suivant : Soit
N = 1 et f C
2
(IR, IR), on a alors H
f
(x) = f
(x). Si f est la fonction dnie par f(x) = x

4
, alors f est
strictement convexe car f
(x) = 12x
2
0, mais f
(0) = 0.
Cas dune fonctionnelle quadratique Soient A /
N
(IR), b IR
N
, et f la fonction de IR
N
dans IR
N
dnie
par f(x) =
1
2
Ax x b x. Alors f C
(IR
N
, IR). Le calcul du gradient de f et de sa hessienne font lobjet de
lexercice 68 : on montre que
f(x) =
1
2
(Ax + A
t
x) b.
Donc si A est symtrique f(x) = Ax b. Le calcul de la hessienne de f donne :
H
f
(x) = D(f(x)) =
1
2
(A + A
t
).
On en dduit que si A est symtrique, H
f
(x) = A. On peut montrer en particulier (voir exercice 68) que si A est
symtrique dnie positive alors il existe un unique x IR
N
tel que f( x) f(x) pour tout x IR
N
, et que ce x
est aussi lunique solution du systme linaire Ax = b.
3.3 Algorithmes doptimisation sans contrainte
Soit E = IR
N
et f C(E, IR). On suppose quil existe x E tel que f( x) = inf
E
f. On cherche calculer x
(si f est de classe C
1
, on a ncessairement f( x) = 0). On va donc maintenant dvelopper des algorithmes (ou
mthodes de calcul) du point x qui ralise le minimum de f.
3.3.1 Mthodes de descente
Dnition 3.15 Soient f C(E, IR) et E = IR
N
.
1. Soit x E, on dit que w E 0 est une direction de descente en x sil existe
0
> 0 tel que
f(x + w) f(x) [0,
0
]
2. Soit x E, on dit que w E 0 est une direction de descente stricte en x si sil existe
0
> 0 tel que
f(x + w) < f(x) ]0,
0
].
3. Une mthode de descente" pour la recherche de x tel que f( x) = inf
E
f consiste construire une suite
(x
n
)
n
de la manire suivante :
(a) Initialisation x
0
E ;
(b) Itration n : on suppose x
0
. . . x
n
connus (n 0) ;
i. On cherche w
n
direction de descente stricte de x
n
ii. On prend x
n+1
= x
n
+
n
w
n
avec
n
> 0 bien choisi".
Proposition 3.16 Soient E = IR
N
, f C
1
(E, IR), x E et w E 0 ; alors
1. si w direction de descente en x alors w f(x) 0
2. si f(x) ,= 0 alors w = f(x) est une direction de descente stricte en x.
Dmonstration
1. Soit w E 0 une direction de descente en x alors par dnition,
0
> 0 tel que f(x + w) f(w), [0,
0
].
Soit la fonction de IR dans IR dnie par : () = f(x + w). On a C
1
(IR, IR) et
() =
f(x+w) w. Comme w est une direction de descente, on peut crire : () (0), [0,
0
], et donc
]0,
0
[,
() (0)
0;
en passant la limite lorsque tend vers 0, on dduit que
(0) 0, c..d. f(x) w 0.

2. Soit w = f(x) ,= 0. On veut montrer quil existe
0
> 0 tel que si ]0,
0
] alors f(x + w) < f(x)
ou encore que () < (0) o est la fonction dnie en 1 ci-dessus. On a :
(0) = f(x) w =
[f(x)[
2
< 0. Comme
est continue, il existe

0
> 0 tel que si [0,
0
] alors
() < 0. Si ]0,
0
]
alors () (0) =
_
(t)dt < 0, et on a donc bien () < (0) pour tout ]0,

0
], ce qui prouve que
w est une direction de descente stricte en x.
Algorithme du gradient pas xe Soient f C
1
(E, IR) et E = IR
N
. On se donne > 0.
_
_
Initialisation : x
0
E,
Itration n : x
n
connu, (n 0)
w
n
= f(x
n
),
x
n+1
= x
n
+ w
n
.
(3.10)
Thorme 3.17 (Convergence du gradient pas xe) Soient E = IR
N
et f C
1
(E, IR) On suppose que :
1. > 0 tel que (f(x) f(y)) (x y) |x y|
2
, (x, y) E
2
,
2. M > 0 tel que |f(x) f(y)| M|x y|, (x, y) E
2
,
alors :
1. f est strictement convexe,
2. f(x) +quand [x[ +,
3. il existe un et un seul x E tel que f( x) = inf
E
f (consquence de 1. et 2.),
4. si 0 < <
2
M
2
alors la suite (x
n
)
nIN
construite par (3.10) converge vers x lorsque n +.
La dmonstration de ce thorme fait lobjet de lexercice 70.
Algorithme du gradient pas optimal Lide de lalgorithme du gradient pas optimal est dessayer de calculer
chaque itration le paramtre qui minimise la fonction dans la direction de descente donne par le gradient. Soient
f C
1
(E, IR) et E = IR
N
, cet algorithme scrit :
_
_
Initialisation : x
0
IR
N
.
Itration n : x
n
connu.
On calcule w
n
= f(x
n
).
On choisit
n
0 tel que
f(x
n
+
n
w
n
) f(x
n
+ w
n
) 0.
On pose x
n+1
= x
n
+
n
w
n
.
(3.11)
Les questions auxquelles on doit rpondre pour sassurer du bien fond de ce nouvel algorithme sont les suivantes :
1. Existetil
n
tel que f(x
n
+
n
w
n
) f(x
n
+ w
n
), 0 ?
2. Comment calculeton
n
?
3. La suite (x
n
)
nIN
construite par lalgorithme convergetelle?
La rponse aux questions 1. et 3. est apporte par le thorme suivant :
Thorme 3.18 (Convergence du gradient pas optimal)
Soit f C
1
(IR
N
, IR) telle que f(x) +quand [x[ +. Alors :
1. La suite (x
n
)
nIN
est bien dnie par (3.11). On choisit
n
> 0 tel que f(x
n
+
n
w
n
) f(x
n
+ w
n
)
0 (
n
existe mais nest pas ncessairement unique).
2. La suite (x
n
)
nIN
est borne et si (x
n
k
)
kIN
est une sous suite convergente, i.e. x
n
k
x lorsque k +,
on a ncessairement f(x) = 0. De plus si f est convexe on a f(x) = inf
IR
N
f
3. Si f est strictement convexe on a alors x
n
x quand n +, avec f( x) = inf
IR
N
f
La dmonstration de ce thorme fait lobjet de lexercice 72. On en donne ici les ides principales.
1. On utilise lhypothse f(x) + quand [x[ + pour montrer que la suite (x
n
)
nIN
construite par
(3.11) existe : en effet, x
n
connu,
1er cas : si f(x
n
) = 0, alors x
n+1
= x
n
et donc x
p
= x
n
p n,
2me cas : si f(x
n
) ,= 0, alors w
n
= f(x
n
) est une direction de descente stricte.
Dans ce deuxime cas, il existe donc
0
tel que
f(x
n
+ w
n
) < f(x
n
), ]0,
0
]. (3.12)
De plus, comme w
n
,= 0, [x
n
+ w
n
[ + quand + et donc f(x
n
+ w
n
) + quand
+. Il existe donc M > 0 tel que si > M alors f(x
n
+ w
n
) f(x
n
). On a donc :
inf
IR
+
f(x
n
+ w
n
) = inf
[0,M]
f(x
n
+ w
n
).
Comme [0, M] est compact, il existe
n
[0, M] tel que f(x
n
+
n
w
n
) = inf
[0,M]
f(x
n
+ w
n
). De plus
on a grce (3.12) que
n
> 0.
2. Le point 2. dcoule du fait que la suite (f(x
n
))
nIN
est dcroissante, donc la suite (x
n
)
nIN
est borne (car
f(x) + quand [x[ +). On montre ensuite que si x
n
k
x lorsque k + alors f( x) = 0
(ceci est plus difcile, les tapes sont dtailles dans lexercice 72).
Reste la question du calcul de
n
. Soit la fonction de IR
+
dans IR dnie par : () = f(x
n
+ w
n
). Comme
n
> 0 et (
n
) () pour tout IR
+
, on a ncessairement
(
n
) = f(x
n
+
n
w
n
)w
n
= 0. Considrons
le cas dune fonctionnelle quadratique, i.e. f(x) =
1
2
Ax xb x, A tant une matrice symtrique dnie positive.
Alors f(x
n
) = Ax
n
b, et donc f(x
n
+
n
w
n
) w
n
= (Ax
n
+
n
Aw
n
b) w
n
= 0. On a ainsi dans ce cas
une expression explicite de
n
:
n
=
(b Ax
n
) w
n
Aw
n
w
n
,
(en effet, Aw
n
w
n
,= 0 car A est symtrique dnie positive).
Dans le cas dune fonction f gnrale, on na pas en gnral de formule explicite pour
n
. On peut par exemple le
calculer en cherchant le zro de f
par la mthode de la scante ou la mthode de Newton. . .

Lalgorithme du gradient pas optimal est donc une mthode de minimisation dont on a prouv la convergence. Ce-
pendant, cette convergence est lente (en gnral linaire), et de plus, lalgorithme ncessite le calcul du paramtre
n
optimal.
Algorithme du gradient pas variable Dans ce nouvel algorithme, on ne prend pas forcment le paramtre
optimal pour , mais on lui permet dtre variable dune itration lautre. Lalgorithme scrit :
_
_
Initialisation : x
0
IR
N
.
Itration : On suppose x
n
connu ; soit w
n
= f(x
n
) o : w
n
,= 0
(si w
n
= 0 lalgorithme sarrte).
On prend
n
> 0 tel que f(x
n
+
n
w
n
) < f(x
n
).
On pose x
n+1
= x
n
+
n
w
n
.
(3.13)
Thorme 3.19 (Convergence du gradient pas variable)
Soit f C
1
(IR
N
, IR) une fonction telle que f(x) +quand [x[ +, alors :
1. On peut dnir une suite (x
n
)
nIN
par (3.13).
2. La suite (x
n
)
nIN
est borne. Si x
n
k
x quand k + et si f(x
n
k
) 0 quand n + alors
f(x) = 0. Si de plus f est convexe on a f(x) = inf
IR
N
f
3. Si f(x
n
) 0 quand n +et si f est strictement convexe alors x
n
x et f( x) = inf
IR
N
f.
Dmonstration : Elle est facile partir de la dmonstration du thorme prcdent : reprendre en ladaptant
lexercice 72.
3.3.2 Algorithmes du gradient conjugu
La mthode du gradient conjugu a t dcouverte en 1952 par Hestenes et Steifel pour la minimisation de fonc-
tionnelles quadratiques, cest- -dire de fonctionnelles de la forme
f(x) =
1
2
Ax x b x,
o A /
N
(IR) est une matrice symtrique dnie positive et b IR
N
. On rappelle (voir section (3.2.2) et
exercice (68)) que f( x) = inf
IR
N
f A x = b.
Dnition 3.20 (Vecteurs conjugus) Soit A /
N
(IR) une matrice symtrique dnie positive,
1. Deux vecteurs v et w de IR
N
0 sont dits A-conjugus si Av w = w Av = 0.
2. Une famille (w
(1)
, . . . , w
(p)
) de IR
N
0 est dite A-conjugue si w
(i)
Aw
(j)
= 0 pour tout couple
(i, j) 1, . . . , p
2
tel que i ,= j.
Proposition 3.21 Soit A /
N
(IR) une matrice symtrique dnie positive, (w
(1)
, . . . , w
(p)
) une famille de
IR
N
, alors :
1. si la famille (w
(1)
, . . . , w
(p)
) est A-conjugue alors elle est libre ;
2. dans le cas o p = N, si la famille (w
(1)
, . . . , w
(N)
) est A-conjugue alors cest une base de IR
N
.
Dmonstration : Le point 2. est immdiat ds quon a dmontr le point 1. Supposons donc que (w
(1)
, . . . , w
(p)
)
est une famille A-conjugue, i.e. w
(i)
,= 0, i et w
(i)
Aw
(j)
= 0 si i ,= j ; soit (
i
)
i=1,...,p
IR, supposons
que

p
i=1

i
w
(i)
= 0, on a donc
p
i=1

i
w
(i)
Aw
(j)
= 0 et donc
j
w
(j)
Aw
(j)
= 0. Or w
(j)
Aw
(j)
,= 0
car w
(j)
,= 0 et A est symtrique dnie positive. On en dduit que
j
= 0 pour j = 1, . . . , p. La famille
(w
(1)
, . . . , w
(p)
) est donc libre.
Proposition 3.22 Soit A /
N
(IR) une matrice symtrique dnie positive, b IR
N
et f une fonction dnie
de IR
N
dans IR
N
par f(x) =
1
2
Ax x b x. On suppose que la suite (x
(n)
)
n
est dnie par :
Initialisation x
(0)
IR
N
Itration n x
(n+1)
= x
(n)
+
n
w
(n)
o
1) w
(n)
,= 0 est une direction de descente stricte en x
(n)
2)
n
est optimal dans la direction w
(n)
.
Si la famille (w
(0)
, . . . , w
(N1)
) est une famille A-conjugue alors x
(N)
= x avec A x = b.
Dmonstration Soit w
(n)
direction de descente stricte en x
(n)
et
n
optimal dans la direction w
(n)
; alors
n
> 0
et f(x
(n+1)
) w
(n)
= 0, cest--dire
(Ax
(n+1)
b) w
(n)
= 0 (3.14)
On va montrer que
(Ax
(N)
b) w
(p)
= 0, p 0, . . . , N 1.
Comme (w
(0)
, . . . , w
(N1)
) est une base de IR
N
, on en dduit alors que Ax
(N)
= b, cest--dire x
(N)
= x.
Remarquons dabord grce (3.14) que (Ax
(N)
b) w
(N1)
= 0. Soit maintenant p < N 1. On a :
Ax
(N)
b = A(x
(N1)
+
N1
w
(N1)
) b = Ax
(N1)
b +
N1
Aw
(N1)
.
On a donc en itrant,
Ax
(N)
b = Ax
(p+1)
b +
N1
Aw
(N1)
+ . . . +
p+1
Aw
(p+1)
, p 1
. On en dduit que
(Ax
(N)
b) w
(p)
= (Ax
(p+1)
b) w
(p)
+
N1
j=p+1
(
i
Aw
j
w
(p)
).
Comme les directions w
i
sont conjugues, on a donc (Ax
(N)
b) w
(p)
= 0 pour tout p = 0 . . . , N 1 et donc
Ax
(N)
= b.
Le rsultat prcdent suggre de rechercher une mthode de minimisation de la fonction quadratique f selon le
principe suivant : Pour x
(0)
. . . x
(n)
connus, w
(0)
, . . . , w
(n1)
connus, on cherche w
(n)
tel que :
1. w
(n)
soit une direction de descente stricte en x
(n)
,
2. w
(n)
soit A-conjugu avec w
(p)
pour tout p < n.
Si on arrive trouver w
(n)
on prend alors x
(n+1)
= x
(n)
+
n
w
(n)
avec
n
(n)
. La
proprit prcdente donne x
(N)
= x avec A x = b.
Dnition 3.23 (Mthode du gradient conjugu) Soit A /
N
(IR) une matrice symtrique dnie positive,
b IR
N
et f(x) =
1
2
Ax x b x.
_
_
Initialisation
Soit x
(0)
IR
N
, et soit r
(0)
= b Ax
(0)
= f(x
(0)
).
1) Si r
(0)
= 0, alors Ax
(0)
= b et donc x
(0)
= x,
auquel cas lalgorithme sarrte.
2) Si r
(0)
,= 0, alors on pose w
(0)
= r
(0)
, et on choisit
0
optimal
dans la direction w
(0)
.
On pose alors x
(1)
= x
(0)
+
0
w
(0)
.
Itration 1 n N 1 :
On suppose x
(0)
, . . . , x
(n)
et w
(0)
, . . . , w
(n1)
connus et on pose
r
(n)
= b Ax
(n)
.
1) Si r
(n)
= 0 on a Ax
(n)
= b donc x
(n)
= x
2) Si r
(n)
(n)
= r
(n)
+
n1
w
(n1)
avec
n1
tel que w
(n)
Aw
(n1)
= 0,
et on choisit
n
(n)
;
On pose alors x
(n+1)
= x
(n)
+
n
w
(n)
.
(3.15)
Thorme 3.24 Soit A une symtrique dnie positive, A /
N
(IR), b IR
N
et f(x) =
1
2
Ax x b x alors
(3.15) dnit une suite (x
(n)
)
n=0,...,p
avec p N telle que x
(N)
= x avec A x = b.
Dmonstration
Initialisation Si r
(0)
= 0, alors Ax
(0)
= b et donc x
(0)
= x auquel cas p = 0. Si r
(0)
,= 0, comme w
(0)
=
r
(0)
= b Ax
(0)
= f(x
(0)
), w
(0)
est une direction de descente stricte ; il existe donc
0
qui minimise la
fonction dnie de IR dans IR par () = f(x
(0)
+ w
(0)
). La valeur de
0
est obtenue en demandant que
() = 0, ce qui donne :
0
=
r
(0)
w
(0)
Aw
(0)
w
(0)
. Llment x
(1)
= x
(0)
+
0
w
(0)
est donc bien dni. Notons que
r
(1)
= Ax
(1)
b = r
(0)
0
Aw
(0)
, et donc r
(1)
w
(0)
= 0.
Itration n
On suppose x
(0)
, . . . , x
(n)
et w
(0)
, . . . , w
(n)
connus, et on pose r
(n)
= b Ax
(n)
.
Si r
(n)
= 0 alors Ax
(n)
= b et donc x
(n)
= x auquel cas lalgorithme sarrte et p = n.
Si r
(n)
,= 0, on pose w
(n)
= r
(n)
+
n1
w
(n1)
. Comme w
(n1)
,= 0, on peut choisir
n1
tel que w
(n)
Aw
(n1)
= 0, c..d. (r
(n)
+
n1
w
(n1)
) Aw
(n1)
= 0, en prenant
n1
=
r
(n)
Aw
(n1)
w
(n1)
Aw
(n1)
.
Montrons maintenant que w
(n)
est une direction de descente stricte en x
(n)
. On a :
w
(n)
(f(x
(n)
)) = (r
(n)
+
n1
w
(n1)
) (f(x
(n)
))
= (f(x
(n)
) +
n1
w
n1
) (f(x
n
))
= [f(x
(n)
)[
2
n1
w
(n1)
f(x
(n)
).
Or w
(n1)
f(x
(n)
) = 0 car
n1
est le paramtre de descente optimal en x
(n1)
dans la direction w
(n1)
, on
a donc :
w
(n)
f(x
(n)
) = [f(x
(n)
)[
2
= [r
(n)
[
2
> 0
ceci donne que w
(n)
(n)
On peut choisir
n
> 0 optimal en x
(n)
dans la
direction w
(n)
, et le calcul de
n
(similaire celui de ltape dinitialisation) donne
n
=
r
(n)
w
(n)
Aw
(n)
w
(n)
. (3.16)
On peut donc bien dnir x
(n+1)
= x
(n)
+
n
w
(n)
. Remarquons que ce choix de
n
entrane que
r
(n)
w
(n1)
= 0. (3.17)
Pour pouvoir appliquer la proposition 3.22, il reste montrer que la famille w
(0)
, . . . , w
(n)
est A-conjugue. Ceci
est lobjet de la proposition 3.26 qui suit. Grce cette proposition, on obtient que si r
(n)
,= 0, n = 0, . . . , N 1,
la famille (w
(0)
, . . . , w
(N1)
) est donc A-conjugue, et w
(n)
(n)
pour tout
n N 1. On en dduit par la proposition 3.22 que x
(N)
= x.
La dmonstration de la proposition 3.26 que lon vient dutiliser se fait par rcurrence, et ncessite les petits
rsultats prliminaires noncs dans le lemme suivant :
Lemme 3.25 Sous les hypothses et notations de la dnition 3.23, on a :
n
=
r
(n)
r
(n)
w
(n)
Aw
(n)
, (3.18)
r
(n)
= r
(n1)
+
n1
Aw
(n1)
, (3.19)
r
(n)
r
(n1)
= 0, (3.20)
n1
=
r
(n)
r
(n)
r
(n1)
r
(n1)
, (3.21)
Dmonstration :
1. Comme
n
est le paramtre optimal dans la direction w
(n)
, on sait (voir (3.16)) que
n
=
r
(n)
w
(n)
Aw
(n)
w
(n)
.
Or par dnition, w
(n)
= r
(n)
+
n1
w
(n1)
, et donc w
(n)
r
(n)
= r
(n)
r
(n)
+
n1
w
(n1)
r
(n)
. Il ne reste
plus remarquer que w
(n1)
r
(n)
= 0 en raison de loptimalit de
n1
(voir (3.17)). On en dduit que
n
=
r
(n)
r
(n)
w
(n)
Aw
(n)
.
2. Par dnition, x
(n)
= x
(n1)
+
n1
w
(n1)
, donc Ax
(n)
= Ax
(n1)
+
n1
Aw
(n1)
, ce qui entrane
r
(n)
= r
(n1)
+
n1
Aw
(n1)
.
3. Par dnition, et grce (3.19), on a :
r
(n)
r
(n1)
= r
(n1)
r
(n1)
+
n1
Aw
(n1)
r
(n1)
.
Or w
(n1)
= r
(n1)
+
n1
w
(n2)
, et donc r
(n1)
= w
(n1)
n1
w
(n2)
. On en dduit que
r
(n)
r
(n1)
= r
(n1)
r
(n1)
n1
Aw
(n1)
w
(n1)
n1
n1
Aw
(n1)
w
(n2)
.
Or Aw
(n1)
w
(n2)
= 0 et par (3.18), on a r
(n1)
r
(n1)
n1
Aw
(n1)
w
(n1)
= 0.
4. Par dnition,
n1
=
r
(n)
Aw
(n1)
w
(n1)
Aw
(n1)
.
Or par (3.19), on a :
Aw
(n1)
=
1
n1
(r
(n1)
r
(n)
).
On conclut grce (3.20) et (3.18).
Proposition 3.26 Sous les hypothses et notations de la dnition 3.23, soit n IN tel que 1 n N, si r
(q)
,= 0
pour 0 q n, les proprits suivantes sont vries :
1. r
(n)
w
(q)
= 0, q = 0, . . . , n 1,
2. Vect(r
(0)
, . . . , r
(n)
) = Vect(r
(0)
, . . . , A
n
r
(0)
),
3. Vect(w
(0)
, . . . , w
(n)
) = Vect(r
(0)
, . . . , A
n
r
(0)
),
4. w
(n)
Aw
(q)
= 0, q = 0, . . . , n 1,
5. r
(n)
r
(q)
= 0, q = 0, . . . , n 1,
o V ect(w
(0)
, . . . , w
(n)
) dsigne lespace vectoriel engendr par les vecteurs w
(0)
, . . . , w
(n)
. En particulier, la
famille (w
(0)
, . . . , w
(N1)
) est A-conjugue.
Lespace Vect(r
(0)
, . . . , A
n
r
(0)
) est appel espace de Krylov.
Dmonstration :
On dmontre les proprits 1. 5 par rcurrence.
Etudions tout dabord le cas n = 1. Remarquons que r
(1)
w
(0)
= 0 en vertu de (3.17) (on rappelle que cette
proprit dcoule du choix optimal de
0
).
On a grce (3.19) :
r
(1)
= r
(0)
0
Aw
(0)
= r
(0)
0
Ar
(0)
,
car w
(0)
= r
(0)
. On a donc V ect(r
(0)
, r
(1)
) = V ect(r
(0)
, Ar
(0)
).
De plus, comme w
(0)
= r
(0)
, et w
(1)
= r
(1)
+
1
w
(0)
, on a
V ect(r
(0)
, r
(1)
) = V ect(w
(0)
, w
(1)
).
On en dduit que 2. et 3. sont vraies pour n = 1.
Enn, on a bien w
(1)
Aw
(0)
= 0 car w
(0)
et w
(1)
sont conjugues, et r
(0)
r
(1)
= 0 en vertu de (3.20).
On a ainsi montr que les proprits 1. 5. sont vries au rang n = 1. Supposons maintenant que ces proprits
soient vries jusquau rang n, et dmontrons quelles le sont encore au rang n + 1.
1. En vertu de (3.19), et par les hypothses de rcurrence 1. et 4., on a :
r
(n+1)
w
(q)
= r
(n)
w
(q)
n
Aw
(n)
w
(q)
= 0, q n 1.
De plus, (3.20) entrane r
(n+1)
w
(n)
= 0
2. Montrons que V ect(r
(0)
, r
(1)
. . . , r
(n+1)
) = V ect(r
(0)
, Ar
(0)
, . . . , A
(n+1)
r
(0)
). Pour ce faire, commenons
par remarquer que
r
(n+1)
V ect(r
(0)
, Ar
(0)
. . . , A
(n+1)
r
(0)
).
En effet, en vertu de (3.19), on a : r
(n+1)
= r
(n)
n
Aw
(n)
, et par hypothse de rcurrence, on a
r
(n)
V ect(r
(0)
, Ar
(0)
. . . , A
n
r
(0)
), et w
(n)
V ect(r
(0)
, Ar
(0)
. . . , A
n
r
(0)
).
Montrons maintenant que A
n+1
r
(0)
V ect(r
(0)
, r
(1)
. . . , r
(n+1)
). Comme r
(n+1)
V ect(r
(0)
, Ar
(0)
. . . , A
(n+1)
r
(0)
),
il existe une famille (
k
)
k=0,...,n+1
telle que
r
(n+1)
=
n+1
k=0
k
A
k
r(0) =
n
k=0
k
A
k
r(0) +
n+1
A
n+1
r
(0)
.
Or grce la proprit 1. on sait que r
(n+1)
w
(q)
= 0, q n, et donc r
(n+1)
, V ect(w
(0)
, w
(1)
. . . , w
(n)
). On
a donc
n+1
,= 0, et on peut donc crire
A
n+1
r
(0)
=
1
n+1
(r
(n+1)
k=0
k
A
k
r
(0)
) V ect(r
(0)
, r
(1)
. . . , r
(n+1)
),
par hypothse de rcurrence.
3. Montrons maintenant que
V ect(w
(0)
, w
(1)
. . . , w
(n+1)
) = V ect(r
(0)
, Ar
(0)
. . . , A
n+1
r
(0)
).
On a : w
(n+1)
= r
(n+1)
+
n
w
(n)
. Or on vient de montrer que
r
(n+1)
V ect(r
(0)
, Ar
(0)
. . . , A
n+1
r
(0)
),
et par hypothse de rcurrence, w
(n)
V ect(r
(0)
, Ar
(0)
. . . , A
n
r
(0)
). On a donc bien w
(n+1)
V ect(r
(0)
, Ar
(0)
. . . , A
n+1
r
(0)
).
Montrons que rciproquement, A
n+1
r
(0)
) V ect(w
(0)
, w
(1)
. . . , w
(n+1)
). On a montr en 2. que
A
n+1
r
(0)
=
1
n+1
(r
(n+1)
k=0
k
A
k
r
(0)
).
Or r
(n+1)
= w
(n+1)
n
w
(n)
V ect(w
(0)
, w
(1)
. . . , w
(n+1)
), et
n
k=0
k
A
k
r
(0)
) V ect(r
(0)
, r
(1)
. . . , r
(n)
) = V ect(w
(0)
, w
(1)
. . . , w
(n)
),
par hypothse de rcurrence. On en dduit que
A
n+1
r
(0)
V ect(w
(0)
, w
(1)
. . . , w
(n)
).
4. On veut maintenant montrer que w
(n+1)
Aw
(q)
= 0, q n. Pour q = n, cette proprit est vrie en raison
du choix de w
(n+1)
(conjugue avec w
(n)
). Pour q < n, on calcule :
w
(n+1)
Aw
(q)
= r
(n+1)
Aw
(q)
+
n
w
(n)
Aw
(q)
. (3.22)
Or w
(n)
Aw
(q)
= 0 pour tout q n 1 par hypothse de rcurrence. De plus, toujours par hypothse de
rcurrence, w
(q)
V ect(r
(0)
, Ar
(0)
. . . , A
q
r
(0)
), et donc
Aw
(q)
V ect(r
(0)
, Ar
(0)
. . . , A
q+1
r
(0)
) = V ect(w
(0)
, w
(1)
. . . , w
(q+1)
).
On a montr en 1. que r
(n+1)
w
(k)
= 0 pour tout k n, on a donc r
(n+1)
Aw
(q)
= 0, et en reportant dans
(3.22), on obtient donc que w
(n+1)
Aw
(q)
= 0 pour tout q n.
5. Il reste montrer que r
(n+1)
r
(q)
= 0 pour tout q n. Pour q = n, on la dmontr dans le lemme 3.25. Pour
q n 1, on a
r
(n+1)
r
(q)
= (r
(n)
n
Aw
(n)
) r
(q)
= r
(n)
r
(q)
n
Aw
(n)
r
(q)
.
Or r
(n)
r
(q)
= 0 par hypothse de rcurrence, et Aw
(n)
r
(q)
= w
(n)
Ar
(q)
; or Ar
(q)
V ect(r
(0)
, . . . , r
(q)
et
w
(n)
r
(k)
= 0 pour tout k n 1 par hypothse de rcurrence 1. On en dduit que r
(n+1)
r
(q)
= 0.
Ceci termine la dmonstration de la proposition (3.26).
Remarque 3.27 (Gradient conjugu prconditionn)
1. On a vu que
n1
=
r
(n)
r
(n)
r
(n1)
r
(n1)
et que
n
=
r
(n)
r
(n)
w
(n)
Aw
(n)
.
On peut calculer le nombre doprations ncessaires pour calculer x (c..d. pour calculer x
(N)
, sauf dans le cas
miraculeux o x
(N)
= x pour n < N) et montrer (exercice) que :
N
gc
= 2N
3
+O(N
2
)
On rappelle que le nombre doprations pour Choleski est
N
3
6
donc la mthode nest pas intressante comme
mthode directe car elle demande 12 fois plus doprations que Choleski.
2. On peut alors se demander si la mthode est intressante comme mthode itrative, c..d. si on peut esprer que
x
(n)
soit proche de x" pour n N". Malheureusement, si la dimension N du systme est grande, ceci nest
pas le cas en raison de laccumulation des erreurs darrondi. Il est mme possible de devoir effectuer plus de N
itrations pour se rapprocher de x. Cependant, dans les annes 80, des chercheurs se sont rendus compte que ce
dfaut pouvait tre corrig condition dutiliser un prconditionnement". Donnons par exemple le principe du
prconditionnement dit de Choleski incomplet".
On calcule une approximation" de la matrice de Choleski de A c..d. quon cherche L triangulaire infrieure
inversible telle que A soit proche de LL
t
, en un sens dnir. Si on pose y = L
t
x, alors le systme Ax = b
peut aussi scrire L
1
A(L
t
)
1
y = L
1
b, et le systme (L
t
)
1
y = x est facile rsoudre car L
t
est triangulaire
suprieure. Soit B /
N
(IR) dnie par B = L
1
A(L
t
)
1
, alors
B
t
= ((L
t
)
1
)
t
A
t
(L
1
)
t
= L
1
A(L
t
)
1
= B
et donc B est symtrique. De plus,
Bx x = L
1
A(L
t
)
1
x x = A(L
t
)
1
x (L
t
)
1
x,
et donc Bxx > 0 si x ,= 0. La matrice B est donc symtrique dnie positive. On peut donc appliquer lalgorithme
du gradient conjugu la recherche du minimum de la fonction f dnie par
f(y) =
1
2
By y L
1
b y.
On en dduit lexpression de la suite (y
(n)
)
nIN
et donc (x
(n)
)
nIN
.
On peut alors montrer (voir exercice 77) que lalgorithme du gradient conjugu prconditionn ainsi obtenu peut
scrire directement pour la suite (x
(n)
)
nIN
, de la manire suivante :
Itration n On pose r
(n)
= b Ax
(n)
,
on calcule s
(n)
solution de LL
t
s
(n)
= r
(n)
.
On pose alors
n1
=
s
(n)
r
(n)
s
(n1)
r
(n1)
et w
(n)
= s
(n)
+
n1
w
(n1)
.
Le paramtre optimal
n
a pour expression :
n
=
s
(n)
r
(n)
Aw
(n)
w
(n)
, et on pose alors x
(n+1)
= x
(n)
+
n
w
(n)
.
Le choix de la matrice L peut se faire par exemple dans le cas dune matrice creuse, en effectuant une factorisation
LL
t
" incomplte, qui consiste ne remplir que certaines diagonales de la matrice L pendant la factorisation, et
laisser les autres 0.
On peut gnraliser le principe de lalgorithme du gradient conjugu une fonction f non quadratique. Pour cela,
on reprend le mme algorithme que (3.15), mais on adapte le calcul de
n1
et
n
.
Itration n :
A x
(0)
, . . . , x
(n)
et w
(0)
, . . . , w
(n1)
connus, on calcule r
(n)
= f(x
(n)
).
Si r
(n)
= 0 alors Ax
(n)
= b et donc x
(n)
= x auquel cas lalgorithme sarrte.
Si r
(n)
,= 0, on pose w
(n)
= r
(n)
+
n1
w
(n1)
o
n1
peut tre choisi de diffrentes manires :
1re mthode (FletcherReeves)
n1
=
r
(n)
r
(n)
r
(n1)
r
(n1)
,
2me mthode (PolakRibire)
n1
=
(r
(n)
r
(n1)
) r
(n)
r
(n1)
r
(n1)
.
On pose alors x
(n+1)
= x
(n)
+
n
w
(n)
, o
n
est choisi, si possible, optimal dans la direction w
(n)
.
La dmonstration de la convergence de lalgorithme de PolakRibire fait lobjet de lexercice 78 page 143.
En rsum, la mthode du gradient conjugu est trs efcace dans le cas dune fonction quadratique condition
de lutiliser avec prconditionnement. Dans le cas dune fonction non quadratique, le prconditionnement nexiste
pas et il vaut donc mieux la rserver au cas N petit".
3.3.3 Mthodes de Newton et QuasiNewton
Soit f C
2
(IR
N
, IR) et g = f C
1
(IR
N
, IR
N
). On a dans ce cas :
f(x) = inf
IR
N
f g(x) = 0.
Si de plus f est convexe alors on a g(x) = 0 f(x) = inf
IR
N
f. Dans ce cas dquivalence, on peut employer la
mthode de Newton pour minimiser f en appliquant lalgorithme de Newton pour chercher un zro de g = f.
On a D(f) = H
f
o H
f
(x) est la matrice hessienne de f en x. La mthode de Newton scrit dans ce cas :
_
Initialisation x
(0)
IR
N
,
Itration n H
f
(x
(n)
)(x
(n1)
x
(n)
) = f(x
(n)
).
(3.23)
Remarque 3.28 La mthode de Newton pour minimiser une fonction f convexe est une mthode de descente. En
effet, si H
f
(x
n
) est inversible, on a x
(n+1)
x
(n)
= [H
f
(x
(n)
)]
1
(f(x
(n)
)) soit encore x
(n+1)
= x
(n)
+
n
w
(n)
o
n
= 1 et w
(n)
= [H
f
(x
(n)
)]
1
(f(x
(n)
)). Si f est convexe, H
f
est une matrice symtrique positive
(dj vu). Comme on suppose H
f
(x
(n)
) inversible par hypothse, la matrice H
f
(x
(n)
) est donc symtrique dnie
positive.
Donc w
(n)
est alors une direction de descente stricte si w
(n)
,= 0 (donc f(x
(n)
) ,= 0). On en dduit que
w
(n)
f(x
(n)
) = [H
f
(x
(n)
)]
1
f(x
(n)
) f(x
(n)
) > 0
ce qui est une condition sufsante pour que w
(n)
soit une direction de descente stricte.
La mthode de Newton est donc une mthode de descente avec w
(n)
= H
f
(x
(n)
)(f(x
(n)
)) et
n
= 1.
On peut aussi remarquer, en vertu du thorme 2.16 page 83, que si f C
3
(IR
N
, IR), si x est tel que f( x) = 0
et si H
f
( x) = D(f)( x) est inversible alors il existe > 0 tel que si x
0
B( x, ), alors la suite (x
(n)
)
n
est
bien dnie par (3.23) et x
(n)
x lorsque n +. De plus, daprs la proposition 2.14, il existe > 0 tel que
[x
(n+1)
x[ [x
(n)
x[
2
pour tout n IN.
Remarque 3.29 (Sur limplantation numrique) La convergence de la mthode de Newton est trs rapide, mais
ncessite en revanche le calcul de H
f
(x), qui peut savrer impossible ou trop coteux.
On va maintenant donner des variantes de la mthode de Newton qui vitent le calcul de la matrice hessienne.
Proposition 3.30 Soient f C
1
(IR
N
, IR), x IR
N
tel que f(x) ,= 0, et soit B /
N
(IR) une matrice
symtrique dnie positive ; alors w = Bf(x) est une direction de descente stricte en x.
DmontrationOn a : wf(x) = Bf(x)f(x) < 0 car B est symtrique dnie positive et f(x) ,= 0 donc
w est une direction de descente stricte en x. En effet, soit la fonction de IR dans IR dnie par () = f(x+w).
Il est clair que C
1
(IR, IR),
() = f(x + w) w et
(0) = f(x) w < 0. Donc

0
> 0 tel que
() < 0 si ]0,
0
[. Par le thorme des accroissements nis, () < (0) ]0,
0
[ donc w est une
direction de descente stricte.
Mthode de Broyden La premire ide pour construire une mthode de type quasi Newton est de prendre comme
direction de descente en x
(n)
le vecteur w
(n)
= (B
(n)
)
1
(f(x
(n)
)) o la matrice B
(n)
est cense approcher
H
f
(x
(n)
) (sans calculer la drive seconde de f). On suppose x
(n)
, x
(n1)
et B
(n1)
connus. Voyons comment
on peut dterminer B
(n)
. On peut demander par exemple que la condition suivante soit satisfaite :
f(x
(n)
) f(x
(n1)
) = B
(n)
(x
(n)
x
(n1)
). (3.24)
Ceci est un systme N quations et N N inconnues, et ne permet donc pas de dterminer entirement la
matrice B
(n)
si N > 1. Voici un moyen possible pour dterminer entirement B
(n)
, d Broyden. On pose
s
(n)
= x
(n)
x
(n1)
, on suppose que s
(n)
,= 0, et on pose y
(n)
= f(x
(n)
) f(x
n1
). On choisit alors B
(n)
telle que :
_
B
(n)
s
(n)
= y
(n)
B
(n)
s = B
(n1)
s, s s
(n)
(3.25)
On a exactement le nombre de conditions quil faut avec (3.25) pour dterminer entirement B
(n)
. Ceci suggre la
mthode suivante :
InitialisationSoient x
(0)
IR
N
et B
(0)
une matrice symtrique dnie positive. On pose w
(0)
= (B
(0)
)
1
(f(x
(0)
)) ;
alors w
(0)
est une direction de descente stricte sauf si f(x
(0)
) = 0.
On pose alors x
(1)
= x
(0)
+
(0)
w
(0)
, o
(0)
(0)
.
Itration n On suppose x
(n)
, x
(n1)
et B
(n1)
connus, (n 1), et on calcule B
(n1)
par (3.25). On pose
w
(n)
= (B
(n)
)
1
(f(x
(n)
)). On choisit
(n)
optimal en x
(n)
dans la direction w
(n)
, et on pose x
(n+1)
=
x
(n)
+
(n)
w
(n)
.
Le problme avec cet algorithme est que si la matrice est B
(n1)
symtrique dnie positive, la matrice B
(n)
ne
lest pas forcment, et donc w
(n)
nest pas forcment une direction de descente stricte. On va donc modier cet
algorithme dans ce qui suit.
Mthode de BFGS La mthode DFGS (de Broyden
1
, Fletcher
2
, Goldfarb
3
et Shanno
4
) cherche construire
B
(n)
proche de B
(n1)
, telle que B
(n)
vrie (3.24) et telle que si B
(n1)
est symtrique dnie positive alors
B
(n)
est symtrique dnie positive. On munit /
N
(IR) dune norme induite par un produit scalaire, par exemple
si A /
N
(IR) et A = (a
i,j
)
i,j=1,...,N
on prend |A| =
_
N
i,j=1
a
2
i,j
_
1/2
. /
N
(IR) est alors un espace de
Hilbert.
On suppose x
(n)
, x
(n1)
, B
(n1)
connus, et on dnit
(
n
= B /
N
(IR)[B symtrique, vriant (3.24),
qui est une partie de /
N
(IR) convexe ferme non vide. On choisit alors B
(n)
= P
Cn
B
(n1)
o P
Cn
dsigne la
projection orthogonale sur (
n
. La matrice B
(n)
ainsi dnie existe et est unique ; elle est symtrique daprs le
choix de (
n
. On peut aussi montrer que si B
(n1)
symtrique dnie positive alors B
(n)
lest aussi.
Avec un choix convenable de la norme sur /
N
(IR), on obtient le choix suivant de B
(n)
si s
(n)
,= 0 et f(x
(n)
) ,=
0 (sinon lalgorithme sarrte) :
B
(n)
= B
(n1)
+
y
(n)
(y
(n)
)
t
(s
(n)
)
t
y
(n)

B
(n1)
s
(n)
(s
(n)
)
t
B
(n1)
(s
(n)
)
t
B
(n1)
s
(n)
. (3.26)
1. Broyden, C. G., The Convergence of a Class of Double-rank Minimization Algorithms, Journal of the Institute of Mathematics and Its
Applications 1970, 6, 76-90
2. Fletcher, R., A New Approach to Variable Metric Algorithms, Computer Journal 1970, 13, 317-322
3. Goldfarb, D., A Family of Variable Metric Updates Derived by Variational Means, Mathematics of Computation 1970, 24, 23-26
4. Shanno, D. F.,Conditioning of Quasi-Newton Methods for Function Minimization , Mathematics of Computation 1970, 24, 647-656
Lalgorithme obtenu est lalgorithme de BFGS.
Algorithme de BFGS
_
_
Initialisation On choisit x
(0)
IR
N
et
B
(0)
symtrique dnie positive
( par exemple B
(0)
= Id) et on pose
w
(0)
= B
(0)
f(x
(0)
)
si f(x
(0)
) ,= 0, on choisit
(0)
optimal
dans la direction w
(0)
, et donc
w
(0)
est une direction de descente stricte.
On pose x
(1)
= x
(0)
+
(0)
w
(0)
.
Itration n A x
(n)
, x
(n1)
et B
n1
connus (n 1)
On suppose
s
(n)
= x
(n)
x
(n1)
y
(n)
= f(x) f(x
(n1
)
si s
(n)
,= 0 et f(x
(n)
) ,= 0,
on choisit B
(n)
vriant (3.26)
On calcule w
(n)
= (B
(n)
)
1
(f(x
(n)
))
(direction de descente stricte en x
(n)
).
On calcule
(n)
(n)
et on pose x
(n+1)
= x
(n)
+
(n)
w
(n)
.
(3.27)
On donne ici sans dmonstration le thorme de convergence suivant :
Thorme 3.31 (Fletcher, 1976) Soit f C
2
(IR
N
, IR) telle que f(x) +quand [x[ +. On suppose de
plus que f est strictement convexe (donc il existe un unique x IR
N
tel que f( x) = inf
IR
N f) et on suppose que
la matrice hessienne H
f
( x) est symtrique dnie positive.
Alors si x
(0)
IR
N
et si B
(0)
est symtrique dnie positive, lalgorithme BFGS dnit bien une suite x
(n)
et on
a x
(n)
x quand n +
De plus, si x
(n)
,= x pour tout n, la convergence est super linaire i.e.
[
x
(n+1)
x
x
(n)
x
[ 0 quand n +.
Pour viter la rsolution dun systme linaire dans BFGS, on peut choisir de travailler sur (B
(n)
)
1
au lieu de
B
(n)
.
_
_
Initialisation Soit x
(0)
IR
N
et K
(0)
symtrique dnie positive
telle que
0
soit optimal dans la direction K
(0)
f(x
(0)
) = w
(0)
x
(1)
= x
(0)
+
0
w
(0)
Itration n : A x
(n)
, x
(n1)
, K
(n1)
connus, n 1,
on pose s
(n)
= x
(n)
x
(n1)
, y
(n)
= f(x
(n)
) f(x
(n1)
)
et K
(n)
= P
Cn
K
(n1)
.
On calcule w
(n)
= K
(n)
f(x
(n)
) et on choisit
n
(n)
.
On pose alors x
(n+1)
= x
(n)
+
n
w
(n)
.
(3.28)
Remarquons que le calcul de la projection de P
Cn
K
(n1)
peut seffectuer avec la formule (3.26) o on a remplac
B
(n1)
par K
(n1)
. Malheureusement, on obtient exprimentalement une convergence nettement moins bonne
pour lalgorithme de quasi-Newton modi (3.28) que pour lalgorithme de BFGS (3.26).
3.3.4 Rsum sur les mthodes doptimisation
Faisons le point sur les avantages et inconvnients des mthodes quon a vues sur loptimisation sans contrainte.
Mthodes de gradient : Ces mthodes ncessitent le calcul de f(x
(n)
). Leur convergence est linaire (donc
lente).
3.4. OPTIMISATION SOUS CONTRAINTES CHAPITRE 3. OPTIMISATION
Mthode de gradient conjugu : Si f est quadratique (c..d. f(x) =
1
2
Ax x b x avec A symtrique dnie
positive), la mthode est excellente si elle est utilise avec un prconditionnement (pour N grand). Dans le
cas gnral, elle nest efcace que si N nest pas trop grand.
Mthode de Newton : La convergence de la mthode de Newton est excellente (convergence localement quadra-
tique) mais ncessite le calcul de H
f
(x
(n)
) (et de f(
(n)
)). Si on peut calculer H
f
(x
(n)
), cette mthode est
parfaite.
Mthode de quasi Newton : Lavantage de la mthode de quasi Newton est quon ne calcule que f(x
(n)
) et pas
H
f
(x
(n)
)). La convergence est super linaire. Par rapport une mthode de gradient o on calcule w
(n)
=
f(x
(n)
), la mthode BFGS ncessite une rsolution de systme linaire : w
(n)
= (B
(n)
)
1
(f(x
(n)
)).
QuasiNewton modi :
Pour viter la rsolution de systme linaire dans BFGS, on peut choisir de travailler sur (B
(n)
)
1
au lieu de
B
(n)
, pour obtenir lalgorithme de quasi Newton (3.28). Cependant, on perd alors en vitesse de convergence.
Comment faire si on ne veut (ou peut) pas calculer f(x
(n)
) ? On peut utiliser des mthodes sans gradient",
c..d. quon choisit a priori les directions w
(n)
. Ceci peut se faire soit par un choix dterministe, soit par un
choix stochastique.
Un choix dterministe possible est de calculer x
(n)
en rsolvant N problmes de minimisation en une di-
mension despace. Pour chaque direction i = 1, . . . , N, on prend w
(n,i)
= e
i
, o e
i
est le i-me vecteur de
la base canonique, et pour i = 1, . . . , N, on cherche IR tel que :
f(x
(n)
1
, x
(n)
2
, . . . , , . . . , x
(n)
N
) f(x
(n)
1
, x
(n)
2
, . . . , t, . . . , x
(n)
N
), t IR.
Remarquons que si f est quadratique, on retrouve la mthode de Gauss Seidel.
3.4 Optimisation sous contraintes
3.4.1 Dnitions
Soit E = IR
N
, soit f C(E, IR), et soit K un sous ensemble de E. On sintresse la recherche de u K tel
que :
_
u K
f( u) = inf
K
f
(3.29)
Ce problme est un problme de minimisation avec contrainte (ou sous contrainte") au sens o lon cherche u qui
minimise f en astreignant u a tre dans K. Voyons quelques exemples de ces contraintes (dnies par lensemble
K), quon va expliciter laide des p fonctions continues, g
i
C(E, IR) i = 1 . . . p.
1. Contraintes galits. On pose K = x E, g
i
(x) = 0 i = 1 . . . p. On verra plus loin que le problme de
minimisation de f peut alors tre rsolu grce au thorme des multiplicateurs de Lagrange (voir thorme
3.38).
2. Contraintes ingalits. On pose K = x E, g
i
(x) 0 i = 1 . . . , p. On verra plus loin que le problme
de minimisation de f peut alors tre rsolu grce au thorme de KuhnTucker (voir thorme 3.42).
Programmation linaire. Avec un tel ensemble de contraintes K, si de plus f est linaire, cest--dire quil
existe b IR
N
tel que f(x) = b x, et les fonctions g
i
sont afnes, cest--dire quil existe b
i
IR
N
et c
i
IR tels que g
i
(x) = b
i
x + C
i
, alors on dit quon a affaire n problme de programmation
linaire". Ces problmes sont souvent rsolus numriquement laide de lalgorithme de Dantzig, invent
vers 1950.
Programmation quadratique. Avec le mme ensemble de contraintes K, si de plus f est quadratique,
cest--dire si f est de la forme f(x) =
1
2
Ax x b x, et les fonctions g
i
sont afnes, alors on dit quon
a affaire n problme de programmation quadratique".
3. Programmation convexe. Dans le cas o f est convexe et K est convexe, on dit quon a affaire n problme
de programmation convexe".
3.4.2 Existence Unicit Conditions doptimalit simple
Thorme 3.32 (Existence) Soit E = IR
N
et f C(E, IR).
1. Si K est un sous-ensemble ferm born de E, alors il existe x K tel que f( x) = inf
K
f.
2. Si K est un sous-ensemble ferm de E, et si f est croissante linni, cestdire que f(x) +quand
[x[ +, alors x K tel que f( x) = inf
K
f
Dmonstration
1. Si K est un sous-ensemble ferm born de E, comme f est continue, elle atteint ses bornes sur K, do
lexistence de x.
2. Si f est croissante linni, alors il existe R > 0 tel que si |x| > R alors f(x) > f(0) ; donc inf
K
f =
inf
KBR
f, o B
R
dsigne la boule de centre 0 et de rayon R. Lensemble KB
R
est compact, car intersection
dun ferm et dun compact. Donc, par ce qui prcde, il existe x K tel que f( x) = inf
KBR
f = inf
BR
f.
Thorme 3.33 (Unicit) Soit E = IR
N
et f C(E, IR). On suppose que f est strictement convexe et que K est
convexe. Alors il existe au plus un lment x de K tel que f( x) = inf
K
f.
Dmonstration
Supposons que x et
=
x
soient deux solutions du problme (3.29), avec x ,=
=
x
Alors f(
1
2
x +
1
2
=
x
) <
1
2
f( x) +
1
2
f(
=
x
) = inf
K
f . On aboutit donc une contradiction.
Des thormes dexistence 3.32 et dunicit 3.33 on dduit immdiatement le thorme dexistence et dunicit
suivant :
Thorme 3.34 (Existence et unicit) Soient E = IR
N
, f C(E, IR
N
) une fonction strictement convexe et K
un sous ensemble convexe ferm de E. Si K est born ou si f est croissante linni, cestdire si f(x) +
quand |x| +, alors il existe un unique lment x de K solution du problme de minimisation (3.29), i.e. tel
que f( x) = inf
K
f
Remarque 3.35 On peut remplacer E = IR
N
par E espace de Hilbert de dimension innie dans le dernier
thorme, mais on a besoin dans ce cas de lhypothse de convexit de f pour assurer lexistence de la solution
(voir cours de matrise).
Proposition 3.36 (Condition simple doptimalit) Soient E = IR
N
, f C(E, IR) et x K tel que f( x) =
inf
K
f. On suppose que f est diffrentiable en x
1. Si x
K alors f( x) = 0.
2. Si K est convexe, alors f( x) (x x) 0 pour tout x K.
Dmonstration
1. Si x
K, alors il existe > 0 tel que B( x, ) K et f( x) f(x) x B( x, ). Alors on a dj vu (voir

preuve de la Proposition 3.3 page 112) que ceci implique f( x) = 0.
2. Soit x K. Comme x ralise le minimum de f sur K, on a : f( x + t(x x)) = f(tx + (1 t) x) f( x)
pour tout t ]0, 1], par convexit de K. On en dduit que
f( x + t(x x)) f( x)
t
0 pour tout t ]0, 1].
En passant la limite lorsque t tend vers 0 dans cette dernire ingalit, on obtient : f( x) (x x) 0.
3.4.3 Conditions doptimalit dans le cas de contraintes galit
Dans tout ce paragraphe, on considrera les hypothses et notations suivantes :
f C(IR
N
, IR), g
i
C
1
(IR
N
, IR), i = 1 . . . p ;
K = u IR
N
, g
i
(u) = 0 i = 1 . . . p ;
g = (g
1
, . . . , g
p
)
t
C
1
(IR
N
, IR
p
)
(3.30)
Remarque 3.37 (Quelques rappels de calcul diffrentiel)
Comme g C
1
(IR
N
, IR
p
), si u IR
N
, alors Dg(u) L(IR
N
, IR
p
), ce qui revient dire, en confondant lappli-
cation linaire Dg(u) avec sa matrice, que Dg(u) /
p,N
(IR). Par dnition, Im(Dg(u)) = Dg(u)z, z
IR
N
IR
p
, et rang(Dg(u)) = dim(Im(Dg(u))) p. On rappelle de plus que
Dg(u) =
_
_
_
_
_
_
g
1
x
1
, ,
g
1
x
N
,
.
.
. ,
g
p
x
1
, ,
g
p
x
N
_
_
_
_
_
_
,
et que rang (Dg(u)) min(N, p). De plus, si rang (Dg(u)) = p, alors les vecteurs (Dg
i
(u))
i=1...p
sont linai-
rement indpendants dans IR
N
.
Thorme 3.38 (Multiplicateurs de Lagrange) Soit u K tel que f( u) = inf
K
f. On suppose que f est diffren-
tiable en u et dim(Im(Dg( u)) = p (ou rang (Dg( u)) = p), alors :
il existe (
1
, . . . ,
p
)
t
IR
p
telsquef( u) +
p
i=1
i
g
i
( u) = 0.
(Cette dernire galit a lieu dans IR
N
)
Dmonstration Pour plus de clart, donnons dabord une ide gomtrique" de la dmonstration dans le cas
N = 2 et p = 1. On a dans ce cas f C
1
(IR
2
, IR) et K = (x, y) IR
2
g(x, y) = 0, et on cherche u K
tel que f(u) = inf
K
f. Traons dans le repre (x, y) la courbe g(x, y) = 0, ainsi que les courbes de niveau de f.
Si on se promne" sur la courbe g(x, y) = 0, en partant du point P
0
vers la droite (voir gure 3.1), on rencontre
les courbes de niveau successives de f et on se rend compte sur le dessin que la valeur minimale que prend f sur
la courbe g(x, y) = 0 est atteinte lorsque cette courbe est tangente la courbe de niveau de f : sur le dessin, ceci
correspond au point P
1
o la courbe g(x, y) = 0 est tangente la courbe f(x, y) = 3. Une fois quon a pass ce
point de tangence, on peut remarquer que f augmente.
On utilise alors le fait que si est une fonction continment diffrentiable de IR
2
dans IR, le gradient de est
orthogonal toute courbe de niveau de , cest--dire toute courbe de la forme (x, y) = c, o c IR. (En
effet, soit (x(t), y(t)), t IR un paramtrage de la courbe g(x, y) = c, en drivant par rapport t, on obtient :
g(x(t), y(t)) (x
(t), y
(t))
t
= 0). En appliquant ceci f et g, on en dduit quau point de tangence entre une
courbe de niveau de f et la courbe g(x, y) = 0, les gradients de f et g sont colinaires. Et donc si g(u) ,= 0, il
existe ,= 0 tel que f(u) = g(u).
Passons maintenant la dmonstration rigoureuse du thorme dans laquelle on utilise le thorme des fonctions
implicites
5
.
Par hypothse, Dg( u) L(IR
N
, IR
p
) et Im(Dg( u)) = IR
p
. Donc il existe un sous espace vectoriel F de IR
N
de dimension p, tel que Dg( u) soit bijective de F dans IR
p
. En effet, soit (e
1
. . . e
p
) la base canonique de IR
p
,
alors pour tout i 1, . . . p, il existe y
i
IR
N
tel que Dg( x)y
i
= e
i
. Soit F le sous espace engendr par la
famille y
1
. . . y
p
; on remarque que cette famille est libre, car si
p
i=1

i
y
i
= 0, alors
p
i=1

i
e
i
= 0, et donc
i
= 0 pour tout i = 1, . . . p. On a ainsi montr lexistence dun sous espace F de dimension p telle que Dg( x)
soit bijective (car surjective) de F dans IR
p
.
5. Thorme des fonctions implicites Soient p et q des entiers naturels, soit h C
1
(IR
q
IR
p
, IR
p
), et soient ( x, y) IR
q
IR
p
et
c IR
p
tels que h( x, y) = c. On suppose que la matrice de la diffrentielle D
2
h( x, y)( Mp(IR)) est inversible. Alors il existe > 0 et
> 0 tels que pour tout x B( x, ), il existe un unique y B( y, ) tel que h(x, y) = c. on peut ainsi dnir une application de B( x, )
dans B( y, ) par (x) = y. On a ( x) = y, C
1
(IR
p
, IR
p
) et D(x) = [D
2
h(x, (x))]
1
D
1
h(x,(x)).
f(x) = 5
f(x) = 4 f(x) = 3
f(x) = 2
f(x) = 1
g(x) = 0
x
y
FIGURE 3.1 Interprtation gomtrique des multiplicateurs de Lagrange
Il existe un sous espace vectoriel Gde IR
N
, tel que IR
N
= F
G. Pour v F et w G; on pose g(w, v) = g(v+

w) et

f(w, v) = f(v+w). On a donc

f C(GF, IR) et g C
1
(GF, IR). De plus, D
2
g(w, v) L(F, IR
p
),
et pour tout z F, on a D
2
g(w, v)z = Dg(v + w)z.
Soit ( v, w) F G tel que u = v + w. Alors D
2
g( w, v)z = Dg( u)z pour tout z F. Lapplication D
2
g( w, v
est une bijection de F sur IR
p
, car, par dnition de F, Dg( u) est bijective de F sur IR
p
.
On rappelle que K = u IR
N
: g(u) = 0 et on dnit K = (w, v) GF, g(w, v) = 0. Par dnition de
f et de g, on a
_
( w, v) K
f( w, v) f(w, v) (w, v) K
(3.31)
Dautre part, le thorme des fonctions implicites (voir note de bas de page 130) entrane lexistence de > 0 et
> 0 tels que pour tout w B
G
( w, ) il existe un unique v B
F
( v, ) tel que g(w, v) = 0. On note v = (w)
et on dnit ainsi une application C
1
(B
G
( w, ), B
F
( v, )).
On dduit alors de (3.31) que :
f( w, ( w))

f(w, (w))), w B
G
( w, ),
et donc
f( u) = f( w + ( w)) f(w + (w)), w B
G
( w, ).
En posant (w) =

f(w, (w)), on peut donc crire
( w) =

f( w, ( w)) (w), w B
G
( w, ).
On a donc, grce la proposition 3.36,
D( w) = 0. (3.32)
Par dnition de , de

f et de g , on a :
D( w) = D
1

f( w, (( w)) + D
2

f( w, ( w))D( w).
Daprs le thorme des fonctions implicites,
D( w) = [D
2
g( w, (( w))]
1
D
1
g( w, (( w)).
On dduit donc de (3.32) que
D
1

f( w, (( w))w [D
2
g( w, (( w))]
1
D
1
g( w, (( w))w = 0, pour tout w G. (3.33)
De plus, comme D
2
g( w, (( w))]
1
D
2
g( w, (( w)) = Id, on a :
D
2

f( w, (( w))z D
2

f( w, (( w))D
2
g( w, (( w))]
1
D
2
g( w, (( w))z = 0, z F. (3.34)
Soit x IR
N
, et (z, w) F G tel que x = z + w. En additionant (3.33) et (3.34), et en notant =
D
2

f( w, (( w))D
2
g( w, (( w))]
1
, on obtient :
Df( u)x + Dg( u)x = 0,
ce qui donne, en transposant : Df( u) +
p
i=1

i
g
i
( u) = 0, avec = (
1
, . . . ,
p
).
Remarque 3.39 (Utilisation pratique du thorme de Lagrange) Soit f C
1
(IR
N
, IR), g = (g
1
, . . . , g
p
)
t
avec g
i
C(IR
N
, IR) pour i = 1, . . . , p., et soit K = u IR
N
, g
i
(u) = 0, i = 1, . . . , p.
Le problme quon cherche rsoudre est le problme de minimisation (3.29) quon rappelle ici :
_
u K
f( u) = inf
K
f
Daprs le thorme des multiplicateurs de Lagrange, si u est solution de (3.29) et Im(Dg( u)) = IR
p
, alors il
existe (
1
, . . . ,
p
) IR
p
tel que u est solution du problme
_
_
f
x
j
( u) +
p
i=1
i
g
i
x
j
= 0, j = 1, . . . N,
g
i
( u) = 0, i = 1, . . . , p.
(3.35)
Le systme (3.35) est un systme non linaire de de (N+p) quations et (N+p) inconnues ( x, . . . , x
N
,
i
. . .
p
).
Ce systme sera rsolu par une mthode de rsolution de systme non linaire (Newton par exemple).
Remarque 3.40 On vient de montrer que si x solution de (3.29) et Im(Dg( x)) = IR
p
, alors x solution de (3.35).
Par contre, si x est solution de (3.35), ceci nentrane pas que x est solution de (3.29).
Des exemples dapplication du thorme des multiplicateurs de Lagrange sont donns dans les exercices 83 page
145 et 84 page 146.
3.4.4 Contraintes ingalits
Soit f C(IR
N
, IR) et g
i
C
1
(IR
N
, IR) i = 1, . . . , p, on considre maintenant un ensemble K de la forme :
K = x IR
N
, g
i
(x) 0 i = 1 . . . p, et on cherche rsoudre le problme de minimisation (3.29) qui scrit :
_
x K
f( x) f(x), x K.
Remarque 3.41 Soit x une solution de (3.29) et supposons que g
i
( x) < 0, pour tout i 1, . . . , p. Il existe alors
> 0 tel que si x B( x, ) alors g
i
(x) < 0 pour tout i = 1, . . . , p.
On a donc f( x) f(x) x B( x, ). On est alors ramen un problme de minimisation sans contrainte, et si
i f est diffrentiable en x, on a donc f( x) = 0.
On donne maintenant sans dmonstration le thorme de Kuhn-Tcker qui donne une caractrisation de la solution
du problme (3.29).
Thorme 3.42 (KuhnTucker) Soit f C(IR
N
, IR), soit g
i
C
1
(IR
N
, IR), pour i = 1, . . . , p, et soit K =
x IR
N
, g
i
(x) 0 i = 1 . . . p. On suppose quil existe x solution de (3.29), et on pose I( x) = i
1, . . . , p; [g
i
( x) = 0. On suppose que f est diffrentiable en x et que la famille (de IR
N
) g
i
( x), i I( x)
est libre. . Alors il existe une famille (
i
)
iI( x)
IR
+
telle que
f( x) +
iI( x)
i
g
i
( x) = 0.
3.5. ALGORITHMES DOPTIMISATION SOUS CONTRAINTES CHAPITRE 3. OPTIMISATION
Remarque 3.43 1. Le thorme de Kuhn-Tucker sapplique pour des ensembles de contrainte de type inga-
lit. Si on a une contraite de type galit, on peut videmment se ramener deux contraintes de type ingalit
en remarquant que h(x) = 0 = h(x) ) h(x) 0. Cependant, si on pose g
1
= h et g
2
= h,
on remarque que la famille g
1
( x), g
2
( x) = h( x), h( x) nest pas libre. On ne peut donc pas
appliquer le thorme de Kuhn-Tucker sous la forme donne prcdemment dans ce cas (mais on peut il
existe des versions du thorme de Kuhn-Tucker permettant de traiter ce cas, voir Bonans-Saguez).
2. Dans la pratique, on a intrt crire la conclusion du thorme de Kuhn-Tucker (i.e. lexistence de la
famille (
i
)
iI( x)
) sous la forme du systme de N + p quations et 2p inquations rsoudre suivant :
_
_
f( x) +
p
i=1
i
g
i
( x) = 0,
i
g
i
( x) = 0, i = 1, . . . , p,
g
i
( x) 0, i = 1, . . . , p,
i
0, i = 1, . . . , p.
i = 1 . . . p
i0
g
i
( x) 0 i = 1 . . . p
3.5 Algorithmes doptimisation sous contraintes
3.5.1 Mthodes de gradient avec projection
On rappelle le rsultat suivant de projection sur un convexe ferm :
Proposition 3.44 (Projection sur un convexe ferm) Soit E un espace de Hilbert, muni dune norme |.| induite
par un produit scalaire (., .), et soit K un convexe ferm non vide de E. Alors, tout x E, il existe un unique
x
0
K tel que |x x
0
| |x y| pour tout y K. On note x
0
= p
K
(x) la projection orthogonale de x sur
K. On a galement :
x
0
= p
K
(x) si et seulement si (x x
0
, x
0
y) 0, y K.
Dans le cadre des algorithmes de minimisation avec contraintes que nous allons dvelopper maintenant, nous
considrerons E = IR
N
, f C
1
(IR
N
, IR) une fonction convexe, et K ferm convexe non vide. On cherche
calculer une solution approche de x, solution du problme (3.29).
Algorithme du gradient pas xe avec projection sur K (GPFK) Soit > 0 donn, on considre lalgorithme
suivant :
Algorithme (GPFK)
Initialisation : x
0
K
Itration :
x
n
connu x
n+1
= p
K
(x
n
f(x
n
))
o p
K
est la projection sur K dnie par la proposition 3.44.
Lemme 3.45 Soit (x
n
)
n
construite par lalgorithme (GPFK). On suppose que x
n
x quand n +. Alors x est
solution de (3.29).
Dmonstration :
Soit p
K
: IR
N
K IR
N
la projection sur K dnie par la proposition 3.44. Alors p
K
est continue. Donc si
x
n
x quand n +alors x = p
K
(x f(x)) et x K (car x
n
K et K est ferm).
La caractrisation de p
K
(x f(x)) donne dans la proposition 3.44 donne alors :
(x f(x) x/x y) 0 pour tout y K, et comme > 0, ceci entrane (f(x)/x y) pour tout y K.
Or f est convexe donc f(y) f(x) + f(x)(y x) pour tout y K, et donc f(y) f(x) pour tout y K, ce
qui termine la dmonstration.
Thorme 3.46 (Convergence de lalgorithme GPFK)
Soit f C
1
(IR
N
, IR), et K convexe ferm non vide. On suppose que :
1. il existe > 0 tel que (f(x) f(y)[x y) [x y[
2
, pour tout (x, y) IR
N
IR
N
,
2. il existe M > 0 tel que [f(x) f(y)[ M[x y[ pour tout (x, y) IR
N
IR
N
,
alors :
1. il existe un unique lment x K solution de (3.29),
2. si 0 < <
2
M
2
, la suite (x
n
) dnie par lalgorithme (GPFK) converge vers x lorsque n +.
Dmonstration :
1. La condition 1. donne que f est strictement convexe et que f(x) +quand [x[ +. Comme K est
convexe ferm non vide, il existe donc un unique x solution de (3.29).
2. On pose, pour x IR
N
, h(x) = p
K
(x f(x)). On a donc x
n+1
= h(x
n
). Pour montrer que la suite
(x
n
)
nIN
converge, il suft donc de montrer que h est strictement contractante ds que
0 < <
2
M
2
. (3.36)
Grce au lemme 3.47 dmontr plus loin, on sait que p
K
est contractante. Or h est dnie par :
h(x) = p
K
(
h(x)) o

h(x) = x f(x).
On a dj vu que

h est strictement contractante si la condition (3.36) est vrie (voir thorme 3.17 page 117 et
exercice 70 page 139), et plus prcisment :
[
h(x)
h(y)[ (1 2 + M
2
2
)[x y[
2
.
On en dduit que :
[h(x) h(y)[
2
[p
K
(
h(x)) p
K
(
h(y))[
2
[
h(x)
h(y))[
2
(1 2 +
2
M
2
)[x y[
2
.
Lapplication h est donc strictement contractante ds que 0 <
2
M
2
. La suite (x
n
)
nIN
converge donc bien vers
x = x
Lemme 3.47 (Proprit de contraction de la projection orthogonale) Soit E un espace de Hilbert, || la norme
et (, ) le produit scalaire, K un convexe ferm non vide de E et p
K
la projection orthogonale sur K dnie par
la proposition 3.44, alors |p
K
(x) p
K
(y)| |x y| pour tout (x, y) E
2
.
Dmonstration Comme E est un espace de Hilbert,
|p
K
(x) p
K
(y)|
2
= (p
K
(x) p
K
(y)[p
K
(x) p
K
(y)).
On a donc
|p
K
(x) p
K
(y)|
2
= (p
K
(x) x + x y + y p
K
(y)[p
K
(x) p
K
(y))
= (p
K
(x) x[p
K
(x) p
K
(y))
E
+ (x y[p
K
(x) p
K
(y))+
(y p
K
(y)[p
K
(x) p
K
(y)).
Or (p
K
(x) x[p
K
(x) p
K
(y)) 0 et (y p
K
(y)[p
K
(x) p
K
(y)), do :
|p
K
(x) p
K
(y)| (x y[p
K
(x) p
K
(y)),
et donc, grce lingalit de Cauchy-Schwarz,
|p
K
(x) p
K
(y)||x y| |p
K
(x) p
K
(y)| |x y|.
Algorithme du gradient pas optimal avec projection sur K (GPOK)
Lalgorithme du gradient pas optimal avec projection sur K scrit :
Initialisation x
0
K
Itration x
n
connu
w
n
= f(x
n
); calculer
n
n
x
n+1
= p
K
(x
n
+
n
w
n
)
La dmonstration de convergence de cet algorithme se dduit de celle de lalgorithme pas xe.
Remarque 3.48 On pourrait aussi utiliser un algorithme de type QuasiNewton avec projection sur K.
Les algorithmes de projection sont simples dcrire, mais ils soulvent deux questions :
1. Comment calcule-t-on p
K
?
2. Que faire si K nest pas convexe?
On peut donner une rponse la premire question dans les cas simples :
1er cas On suppose ici que K = C
+
= x IR
N
, x = (x
1
, . . . , x
n
)
t
x
i
0 i.
Si y IR
N
y = (y
+
1 . . . y
N
)
t
, on peut montrer (exercice 3.6 page 147) que
(p
K
(y))
i
= y
+
i
= max(y
i
, 0), i 1, . . . , N
2me cas Soit (
i
)
i=1,...,N
IR
N
et (
i
)
i=1,...,N
IR
N
tels que
i

i
pour tout i = 1, . . . , N. Si
K =
i=1,N
[
i
,
i
],
alors
(p
K
(y))
i
= max(
i
, min(y
i
,
i
)), i = 1, . . . , N
Dans le cas dun convexe K plus compliqu, ou dans le cas o K nest pas convexe, on peut utiliser des mthodes
de dualit introduites dans le paragraphe suivant.
3.5.2 Mthodes de dualit
Supposons que les hypothses suivantes sont vries :
_
_
_
f (
1
(IR
N
, IR),
g
i
(
1
(IR
N
, IR),
K = x IR
N
, g
i
(x) 0 i = 1, . . . , p, et K est non vide.
(3.37)
On dnit un problme primal" comme tant le problme de minimisation dorigine, cestdire
_
x K,
f( x) f(x), pour tout x K,
(3.38)
On dnit le lagrangien" comme tant la fonction L dnie de IR
N
IR
p
dans IR par :
L(x, ) = f(x) + g(x) = f(x) +
p
i=1
i
g
i
(x), (3.39)
avec g(x) = (g
1
(x), . . . , g
p
(x))
t
et = (
1
(x), . . . ,
p
(x))
t
.
On note C
+
lensemble dni par
C
+
= IR
p
, = (
1
, . . . ,
p
)
t
,
i
0 pour tout i = 1, . . . , p.
Remarque 3.49 Le thorme de Kuhn-Tucker entrane que si x est solution du problme primal (3.38) alors il
existe C
+
tel que D
1
L( x, ) = 0 (cestdire Df( x) + Dg( x) = 0) et g( x) = 0.
On dnit alors lapplication M de IR
p
dans IR par :
M() = inf
xIR
N
L(x, ), pour tout IR
p
. (3.40)
On peut donc remarquer que M() ralise le minimum (en x) du problme sans contrainte, qui scrit, pour
IR
p
x :
_
x IR
N
L(x, ) L(y, ) pour tout x IR
N
,
(3.41)
Lemme 3.50 Lapplication M de IR
p
dans IR dnie par (3.40) est concave (ou encore lapplication -M est
convexe), cestdire que pour tous , IR
p
et pour tout t ]0, 1[ on a M(t + (1 t)) tM() + (1
t)/(u)
Dmonstration :
Soit , IR
p
et t ]0, 1[ ; on veut montrer que M(t + (1 t)) tM() + (1 t)M().
Soit x IR
N
, alors :
L(x, t + (1 t)) = f(x) + (t + (1 t))g(x)
= tf(x) + (1 t)f(x) + (t + (1 t))g(x).
On a donc L(x, t + (1 t)) = tL(x, ) + (1 t)L(x, ). Par dnition de M, on en dduit que pour tout
x IR
N
,
L(x, t + (1 t)) tM() + (1 t)M()
Or, toujours par dnition de M,
M(t + (1 t)) = inf
xIR
N
L(x, t + (1 t)) tM() + (1 t)M().
On considre maintenant le problme doptimisation dit dual" suivant :
_
C
+
,
M() M() C
+
.
(3.42)
Dnition 3.51 Soit L : IR
N
IR
p
IR et (x, ) IR
N
C
+
. On dit que (x, ) est un point selle de L sur
IR
N
C
+
si
L(x, ) L(x, ) L(y, ) pour tout y IR et pour tout C
+
.
Proposition 3.52 Sous les hypothses (3.37), soit L dnie par L(x, ) = f(x) + g(x) et (x, ) IR
N
C
+
un point selle de L sur IR
N
C
+
.
alors
1. x est solution du problme (3.38),
2. est solution de (3.42),
3. x est solution du problme (3.41) avec = .
On admettra cette proposition.
Rciproquement, on peut montrer que (sous des hypothses convenables sur f et g), si est solution de (3.42), et
si x solution de (3.41) avec = , alors ( x, ) est un point selle de L, et donc x est solution de (3.38).
De ces rsultats dcoule lide de base des mthodes de dualit : on cherche solution de (3.42). On obtient ensuite
une solution x du problme (3.38), en cherchant x comme solution du problme (3.41) avec = (qui est un
problme de minimisation sans contraintes). La recherche de la solution du problme dual (3.42) peut se faire
par exemple par lalgorithme trs classique dUzawa, que nous dcrivons maintenant.
Algorithme dUzawa Lalgorithme dUzawa consiste utiliser lalgorithme du gradient pas xe avec pro-
jection (quon a appel GPFK, voir page 133) pour rsoudre de manire itrative le problme dual (3.42). On
cherche donc C
+
tel que M() M() pour tout C
+
. On se donne > 0, et on note p
C
+ la projection
sur le convexe C
+
(voir proposition 3.44 page 133). Lalgorithme (GPFK) pour la recherche de scrit donc :
Initialisation :
0
C
+
Itration :
n+1
= p
C+
(
n
+ M(
n
))
Pour dnir compltement lalgorithme dUzawa, il reste prciser les points suivants :
1. Calcul de M(
n
),
2. calcul de p
C
+() pour dans IR
N
.
On peut galement sintresser aux proprits de convergence de lalgorithme.
La rponse au point 2 est simple (voir exercice 3.6 page 147) : pour IR
N
, on calcule p
C+
() = avec
= (
1
, . . . ,
p
)
t
en posant
i
= max(0,
i
) pour i = 1, . . . , p, o = (
1
, . . . ,
p
)
t
.
La rponse au point 1. est une consquence de la proposition suivante (quon admettra ici) :
Proposition 3.53 Sous les hypothses (3.37), on suppose que pour tout IR
N
, le problme (3.41) admet une
solution unique, note x
et on suppose que lapplication dnie de IR

p
dans IR
N
par x
est diffrentiable.
Alors M() = L(x
, ), M est diffrentiable en pour tout , et M() = g(x
).
En consquence, pour calculer M(), on est ramen chercher x
solution du problme de minimisation sans

contrainte (3.41). On peut dont maintenant donner le dtail de litration gnrale de lalgorithme dUzawa :
Itration de lalgorithme dUzawa. Soit
n
C
+
connu ;
1. On cherche x
n
IR
N
solution de
_
x
n
IR
N
,
L(x
n
,
n
) L(x,
n
), x IR
N
(On a donc x
n
= x
n
)
2. On calcule M(
n
) = g(x
n
)
3.
n+1
=
n
+ M(
n
) =
n
+ g(x
n
) = ((
n+1
)
1
, . . . , (
n+1
)
p
)
t
4.
n+1
= p
C
+(
n+1
), cest-dire
n+1
= ((
n+1
)
1
, . . . , (
n+1
)
p
)
t
avec (
n+1
)
i
= max(0, (
n+1
)
i
) pour
tout i = 1, . . . , p.
On a alors le rsultat suivant de convergence de lalgorithme :
Proposition 3.54 (Convergence de lalgorithme dUzawa) Sous les hypothses (3.37), on suppose de plus que :
1. il existe > 0 tel que (f(x) f(y)) (x y) [x y[
2
pour tout (x, y) (IR
N
)
2
,
2. il existe M
f
> 0 [f(x) f(y)[ M
f
[x y[ pour tout (x, y) (IR
N
)
2
,
3. pour tout C
+
, il existe un unique x
IR
N
tel que L(x
, ) L(x, ) pour tout x IR

N
.
Alors si 0 < <
2
M
f
2
, la suite ((x
n
,
n
))
n
IR
N
C
+
donne par lalgorithme dUzawa vrie :
1. x
n
x quand n +, o x est la solution du problme (3.38),
2. (
n
)
nIN
est borne.
Remarque 3.55 (Sur lalgorithme dUzawa)
1. Lalgorithme est trs efcace si les contraintes sont afnes : (i.e. si g
i
(x) =
i
x+
i
pour tout i = 1, . . . , p,
avec
i
IR
N
et
i
IR).
2. Pour avoir lhypothse 3 du thorme, il suft que les fonctions g
i
soient convexes. (On a dans ce cas
existence et unicit de la solution x
du problme (3.41) et existence et unicit de la solution x du problme

(3.38).)
3.6. EXERCICES CHAPITRE 3. OPTIMISATION
3.6 Exercices
Exercice 66 (Convexit et continuit) Suggestions en page 149.
1. Soit f : IR IR. On suppose que f est convexe.
(a) Montrer que f est continue.
(b) Montrer que f est localement lipschitzienne.
2. Soit N 1 et f : IR
N
IR. On suppose que f est convexe.
(a) Montrer f est borne suprieurement sur les borns (cest--dire : pour tout R > 0, il existe m
R
t.q.
f(x) m
R
si la norme de x est infrieure ou gale R).
(b) Montrer que f est continue.
(c) Montrer que f est localement lipschitzienne.
(d) On remplace maintenant IR
N
par E, e.v.n. de dimension nie. Montrer que f est continue et que f est
localement lipschitzienne.
3. Soient E un e.v.n. de dimension innie et f : E IR. On suppose que f est convexe.
(a) On suppose, dans cette question, que f est borne suprieurement sur les borns. Montrer que f est
continue.
(b) Donner un exemple de.v.n. (not E) et de fonction convexe f : E IR t.q. f soit non continue.
Exercice 67 (Maximisation)
Suggestions en page 149
Soit E un espace vectoriel norm et f : E IR.
1. Donner une condition sufsante dexistence de x E tel que x = sup
xE
f(x).
2. Donner une condition sufsante dunicit de x E tel que x = sup
xE
f(x).
3. Donner une condition sufsante dexistence et unicit de x E tel que x = sup
xE
f(x).
Exercice 68 (Minimisation dune fonctionnelle quadratique) Suggestions en page 3.7. Corrig dtaill en page
151
Soient A /
N
(IR), b IR
N
, et f la fonction de IR
N
dans IR dnie par f(x) =
1
2
Ax x b x.
1. Montrer que f C
(IR
N
, IR) et calculer le gradient et la matrice hessienne de f en tout point.
2. Montrer que si A est symtrique dnie positive alors il existe un unique x IR
N
qui minimise f, et que ce x
est lunique solution du systme linaire Ax = b.
Exercice 69 (Complment de Schur)
Soient n et p deux entiers naturels non nuls. Dans toute la suite, si u et v sont deux vecteurs de IR
k
, k 1, le
produit scalaire de u et v est not u v. Soient A une matrice carre dordre n, symtrique dnie positive, soit B
une matrice np, C une matrice carre dordre p symtrique, et soit f IR
n
et g IR
p
. On considre le systme
linaire suivant :
M
_
x
y
_
=
_
f
g
_
, avec M =
_
A B
B
t
C
_
. (3.43)
1. On suppose dans cette question seulement que n = p = 1, et A =
_
a
, B =
_
b
, C =
_
c
(a) Donner une condition ncessaire et sufsante sur a, b, et c pour que M soit inversible.
(b) Donner une condition ncessaire et sufsante sur a, b, et c pour que M soit symtrique dnie positive.
2. On dnit la matrice S = C B
t
A
1
B, quon appelle complment de Schur".
(a) Calculer S dans le cas A =
_
1 1
0 1
_
, B =
_
1 1
0 1
_
, C =
_
1 0
0 1
_
.
(b) Montrer quil existe une unique solution au problme (3.43) si et seulement si la matrice S est inversible.
Est-ce le cas dans la question (a) ?
3. On suppose dans cette question que C est symtrique.
(a) Vrier que M est symtrique.
(b) Soient x IR
n
, y IR
p
et z = (x, y) IR
n+p
. Calculer Mz z en fonction de A, B, C, x et y.
(c) On xe maintenant y IR
p
, et on dnit la fonction F de IR
n
dans IR par : x Ax x +2By x +Cy y.
Calculer F(x), et calculer x
0
IR
n
tel que F(x
0
) = 0
(d) Montrer que la fonction F dnie en 3(b) admet un unique minimum, et calculer la valeur de ce mimimum.
(e) En dduire que M est dnie positive si et seulement si S est dnie positive (o S est la matrice dnie
la question 1).
4. On suppose dans cette question que C est la matrice (carre dordre p) nulle.
(a) Montrer que la matrice

S = S est symtrique dnie positive si et seulement si p n et rang(B)=p. On
supposera que ces deux conditions sont vries dans toute la suite de la question.
(b) En dduire que la matrice P =
_
A 0
0

S
_
est symtrique dnie positive.
(c) Calculer les valeurs propres de la matrice T = P
1
M (il peut tre utile de distinguer les cas KerB
t
= 0
et KerB
t
,= 0).
Exercice 70 (Convergence de lalgorithme du gradient pas xe)
Suggestions en page 149, corrig dtaill en page 151
Soit f C
1
(IR
N
, IR) (N 1). On suppose que f vrie :
> 0 t.q. (f(x) f(y)) (x y) [x y[
2
, x, y IR
N
, (3.44)
M > 0 t.q. [f(x) f(y)[ M[x y[, x, y IR
N
. (3.45)
1. Montrer que
f(y) f(x) f(x) (y x) +

2
[y x[
2
, x, y IR
N
.
2. Montrer que f est strictement convexe et que f(x) quand [x[ . En dduire quil existe un et un
seul x IR
N
t.q. f(x) f(x) pour tout x IR
N
.
3. Soient ]0, (2/M
2
)[ et x
0
IR
N
. Montrer que la suite (x
n
)
nIN
dnie par x
n+1
= x
n
f(x
n
)
(pour n IN) converge vers x.
Exercice 71 (Mise en oeuvre de GPF et GPO) Corrig en page 152.
On considre la fonction f : IR
2
IR dnie par f(x
1
, x
2
) = 2x
2
1
+ x
2
2
x
1
x
2
3x
1
x
2
+ 4.
1. Montrer quil existe un unique x IR
2
tel que x = min
xIR
2 f(x) admet un unique minimum, et le calculer.
2. Calculer le premier itr donn par lalgorithme du gradient pas xe (GPF) et du gradient pas optimal
(GPO), en partant de (x
(0)
1
, x
(0)
2
) = (0, 0), pour un pas de = .5 dans le cas de GPF.
Exercice 72 (Convergence de lalgorithme du gradient pas optimal) Suggestions en page 150. Corrig d-
taill en page 153
Soit f C
2
(IR
N
, IR) t.q. f(x) quand [x[ . Soit x
0
IR
N
. On va dmontrer dans cet exercice la
convergence de lalgorithme du gradient pas optimal.
1. Montrer quil existe R > 0 t.q. f(x) > f(x
0
) pour tout x / B
R
, avec B
R
= x IR
N
, [x[ R.
2. Montrer quil existe M > 0 t.q. [H(x)y y[ M[y[
2
pour tout y IR
N
et tout x B
R+1
(H(x) est la
matrice hessienne de f au point x, R est donn la question 1).
3. (Construction de la" suite (x
n
)
nIN
de lalgorithme du gradient pas optimal.) On suppose x
n
connu (n
N). On pose w
n
= f(x
n
). Si w
n
= 0, on pose x
n+1
= x
n
. Si w
n
,= 0, montrer quil existe > 0 t.q.
f(x
n
+w
n
) f(x
n
+w
n
) pour tout 0. On choisit alors un
n
> 0 t.q. f(x
n
+
n
w
n
) f(x
n
+w
n
)
pour tout 0 et on pose x
n+1
= x
n
+
n
w
n
.
On considre, dans les questions suivantes, la suite (x
n
)
nIN
ainsi construite.
4. Montrer que (avec R et M donns aux questions prcdentes)
(a) la suite (f(x
n
))
nIN
est une suite convergente,
(b) x
n
B
R
pour tout n IN,
(c) f(x
n
+ w
n
) f(x
n
) [w
n
[
2
+ (
2
/2)M[w
n
[
2
pour tout [0, 1/[w
n
[].
(d) f(x
n+1
) f(x
n
) [w
n
[
2
/(2M), si [w
n
[ M.
(e) f(x
n+1
) + f(x
n
) [w
n
[
2
/(2M), avec M = sup(M,

M),
M = sup[f(x)[, x B
R
.
5. Montrer que f(x
n
) 0 (quand n ) et quil existe une sous suite (n
k
)
kIN
t.q. x
n
k
x quand
k et f(x) = 0.
6. On suppose quil existe un unique x IR
N
t.q. f(x) = 0. Montrer que f(x) f(x) pour tout x IR
N
et que x
n
x quand n .
Exercice 73 (Algorithme du gradient pas optimal)
Soit A /
N
(IR) et J la fonction dnie de IR
N
dans IR par J(x) = e
Ax
2
, o | | dsigne la norme
euclidienne sur IR
N
.
1. Montrer que J admet un minimum (on pourra le calculer. . . ).
2. On suppose que la matrice A est inversible, montrer que ce minimum est unique.
3. Ecrire lalgorithme du gradient pas optimal pour la recherche de ce minimum. [On demande de calculer le
paramtre optimal
n
en fonction de A et de x
n
.] A quelle condition sufsante cet algorithme converge-t-il ?
Exercice 74 (Fonction non croissante linni) Suggestions en page 150.
Soient N 1, f C
2
(IR
N
, IR) et a IR. On suppose que A = x IR
N
; f(x) f(a) est un ensemble
born de IR
N
et quil existe M IR t.q. [H(x)y y[ M[y[
2
pour tout x, y IR
N
(o H(x) dsigne la matrice
hessienne de f au point x).
1. Montrer quil existe x A t.q. f(x) = minf(x), x IR
N
(noter quil ny a pas ncessairement unicit
de x).
2. Soit x A t.q. f(x) ,= 0. On pose T(x) = sup 0; [x, x f(x)] A. Montrer que 0 < T(x) <
+ et que [x, x T(x)f(x)] A (o [x, x T(x)f(x)] dsigne lensemble tx + (1 t)(x
T(x)f(x)), t [0, 1].
3. Pour calculer une valeur appoche de x (t.q. f(x) = minf(x), x IR
N
), on propose lalgorithme sui-
vant :
Initialisation : x
0
A,
Itrations : Soit k 0. Si f(x
k
) = 0, on pose x
k+1
= x
k
. Si f(x
k
) ,= 0, On choisit
k
[0, T(x
k
)]
t.q. f(x
k
k
f(x
k
)) = minf(x
k
f(x
k
)), 0 T(x
k
) (La fonction T est dnie la question
2) et on pose x
k+1
= x
k

k
f(x
k
).
(a) Montrer que, pour tout x
0
A, lalgorithme prcdent dnit une suite (x
k
)
kIN
A (cestdire
que, pour x
k
A, il existe bien au moins un lment de [0, T(x
k
)], not
k
, t.q. f(x
k

k
f(x
k
) =
minf(x
k
f(x
k
)), 0 T(x
k
)).
(b) Montrer que cet algorithme nest pas ncessairement lalgorithme du gradient pas optimal. [on pourra
chercher un exemple avec N = 1.]
(c) Montrer que f(x
k
) f(x
k+1
)
|f(x
k
)|
2
2M
, pour tout k IN.
4. On montre maintenant la convergence de la suite (x
k
)
kIN
construite la question prcdente.
(a) Montrer quil existe une sous suite (x
kn
)
nIN
et x A t.q. x
kn
x, quand n , et f(x) = 0.
(b) On suppose, dans cette question, quil existe un et un seul lment z A t.q. f(z) = 0. Montrer que
x
k
z, quand k , et que f(z) = minf(x), x A.
Exercice 75 (Mthode de relaxation) Corrig dtaill en page 155
Soit f une fonction continment diffrentiable de E = IR
N
dans IR vriant lhypothse (3.44) :
1. Justier lexistence et lunicit de x IR
N
tel que f(x) = inf
xIR
N f(x).
On propose lalgorithme de recherche de minimum de f suivant :
_
_
Initialisation : x
(0)
E,
Itration n : x
(n)
connu, (n 0)
Calculer x
(n+1)
1
tel que, pour tout IR,
f(x
(n+1)
1
, x
(n)
2
, x
(n)
3
, . . . , x
(n)
N
) f(, x
(n)
2
, x
(n)
3
, . . . , x
(n)
N
),
Calculer x
(n+1)
2
f(x
(n+1)
1
, x
(n+1)
2
, x
(n)
3
, . . . , x
(n)
N
) f(x
(n+1)
1
, , x
(n)
3
, . . . , x
(n)
N
),
. . .
Calculer x
(n+1)
k
f(x
(n+1)
1
, . . . , x
(n+1)
k1
, x
(n+1)
k
, x
(n)
(k+1)
, . . . , x
(n)
N
)
f(x
(n+1)
1
, . . . , x
(n+1)
k1
, , x
(n)
(k+1)
, . . . , x
(n)
N
),
. . .
Calculer x
(n+1)
N
f(x
(n+1)
1
, x
(n+1)
2
, . . . , x
(n+1)
N1
, x
(n+1)
N
) f(x
(n+1)
1
, . . . , x
(n+1)
N1
, ).
(3.46)
2. Pour n IN et 1 k N, soit
(n+1)
k
la fonction de IR dans IR dnie par :
(n+1)
k
(s) = f(x
(n+1)
1
, . . . , x
(n+1)
k1
, s, x
(n)
(k+1)
, . . . , x
(n)
N
).
Montrer quil existe un unique lment s IR tel que
(n+1)
k
(s) = inf
sIR
(n+1)
k
(s).
En dduire que la suite (x
(n)
)
nIN
construite par lalgorithme (3.46) est bien dnie.
Dans toute la suite, on note | | la norme euclidienne sur IR
N
et ([) le produit scalaire associ. Pour i = 1, . . . , N,
on dsigne par
i
f la drive partielle de f par rapport la i-me variable.
3. Soit (x
(n)
)
nIN
la suite dnie par lalgorithme (3.46). Pour n 0, on dnit x
(n+1,0)
= x
(n)
= (x
(n)
1
, . . . , x
(n)
N
)
t
,
et pour 1 k N, x
(n+1,k)
= (x
(n+1)
1
, . . . , x
(n+1)
k
, x
(n)
k+1
, . . . , x
(n)
N
)
t
(de sorte que x
(n+1,N)
= x
(n+1)
).
(a) Soit n IN. Pour 1 k N, montrer que
k
f(x
(n+1,k)
) = 0, pour k = 1, . . . , N. En dduire que
f(x
(n+1,k1)
) f(x
(n+1,k)
)

2
|x
(n+1,k1)
x
(n+1,k)
|
2
.
(b) Montrer que la suite (x
(n)
)
nIN
vrie
f(x
(n)
) f(x
(n+1)
)

2
|x
(n)
x
(n+1)
|
2
.
En dduire que lim
n+
|x
(n)
x
(n+1)
| = 0 et que, pour 1 k N, lim
n+
|x
(n+1,k)
x
(n+1)
| = 0.
4. Montrer que
|x
(n+1)
x|
1
_
N
k=1
[
k
f(x
(n+1)
)[
2
_
1
2
.
5. Montrer que les suites (x
(n)
)
nIN
, et (x
(n+1,k)
)
nIN
, pour k = 1, . . . , N, sont bornes.
Montrer que
[
k
f(x
(n+1)
)[ 0 lorsque n +.
(On rappelle que
k
f(x
(n+1,k)
) = 0.)
Conclure quant la convergence de la suite(x
(n)
)
nIN
lorsque n +.
6. On suppose dans cette question que f(x) =
1
2
(Ax[x) (b[x). Montrer que dans ce cas, lalgorithme (3.46) est
quivalent une mthode itrative de rsolution de systmes linaires quon identiera.
7. On suppose dans cette question que N = 2. Soit g la fonction dnie de IR
2
dans IR par : g(x) = x
2
1
+ x
2
2

2(x
1
+ x
2
) + 2[x
1
x
2
[, avec x = (x
1
, x
2
)
t
.
(a) Montrer quil existe un unique lment x = (x
1
, x
2
)
t
de IR
2
tel que g(x) = inf
xIR
2 g(x).
(b) Montrer que x = (1, 1)
t
.
(c) Montrer que si x
(0)
= (0, 0)
t
, lalgorithme (3.46) appliqu g ne converge pas vers x. Quelle est lhypothse
mise en dfaut ici ?
Exercice 76 (Gradient conjugu pour une matrice non symtrique) Corrig dtaill en page 157
Soit N IN, N 1. On dsigne par | | la norme euclidienne sur IR
N
, et on munit lensemble /
N
(IR) de la
norme induite par la norme | |, | |. Soit A /
N
(IR) une matrice inversible. On dnit M /
N
(IR) par
M = A
t
A. On se donne un vecteur b IR
N
, et on sintresse la rsolution du systme linaire
Ax = b; . (3.47)
1. Montrer que x IR
N
est solution de (1.63) si et seulement si x est solution de
Mx = A
t
b; . (3.48)
2. On rappelle que le conditionnement dune matrice C /
N
(IR) inversible est dni par cond(C) =
|C||C
1
| (et dpend donc de la norme considre ; on rappelle quon a choisi ici la norme induite par la
norme euclidienne).
(a) Montrer que les valeurs propres de la matrice M sont toutes strictement positives.
(b) Montrer que cond(A) =
_
N
1
, o
N
(resp.
1
) est la plus grande (resp. plus petite) valeur propre de
M.
3. Ecrire lalgorithme du gradient conjugu pour la rsolution du systme (3.48), en ne faisant intervenir que
les matrices A et A
t
(et pas la matrice M) et en essayant de minimiser le nombre de calculs. Donner une
estimation du nombre doprations ncessaires et comparer par rapport lalgorithme du gradient conjugu
crit dans le cas dune matrice carr dordre N symtrique dnie positive.
Exercice 77 (Gradient conjugu prconditionn par LL
t
)
Soit A /
N
(IR) une matrice symtrique dnie positive, et b IR
N
. Soit L une matrice triangulaire infrieure
inversible, soit B = L
1
A(L
t
)
1
et

b = L
1
b.
1. Montrer que B est symtrique dnie positive.
2. Justier lexistence et lunicit de x IR
N
tel que Ax = b, et de y IR
N
tel que By =

b. Ecrire x en
fonction de y.
Soit y
(0)
IR
N
x. On pose r
(0)
= w
(0)
=

b By
(0)
. Si r
(0)
,= 0, on pose alors y
(1)
= y
(0)
+
0
w
(0)
, avec
0
=
r
(0)
r
(0)
w
(0)
A w
(0)
.
Pour n > 1, on suppose y
(0)
, . . . , y
(n)
et w
(0)
, . . . , w
(n1)
connus, et on pose : r
(n)
=

b By
(n)
. Si r
(n)
,= 0,
on calcule : w
(n)
= r
(n)
+
n1
w
(n1)
avec
n1
=
r
(n)
r
(n)
r
(n1)
r
(n1)
et on pose alors : y
(n+1)
= y
(n)
+
n
w
(n)
avec
n
=
r
(n)
r
(n)
w
(n)
B w
(n)
,
3. En utilisant le cours, justier que la famille y
(n)
ainsi construite est nie. A quoi est gale sa dernire valeur ?
Pour n IN, on pose : x
(n)
= L
t
y
(n)
(avec L
t
= (L
1
)
t
= (L
t
)
1
), r
(n)
= b Ax
(n)
, w
(n)
= L
t
w
(n)
et
s
(n)
= (LL
t
)
1
r
(n)
.
4. Soit n > 0 x. Montrer que :
(a)
n1
=
s
(n)
r
(n)
s
(n1)
r
(n1)
, (b)
n
=
s
(n)
r
(n)
w
(n)
Aw
(n)
,
(c) w
(n)
= s
(n)
+
n
w
(n1)
, (d) x
(n+1)
= x
(n)
+
n
w
(n)
.
5. On suppose que la matrice LL
t
est une factorisation de Choleski incomplte de la matrice A. Ecrire lalgo-
rithme du gradient conjugu prconditionn par cette factorisation, pour la rsolution du systme Ax = b.
Exercice 78 (Mthode de Polak-Ribire) Suggestions en page 150, corrig en page 158
Dans cet exercice, on dmontre la convergence de la mthode de Polak-Ribire (mthode de gradient conjugu
pour une fonctionnelle non quadratique) sous des hypothses simples" sur f.
Soit f C
2
(IR
N
, IR). On suppose quil existe > 0, t.q. [y[
2
H(x)yy [y[
2
pour tout x, y IR
N
.
(H(x) est la matrice hessienne de f au point x.)
1. montrer que f est strictement convexe, que f(x) quand [x[ et que le spectre 1T(H(x)) de
H(x) est inclus dans [, ] pour tout x IR
N
.
On note x lunique point de IR
N
N
(lexistence et lunicit de x est donn
par la question prcdente). On cherche une approximation de x en utilisant lalgorithme de Polak-Ribire :
initialisation. x
(0)
IR
N
. On pose g
(0)
= f(x
(0)
). Si g
(0)
= 0, lalgorithme sarrte (on a x
(0)
= x).
Si g
(0)
,= 0, on pose w
(0)
= g
(0)
et x
(1)
= x
(0)
+
0
w
(0)
avec
0
optimal" dans la direction w
(0)
.
itration. x
(n)
, w
(n1)
connus (n 1). On pose g
(n)
= f(x
(n)
). Si g
(n)
= 0, lalgorithme sarrte (on a
x
(n)
= x). Si g
(n)
,= 0, on pose
n1
= [g
(n)
(g
(n)
g
(n1)
)]/[g
(n1)
g
(n1)
], w
(n)
= g
(n)
+
n1
w
(n1)
et x
(n+1)
= x
(n)
+
n
w
(n)
avec
n
n
. (Noter que
n
existe bien.)
On suppose dans la suite que g
(n)
,= 0 pour tout n IN.
2. Montrer (par rcurrence sur n) que g
(n+1)
w
(n)
= 0 et g
(n)
g
(n)
= g
(n)
w
(n)
, pour tout n IN.
3. On pose
J
(n)
=
_
1
0
H(x
(n)
+
n
w
(n)
)d.
Montrer que g
(n+1)
= g
(n)
+
n
J
(n)
w
(n)
et que
n
= (g
(n)
w
(n)
)/(J
(n)
w
(n)
w
(n)
) (pour tout n IN).
4. Montrer que [w
(n)
[ (1 + /)[g
(n)
[ pour tout n IN. [Utiliser, pour n 1, la question prcdente et la
formule donnant
n1
.]
5. Montrer que x
(n)
x quand n .
Exercice 79 (Algorithme de quasi Newton)
Corrig dtaill en page 162
Soit A /
N
(IR) une matrice symtrique dnie positive et b IR
N
. On pose f(x) = (1/2)Ax x b x pour
x IR
N
. On rappelle que f(x) = Ax b. Pour calculer x IR
N
N
, on va
utiliser un algorithme de quasi Newton, cest--dire :
initialisation. x
(0)
IR
N
.
itration. x
(n)
connu (n 0. On pose x
(n+1)
= x
(n)

n
K
(n)
g
(n)
avec g
(n)
= f(x
(n)
), K
(n)
une matrice
symtrique dnie positive dterminer et
n
(n)
= K
(n)
g
(n)
. (Noter que
n
existe
bien.)
Partie 1. Calcul de
n
. On suppose que g
(n)
,= 0.
1. Montrer que w
(n)
(n)
et calculer la valeur de
n
(en fonction de
K
(n)
et g
(n)
).
2. On suppose que, pour un certain n IN, on a K
(n)
= (H(x
(n)
))
1
(o H(x) est la matrice hessienne de f
en x, on a donc ici H(x) = A pour tout x IR
N
). Montrer que
n
= 1.
3. Montrer que la mthode de Newton pour calculer x converge en une itration (mais ncessite la rsolution
du systme linaire A(x
(1)
x
(0)
) = b Ax
(0)
. . . )
Partie 2. Mthode de Fletcher-Powell. On prend maintenant K
(0)
= Id et
K
(n+1)
= K
(n)
+
s
(n)
(s
(n)
)
t
s
(n)
y
(n)

(K
(n)
y
(n)
)(K
(n)
(y
(n)
)
t
K
(n)
y
(n)
y
(n)
, n 0, (3.49)
avec s
(n)
= x
(n+1)
x
(n)
et y
(n)
= g
(n+1)
g
(n)
= As
(n)
.
On va montrer que cet algorithme converge en au plus N itrations (cest--dire quil existe n N + 1 t.q.
x
N+1
= x.)
1. Soit n IN. On suppose, dans cette question, que s
(0)
, . . . , s
(n1)
sont des vecteurs A-conjugus et non-
nuls et que K
(0)
, . . . , K
(n)
sont des matrices symtriques dnies positives t.q. K
(j)
As
(i)
= s
(i)
si 0 i <
j n (pour n = 0 on demande seulement K
(0)
symtrique dnie positive).
(a) On suppose que g
(n)
,= 0. Montrer que s
(n)
,= 0 (cf. Partie I) et que, pour i < n,
s
(n)
As
(i)
= 0 g
(n)
s
(i)
= 0.
Montrer que g
(n)
s
(i)
= 0 pour i < n. [On pourra remarquer que g
(i+1)
s
(i)
= g
(i+1)
w
(i)
= 0
et (g
(n)
g
(i+1)
) s
(i)
= 0 par lhypothse de conjugaison de s
(0)
, . . . , s
(n1)
.] En dduire que
s
(0)
, . . . , s
(n)
sont des vecteurs A-conjugus et non-nuls.
(b) Montrer que K
(n+1)
est symtrique.
(c) Montrer que K
(n+1)
As
(i)
= s
(i)
si 0 i n.
(d) Montrer que, pour tout x IR
N
, on a
K
(n+1)
x x =
(K
(n)
x x)(K
(n)
y
(n)
y
(n)
) (K
(n)
y
(n)
x)
2
K
(n)
y
(n)
y
(n)
+
(s
(n)
x)
2
As
(n)
s
(n)
.
En dduire que K
(n+1)
est symtrique dnie positive. [On rappelle (ingalit de Cauchy-Schwarz)
que, si K est symtrique dnie positive, on a (Kx y)
2
(Kx x)(Ky y) et lgalit a lieu si et
seulement si x et y sont colinaires.]
2. On suppose que g
(n)
,= 0 si 0 n N1. Montrer (par rcurrence sur n, avec la question prcdente) que
s
(0)
, . . . , s
(N1)
sont des vecteurs A-conjugus et non-nuls et que K
(N)
As
(i)
= s
(i)
si i < N. En dduire
que K
(N)
= A
1
,
N
= 1 et x
(N+1)
= A
1
b = x.
Exercice 80 (Mthodes de GaussNewton et de quasilinarisation) Corrig dtaill en page 161
Soit f C
2
(IR
N
, IR
P
), avec N, P IN
. Soit C /
P
(IR) une matrice relle carre dordre P, symtrique
dnie positive, et d IR
P
. Pour x IR
N
, on pose
J(x) = (f(x) d) C(f(x) d).
On cherche minimiser J.
I Proprits dexistence et dunicit
(a) Montrer que J est borne infrieurement.
(b) Donner trois exemples de fonctions f pour lesquels les fonctionnelles J associes sont telles que lon
ait :
i. existence et unicit de x IR
N
qui ralise le minimum de J, pour le premier exemple.
ii. existence et non unicit de x IR
N
qui ralise le minimum de J, pour le second exemple.
iii. non existence de x IR
N
qui ralise le minimum de J, pour le troisime exemple.
(On pourra prendre N = P = 1.)
II Un peu de calcul diffrentiel
(a) On note Df et D
2
f les diffrentielles dordre 1 et 2 de f. A quels espaces appartiennent Df(x),
D
2
f(x) (pour x IR
N
), ainsi que Df et D
2
f ? Montrer que pour tout x IR
N
, il existe M(x)
/
P,N
(IR), o /
P,N
(IR) dsigne lensemble des matrices relles P lignes et N colonnes, telle que
Df(x)(y) = M(x)y pour tout y IR
N
.
(b) Pour x IR
N
, calculer J(x).
(c) Pour x IR
N
, calculer la matrice hessienne de J en x (quon notera H(x)). On suppose maintenant
que M ne dpend pas de x ; montrer que dans ce cas H(x) = 2M(x)
t
CM(x).
III Algorithmes doptimisation
Dans toute cette question, on suppose quil existe un unique x IR
N
qui ralise le minimum de J, quon
cherche calculer de manire itrative. On se donne pour cela x
0
IR
N
, et on cherche construire une
suite (x
n
)
nIN
qui converge vers x.
(a) On cherche calculer x en utilisant la mthode de Newton pour annuler J. Justier brivement cette
procdure et crire lalgorithme obtenu.
(b) Lalgorithme dit de Gauss-Newton" est une modication de la mthode prcdente, qui consiste
approcher, chaque itration n, la matrice jacobienne de J en x
n
par la matrice obtenue en ngligeant
les drives secondes de f. Ecrire lalgorithme ainsi obtenu.
(c) Lalgorithme dit de quasilinarisation" consiste remplacer, chaque itration n IN, la minimisa-
tion de la fonctionnelle J par celle de la fonctionnelle J
n
, dnie de IR
N
dans IR, et obtenue partir
de J en effectuant un dveloppement limit au premier ordre de f(x) en x
n
, c..d.
J
n
(x) = (f(x
n
) + Df(x
n
)(x x
n
) d) C(f(x
n
) + Df(x
n
)(x x
n
) d).
i. Soit n 0, x
n
IR
N
connu, M
n
= M(x
n
) /
P,N
(IR), et x IR
N
. On pose h = x x
n
.
Montrer que
J
n
(x) = J(x
n
) + M
t
n
CM
n
h h + 2M
t
n
C(f(x
n
) d) h.
ii. Montrer que la recherche du minimum de J
n
est quivalente la rsolution dun systme linaire
dont on donnera lexpression.
iii. Ecrire lalgorithme de quasilinarisation, et le comparer avec lalgorithme de Gauss-Newton.
Exercice 81 (Mthode de pnalisation)
Soit f une fonction continue et strictement convexe de IR
N
dans IR, satisfaisant de plus :
lim
|x|+
f(x) = +.
Soit K un sous ensemble non vide, convexe (cestdire tel que (x, y) K
2
, tx + (1 t)y K, t ]0, 1[),
et ferm de IR
N
. Soit une fonction continue de IR
N
dans [0, +[ telle que (x) = 0 si et seulement si x K.
Pour n IN, on dnit la fonction f
n
par f
n
(x) = f(x) + n(x).
1. Montrer quil existe au moins un lment x
n
IR
N
tel que f
n
( x
n
) = inf
xIR
N f
n
(x), et quil existe un
unique lment x
K
K tel que f( x
K
) = inf
xK
f(x).
2. Montrer que pour tout n IN,
f( x
n
) f
n
( x
n
) f( x
K
).
3. En dduire quil existe une sous-suite ( x
n
k
)
kIN
et y K tels que x
n
k
y lorsque k +.
4. Montrer que y = x
K
. En dduire que toute la suite ( x
n
)
nIN
converge vers x
K
.
5. Dduire de ces questions un algorithme (dit de pnalisation") de rsolution du problme de minimisation
suivant :
_
Trouver x
K
K;
f( x
K
) f(x), x K,
en donnant un exemple de fonction .
Exercice 82 (Sur lexistence et lunicit) Corrig en page 164
Etudier lexistence et lunicit des solutions du problme (3.29), avec les donnes suivantes : E = IR, f : IR IR
est dnie par f(x) = x
2
, et pour les quatre diffrents ensembles K suivants :
(i) K = [x[ 1 ; (ii) K = [x[ = 1
(iii) K = [x[ 1 ; (iv) K = [x[ > 1.
(3.50)
Exercice 83 (Aire maximale dun rectangle primtre donn)
Corrig en page 164
1. On cherche maximiser laire dun rectangle de primtre donn gal 2. Montrer que ce problme peut se
formuler comme un problme de minimisation de la forme (3.29), o K est de la forme K = x IR
2
; g(x) = 0.
On donnera f et g de manire explicite.
2. Montrer que le problme de minimisation ainsi obtenu est quivalent au problme
_
x = ( x
1
, x
2
)
t

K
f( x
1
, x
2
) f(x
1
, x
2
), (x
1
, x
2
)
t

K,
(3.51)
o

K = K [0, 1]
2
, K et f tant obtenus la question 1. En dduire que le problme de minimisation de laire
admet au moins une solution.
3. Calculer Dg(x) pour x K et en dduire que si x est solution de (3.51) alors x = (1/2, 1/2). En dduire que
le problme (3.51) admet une unique solution donne par x = (1/2, 1/2).
Exercice 84 (Fonctionnelle quadratique) Suggestions en page 150, corrig en page 165
Soit f une fonction quadratique, i.e. f(x) =
1
2
Ax x b x, o A /
N
(IR) est une matrice symtrique
dnie positive et b IR
N
. On suppose que la contrainte g est une fonction linaire de IR
N
dans IR, cest--dire
g(x) = d x c o c IR et d IR
N
, et que d ,= 0. On pose K = x IR
N
, g(x) = 0 et on cherche
rsoudre le problme de minimisation (3.29).
1. Montrer que lensemble K est non vide, ferm et convexe. En dduire que le problme (3.29) admet une unique
solution.
2. Montrer que si x est solution de (3.29), alors il existe IR tel que y = ( x, )
t
soit lunique solution du
systme :
_
_
A d
d
t
0
_
_
_
_
x
_
_
=
_
_
b
c
_
_
(3.52)
Exercice 85 (Utilisation du thorme de Lagrange)
1. Pour (x, y) IR
2
, on pose : f(x, y) = y, g(x, y) = x
2
+ y
2
1. Chercher le(s) point(s) o f atteint son
maximum ou son minimum sous la contrainte g = 0.
2. Soit a = (a
1
, . . . , a
N
) IR
N
, a ,= 0. Pour x = (x
1
, . . . , x
N
) IR
N
, on pose : f(x) =
N
i=1
[x
i
a
i
[
2
,
g(x) =
N
i=1
[x
i
[
2
. Chercher le(s) point(s) o f atteint son maximum ou son minimum sous la contrainte
g = 1.
3. Soient A /
N
(IR) symtrique, B /
N
(IR) s.d.p. et b IR
N
. Pour v IR
N
, on pose f(v) =
(1/2)Av v b v et g(v) = Bv v. Peut-on appliquer le thorme de Lagrange et quelle condition donne-
t-il sur u si f(u) = minf(v), v K avec K = v IR
N
; g(v) = 1 ?
Exercice 86 (Minimisation sans drivabilit)
Soient A /
N
(IR) une matrice s.d.p., b IR
N
, j : IR
N
IR une fonction continue, convexe, valeurs
positives ou nulles (mais non ncessairement drivable, par exemple j(v) =
N
j=1

i
[v
i
[, avec
i
0 pour
tout i 1, . . . , N). Soit U une partie non vide, ferme convexe de IR
N
. Pour v IR
N
, on pose J(v) =
(1/2)Av v b v + j(v).
1. Montrer quil existe un et un seul u tel que :
u U, J(u) J(v), v U. (3.53)
2. Soit u U, montrer que u est solution de (3.53) si et seulement si (Au b) (v u) + j(v) j(u) 0,
pour tout v U.
Exercice 87 (Contre exemple aux multiplicateurs de Lagrange)
Soient f et g : IR
2
IR, dnies par : f(x, y) = y, et g(x, y) = y
3
x
2
. On pose K = (x, y) IR
2
; g(x, y) =
0.
1. Calculer le minimum de f sur K et le point (x, y) o ce minimum est atteint.
2. Existe-t-il tel que Df(x, y) = Dg(x, y) ?
3. Pourquoi ne peut-on pas appliquer le thorme des multiplicateurs de Lagrange ?
4. Que trouve-t-on lorsquon applique la mthode dite de Lagrange" pour trouver (x, y) ?
Exercice 88 (Application simple du thorme de Kuhn-Tucker) Corrig en page 166
Soit f la fonction dnie de E = IR
2
dans IR par f(x) = x
2
+ y
2
et K = (x, y) IR
2
; x + y 1.
Justier lexistence et lunicit de la solution du problme (3.29) et appliquer le thorme de Kuhn-Tucker pour la
dtermination de cette solution.
Exercice 89 (Exemple doprateur de projection)
Correction en page 166
1.Soit K = C
+
= x IR
N
, x = (x
1
, . . . , x
n
)
t
, x
i
0, i = 1, . . . , N.
(a) Montrer que K est un convexe ferm non vide.
(b) Montrer que pour tout y IR
N
, on a : (p
K
(y))
i
= max(y
i
, 0).
2. Soit (
i
)
i=1,...,N
IR
N
et (
i
)
i=1,...,N
IR
N
tels que
i

i
pour tout i = 1, . . . , N. Soit K = x =
(x
1
, . . . , x
N
)
t
;
i

i
, i = 1, . . . , N.
1. Montrer que K est un convexe ferm non vide.
2. Soit p
K
loprateur de projection dnie la proposition 3.44 page 133. Montrer que pour tout y IR
N
, on a :
(p
K
(y))
i
= max(
i
, min(y
i
,
i
)), i = 1, . . . , N
Exercice 90 (Mthode de relaxation avec Newton problmes sans contrainte)
On considre le problme :
_
x K,
f(x) f(x), x K,
(3.54)
o K IR
N
.
(a) On prend ici K =
i=1,N
[a
i
, b
i
], o (a
i
, b
i
) IR
2
est tel que a
i
b
i
. On considre lalgorithme suivant :
_
_
Initialisation : x
(0)
E,
Itration n : x
(n)
connu, (n 0)
Calculer x
(n+1)
1
[a
1
, b
1
] tel que :
f(x
(n+1)
1
, x
(n)
2
, x
(n)
3
, . . . , x
(n)
N
) f(, x
(n)
2
, x
(n)
3
, . . . , x
(n)
N
), pour tout [a
1
, b
1
],
Calculer x
(n+1)
2
[a
2
, b
2
] tel que :
f(x
(n+1)
1
, x
(n+1)
2
, x
(n)
3
, . . . , x
(n)
N
) f(x
(n+1)
1
, , x
(n)
3
, . . . , x
(n)
N
),
pour tout [a
2
, b
2
],
. . .
Calculer x
(n+1)
k
[a
k
, b
k
], tel que :
f(x
(n+1)
1
, . . . , x
(n+1)
k1
, x
(n+1)
k
, x
(n)
(k+1)
, . . . , x
(n)
N
)
f(x
(n+1)
1
, . . . , x
(n+1)
k1
, , x
(n)
(k+1)
, . . . , x
(n)
N
), pour tout [a
k
, b
k
],
. . .
Calculer x
(n+1)
N
[a
N
, b
N
] tel que :
f(x
(n+1)
1
, x
(n+1)
2
, . . . , x
(n+1)
N1
, x
(n+1)
N
) f(x
(n+1)
1
, . . . , x
(n+1)
N1
, ),
pour tout [a
N
, b
N
].
(3.55)
Montrer que la suite x
(n)
construite par lalgorithme (3.55) est bien dnie et converge vers x lorsque n tend
vers +, o x K est tel que f(x) f(x) pour tout x K.
(b) On prend maintenant N = 2, f la fonction de IR
2
dans IR dnie par f(x) = x
2
1
+x
2
2
, et K = (x
1
, x
2
)
t
IR
2
; x
1
+x
2
2. Montrer quil existe un unique lment x = (x
1
, x
2
)
t
de K tel que f(x) = inf
xIR
2 f(x).
Dterminer x.
On considre lalgorithme suivant pour la recherche de x :
_
_
Initialisation : x
(0)
E,
Itration n : x
(n)
connu, (n 0)
Calculer x
(n+1)
1
2 x
(n)
2
tel que :
f(x
(n+1)
1
, x
(n)
2
) f(, x
(n)
2
), pour tout 2 x
(n)
2
,
Calculer x
(n+1)
2
2 x
(n)
1
tel que :
f(x
(n+1)
1
, x
(n+1)
2
) f(x
(n+1)
1
, ), pour tout 2 x
(n)
1
.
(3.56)
Montrer (ventuellement graphiquement) que la suite construite par lalgorithme ci-dessus ne converge vers
x que si lune des composantes de x
(0)
vaut 1.
Exercice 91 (Convergence de lalgorithme dUzawa)
Soient N, p IN
. Soit f C
1
(IR
N
, IR) (N 1) t.q.
> 0, (f(x) f(y)) (x y) [x y[
2
, x, y IR
N
.
Soit C M
p,N
(IR) (C est donc une matrice, lments rels, ayant p lignes et N colonnes) et d IR
p
. On note
D = x IR
N
, Cx d et (
+
= u IR
p
, u 0.
On suppose D ,= et on sintresse au problme suivant :
x D, f(x) f(y), y D. (3.57)
1. Montrer que f(y) f(x) +f(x) (y x) +

2
[x y[
2
pour tout x, y IR
N
.
2. Montrer que f est strictement convexe et que f(x) quand [x[ . En dduire quil existe une et une
seule solution au problme (3.57).
Dans la suite, on note x cette solution.
Pour u IR
p
et x IR
N
, on pose L(x, u) = f(x) + u (Cx d).
3. Soit u IR
p
(dans cette question, u est x). Montrer que lapplication x L(x, u) est strictement convexe
(de IR
N
dans IR) et que L(x, u) quand [x[ [Utiliser la question 1]. En dduire quil existe une
et une seule solution au problme suivant :
x IR
N
, L(x, u) L(y, u), y IR
N
. (3.58)
Dans la suite, on note x
u
cette solution. Montrer que x
u
est aussi lunique lment de IR
N
t.q. f(x
u
) +
C
t
u = 0.
4. On admet que le thorme de Kuhn-Tucker sapplique ici (cf. cours). Il existe donc u (
+
t.q. f(x) +
C
t
u = 0 et u (Cx d) = 0. Montrer que (x, u) est un point selle de L sur IR
N
(
+
, cest--dire :
L(x, v) L(x, u) L(y, u), (y, v) IR
N
(
+
. (3.59)
Pour u IR
p
, on pose M(u) = L(x
u
, u) (de sorte que M(u) = infL(x, u), x IR
N
). On considre
alors le problme suivant :
u (
+
, M(u) M(v), v (
+
. (3.60)
5. Soit (x, u) IR
N
(
+
un point selle de L sur IR
N
(
+
(cest--dire L(x, v) L(x, u) L(y, u), pour
tout (y, v) IR
N
(
+
). Montrer que x = x = x
u
(on rappelle que x est lunique solution de (3.57) et
x
u
est lunique solution de (3.58)) et que u est solution de (3.60). [On pourra commencer par montrer, en
utilisant la premire ingalit, que x D et u (Cx d) = 0.]
3.7. SUGGESTIONS CHAPITRE 3. OPTIMISATION
Montrer que f(x) + C
t
u = 0 et que u = P
C
+(u + (Cx d)), pour tout > 0, o P
C
+ dsigne
loprateur de projection orthogonale sur (
+
. [on rappelle que si v IR
p
et w (
+
, on a w = P
C
+v
((v w) (w z) 0, z (
+
).]
6. Dduire des questions 2, 4 et 5 que le problme (3.60) admet au moins une solution.
7. Montrer que lalgorithme du gradient pas xe avec projection pour trouver la solution de (3.60) scrit (on
dsigne par > 0 le pas de lalgorithme) :
Initialisation. u
0
(
+
.
Itrations. Pour u
k
(
+
connu (k 0). On calcule x
k
IR
N
t.q. f(x
k
) +C
t
u
k
= 0 (montrer quun tel
x
k
existe et est unique) et on pose u
k+1
= P
C
+(u
k
+ (Cx
k
d)).
Dans la suite, on sintresse la convergence de la suite (x
k
, u
k
)
kIN
donne par cet algorithme.
8. Soit t.q. 0 < < 2/|C|
2
avec |C| = sup[Cx[, x IR
N
t.q. [x[ = 1. Soit (x, u) IR
N
(
+
un
point selle de L sur IR
N
(
+
(cest--dire vriant (3.59)) et (x
k
, u
k
)
kIN
la suite donne par lalgorithme
de la question prcdente. Montrer que
[u
k+1
u[
2
[u
k
u[
2
(2 |C|
2
)[x
k
x[
2
, k IR
N
.
En dduire que x
k
x quand k .
Montrer que la suite (u
k
)
kIN
est borne et que, si u est une valeur dadhrence de la suite (u
k
)
kIN
, on a
f(x) +C
t
u = 0. En dduire que, si rang(C)=p, on a u
k
u quand k et que u est lunique lment
de (
+
t.q. f(x) + C
t
u = 0.
3.7 Suggestions
Exercice 66 page 138 (Convexit et continuit)
1. (a) Pour montrer la continuit en 0, soit x ,= 0, [x[ < 1. On pose a = sgn(x) (=
x
|x|
). Ecrire x comme une
combinaison convexe de 0 et a et crire 0 comme une combinaison convexe de x et a. En dduire
une majoration de [f(x) f(0)[.
(b) utiliser la continuit de f et la majoration prcdente.
2. (a) Faire une rcurrence sur N et pour x = (x
1
, y)
t
avec R < x
1
< R et y IR
N1
(N > 1), majorer
f(x) en utilisant f(+R, y) et f(R, y).
(b) Reprendre le raisonnement fait pour N = 1.
(c) Se ramener E = IR
N
.
3. (a) reprendre le raisonnement fait pour E = IR.
(b) On pourra, par exemple choisir E = C([0, 1], IR). . .
Exercice 67 page 138 (Maximisation)
Appliquer les thormes du cours f.
Exercice 68 page 138 (Minimisation dune fonctionnelle quadratique)
1. Calculer la diffrentielle de f en formant la diffrence f(x + h) f(x) et en utilisant la dnition. Calculer la
hessienne en formant la diffrence f(x + h) f(x).
2. Utiliser le cours. . .
Exercice 70 page 139 (Algorithme du gradient pas xe)
1. Introduire la fonction dnie (comme dhabitude...) par (t) = f(tx + (1 t)y), intgrer entre 0 et 1 et
utiliser lhypothse (3.3.15) sur f(x + t(y x)) f(x).
3.7. SUGGESTIONS CHAPITRE 3. OPTIMISATION
2. Utiliser le cours pour la stricte convexit et lexistence et lunicit de x, et la question 1 pour montrer que
f(x) +lorsque [x[ +.
3. Montrer grce aux hypothses (3.3.15) et (3.3.16) que [x
n+1
x[
2
< [x
n
x[
2
(1 2 + M
2
2
).
Exercice 72 page 139 (Algorithme du gradient pas optimal)
2. Utiliser le fait que H est continue.
3. Etudier la fonction : IR
+
dans IR dnie par () = f(x
n
+ w
n
).
4. a. Montrer que f est minore et remarquer que la suite (f(x
n
))
nIN
est dcroissante.
4.b se dduit du 4.a
4.c. Utiliser la fonction dnie plus haut, la question 4.b. et la question 2.
4.d. Utiliser le fait que le choix de
n
est optimal et le rsultat de 4.c.
4.e. Etudier le polynme du 2nd degr en dni par : P
n
() = f(x
n
) [w
n
[
2
+
1
2
M[w
n
[
2
2
dans les cas o
[w
n
[ M (fait
`
la quesiton 4.c) puis dans le cas [w
n
[ M.
5. utiliser lingalit prouve en 4.e. pour montrer que [w
n
[ 0 lorsque n +.
6. Pour montrer que toute la suite converge, utiliser largument dunicit de la limite, en raisonnant par labsurde
(supposer que la suite ne converge pas et aboutir une contradiction).
Exercice 74 page 140 (Cas o f nest pas croissante linni)
Sinspirer des techniques utilises aux exercices 70 et 72 (il faut imprativement les avoir fait avant...).
Exercice 78 page 143 (Mthode de Polak-Ribire)
1. Utiliser la deuxime caractrisation de la convexit. Pour montrer le comportement linni, introduire la
fonction habituelle. . . ((t) = f(x + ty)).
2. Pour montrer la concurrence, utiliser le fait que si w
n
f(x
n
) < 0 alors w
n
est une direction de descente
stricte de f en x
n
, et que si
n
est optimal alors f(x
n
+
n
w
n
) = 0.
3. Utiliser la fonction dnie par () = f(x
n
+
n
w
n
).
4. Cest du calcul...
5. Montrer dabord que g
n
w
n
[w
n
[[g
n
[. Montrer ensuite (en utilisant la bonne vieille fonction dnie
par (t) = f(x
n
+ t
n
), que g
n
0 lorsque n +.
Exercice 84 page 146 (Fonctionnelle quadratique)
1. Pour montrer que K est non vide, remarquer que comme d ,= 0, il existe x IR
N
tel que d x = ,= 0. En
dduire lexistence de x IR
N
tel que d x = c.
2. Montrer par le thorme de Lagrange que si x est solution de (3.29), alors y = ( x, )
t
est solution du
systme (3.52), et montrer ensuite que le systme (3.52) admet une unique solution.
3.8. CORRIGS CHAPITRE 3. OPTIMISATION
3.8 Corrigs
Corrig de lexercice 68 page 138 (Minimisation dune fonctionnelle quadratique)
1. Puisque f(x) =
1
2
Ax x b x, f C
(IR
N
, IR). Calculons le gradient de f :
f(x + h) =
1
2
A(x + h) (x + h) b (x + h)
=
1
2
Ax x +
1
2
Ax h +
1
2
Ah x +
1
2
Ah h b x b h
= f(x) +
1
2
(Ax h + Ah x) b h +
1
2
Ah h
= f(x) +
1
2
(Ax + A
t
x) h b h +
1
2
Ah h.
Et comme |Ah h| |A|
2
|h|
2
, on a :
f(x) =
1
2
(Ax + A
t
x) b. (3.61)
Si A est symtrique f(x) = Ax b. Calculons maintenant la hessienne de f. Daprs (3.61), on a :
f(x + h) =
1
2
(A(x + h) + A
t
(x + h)) b = f(x) +
1
2
(Ah + A
t
h)
et donc H
f
(x) = D(f(x)) =
1
2
(A + A
t
). On en dduit que si A est symtrique, H
f
(x) = A.
2. Si Aest symtrique dnie positive, alors f est strictement convexe. De plus, si Aest symtrique dnie positive,
alors f(x) +quand [x[ +. En effet,
Ah h [h[
2
o est la plus petite valeur propre de A, et > 0
f(h)

2
|h|
2
|b||h|; or |bh| |b| |h|
f(h) |h|
_
h
2
b
_
quand h +
On en dduit lexistence et lunicit de x qui minimise f. On a aussi :
f( x) = 0 f( x) = inf
IR
N
f
Par la question 1. x est donc lunique solution du systme A x = b.
Corrig de lexercice 70 page 139 (Convergence de lalgorithme du gradient pas xe)
1. Soit la fonction dnie de IR dans IR
N
par : (t) = f(x + t(y x)). Alors (1) (0) =
_
1
0
f(x +
t(y x)) (y x)dt, et donc :
f(y) f(x) =
_
1
0
f(x + t(y x)) (y x)dt.
On a donc :
f(y) f(x) f(x) (y x) =
_
1
0
(f(x + t(y x)) (y x) f(x) (y x))dt,
cestdire :
f(y) f(x) f(x) (y x) =
_
1
0
(f(x + t(y x)) f(x))
. .
t(yx)
2
(y x)dt.
Grce la premire hypothse sur f, ceci entrane :
f(y) f(x) f(x) (y x)
_
1
0
t[y x[
2
dt =

2
[y x[
2
> 0 si y ,= x. (3.62)
2. On dduit de la question 1 que f est strictement convexe. En effet, grce la question 1, pour tout (x, y)
E
2
, f(y) > f(x) +f(x) (y x) ; et daprs la premire caractrisation de la convexit, voir proposition
3.11 p.47, on en dduit que f est strictement convexe.
Montrons maintenant que f(y) +quand [y[ +.
On crit (3.62) pour x = 0 : f(y) f(0) +f(0) y +

2
[y[
2
.
Comme f(0) y [f(0)[(y), on a donc
f(y) f(0) [f(0)[ [y[ +

2
[y[
2
, et donc :
f(y) f(0) +[y[
_
2
[y[ [f(0)[
_
+quand [y[ +.
3. On pose h(x) = x f(x). Lalgorithme du gradient pas xe est un algorithme de point xe pour h.
x
n+1
= x
n
f(x
n
) = h(x
n
).
Grce au thorme 2.3 page 77, on sait que h est strictement contractante si 0 < <
2
M
2
.
Donc x
n
x unique point xe de h, cestdire x = h( x) = x f( x). Ceci entrane
f( x) = 0 donc f( x) = inf
E
f car f est convexe .
Corrig de lexercice 71 page 139 (Mise en oeuvre de GPF et GPO)
1. On a
f(x) =
_
4x
1
x
2
3
2x
2
x
1
1
_
et H
f
=
_
4 1
1 2
_
La fonction f vrie les hypothses du thorme 3.34 dexistence et dunicit du minimum. En particulier la
hessienne H
f
=
_
4 1
1 2
_
est s.d.p., car H
f
xx = (4x
1
x
2
)x
1
+(x
1
+2x
2
)x
2
= (x
1
x
2
)
2
+3x
2
1
+x
2
2
> 0
sauf pour x
1
= x
2
= 0. Le minimum est obtenu pour
1
f(x
1
, x
2
) = 4x
1
x
2
3 = 0
2
f(x
1
, x
2
) = 2x
2
x
1
1 = 0
cest--dire x
1
= 1 et x
2
= 1. Ce minimum est f( x
1
, x
2
) = 2.
2. Lalgorithme du gradient pas xe scrit :
_
_
Initialisation : x
(0)
E,
Itration n : x
(n)
connu, (n 0)
w
(n)
= f(x
(n)
),
x
(n+1)
= x
(n)
+ w
(n)
.
A la premire itration, on a f(0, 0) = (3, 1) et donc w
0
= (3, 1). On en dduit x
(1)
= (3, 2) = (3/2, 1)
et f(x
(1)
) = 5/2..
Lalgorithme du gradient pas optimal scrit :
_
_
Initialisation : x
(0)
IR
N
.
Itration n : x
(n)
connu.
On calcule w
(n)
= f(x
(n)
).
On choisit
n
0 tel que
f(x
(n)
+
n
w
(n)
) f(x
(n)
+ w
(n)
) 0.
On pose x
(n+1)
= x
(n)
+
n
w
(n)
.
Calculons le
0
optimal litration 0. On a vu prcdemment que w
0
= (3, 2). Le
0
optimal minimise la fonction
() = f(x
(0)
+ w
(0)
) = f(3, ). On doit donc avoir
(
0
) = 0. Calculons
(). Par le thorme de

drivation des fonctions composes, on a :
() = f(x
(0)
+ w
(0)
) w(0) =
_
10 3
1
_
_
3
1
_
= 3(11 3) + ( 1) = 32 10.
On en dduit que
0
=
5
16
. On obtient alors x
(1)
= x
(0)
+
0
w
(0)
= (
15
16
,
5
16
), et f(x
(1)
) = 2.4375, ce qui est,
comme attendu, mieux quavec GPF.
Corrig de lexercice 72 page 139 (Convergence de lalgorithme du gradient pas optimal)
1. On sait que f(x) + lorsque [x[ +. Donc A > 0, R IR
+
; [x[ > R f(x) > A. En
particulier pour A = f(x
0
) ceci entrane :
R IR
+
; x B
R
f(x) > f(x
0
).
2. Comme f C
2
(IR
N
, IR), sa hessienne H est continue, donc |H| atteint son max sur B
R+1
qui est un
ferm born de IR
N
. Soit M = max
xBR+1
|H(x)|, on a H(x)y y My y M[y[
2
.
3. Soit w
n
= f(x
n
).
Si w
n
= 0, on pose x
n+1
= x
n
.
Si w
n
,= 0, montrons quil existe > 0 tel que
f(x
n
+ w
n
) f(x
n
+ w
n
) > 0.
On sait que f(x) +lorsque [x[ +.
Soit : IR
+
IR dnie par () = f(x
n
+ w
n
). On a (0) = f(x
n
) et () = f(x
n
+ w
n
) +
lorsque +.
En effet si +, on a [x
n
+ w
n
[ +. Donc tant continue, admet un minimum, atteint en ,
et donc IR
+
; f(x
n
+ w) f(x
n
+ w
n
) > 0.
4. a) Montrons que la suite (f(x
n
))
nIN
est convergente. La suite (f(x
n
))
nIN
vrie
f(x
n+1
) f(x
n
).
De plus f(x) +lorsque [x[ +donc f est borne infrieurement. On en conclut que la suite
(f(x
n
))
nIN
est convergente.
b) Montrons que x
n
B
R
n IN. On sait que si x / B
R
alors f(x) > f(x
0
). Or la suite (f(x
n
))
nIR
est dcroissante donc f(x
n
) f(x
0
) n, donc x
n
B
R
, n IN.
c) Montrons que f(x
n
+ w
n
) f(x
n
) [w
n
[
2
+

2
2
M[w
n
[
2
, [0,
1
[w
n
[
]. Soit dnie de IR
+
dans IR par () = f(x
n
+ w
n
). On a
() = (0) +
(0) +

2
2

( ), o ]0, [.
Or
() = f(x
n
+ w
n
) w
n
et
() = H(x
n
+ w
n
)w
n
w
n
. Donc
() = (0)
..
0
+ f(x
n
)
. .
wn
w
n
+

2
2
H(x
n
+ w
n
)w
n
w
n
.
Si [0,
1
[w
n
[
] on a
[x
n
+ w
n
[ [x
n
[ +
1
[w
n
[
[w
n
[
R + 1,
donc x
n
+ w
n
B
R+1
et par la question 2,
H(x
n
+ w
n
)w
n
w
n
M[w
n
[
2
.
On a donc bien
() = f(x
n
+ w
n
) f(x
n
) [w
n
[
2
+

2
2
M[w
n
[
2
.
d) Montrons que f(x
n+1
) f(x
n
)
[w
n
[
2
2M
si [w
n
[ M.
Comme le choix de
n
est optimal, on a
f(x
n+1
) = f(x
n
+
n
w
n
) f(x
n
+ w
n
), IR
+
.
donc en particulier
f(x
n+1
) f(x
n
+ w
n
), [0,
1
[w
n
[
].
En utilisant la question prcdente, on obtient
f(x
n+1
) f(x
n
) [w
n
[
2
+

2
2
M[w
n
[
2
= (), [0,
1
[w
n
[
]. (3.63)
Or la fonction atteint son minimum pour
[w
n
[
2
+ M[w
n
[
2
= 0
cestdire M = 1 ou encore =
1
M
ce qui est possible si
1
[w
n
[

1
M
(puisque 3.63 est vraie si

1
[w
n
[
).
Comme on a suppos [w
n
[ M, on a donc
f(x
n+1
) f(x
n
)
[w
n
[
2
M
+
[w
n
[
2
2M
= f(x
n
)
[w
n
[
2
2M
.
e) Montrons que f(x
n+1
) + f(x
n
)
[w
n
[
2
2

M
o

M = sup(M,

M) avec

M = sup[f(x)[, x C
R
.
On sait par la question prcdente que si
[w
n
[ M, on a f(x
n+1
) f(x
n
)
[w
n
[
2
2M
.
Montrons que si [w
n
[ M, alors f(x
n+1
) + f(x
n
)
[w
n
[
2
2

M
. On aura alors le rsultat souhait.
On a
f(x
n+1
) f(x
n
) [w
n
[
2
+

2
2
M[w
n
[
2
, [0,
1
[w
n
[
].
Donc
f(x
n+1
) min
[0,
1
|wn|
]
[f(x
n
) [w
n
[
2
+

2
2
M[w
n
[
2
]
. .
Pn()
1er cas si [w
n
[ M, on a calcul ce min la question c).
si [w
n
[ M, la fonction P
n
() est dcroissante sur [0,
1
[w
n
[
] et le minimum est donc atteint pour =
1
[w
n
[
.
Or P
n
_
1
[w
n
[
_
= f(x
n
) [w
n
[ +
M
2
f(x
n
)
[w
n
[
2
f(x
n
)
[w
n
[
2
2

M
.
5. Montrons que f(x
n
) 0 lorsque n +. On a montr que n, [w
n
[
2
2

M(f(x
n
) f(x
n+1
)). Or
la suite (f(x
n
))
nIN
est convergente. Donc [w
n
[ 0 lorsque n +et w
n
= f(x
n
) ce qui prouve le
rsultat.
La suite (x
n
)
nIN
est borne donc (n
k
)
kIN
et x IR
N
; x
n
k
x lorsque k + et comme
f(x
n
k
) 0, on a, par continuit, f( x) = 0.
6. On suppose ! x IR
N
tel que f( x) = 0. Montrons que f( x) f(x) x IR
N
et que x
n
x quand
n +. Comme f est croissante linni, il existe un point qui ralise un minimum de f, et on sait quen
ce point le gradient sannule ; en utilisant lhypothse dunicit, on en dduit que ce point est forcment x,
et donc f( x) f(x) pour tout x IR
N
.
Montrons maintenant que la suite (x
n
)
nIN
converge vers x. En raison de lhypotse dunicit, on a forc-
ment x = x, et on sait quon a convergence dune sous-suite de (x
n
)
nIN
vers x par la question 5. Il reste
donc montrer que cest toute la suite qui converge. Supposons quelle ne converge pas ; alors
> 0; k IN, n
k
k et [x
n
k
x[ > (3.64)
Mais daprs la question 5), on peut extraire de la suite (x
n
k
)
k
une soussuite qui converge, ce qui contre-
dit (3.64). Donc la suite (x
n
)
nIN
converge.
Corrig de lexercice 75 page 140 (Mthode de relaxation)
1. On vu lexercice 70, questions 1 et 2, que si f vrie lhypothse (3.44) alors f est strictement convexe et tend
vers linni en linni, et donc il existe un unique x IR
N
ralisant son minimum.
2. Ecrivons lhypothse (3.44) avec x = se
k
et y = te
k
o (s, t) IR
2
et e
k
est le k-ime vecteur de la base
canonique de IR
N
; en notant
k
f la drive partielle de f par rapport la k-ime variable, il vient :
(
k
f(s)
k
f(t))(s t) [s t[
2
.
En appliquant nouveau les rsultats de lexercice 70, questions 1 et 2 au cas N = 1, on en dduit lexistence et
unicit de s tel que
(n+1)
k
(s) = inf
sIR
(n+1)
k
(s).
Comme lalgorithme (3.46) procde N minimisations de ce type chaque itration, on en dduit que la suite
(x
(n)
)
nIN
construite par cet algorithme est bien dnie.
3.(a) Par dnition, x
(n+1)
k
ralise le minimumde la fonction
(n+1)
k
sur IR. Comme de plus,
(n+1)
k
C
1
(IR, IR),
on a donc (
(n+1)
k
)
(x
(n+1)
k
) = 0. Or (
(n+1)
k
)
(x
(n+1)
k
) =
k
f(x
(n+1,k)
), et donc
k
f(x
(n+1,k)
) = 0.
Daprs la question 2 de lexercice 70, on a
f(x
(n+1,k1)
) f(x
(n+1,k)
) f(x
(n+1,k)
) (x
(n+1,k1)
x
(n+1,k)
)
+

2
[x
(n+1,k1)
x
(n+1,k)
[
2
.
Or x
(n+1,k1)
x
(n+1,k)
= x
(n+1)
k
e
k
et f(x
(n+1,k)
) e
k
=
k
f(x
(n+1,k)
) = 0. On en dduit que :
f(x
(n+1,k1)
) f(x
(n+1,k)
)

2
[x
(n+1,k1)
x
(n+1,k)
[
2
.
3.(b) Par dnition de la suite (x
(n)
)
nIN
, on a :
f(x
(n)
) f(x
(n+1)
) =
N
k=1
f(x
(n+1,k1)
) f(x
(n+1,k)
).
Par la question prcdente, on a donc :
f(x
(n)
) f(x
(n+1)
)

2
N
k=1
[x
(n+1,k1))
x
(n+1,k)
[
2
.
Or x
(n+1,k1))
x
(n+1,k)
= x
(n+1)
k
e
k
, et (e
k
)
kNdim
est une base orthonorme. On peut donc crire que
N
k=1
[x
(n+1,k1))
x
(n+1,k)
[
2
=
N
k=1
[(x
(n)
k
x
(n+1)
k
)e
k
[
2
= [
N
k=1
(x
(n)
k
x
(n+1)
k
)e
k
[
2
= [
N
k=1
(x
(n+1,k1))
x
(n+1,k)
)[
2
= [x
(n)
x
(n+1)
[
2
.
On en dduit que
f(x
(n)
) f(x
(n+1)
)

2
[x
(n)
x
(n+1)
[
2
.
La suite (f(x
(n)
))
nIN
est borne infrieurement par f( x) ; lingalit prcdente montre quelle est dcroissante,
donc elle converge. On a donc f(x
(n)
) f(x
(n+1)
0 lorsque n +, et donc par lingalit prcdente,
lim
n+
[x
(n)
x
(n+1)
[ = 0.
De plus, pour 1 k N,
[x
(n+1,k)
x
(n+1)
[
2
=
N
=k
[(x
(n)
x
(n+1)
)e
[
2
= [
N
=k
(x
(n)
x
(n+1)
)e
[
2
= [
N
=k
(x
(n+1,1))
x
(n+1,)
)[
2
[x
(n)
x
(n+1)
[
2
.
do lon dduit que lim
n+
[x
(n+1,k)
x
(n+1)
[ = 0.
4. En prenant x = x et y = x
(n+1)
dans lhypothse (3.44) et en remarquant que, puisque x ralise le minimum
de f, on a f( x) = 0, on obtient :
(f(x
(n+1)
) ( x x
(n+1)
) [ x x
(n+1)
[
2
,
et donc, par lingalit de Cauchy Schwarz :
[x
(n+1)
x[
1
_
N
k=1
[
k
f(x
(n+1)
)[
2
_
1
2
.
5. Par les questions 1 et 2 de lexercice 70, on sait que la fonction f est croissante linni. Donc il existe R > 0 tel
que si [x[ > R alors f(x) > f(x
0
). Or, la suite (f(x
n
))
nIN
tant dcroissante, on a f(x
n
)) f(x
0
) pour tout n,
et donc [x
n
[ R pour tout n. Par la question 3(b), on sait que pour tout k 1, lim
n+
[x
(n+1,k)
x
(n+1)
[ = 0,
ce qui prouve que les suites (x
(n+1,k)
)
nIN
, pour k = 1, . . . , N, sont galement bornes.
Comme lim
n+
[x
(n+1,k)
x
(n+1)
[ = 0, on a pour tout > 0, lexistence de N
IN tel que [x
(n+1,k)
x
(n+1)
[ < si n N
. Comme f C
1
(IR, IR), la fonction
k
f est uniformment continue sur les borns
(thorme de Heine), et donc pour tout > 0, il existe > 0 tel que si [x y[ < alors [
k
f(x)
k
f(y)[ .
On a donc, pour n N
: [
k
f(x
(n+1,k)
)
k
f(x
(n+1)
)[ , ce qui dmontre que :
[
k
f(x
(n+1)
)[ 0 lorsque n +.
On en conclut par le rsultat de la question 4 que x
(n)
x lorsque n +.
6. On a vu a lexercice 68 que dans ce cas, f(x) =
1
2
(A + A
t
)x b. Lalgorithme 3.46 est donc la mthode de
Gauss Seidel pour la rsolution du systme linaire
1
2
(A + A
t
)x = b.
7 (a) La fonction g est strictement convexe (car somme dune fonction strictement convexe : (x
1
, x
2
) x
2
1
+ x
2
2
,
dune fonction linaire par morceaux : (x
1
, x
2
) 2(x
1
+ x
2
) + 2[x
1
x
2
[. et croissante linni grce aux
termes en puissance 2. Il existe donc un unique lment x = (x
1
, x
2
)
t
de IR
2
tel que g(x) = inf
xIR
2 g(x).
7 (b) Soit > 0. On a, pour tout x IR,
x
() = g(x, x + ) = x
2
+ (x + )
2
4x, qui atteint (pour tout x) son
minimum pour = 0. Le minimum de g se situe donc sur laxe x = y. Or (x) = g(x, x) = 2x
2
4x atteint son
minimum en x = 1.
7 (c) Si x
(0)
= (0, 0)
t
, on vrie facilement que lalgorithme (3.46) appliqu g est stationnaire. La suite ne
converge donc pas vers x. La fonction g nest pas diffrentiable sur la droite x
1
= x
2
.
Corrig de lexercice 76 page 142 (Gradient conjugu pour une matrice non symtrique)
1. Comme A est inversible, A
t
lest aussi et donc les systmes (3.47) et (3.48) sont quivalents.
2 (a) La matrice M est symtrique dnie positive, car A est inversible et M = AA
t
est symtrique. Donc ses
valeurs propres sont strictement positives.
2 (b) On a cond(A) = |A||A
1
|. Comme la norme est ici la norme euclidienne, on a : |A| = ((A
t
A))
1
2
et
|A
1
| = (((A
1
)
t
A
1
))
1
2
= ((AA
t
)
1
))
1
2
. On vrie facilement que M = A
t
A et A
t
A ont mmes valeurs
propres et on en dduit le rsultat.
3. Ecrivons lalgorithme du gradient conjugu pour la rsolution du systme (3.48)
_
_
Initialisation
Soit x
(0)
IR
N
, et soit r
(0)
= A
t
b A
t
Ax
(0)
=
1) Si r
(0)
= 0, alors Ax
(0)
= b et donc x
(0)
= x,
2) Si r
(0)
(0)
= r
(0)
, et on choisit
0
=
r
(0)
r
(0)
A
t
Aw
(0)
w
(0)
.
On pose alors x
(1)
= x
(0)
+
0
w
(0)
.
Itration 1 n N 1 :
On suppose x
(0)
, . . . , x
(n)
et w
(0)
, . . . , w
(n1)
connus et on pose
r
(n)
= A
t
b A
t
Ax
(n)
.
1) Si r
(n)
= 0 on a Ax
(n)
= b donc x
(n)
= x
2) Si r
(n)
(n)
= r
(n)
+
n1
w
(n1)
avec
n1
=
r
(n)
r
(n)
r
(n1)
r
(n1)
. et on pose
n
=
r
(n)
r
(n)
A
t
Aw
(n)
w
(n)
.
On pose alors x
(n+1)
= x
(n)
+
n
w
(n)
.
Si on implmente lalgorithme sous cette forme, on a intrt calculer dabord

b = A
t
b et M = A
t
A pour
minimiser le nombre de mutliplications matrice matrice et matrice vecteur. Au lieu du cot de lalgorithme initial,
qui est en 2N
3
+ O(N
2
), on a donc un cot en 3N
3
+ O(N
2
).
Maintenant si on est optimiste, on peut esprer converger en moins de N itrations (en fait, cest malheureusement
rarement le cas), et dans ce cas il est plus conomique dcrire lalgorithme prcdent sous la forme suivante.
_
_
Initialisation
Soit x
(0)
IR
N
, et soit s
(0)
= b Ax
(0)
et soit r
(0)
= A
t
s
(0)
1) Si r
(0)
= 0, alors Ax
(0)
= b et donc x
(0)
= x,
2) Si r
(0)
(0)
= r
(0)
, y
(0)
= Aw
(0)
et on choisit
0
=
r
(0)
r
(0)
y
(0)
y
(0)
.
On pose alors x
(1)
= x
(0)
+
0
w
(0)
.
Itration 1 n N 1 :
On suppose x
(0)
, . . . , x
(n)
et w
(0)
, . . . , w
(n1)
connus et on pose
s
(n)
= b Ax
(n)
et r
(n)
= A
t
s
(n)
.
1) Si r
(n)
= 0 on a Ax
(n)
= b donc x
(n)
= x
2) Si r
(n)
(n)
= r
(n)
+
n1
w
(n1)
avec
n1
=
r
(n)
r
(n)
r
(n1)
r
(n1)
. et on pose
n
=
r
(n)
r
(n)
y
(n)
y
(n)
avec y
(n)
= Aw
(n)
.
On pose alors x
(n+1)
= x
(n)
+
n
w
(n)
.
On peut facilement vrier que dans cette version, on a un produit matrice vecteur en plus chaque itration, donc
le cot est le mme pour N itrations, mais il est infrieur si on a moins de N itrations.
Remarque : Cette mthode sappelle mthode du gradient conjugu applique aux quations normales. Elle est
facile comprendre et programmer. Malheureusement, elle ne marche pas trs bien dans la pratique, et on lui
prfre des mthodes plus sophistiques telles sue la mthode "BICGSTAB" ou "GMRES".
Corrig de lexercice 78 page 143 (Mthode de Polak-Ribire)
1. Montrons que f est strictement convexe et croissante linni. Soit la fonction de IR dans IR dnie par
(t) = f(x + t(y x)).
On a C
2
(IR, IR), (0) = f(x) et (1) = f(y), et donc :
f(y) f(x) = (1) (0) =
_
1
0
(t)dt.
En intgrant par parties, ceci entrane :
f(y) f(x) =
(0) +
_
1
0
(1 t)
(t)dt. (3.65)
Or
(t) = (x + t(y x)) (y x) et donc
(t) = H(x + t(y x))(y x) (y x). On a donc par

hypothse
(t) [y x[
2
.
On dduit alors de 3.65 que
f(y) f(x) +f(x) (y x) +

2
[y x[
2
. (3.66)
Lingalit 3.66 entrane la stricte convexit de f et sa croissance linni (voir dmonstration de la conver-
gence du gradient pas xe, exercice 27).
Il reste montrer que lensemble 1T(H(x)) des valeurs propres de H(x) est inclus dans [, ]. Comme f
C
2
(IR, IR), H(x) est symtrique pour tout x IR, et donc diagonalisable dans IR. Soit 1T(H(x)) ; il
existe donc y IR
N
, y ,= 0 tel que H(x)y = y, et donc y y y y y y, 1T(H)(x)). On
en dduit que 1T(H(x)) [, ].
2. Montrons par rcurrence sur n que g
(n+1)
w
(n)
= 0 et g
(n)
g
(n)
= g
(n)
w
(n)
pout tout n IN.
Pour n = 0, on a w
(0)
= g
(0)
= f(x
(0)
).
Si f(x
(0)
) = 0 lalgorithme sarrte. Supposons donc que f(x
(0)
) ,= 0. Alors w
(0)
= f(x
(0)
) est
une direction de descente stricte. Comme x
(1)
= x
(0)
+
0
w
(0)
o
0
(0)
, on
a g
(1)
w
(0)
= f(x
(1)
) w
(0)
= 0. De plus, on a videmment g
(0)
w
(0)
= g
(0)
g
(0)
.
Supposons maintenant que g
(n)
w
(n1)
= 0 et g
(n1)
g
(n1)
= g
(n1)
w
(n1)
, et montrons que
g
(n+1)
w
(n)
= 0 et g
(n)
g
(n)
= 0.
Par dnition, on a :
w
(n)
= g
(n)
+
n1
w
(n1)
, donc
w
(n)
g
(n)
= g
(n)
g
(n)
+
n1
w
(n1)
g
(n)
= g
(n)
g
(n)
par hypothse de rcurrence. On dduit de cette galit que w
(n)
g
(n)
> 0 (car g
(n)
,= 0) et donc w
(n)
est
une direction de descente stricte en x
(n)
. On a donc f(x
(n+1)
) w
(n)
= 0, et nalement g
(n+1)
w
(n)
= 0.
3. Par dnition, g
(n)
= f(x
(n)
) ; or on veut calculer g
(n+1)
g
(n)
= f(x
(n+1)
) +f(x
(n)
). Soit
la fonction de IR dans IR dnie par :
(t) = f(x
(n)
+ t(x
(n+1)
x
(n)
)).
On a donc :
(1) (0) = g
(n+1)
g
(n)
=
_
1
0
(t)dt.
Calculons
(t) = H(x
(n)
+ t(x
(n+1)
x
(n)
))(x
(n+1)
x
(n)
). Et comme x
(n+1)
= x
(n)
+
n
w
(n)
,
on a donc :
g
(n+1)
g
(n)
=
n
J
n
w
(n)
. (3.67)
De plus, comme g
(n+1)
w
(n)
= 0 (question 1), on obtient par (3.67) que
n
=
g
(n)
w
(n)
J
n
w
(n)
w
(n)
(car J
n
w
(n)
w
(n)
,= 0, puisque J
n
est symtrique dnie positive).
4. Par dnition, on a w
(n)
= g
(n)
+
n1
w
(n1)
, et donc
[w
(n)
[ [g
(n)
[ +[
n1
[[w
(n1)
[. (3.68)
Toujours par dnition, on a :
n1
=
g
(n)
(g
(n)
g
(n1)
)
g
(n1)
g
(n1)
.
Donc, par la question 3, on a :
n1
=

n
g
(n)
J
(n1)
w
(n1)
g
(n1)
g
(n1)
.
En utilisant la question 2 et nouveau la question 3, on a donc :
n1
=
J
(n1)
w
(n1)
g
(n)
J
(n1)
w
(n1)
w
(n1)
,
et donc
n1
=
[J
(n1)
w
(n1)
g
(n)
[
J
(n1)
w
(n1)
w
(n1)
,
car J
(n1)
De plus, en utilisant les hypothses sur H, on vrie facilement que
[x[
2
J
(n)
x x [x[
2
x IR
N
.
On en dduit que
n1

[J
(n1)
w
(n1)
g
(n)
[
[w
(n1)
[
2
.
On utilise alors lingalit de CauchySchwarz :
[J
(n1)
w
(n1)
g
(n)
[ |J
(n1)
|
2
[w
(n1)
[ [g
(n1)
[
[w
(n1)
[ [g
(n1)
[.
On obtient donc que
n1

[g
(n1)
[
[w
(n1)|
,
ce qui donne bien grce (3.68) :
[w
(n)
[ [g
(n)
[(1 +

).
5. Montrons dabord que la suite (f(x
(n)
))
nIN
converge. Comme f(x
(n+1)
) = f(x
(n)
+
n
w
(n)
)
f(x
(n)
+ w
(n)
) 0, on a donc en particulier f(x
(n+1)
) f(x
(n)
). La suite (f(x
(n)
))
nIN
est
donc dcroissante. De plus, elle est minore par f( x). Donc elle converge, vers une certaine limite
IR, lorsque n tend vers +.
La suite (x
(n)
)
nIN
est borne : en effet, comme f est croissante linni, il existe R > 0 tel que si
[x[ > R alors f(x) f(x
(0)
). Or f(x
(n)
) f(x
(0)
) pout tout n IN, et donc la suite (x
(n)
)
nIN
est
incluse dans la boule de rayon R.
Montrons que f(x
(n)
) 0 lorsque n +.
On a, par dnition de x
(n+1)
,
f(x
(n+1)
) f(x
(n)
+ w
(n)
), 0.
En introduisant la fonction dnie de IR dans IR par (t) = f(x
(n)
+tw
(n)
), on montre facilement
(les calculs sont les mmes que ceux de la question 1) que
f(x
(n)
+ w
(n)
) = f(x
(n)
) + f(x
(n)
) w
(n)
+
2
_
1
0
H(x
(n)
+ tw
(n)
)w
(n)
w
(n)
(1 t)dt,
pour tout 0. Grce lhypothse sur H, on en dduit que
f(x
(n+1)
) f(x
(n)
) + f(x
(n)
) w
(n)
+

2
2
[w
(n)
[
2
, 0.
Comme f(x
(n)
) w
(n)
= g
(n)
w
(n)
= [g
(n)
[
2
(question 2) et comme [w
(n)
[ [g
(n)
[(1 +

)
(question 4), on en dduit que :
f(x
(n+1)
) f(x
(n)
) [g
(n)
[
2
+
2
[g
(n)
[
2
=
n
(), 0,
o =

2
2
+ (1 +

)
2
. La fonction
n
est un polynme de degr 2 en , qui atteint son minimum
lorsque
n
() = 0, i.e. pour =
1
2
. On a donc, pour =
1
2
,
f(x
(n+1)
) f(x
(n)
)
1
4
[g
(n)
[
2
,
do on dduit que
[g
(n)
[
2
4(f(x
(n)
) f(x
(n+1)
) 0
n+
On a donc f(x
(n)
) 0 lorsque n +.
La suite (x
(n)
)
nIN
tant borne, il existe une soussuite qui converge vers x IR
N
, comme f(x
(n)
)
0 et comme
nablaf est continue, on a f(x) = 0. Par unicit du minimum(f est croissante linni et strictement
convexe) on a donc x = x.
Enn on conclut la convergence de toute la suite par un argument classique (voir question 6 de
lexercice 72 page 139).
Corrig de lexercice 80 page 144 (Mthodes de GaussNewton et de quasilinarisation)
Soit f C
2
(IR
N
, IR
P
), avec N, P IN
. Soit C /
P
(IR) une matrice relle carre dordre P, symtrique
dnie positive, et d IR
P
. Pour x IR
N
, on pose
J(x) = (f(x) d) C(f(x) d).
On cherche minimiser J.
I Proprits dexistence et dunicit
(a) Comme C est symtrique nie positive, on a y Cy 0 pour tout y IR
N
, ce qui prouve que
J(x) 0 pour tout x IR
N
. Donc J est borne infrieurement.
(b) Trois exemples
i. Si N = P et f(x) = x, J(x) = (x d) C(x d) qui est une fonction quadratique pour laquelle
on a existence et unicit de x IR
N
qui ralise le minimum de J.
ii. Si f(x) = 0, J(x) = d C et J est donc constante. Il y a donc existence et non unicit de x IR
N
iii. Pour N = P = 1, si f(x) = e
x
, avec c = 1 et d = 0, J(x) = (e
x
)
2
tend vers 0 en linni mais 0
nest jamais atteint. Il ya donc non existence de x IR
N
II Un peu de calcul diffrentiel
(a) On note Df et D
2
f les diffrentielles dordre 1 et 2 de f. A quels espaces appartiennent Df(x),
D
2
f(x) (pour x IR
N
), ainsi que Df et D
2
f ? Montrer que pour tout x IR
N
, il existe M(x)
/
P,N
(IR), o /
P,N
(IR) dsigne lensemble des matrices relles P lignes et N colonnes, telle que
Df(x)(y) = M(x)y pour tout y IR
N
.
Df(x) est la diffrentielle de f en x et cest donc une application linaire de IR
N
dans IR
P
. Donc
il existe M(x) /
P,N
(IR), o /
P,N
(IR) dsigne lensemble des matrices relles P lignes et N
colonnes, telle que Df(x)(y) = M(x)y pour tout y IR
N
.
On a ensuite D
2
f(x) L(IR
N
, L(IR
N
, IR
P
)).
Enn, on a Df C
1
(IR
N
, L(IR
N
, IR
P
)) et D
2
f L(IR
N
, L(IR
N
, IR
P
)).
(b) Comme C ne dpend pas de x, on a J(x) = M(x)C(f(x) d) + (f(x) d)CM(x).
(c) Pour x IR
N
, calculer la matrice hessienne de J en x (quon notera H(x)). On suppose maintenant
que M ne dpend pas de x ; montrer que dans ce cas H(x) = 2M(x)
t
CM(x).
III Algorithmes doptimisation
Dans toute cette question, on suppose quil existe un unique x IR
N
qui ralise le minimum de J, quon
cherche calculer de manire itrative. On se donne pour cela x
0
IR
N
, et on cherche construire une
suite (x
n
)
nIN
qui converge vers x.
(a) On cherche calculer x en utilisant la mthode de Newton pour annuler J. Justier brivement cette
procdure et crire lalgorithme obtenu.
(b) Lalgorithme dit de Gauss-Newton" est une modication de la mthode prcdente, qui consiste
approcher, chaque itration n, la matrice jacobienne de J en x
n
par la matrice obtenue en ngligeant
les drives secondes de f. Ecrire lalgorithme ainsi obtenu.
(c) Lalgorithme dit de quasilinarisation" consiste remplacer, chaque itration n IN, la minimisa-
tion de la fonctionnelle J par celle de la fonctionnelle J
n
, dnie de IR
N
dans IR, et obtenue partir
de J en effectuant un dveloppement limit au premier ordre de f(x) en x
n
, c..d.
J
n
(x) = (f(x
n
) + Df(x
n
)(x x
n
) d) C(f(x
n
) + Df(x
n
)(x x
n
) d).
i. Soit n 0, x
n
IR
N
connu, M
n
= M(x
n
) /
P,N
(IR), et x IR
N
. On pose h = x x
n
.
Montrer que
J
n
(x) = J(x
n
) + M
t
n
CM
n
h h + 2M
t
n
C(f(x
n
) d) h.
ii. Montrer que la recherche du minimum de J
n
est quivalente la rsolution dun systme linaire
dont on donnera lexpression.
iii. Ecrire lalgorithme de quasilinarisation, et le comparer avec lalgorithme de Gauss-Newton.
Corrig de lexercice 79 page 143 (Algorithme de quasi Newton)
Partie 1
1. Par dnition de w
(n)
, on a :
w
(n)
f(x
(n)
) = K
(n)
f(x
(n)
) f(x
(n)
) < 0
car K est symtrique dnie positive.
Comme
n
est le paramtre optimal dans la direction w
(n)
, on a f(x
(n)
+
n
w
(n)
) w
(n)
= 0, et
donc Ax
(n)
w
(n)
+
n
Aw
(n)
w
(n)
= b w
(n)
; on en dduit que
n
=
g
(n)
w
(n)
Aw
(n)
w
(n)
.
Comme w
(n)
= K
(n)
g
(n)
, ceci scrit encore :
n
=
g
(n)
K
(n)
g
(n)
AK
(n)
g
(n)
K
(n)
g
(n)
.
2. Si K
(n)
= A
1
, la formule prcdente donne immdiatement
n
= 1.
3. La mthode de Newton consiste chercher le zro de f par lalgorithme suivant ( litration 1) :
H
f
(x
(0)
)(x
(1)
x
(0)
) = f(x
(0)
),
(o H
f
(x) dsigne la hessienne de f au point x) cestdire
A(x
(1)
x
(0)
) = Ax
(0)
+ b.
On a donc Ax
(n)
= b, et comme la fonction f admet un unique minimum qui vrie Ax = b, on a
donc x
(1)
= x, et la mthode converge en une itration.
Partie 2 Mthode de FletcherPowell.
1. Soit n IN, on suppose que g
(n)
,= 0. Par dnition, on a s
(n)
= x
(n+1)
x
(n)
=
n
K
(n)
g
(n)
, avec
n
> 0. Comme K
(n)
est symtrique dnie positive elle est donc inversible ; donc comme g
(n)
,= 0,
on a K
(n)
g
(n)
,= 0 et donc s
(n)
,= 0.
Soit i < n, par dnition de s
(n)
, on a :
s
(n)
As
(i)
=
n
K
(n)
g
(n)
As
(i)
.
Comme K
(n)
est symtrique,
s
(n)
As
(i)
=
n
g
(n)
K
(n)
As
(i)
.
Par hypothse, on a K
(n)
As
(i)
= s
(i)
pour i < n, donc on a bien que si i < n
s
(n)
As
(i)
= 0 g
(n)
s
(i)
= 0.
Montrons maintenant que g
(n)
s
(i)
= 0 pour i < n.
On a
g
(i+1)
s
(i)
=
i
g
(i+1)
K
(i)
g
(i)
=
i
g
(i+1)
w
(i)
.
Or g
(i+1)
= f(x
(i+1)
) et
i
(i)
. Donc
g
(i+1)
s
(i)
= 0.
On a
(g
(n)
g
(i+1)
) s
(i)
= (Ax
(n)
Ax
(i+1)
) s
(i)
=
n1
k=i+1
(Ax
(k+1)
Ax
(k)
) s
(i)
=
n1
k=i+1
As
(k)
s
(i)
,
= 0
Par hypothse de Aconjugaison de la famille (s
(i)
)
i=1,k1
on dduit alors facilement des deux
galits prcdentes que g
(n)
s
(i)
= 0. Comme on a montr que g
(n)
s
(i)
= 0 si et seulement si
s
(n)
As
(i)
= 0, on en conclut que la famille (s
(i)
)
i=1,...,n
est Aconjugue, et que les vecteurs
s
(i)
sont non nuls.
2. Montrons que K
(n+1)
est symtrique. On a :
(K
(n+1)
)
t
= (K
(n)
)
t
+
(s
(n)
(s
(n)
)
t
)
t
s
(n)
y
(n)

[(K
(n)
y
(n)
)(K
(n)
y
(n)
)
t
]
t
K
(n)
y
(n)
y
(n)
= K
(n+1)
,
car K
(n)
est symtrique.
3. Montrons que K
(n+1)
As
(i)
= s
(i)
si 0 i n. On a :
K
(n+1)
As
(i)
= K
(n)
As
(i)
+
s
(n)
(s
(n)
)
t
s
(n)
y
(n)
As
(i)
(K
(n)
y
(n)
)(K
(n)
(y
(n)
)
t
K
(n)
y
(n)
y
(n)
As
(i)
. (3.69)
Considrons dabord le cas i < n. On a
s
(n)
(s
(n)
)
t
As
(i)
= s
(n)
[(s
(n)
)
t
As
(i)
] = s
(n)
[s
(n)
As
(i)
] = 0
car s
(n)
As
(i)
= 0 si i < n. De plus, comme K
(n)
est symtrique, on a :
(K
(n)
y
(n)
)(K
(n)
y
(n)
)
t
As
(i)
= K
(n)
y
(n)
(y
(n)
)
t
K
(n)
As
(i)
.
Or par la question (c), on a K
(n)
As
(i)
= s
(i)
si 0 i n. De plus, par dnition, y
(n)
= As
(n)
.
On en dduit que
(K
(n)
y
(n)
)(K
(n)
y
(n)
)
t
As
(i)
= K
(n)
y
(n)
(As
(n)
)
t
s
(i)
= K
(n)
y
(n)
(s
(n)
)
t
As
(i)
= 0
puisque on a montr en (a) que les vecteurs s
(0)
, . . . , s
(n)
sont A-conjugus. On dduit alors de
(3.69) que
K
(n+1)
As
(i)
= K
(n)
As
(i)
= s
(i)
.
Considrons maintenant le cas i = n. On a
K
(n+1)
As
(n)
= K
(n)
As
(n)
+
s
(n)
(s
(n)
)
t
s
(n)
y
(n)
As
(n)
(K
(n)
y
(n)
)(K
(n)
(y
(n)
)
t
K
(n)
y
(n)
y
(n)
As
(n)
,
et comme y
(n)
= As
(n)
,, ceci entrane que
K
(n+1)
As
(n)
= K
(n)
As
(n)
+ s
(n)
K
(n)
y
(n)
= s
(n)
.
4. Pour x IR
N
, calculons K
(n+1)
x x :
K
(n+1)
x x = K
(n)
x x +
s
(n)
(s
(n)
)
t
s
(n)
y
(n)
x x
(K
(n)
y
(n)
)(K
(n)
y
(n)
)
t
K
(n)
y
(n)
y
(n)
x x.
Or s
(n)
(s
(n)
)
t
x x = s
(n)
(s
(n)
x) x = (s
(n)
x)
2
, et de mme, (K
(n)
y
(n)
)(K
(n)
y
(n)
)
t
x x =
(K
(n)
y
(n)
x)
2
. On en dduit que
K
(n+1)
x x = K
(n)
x x +
(s
(n)
x)
2
s
(n)
y
(n)

(K
(n)
y
(n)
x)
2
K
(n)
y
(n)
y
(n)
.
En remarquant que y
(n)
= As
(n)
, et en rduisant au mme dnominateur, on obtient alors que
K
(n+1)
x x =
(K
(n)
x x)(K
(n)
y
(n)
y
(n)
) (K
(n)
y
(n)
x)
2
(K
(n)
y
(n)
y
(n)
)
+
(s
(n)
x)
2
As
(n)
s
(n)
.
Montrons maintenant que K
(n+1)
est symtrique dnie positive. Comme K
(n)
est symtrique dnie
positive, on a grce lingalit de Cauchy-Schwarz que (K
(n)
y
(n)
x)
2
(K
(n)
x x)(K
(n)
y
(n)
)
avec galit si et seulement si x et y
(n)
sont colinaires. Si x nest pas colinaire y
(n)
, on a donc donc
clairement
K
(n+1)
x x > 0.
Si maintenant x est colinaire y
(n)
, i.e. x = y
(n)
avec IR
+
, on a, grce au fait que y
(n)
= As
(n)
,
(s
(n)
x)
2
As
(n)
s
(n)
=
2
(s
(n)
As
(n)
)
2
As
(n)
s
(n)
> 0, et donc K
(n+1)
x x > 0.
On en dduit que K
(n+1)
5. On suppose que g
(n)
,= 0 si 0 n N 1. On prend comme hypothse de rcurrence que les
vecteurs s
(0)
, . . . , s
(n1)
sont A-conjugus et non-nuls, que K
(j)
As
(i)
= s
(i)
si 0 i < j n et que
les matrices K
(j)
sont symtriques dnies positives pour j = 0, . . . , n.
Cette hypothse est vrie au rang n = 1 grce la question 1 en prenant n = 0 et K
(0)
symtrique
dnie positive.
On suppose quelle est vraie au rang n. La question 1 prouve quelle est vraie au rang n + 1.
Il reste maintenant montrer que x
(N+1)
= A
1
b = x. On a en effet K
(N)
As
(i)
= s
(i)
pour i = 0
N 1. Or les vecteurs s
(0)
, . . . , s
(n1)
sont A-conjugus et non-nuls : ils forment donc une base. On
en dduit que K
(N)
A = Id, ce qui prouve que K
(N)
= A
1
, et donc, par dnition de x
(N+1)
, que
x
(N+1)
= A
1
b = x.
Exercice 82 page 145 (Sur lexistence et lunicit)
La fonction f : IR IR dnie par f(x) = x
2
est continue, strictement convexe, et croissante linni. Etudions
maintenant les proprits de K dans les quatre cas proposs :
(i) Lensemble K = [x[ 1 est ferm born et convexe. On peut donc appliquer le thorme dexistence et
dunicit 3.34 page 129. En remarquant que f(x) 0 pour tout x IR et que f(0) = 0, on en dduit que lunique
solution du problme (3.29) est donc x = 0.
(ii) Lensemble K = [x[ = 1 est ferm born mais non convexe. Le thorme dexistence 3.32 page 129
sapplique donc, mais pas le thorme dunicit 3.33 page 129. De fait, on peut remarquer que K = 1, 1, et
donc f(x), x K = 1. Il existe donc deux solutions du problme (3.29) : x
1
= 1 et x
1
= 1.
(iii) Lensemble K = [x[ 1 est ferm, non born et non convexe. Cependant, on peut crire K = K
1
K
2
o K
1
= [1, +[ et K
2
=] , 1] sont des ensembles convexes ferms. On peut donc appliquer le thorme
3.34 page 129 : il existe un unique x
1
IR et un unique x
2
IR solution de (3.29) pour K = K
1
et K = K
2
respectivement. Il suft ensuite de comparer x
1
et x
2
. Comme x
1
= 1 et x
2
= 1, on a existence mais pas unicit.
(iv) Lensemble K = [x[ > 1 nest pas ferm, donc le thorme 3.32 page 129 ne sapplique pas. De fait, il
nexiste pas de solution dans ce cas, car on a lim
x1
+f(x) = 1, et donc inf
K
f = 1, mais cet inmum nest pas
atteint.
Exercice 83 page 145 (Maximisation de laire dun rectangle primtre donn)
1. On peut se ramener sans perte de gnralit au cas du rectangle [0, x
1
] [0, x
2
], dont laire est gale x
1
x
2
et
de primtre 2(x
1
+ x
2
). On veut donc maximiser x
1
x
2
, ou encore minimiser x
1
x
2
. Pourx = (x
1
, x
2
)
t
IR
2
,
posons f(x
1
, x
2
) = x
1
x
2
et g(x
1
, x
2
) = x
1
+ x
2
. Dnissons
K =
_
x = (x
1
, x
2
)
t
(IR
+
)
2
tel que x
1
+ x
2
= 1
_
.
Le problme de minimisation de laire du rectangle de primtre donn et gal 2 scrit alors :
_
_
_
_
x
1
x
2
_
K
f( x
1
, x
2
) f(x
1
, x
2
) (x
1
, x
2
) K
(3.70)
2. Comme x
1
et x
2
sont tous deux positifs, puisque leur somme doit tre gale 1, ils sont forcment tous deux
infrieurs 1. Il est donc quivalent de rsoudre (3.70) ou (3.51). Lensemble

K est un convexe ferme born, la
fonction f est continue, et donc par le thorme 3.32 page 129, il existe au moins une solution du problme (3.51)
(ou (3.70)).
3. Calculons g : g(x) = (1, 1)
t
, donc rang Dg(x, y) = 1. Par le thorme de Lagrange, si x = (x
1
, x
2
)
t
est
solution de (3.70), il existe IR tel que
_
f( x, y) + g( x, y) = 0,
x + y = 1.
Or f( x, y) = ( x, y)
t
, et g( x, y) = (1, 1)
t
. Le systme prcdent scrit donc :
y + = 0 x + = 0 x + y = 1.
On a donc
x = y =
1
2
.
Exercice 84 page 146 (Fonctionnelle quadratique)
1. Comme d ,= 0, il existe x IR
N
tel que d x = ,= 0. Soit x =
c
x alors d x = c. Donc lensemble K est

non vide. Lensemble K est ferm car noyau dune forme linaire continue de IR
N
dans IR, et K est videmment
convexe. La fonction f est strictement convexe et f(x) +quand [x[ +, et donc par les thormes 3.32
et 3.33 il existe un unique x solution de (3.29).
2. On veut calculer x. On a : Dg(x)z = d z, et donc Dg(x) = d
t
. Comme d ,= 0 on a rang(Dg(x)) = 1, ou
encore Im(Dg(x)) = IR pour tout x. Donc le thorme de Lagrange sapplique. Il existe donc IR tel que
f( x) + g( x) = 0, cest--dire A x b + d = 0. Le couple ( x, ) est donc solution du problme suivant :
_
A x b + d = 0,
d x = c
, (3.71)
qui scrit sous forme matricielle : By = e, avec B =
_
_
A d
d
t
0
_
_
/
N+1
(IR), y =
_
x
_
IR
N+1
et
e =
_
_
b
c
_
_
IR
N+1
. Montrons maintenant que B est inversible. En effet, soit z
_
x
_
IR
N+1
, avec x IR
N
et IR tel que Bz = 0. Alors
_
_
A d
d
t
0
_
_
_
x
_
= 0.
Ceci entrane Ax d = 0 et d
t
x = d x = 0. On a donc Ax x (d x) = 0. On en dduit que x = 0, et
comme d ,= 0, que = 0. On a donc nalement z = 0.
On en conclut que B est inversible, et quil existe un unique (x, )
t
IR
N+1
solution de (3.71) et et x est solution
de (3.29).
Exercice 88 page 147 (Application simple du thorme de Kuhn-Tucker
La fonction f dnie de E = IR
2
dans IR par f(x) = x
2
+ y
2
est continue, strictement convexe et croissante
linni. Lensemble K qui peut aussi tre dni par : K = (x, y) IR
2
; g(x, y) 0, avec g(x, y) = 1 x y
est convexe et ferm. Par le thorme 3.34 page 129, il y a donc existence et unicit de la solution du problme
(3.29). Appliquons le thorme de Kuhn-Tucker pour la dtermination de cette solution. On a :
g(x, y) =
_
1
1
_
et f(x, y) =
_
2x
2y
_
.
Il existe donc IR
+
tel que :
_
_
2x = 0,
2y = 0,
(1 x y) = 0,
1 x y 0,
0.
Par la troisime quation de ce systme, on dduit que = 0 ou 1xy = 0. Or si = 0, on a x = y = 0 par les
premire et deuxime quations, ce qui est impossible en raison de la quatrime. On en dduit que 1 x y = 0,
et donc, par les premire et deuxime quations, x = y =
1
2
.
Exercice 3.6 page 147 (Exemple doprateur de projection)
2. Soit p
K
loprateur de projection dnie la proposition 3.44 page 133, il est facile de montrer que, pour tout
i = 1, . . . , N, :
(p
K
(y))
i
= y
i
si y
i
[
i
,
i
],
(p
K
(y))
i
=
i
si y
i
<
i
,
(p
K
(y))
i
=
i
si y
i
>
i
,
ce qui entrane
(p
K
(y))
i
= max(
i
, min(y
i
,
i
)) pour tout i = 1, . . . , N.

Chap 3

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Chap 3

Hochgeladen von

Copyright:

Verfügbare Formate

Chapitre 3

dsigne le dual topologique de

(t) = f(x + t(y x)) (y x), et

(t) = D(f(x + t(y x))(y x) (y x) = H

(x). Si f est la fonction dnie par f(x) = x

(0) 0, c..d. f(x) w 0.

est continue, il existe

(t)dt < 0, et on a donc bien () < (0) pour tout ]0,

par la mthode de la scante ou la mthode de Newton. . .

(0) = f(x) w < 0. Donc

K, alors il existe > 0 tel que B( x, ) K et f( x) f(x) x B( x, ). Alors on a dj vu (voir

G. Pour v F et w G; on pose g(w, v) = g(v+

et on suppose que lapplication dnie de IR

, ), M est diffrentiable en pour tout , et M() = g(x

solution du problme de minimisation sans

, ) L(x, ) pour tout x IR

du problme (3.41) et existence et unicit de la solution x du problme

(). Par le thorme de

(t) = (x + t(y x)) (y x) et donc

(t) = H(x + t(y x))(y x) (y x). On a donc par

x alors d x = c. Donc lensemble K est

Das könnte Ihnen auch gefallen