Sie sind auf Seite 1von 35

Notes de cours - Prparation lagrgation

Introduction loptimisation
Premire Partie : aspects thoriques
Univ. Rennes 1, E.N.S. Rennes
Yannick Privat

ENS Cachan Bretagne, CNRS, Univ. Rennes 1, IRMAR, av. Robert Schuman, F-35170 Bruz, France;
yannick.privat@bretagne.ens-cachan.fr
1
TABLE DES MATIRES 2
Table des matires
1 Introduction 3
1.1 Le programme de lagrgation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Le vocabulaire de loptimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Quelques rappels de calcul diffrentiel . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Dtour vers la dimension nie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Questions dexistence et unicit des solutions 8
2.1 Existence en dimension nie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Unicit de loptimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Existence en dimension innie ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Conditions doptimalit - optimisation sans contrainte 19
3.1 Conditions doptimalit - optimisation sans contrainte . . . . . . . . . . . . . . . 20
3.2 Minimisation dune fonctionnelle quadratique sans contrainte . . . . . . . . . . . 22
3.3 La mthode des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Conditions doptimalit - optimisation sous contraintes 25
4.1 Multiplicateurs de Lagrange, le thorme des extrema lis . . . . . . . . . . . . . . 25
4.2 Les thormes de F. John et Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . 31
1 INTRODUCTION 3
1 Introduction
1.1 Le programme de lagrgation
Optimisation et approximation
Interpolation de Lagrange.
Extremums des fonctions r

Oelles de n variables relles : multiplicateurs de Lagrange.


Mise en uvre de lalgorithme de gradient pas constant.
Mthode des moindres carrs et applications.
Linterpolation de Lagrange et les algorithmes de gradients seront tudis ultrieurement, au
cours de la prparation.
1.2 Le vocabulaire de loptimisation
Soit V est un espace vectoriel norm, muni de la norme | |. Dans ce cours, on sintresse
au problme suivant
_
inf f (x)
x K,
(1)
o K V et f : K R est une fonction, appele fonction cot ou critre.
Si K V , on dit que (1) est un problme doptimisation sans contrainte.
Si K V , on dit que (1) est un problme doptimisation sous contrainte.
Si dimK < + (resp. dimK +), on dit que (1) est un problme doptimisation en
dimension nie (resp. innie).
Remarquons que ce formalisme englobe tous les problmes doptimisation, y compris les pro-
blmes de maximisation puisque maximiser une quantit revient minimiser son oppos.
Dans le cadre de ce cours, on tudiera essentiellement loptimisation en dimension nie,
conformment au programme de lagrgation. Nous adopterons la convention suivante : si lon
veut indiquer que la valeur du minimum est atteinte, on crira
_
min f (x)
x K,
tandis que lon utilisera la notation inf quand on ne sait pas a priori si la valeur de la borne
infrieure est, ou non atteinte. Enn, rappelons que toute partie minore non vide de R admet
une borne infrieure, caractrise de la faon suivante :
Proposition 1.1. Suites minimisantes
Soit X, une partie minore non vide de R.
Alors, les assertions suivantes sont quivalentes :
i minf{x, x X} ;
ii >0, x X [ m<x <m+ ;
iii m est un minorant de X et il existe (x
n
)
nN
X
N
, appele suite minimisante
convergeant vers m.
1 INTRODUCTION 4
En consquence, voici les questions quil sera naturel de se poser lorsque vous rencontrerez un
problme doptimisation :
Ce problme possde t-il une solution?
1
er
cas de gure.
Si ce problme possde une solution, on cherchera la caractriser (par exemple, est-elle
unique ?) ou mieux, la dterminer lorsque ce sera possible. On exploitera pour cela les
conditions ncessaires doptimalit (aux premier et deuxime ordres).
2
me
cas de gure.
Si ce problme ne possde pas de solution, oncherchera exhiber une suite minimisante,
i.e. une suite dlments de lensemble K convergeant vers inf{ f (x), x K}.
Enn, on se posera la question, lorsque lon ne sait pas dterminer explicitement les so-
lutions du problme doptimisation, du choix de mthodes numriques adaptes pour
dterminer le minimum et ses minimiseurs.
Terminons ce paragraphe en prsentant quelques problmes doptimisation.
Problme 1. (dimension nie)
Dterminer le paralllpipde rectangle de volume maximal parmi ceux dont la surface
extrieure vaut 6.
En introduisant a, b et c, les longueurs des cts du paralllpipde, on se ramne la
rsolution du problme
_
_
_
supV (a, b, c) abc
ab +ac +bc 3,
a >0, b >0, c >0.
Il sagit donc dun problme doptimisation dans R
3
sous contrainte.
Problme 2. (dimension innie)
Problme de la reine Didon.
Le problme consiste trouver la courbe plane de longueur xe qui enclot avec le
segment reliant ses deux extrmits, la portion plane daire maximale, autrement dit, on
rsout pour b >a >0,
_

_
sup
_
b
a
y(x)dx
_
b
a
_
1+y
2
(x)dx , y(a) y(b) 0,
y Y,
o Y est un espace fonctionnel donn (choisi par exemple de sorte que ce problme
possde une solution).
1.3 Quelques rappels de calcul diffrentiel
Commenons par la notion de diffrentiabilit. (voir par exemple [1, 6])
1 INTRODUCTION 5
Dnition 1.2. Direntiabilit
Soient E et F, deux espaces vectoriels norms rels. Soit U, un ouvert de E et x
0
U.
On dit quune application f : U F est diffrentiable en x
0
ou admet un dve-
loppement limit au premier ordre en x
0
sil existe d f
x
0
L(E, F) (continue), telle
que
f (x
0
+h) f (x
0
) d f
x
0
(h) + o
h0
(|h|
E
).
Quelques remarques immdiates :
En dimension innie, la diffrentiabilit dune fonction dpend de la norme dont sont
munis les espaces E et F. a nest bien sr pas le cas en dimension nie, tant donn que
toutes les normes sont quivalentes.
Par dnition, lapplication d f
x
0
est continue. Il nen est pas ncessairement de mme
de lapplication d f : U L(E, F)
x
0
d f
x
0
. Si cest le cas, on dira que f est de classe C
1
au
voisinage de x
0
.
Comment calculer de faon pratique une diffrentielle ?
Si lon a au pralable dmontr que f est diffrentiable en x
0
, alors, on peut crire pour
tout h E que
d f
x
0
(h) lim
0
R
f (x
0
+h) f (x
0
)

.
Lintrt dune telle criture vient du fait que lon sest ainsi ramen au calcul dune li-
mite dune fonction dune variable relle. La limite prcdente sappelle indiffremment
drive directionnelle de f en x
0
selon le vecteur h ou diffrentielle au sens de Gteaux de
f en x
0
dans la direction h. Notons que si f est diffrentiable, il est ais de montrer que f
admet une drive directionnelle selon tout vecteur h, mais que la rciproque nest pas
vraie.
Rsumons sous la forme dun schma les relations dimplication entre ces diffrentes propri-
ts.
f est C
1
en x
0
f est diffrentiable en x
0
f est C
0
en x
0

f drivable en x
0
selon tout vecteur h
Les implications non crites sont a priori fausses, cest--dire que lon peut trouver des contre-
exemples.
Exemple 1.3 Quelques contre-exemples
On peut aisment se convaincre laide de la fonction
(x, y) R
2

_
x
3
x+y
si x /y
0 sinon
1 INTRODUCTION 6
quil est possible de trouver une fonction f drivable selon tout vecteur en x
0
(0, 0) qui
nest cependant pas continue en ce point.
De mme, il existe des fonctions continues non direntiables ayant cependant des dri-
ves dans toutes les directions. Cest par exemple le cas de lapplication
(x, y) R
2

_
x si x y
2
0 sinon.
Cette fonction est bien continue en (0, 0), drivable dans toutes les directions en (0, 0) (de
drives directionnelles nulles), mais pas direntiable en (0, 0).
Remarque 1.4 Direntiabilit dordre suprieur
Soit V , un espace de Hilbert et f : V R. Si f est suppose direntiable en x
0
V ,
partir du dveloppement
f (x
0
+h) f (x
0
) d f
x
0
(h) + o
h0
(|h|
V
),
en utilisant le thorme de Riesz, on peut identier d f
x
0
(h) f (x
0
), h, o f (x
0
) V . Cest
ainsi que lon gnralise la notion de gradient que nous dtaillerons ci-aprs, dans le cadre de
la dimension nie. Dire que f est deux fois direntiable signie quil existe une application
linaire L(x
0
) : V V

telle que
d f
x
0
+
d f
x
0
+L(x
0
)+ o
0
(||
V
) V

.
La direntielle seconde de f , note d
2
f
x
0
est alors lapplication L(x
0
) : V V

. Elle est dicile


valuer en pratique car L(x
0
) est un lment de V

. Heureusement, en la faisant agir sur un


lment h V , on obtient une forme bilinaire continue sur V V , que lon notera d
2
f
x
0
, h.
Il est alors ais de montrer que
f (x
0
+h) f (x
0
) d f
x
0
(h) +
1
2
d
2
f
x
0
h, h + o
h0
(|h|
2
).
Dans le cas de la dimension nie (V R
n
), ces formules revtent un aspect particulirement
sympathique puisque la direntielle seconde sidentie la matrice hessienne lorsque f est
deux fois direntiable (voir paragraphe suivant).
1.4 Dtour vers la dimension nie
Le programme de lagrgation en optimisation sintresse essentiellement la dimension
nie. On va complter les notions que nous venons daborder dans ce cas particulier. Dans ce
qui suit, on note (e
1
, , e
n
) la base canonique de R
n
et on munit R
n
de sa structure euclidienne
usuelle.
1 INTRODUCTION 7
Dnition 1.5. Fonctions de classe C
k
Soit i {1, n} et k >2. On dit quune fonction f : U R
n
R
i admet une drive partielle dindice i en x
0
si elle est drivable en x
0
selon le
vecteur e
i
;
ii est de classe C
k
si toutes ses drives partielles jusqu lordre k existent et
sont continues sur U.
On se placera dornavant dans le cas particulier dune fonction f : U R
n
R, avecU ouvert
de R
n
. Soit x
0
K.
Supposons que f est diffrentiable en x
0
. Alors, pour tout h R
n
,
f (x
0
+h) f (x
0
) f (x
0
), h + o
h0
(|h|)
o f (x
0
) est le gradient de f en x
0
, i.e. le vecteur (
f
x
1
(x
0
), ,
f
x
n
(x
0
)).
La notion de gradient nest bien sr pas intrinsque, elle dpend du produit scalaire
choisi : la dnition gnrale de f (x) rsulte du thorme de reprsentation de Riesz
appliqu la diffrentielle de f en x. Toutefois, en dimension nie, on xe le plus sou-
vent le produit scalaire canonique et les formules ci-dessus dnissent le gradient et la
hessienne tout aussi bien.
Supposons que f est deux fois diffrentiable en x
0
. Alors, pour tout h R
n
,
f (x
0
+h) f (x
0
) f (x
0
), h +
1
2
Hessf (x
0
)h, h + o
h0
(|h|
2
)
o Hessf (x
0
) est la matrice de taille n n des drives secondes de f values en x
0
, i.e.
Hessf (x
0
)
_

2
f
x
i
x
j
(x
0
)
_
1<i , j <n
Onnotera que, si f est deux fois diffrentiable, envertuduthorme de Schwarz, Hessf (x
0
)
est symtrique (relle) (garder galement en tte le contre-exemple de Peano lorsque la
fonction nest pas deux fois diffrentiable, cf [6])
Pour rappel, refaisons le point sur les diffrentes formules de Taylor et les hypothses mi-
nimales de rgularit quelles ncessitent. Nous les crivons ici lordre deux seulement, car
cela sinscrit dans la logique de ce cours, mais ces formules stendent bien sr tous les ordres
avec des hypothses ad hoc.
Formule de Taylor avec reste intgral.
Supposons que f est de classe C
2
dans un ouvert U de R
n
dans R. Si le segment [a, a +h]
est contenu dans U, alors
f (x
0
+h) f (x
0
) f (x
0
), h +
1
2
_
1
0
(1t )
k
k!
Hessf (x
0
+t h)h, hdt
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 8
Formule de Taylor avec reste de Lagrange.
Supposons que f est deux fois diffrentiable dans un ouvert U de R
n
valeurs dans R.
Si le segment [a, a +h] est contenu dans U et supposons quil existe une constante C >0
telle que
t [0, 1],

Hessf (x
0
+t h)h, h

<C|h|
2
.
Alors,
[ f (x
0
+h) f (x
0
) f (x
0
), h[ <
C
2
|h|
2
.
2 Questions dexistence et unicit des solutions dun problme dop-
timisation
On peut retenir comme principe gnral que la compacit fournit des rsultats dexistence,
et la convexit un cadre favorable pour lunicit.
Dans cette section, nous avons fait le choix de prsenter la notion de convexit pour des
fonctions dnies sur un espace de dimension nie (except dans la section 2.3). Nanmoins,
on peut sans difcult tendre ces notions un espace de Hilbert V . (voir par exemple [1])
2.1 Existence en dimension nie
Dans cette partie, on suppose que f : K R
n
R est continue, K dsignant une partie
quelconque de R
n
. On considre le problme doptimisation
_
min f (x)
x K.
(2)
Remarquons que lexistence nest pas toujours assure, comme le montre lexemple de la mi-
nimisation de x e
x
sur R, mais ncessite en gnral peu dhypothses.
Thorme 2.1. Existence en dimension nie
On suppose quil existe x
0
R
n
tel que lensemble { f < f (x
0
)}
1
soit born. Alors, le
problme (2) a au moins une solution globale x

.
Dmonstration. Le problme (2) quivaut minimiser f sur lensemble compact

K : { f <
f (x
0
)}. Or, une fonction continue sur un compact atteint sa borne infrieure. Redonnons une
dmonstration de ce rsultat lmentaire en utilisant les suites minimisantes, ce qui est tout
fait dans lesprit de ce cours. Posons minf{ f (x), x

K} [, +[. Soit (x
n
)
nN
, une suite
minimisante pour le problme (2), i.e. x
n
K pour tout n N et f (x
n
)
n+
m. Daprs le
thorme de Bolzano-Weierstrass, quitte extraire, il existe x



K (ferm) tel que (x
n
)
nN
converge vers x

. Par continuit de f , (f (x
n
))
nN
converge vers f (x

) ce qui implique que


m f (x

) >, autrement dit que x

ralise le minimum de f sur



K, puis sur K.
1. On rappelle que {f < f (x
0
)} est lcriture abrge de {x R
n
, f (x) < f (x
0
)}
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 9
Deux remarques trs utiles en pratique. . .
Voici comment on utilise en gnral le thorme prcdent. Rappelons cependant quil est es-
sentiel que lon se soit plac en dimension nie pour pouvoir utiliser ce thorme. Dans le cas
contraire, il est ais de construire des contre-exemples.
Si K est compact, alors, on obtient immdiatement lexistence en utilisant la continuit
de f .
Si f est coercive (on dit aussi innie linni), cest--dire f (x)
|x|+
+
1
et K est
ferm, alors on est dans les conditions dutilisation du thorme prcdent.
Remarque 2.2 Semi continuit infrieure
Le thorme prcdent reste vrai si lon suppose seulement que f est semi-continue infrieu-
rement, i.e.
R, { f <} est ferm dans R
n
.
Cela peut galement scrire pour tout > 0, il existe un voisinage V de x
0
tel que f (x) >
f (x
0
) + ou encore f (x
0
) <liminf
xx
0
f (x) lim
0
inf
x[x
0
,x
0
+]
f (x).
Pour se convaincre de la gnralisation du thorme prcdent aux hypothses ci-dessus,
il sut dadapter sa preuve en crivant que f (x

) < liminf
n+
f (x
n
) m pour obtenir le mme
rsultat.
Par exemple, soit I , un sous-ensemble quelconque de R, (f
j
)
j I
, une famille de fonctions
linaires de R
n
dans R et
f (x) sup{ f
j
(x), j I }
pour tout x dans R
n
. Alors f est semi-continue infrieurement. En eet, pour tout rel ,
lensemble U

{x R
n
, f (x) >} est la runion des ensembles U
, j
{x R
n
, f
j
(x) >} : cest
une runion douverts, il est donc lui-mme ouvert.
FIGURE 1 Une fonction semi-continue infrieurement en x
0
.
1. Cette condition signie : A > 0, > 0, |x| > f (x) > A ou encore quelle que soit la suite (x
n
)
nN
dlments de K telle que lim
n+
|x
n
| +, on a lim
n+
f (x
n
) +.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 10
Exemple 2.3
Considrons le problme
_
min f (x, y) x
4
+y
4
x
2
(x, y) K {(x, y) R
2
, x +y <4}.
Montrons que f est innie linni. Pour tous (X, Y ) R
2
, on sait que [XY [ <
1
2
(X
2
+Y
2
). En
remplaant X par x
2
et Y par 1, on obtient x
4
>2x
2
1 et par consquent,
f (x, y) >x
2
+y
4
1 >x
2
+2y
2
2 >|(x, y)|
2
2
|x|+
+.
f est donc innie linni et K est ferm (image rciproque dun ferm par une application
continue. . . ), et on en dduit que le problme doptimisation a (au moins) une solution.
Exemple 2.4 Un peu plus dicile. . .
On dnit la famille des {u
i
}
i {0,...,N+1}
par u
i
i h, avec h
1
N+1
. On se donne un nuage
de points de R
2
(u
i
, x
i
)
i {0,,N+1}
, avec N N

donn. On suppose par ailleurs que x


0
0 et
x
N+1
1. Posons x (x
1
, , x
N
). On appelle f (x), la longueur de la courbe ane par morceaux
passant par les points (u
i
, x
i
). On montre aisment que
f (x)
N

i 0
_
(u
i +1
u
i
)
2
+(x
i +1
x
i
)
2
h
N

i 0
_
1+
_
x
i +1
x
i
h
_
2
.
On considre le problme doptimisation suivant : minimiser la somme des longueurs f (x)
parmi tous les x R
N
, autrement dit
_
inf f (x)
x R
N
.
(3)
Il est trs ais de caractriser gomtriquement la solution dun tel problme. En eet, on se
convainc aisment que la meilleure faon de minimiser la longueur f (x) est de choisir tous
les x
i
sur la droite dquation x u, ce qui caractrise de faon unique les points x
i
. Ainsi,
x
i
i h pour tout i {1, . . . , N}. Cela dit, oublions provisoirement linterprtation gomtrique
et concentrons-nous sur le problme (3). La simple question de lexistence dun minimiseur (et
plus forte raison sa caractrisation) ne semblent alors pas triviales. Montrons-l.
On va montrer que f est en ralit innie linni ce qui, en vertu du thorme 2.1, fournira
le rsultat. De
_
1+x
2
>[x[ pour tout x R, on dduit pour k {1, . . . , N} que
f (x) >
k1

i 0
[x
i +1
x
i
[ >

k1

i 0
(x
i +1
x
i
)

[x
k
[.
Par consquent, f (x) >|x|

pour tout x R
N
et lexistence dun minimiseur pour le problme
(3) sensuit.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 11
2.2 Unicit de loptimum
Lunicit repose en gnral sur des arguments de convexit. Rappelons les notions den-
semble convexe et de fonction convexe.
Dnition 2.5. Ensembles et fonctions convexes
i On dit quun ensemble K R
n
est convexe si, et seulement si pour tous (x
1
, x
2
)
K
2
et t [0, 1], t x
1
+(1t )x
2
K.
ii Soit K, un convexe inclus dans R
n
. La fonction f : K R est dite convexe si,
et seulement si
(x
1
, x
2
) K
2
, t [0, 1], f (t x
1
+(1t )x
2
) <t f (x
1
) +(1t )f (x
2
).
On dit que f est strictement convexe si lingalit ci-dessus est stricte pour
x / y, t ]0, 1[.
Rappelons que toute fonction convexe possde une rgularit minimale en dimension nie.
Si f est une fonction convexe dnie sur un ouvert convexe de R
n
, alors f est continue
sur et lipschitzienne sur tout compact de . (voir par exemple [7] pour la preuve dans
R
n
et [9] pour le cas n 1)
De la proprit de Lipschitz dcoule, en utilisant le thorme de Rademacher, que toute
fonction convexe dnie sur R
n
est diffrentiable presque partout (au sens de la me-
sure de Lebesgue) sur son domaine.
prsent, nous allons rappeler un fait bien connu mais nanmoins fort utile en pratique.
On peut caractriser assez facilement une fonction convexe dans le cas o celle-ci est rgulire
(diffrentiable partout ou deux fois diffrentiable partout) .
Thorme 2.6. Caractrisation des fonctions convexes dans le cas
rgulier
i Si f : R
n
R est direntiable, on a les quivalences entre
(i ) f est convexe sur R
n
;
(i i ) f (y) > f (x) +f (x), y x, (x, y) [R
n
]
2
;
(i i i ) f (y) f (x), y x >0, (x, y) [R
n
]
2
.
ii On a quivalence entre convexit stricte et les ingalits (i i ) et (i i i ) prcdentes
rendues strictes, pour x / y.
iii Si f : R
n
R est deux fois direntiable, on a les quivalences entre
(i ) f est convexe ;
(i i ) pour tout x R
n
, Hess f (x) est semi-dnie positive.
Dmonstration. i (i ) (i i ). Soit t [0, 1], (x, y) [R
n
]
2
. Alors, par convexit de f , f (t x+
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 12
(1t )y) <(1t )f (x) +t f (y), do f (x +t (y x)) < t [ f (y) f (x)], puis on divise par t
et on fait tendre t vers 0.
(i i ) (i i i ). On crit (i i ) avec (x, y), puis (y, x) et on somme.
(i i i ) (i i ). On utilise la formule de Taylor Mac-Laurin lordre 1
2
, applique la
fonction t [0, 1] f (x +t (y x)). Il existe t [0, 1] tel que
f (y) f (x) +f (x +t (y x)), y x
f (x) +f (x), y x +f (x +t (y x)) f (x), y x,
et ce dernier terme est positif par (i i i ), donc on a (i i ).
(i i ) (i ). On pose x
t
(1t )x +t y x +t (y x) et on crit (i i ) avec x x
t
, y x ou
y. On a :
f (x) > f (x
t
) +f (x
t
), x x
t

f (y) > f (x
t
) +f (x
t
), y x
t
,
sachant que xx
t
t (yx), yx
t
(1t )(yx). Onmultiplie alors les deux ingalits
respectivement par 1t et t , puis on les somme :
(1t )f (x) +t f (y) >(1t +t )f (x
t
) f (x
t
).
ii Il sagit dadapter avec beaucoup de prcaution la dmonstration prcdente. Cet exer-
cice est laiss au lecteur. Attention cependant tre prudent lors des passages la limite
an de conserver des ingalits strictes.
iii (i ) (i i ). On applique la proprit (i i i ) prcdente avec x et y x +t h. On obtient
f (x +t h) f (x), t h >0. On divise alors cette ingalit par t
2
puis on fait tendre t
vers 0, ce qui fournit : Hess f (x)h, h >0, x R
n
, h R
n
.
(i i ) (i ). On applique la formule de Taylor-Mac Laurin lordre deux :
f (y) f (x) +f (x), y x +
1
2
Hess f (x +t (y x))(y x), y x
> f (x) +f (x), y x, (x, y) [R
n
]
2
,
qui est une condition quivalente la convexit daprs la premire partie du tho-
rme.
2. Rappelons la formule de Taylor Mac-Laurin : soit f : [, ] R une fonction N +1 fois drivable. Alors, il
existe ], [ tel que
f () f () +
N

k1
()
k
k!
f
(k)
() +
()
N+1
(N +1)!
f
(N+1)
().
Remarquons que lorsque N 1, la formule de Taylor Mac-Laurin concide avec la formule des accroissements nis.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 13
Exemple 2.7 Convexit dune fonction quadratique
On considre la fonction
f : R
n
R
x f (x)
1
2
Ax, x b, x +c,
avec A une matrice relle symtrique, b un vecteur de R
n
et c une constante donne On a tous
calculs faits :
f (x +h) f (x) Ax b, h +
1
2
Ah, h,
ce qui permet de se convaincre (en identiant les termes du membre de droite avec ceux du
dveloppement limit de f par exemple) que le gradient de f est
f (x) Ax b, x R
n
.
et la hessienne de f est, pour tout x R
n
, Hess f (x) A.
En particulier, on dduit immdiatement de ce calcul et du thorme 2.6 que f est convexe
si, et seulement si A est semi-dnie positive, et strictement convexe si, et seulement si A est
dnie positive.
La convexit est en gnral un outil prcieux en optimisation. Nous dvelopperons un peu
les diverses applications loptimisation dans le cadre de ce cours.
Thorme 2.8.
Soit le problme (2) avec f convexe et K convexe (ventuellement de dimension
innie). Alors,
i tout minimum local est un minimum global.
ii si f est strictement convexe, il y a au plus un minimum.
Dmonstration. i Soit x

, un minimum local pour le problme (2). Par labsurde, suppo-


sons quil existe y K tel que f (y) < f (x

). Soit y
t
t y +(1t )x

, avec t ]0, 1[. Alors,


f (y
t
) > f (x

) si t est sufsamment petit (en effet, si t est petit, |y


t
x

| t |y x

|
lest aussi. . . ). La convexit de f implique que f (x

) < f (y
t
) <t f (y) +(1t )f (x

), ce qui
montre que f (y) < f (x

) < f (y). Cest absurde et il sensuit que x

minimise f sur K.
ii Si x
1
et x
2
sont deux solutions globales de (2), alors si x
1
/x
2
,
f
_
x
1
+x
2
2
_
<
1
2
f (x
1
) +
1
2
f (x
2
) f (x
1
),
ce qui est absurde. Cela implique donc lunicit.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 14
2.3 Existence en dimension innie ?
Dans ce paragraphe, nous allons noncer un rsultat dexistence en dimension innie dans
le cas particulier o f satisfait une proprit de convexit forte. En gnral, et cest sans grande
surprise, il est bien plus difcile dobtenir un rsultat dexistence en dimension innie. titre
dexemple, considrons lespace de Hilbert (de dimension innie) des suites de carr som-
mable dans R, cest- dire

2
(R)
_
x (x
n
)
nN
R
N
[
+

n0
x
2
n
<+
_
,
muni du produit scalaire x, y

+
n0
x
n
y
n
. On considre la fonctionnelle f dnie par
f :
2
(R) R
+
x
_
|x|
2
1
_
2
+
+

n0
x
2
n
n +1
On sintresse au problme doptimisation
_
inf f (x)
x
2
(R).
Remarquons que f est une fonctionnelle coercive (innie linni). En effet, pour tout x

2
(R),
f (x) >
_
|x|
2
1
_
2

|x|+
+.
Cependant, le problme doptimisation ci-dessus na pas de solution. Pour le vrier, il suft de
remarquer que inf{ f (x), x
2
(R)} 0. Lexistence dun minimiseur x tel que f (x) 0 tant clai-
rement impossible, cela garantit que ce problme na pas de solution. Dmontrons prsent
que inf{ f (x), x
2
(R)} 0. On considre la suite (minimisante) (x
n
)
nN

2
(R)
N
dnie pour
n N x par : x
n
k

k,n
, k N. On vrie alors aisment que pour tout n N, f (x
n
)
1
n+1
et
la conclusion sensuit.
La moralit de cet exemple est (a nest pas une grande surprise !) que la compacit sob-
tient bien plus difcilement en dimension innie quen dimension nie. Bien que la suite mi-
nimisante (x
n
)
nN
soit borne, il nest pas possible den extraire une sous-suite convergente
dans
2
(R).
Dans ce qui suit, on prsente un cas favorable assurant lexistence en dimension innie.
Gardons tout de mme lesprit que lessentiel du programme doptimisation pour la prpa-
ration lagrgation porte sur des notions de dimension nie.
Dans ce qui suit, on se place dans un espace de Hilbert V muni dun produit scalaire , .
Dnition 2.9. Fonction -elliptique
Soit K V , un convexe. Une fonction f : K R est dite fortement convexe ou
uniformment convexe ou -convexe ou -elliptique sil existe >0 tel que, pour
tous (x, y) K
2
, t [0, 1],
f (t x +(1t )y) <t f (x) +(1t )f (y)

2
t (1t )|x y|
2
.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 15
Il est tout fait clair que lellipticit implique la stricte convexit qui implique elle-mme la
convexit. On notera que la convexit correspond formellement au cas 0. Bien sr, les rci-
proques sont fausses.
Exemple 2.10 Liens entre les direntes notions de convexit
Nous donnons ici quelques exemples et contre-exemples lmentaires, qui seront complts par
la suite (en particulier, on tudiera de prs la convexit des fonctionnelles quadratiques en
dimension nie).
i Toute fonction ane de R dans R est convexe mais non strictement convexe.
ii Daprs la dnition, il est clair quune fonction -elliptique est strictement convexe, et
donc convexe.
iii La fonction x lnx est strictement convexe sur ]0, +[, mais non elliptique. Prouvons-
le ! Cette fonction est strictement convexe (on peut utiliser le critre sur les drives
secondes par exemple, que nous rappellerons ultrieurement). Reste montrer que cette
fonction nest pas elliptique. Raisonnons par labsurde, en supposant lexistence de >0
tel que, pour tous (x, y) ]0, +[
2
, x / y, et t [0, 1],
ln(t x +(1t )y) <t lnx (1t )lny

2
(x y)
2
.
Fixons y ]0, +[, t [0, 1], divisons cette ingalit par (x y)
2
et faisons tendre x vers
+. On obtient alors immdiatement <0, ce qui est absurde.
iv Il est ais de montrer que la fonction x x
2
est 4-elliptique sur R. En eet, soit (x, y) R
2
,
x / y et t [0, 1]. Alors, on vrie que
(t x +(1t )y)
2
t x
2
+(1t )y
2
2t (1t )(x y)
2
.
La proposition ci-dessous examine plus prcisment le lien entre convexit et uniforme
convexit. Elle fournit galement un critre permettant de vrier luniforme convexit dune
fonction.
Proposition 2.11.
Comme prcdemment, f dsigne une fonction de V dans R.
i La fonction f est -elliptique si et seulement si la fonction f

2
||
2
est convexe.
ii On suppose que f est continue. Alors, la fonction f est -elliptique si, et
seulement si il existe >0 tel que, pour tout (x, y) V
2
,
f
_
x +y
2
_
<
f (x) + f (y)
2

8
|x y|
2
.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 16
Dmonstration. i Posons g(x) f (x)

2
|x|
2
. Endveloppant |t x+(1t )y|
2
et enregrou-
pant les termes correctement, on trouve
t g(x)+(1t )g(y)g(t x+(1t )y) t f (x)+(1t )f (y)f (t x+(1t )y)

2
t (1t )|xy|
2
,
ce qui prouve lquivalence annonce.
ii Le sens direct est immdiat et sobtient en choisissant t
1
2
.
Le sens rciproque est un peu plus dlicat. Nous allons procder par rcurrence. Pour
tout n N, on note K
n
{ [0, 1], 2
n
N}. Fixons x et y dans V . On appelle P
n
la
proprit : Pour tout t K
n
, lingalit
f (t x +(1t )y) <t f (x) +(1t )f (y)

2
t (1t )|x y|
2
,
est vrie. Linitialisation de cette proprit est immdiate. Montrons son hrdit.
Soit t K
n+1
\K
n
, alors 2t K
n
. Il existe (t
1
, t
2
) K
2
n
tels que t
1
<t
2
et t
t
1
+t
2
2
. Puisque f
vrie lingalit particulire de -convexit nonce dans la proposition,
f (t x +(1t )y) f
_
(t
1
x +(1t
1
)y) +(t
2
x +(1t
2
)y)
2
_
<
1
2
_
f (t
1
x +(1t
1
)y) + f (t
2
x +(1t
2
)y)
_

8
(t
2
t
1
)
2
|x y|
2
.
Or, puisque lingalit de -ellipticit a t suppose vraie sur K
n
, on en dduit
f (t x +(1t )y) <
t
1
f (x) +(1t
1
)f (y) +t
2
f (x) +(1t
2
)f (y)
2

4
(t
1
(1t
1
) +t
2
(1t
2
))|x y|
2

8
(t
2
t
1
)
2
|x y|
2
t f (x) +(1t )f (y)

4
(t
1
(1t
1
) +t
2
(1t
2
)
+
1
2
(t
2
t
1
)
2
)|x y|
2
t f (x) +(1t )f (y)

2
t (1t )|x y|
2
,
ce qui prouve que lingalit de -ellipticit est alors valable pour tout lment de
K
n+1
. On en dduit par rcurrence que lingalit est valable pour t
_
nN
K
n
. Comme
f est continue, lingalit reste valable sur ladhrence de lunion des K
n
, cest--dire sur
[0, 1].
Dans le cas o la fonction f est rgulire, comme pour la convexit, il existe des caractrisations
de la convexit uniforme. Onpeut voir ces caractrisations comme des corollaires du thorme
2.6.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 17
Corollaire 2.12. Caractrisation des fonctions uniformment
convexes dans le cas rgulier
i Si f : V R est direntiable, on a les quivalences
(i ) f est -elliptique ;
(i i ) f (y) > f (x) +f (x), y x +

2
|y x|
2
, (x, y) V
2
;
(i i i ) f (y) f (x), y x >|y x|
2
, (x, y) V
2
.
ii Si f : V R est deux fois direntiable, on a les quivalences
(i ) f est -elliptique ;
(i i ) Hess f (x)h, h >|h|
2
, x V , h V .
Dmonstration. i Grce la proposition 2.11, (i ) quivaut dire que g(x) f (x)

2
|x|
2
est convexe. or, g(x) f (x) x. En crivant alors les conditions (i ), (i i ) et (i i i ) du
thorme 2.6, on obtient exactement les conditions (i i ) et (i i i ) du corollaire pour f .
ii La preuve dcoule immdiatement du thorme 2.6, en posant comme prcdemment
g(x) f (x)

2
|x|
2
et en remarquant que Hess g(x) Hess f (x) I .
Exemple 2.13 -convexit dune fonction quadratique
Revenons sur lexemple de la fonction f dnie par
f : R
n
R
x f (x)
1
2
Ax, x b, x +c,
avec A une matrice relle symtrique, b un vecteur de R
n
et c une constante donne. On a
dj prouv dans lexemple 2.7 que f est strictement convexe sur R
n
si, et seulement si A
est dnie positive, et que de plus Hess f (x) A pour tout x R
n
. tant donn que A est
symtrique relle, on peut la diagonaliser dans une base orthonorme relle de vecteurs propres
note {e
i
}
1<i <n
. Le spectre de A rang par ordre croissant est :

1
< <
n
.
On peut alors crire que A P

DP, avec P O
n
(R), la matrice telle que P

P
1
[e
1
e
n
],
o les vecteurs e
1
, , e
n
, sont crits en colonne, et D diag (
1
, ,
n
). Posons u Ph. Alors,
Ah, h
n

i 1

i
u
2
i
>
1
n

i 1
u
2
i

1
[u|
2

1
|h|
2
.
On en dduit que f est
1
-elliptique. On peut dailleurs montrer facilement que
1
est la
meilleure constante dellipticit de f en remarquant que lingalit ci-dessus est une galit
lorsque h est un vecteur propre associ
1
.
2 QUESTIONS DEXISTENCE ET UNICIT DES SOLUTIONS 18
Remarque 2.14 uniformment convexe implique coercif
Si f est -elliptique et direntiable, en utilisant la caractrisation prcdente, on obtient
aisment que
f (x) > f (0) +f (0), x +

2
|x|
2
,
ce qui implique que f est coercive.
Nous sommes prsent en mesure dtablir le rsultat dexistence annonc en dimension
nie.
Thorme 2.15.
Soit K, un convexe ferm non vide dun espace de Hilbert V et f , une fonction -
convexe continue sur K. Alors, il existe un unique minimum x

de f sur K et on
a :
|x

x|
2
<
4

[ f (x) f (x

)], y K.
En particulier, toute suite minimisante de f sur lensemble K converge vers x

.
Dmonstration. Il existe un point un peu technique dans cette dmonstration qui, paradoxa-
lement, dans beaucoup de problmes doptimisation, est vri gratuitement. En effet, il sagit
du lemme suivant :
Lemme 2.16.
Soit f , une fonction -convexe sur K. Alors, il existe deux constantes (
1
,
2
) R
+
R
telles que
f (x) >
1
|x|
2
+
2
.
Ce lemme est dmontr dans [1]. Il utilise dans sa preuve le thorme de sparation dun point
et dun convexe. Il assure, puisque f est innie linni, que f est minore sur le convexe
K, donc que inf{ f (x), x K} est ni. Il arrive assez souvent dans la pratique que lon minimise
des fonctionnelles naturellement positives ou minores si bien que cette tape napparat plus
essentielle dans ces cas.
Dmontrons prsent le thorme enadmettant le lemme technique ci-dessus. Ondsigne
par m, la quantit inf{ f (x), x K}. Soit (x
n
)
nN
, une suite minimisante de f sur K. Puisque f
est -elliptique, on a pour tous (n, m) N
2
,

8
|x
n
x
m
|
2
+ f
_
x
n
+x
m
2
_
m<
1
2
(f (x
n
) m) +
1
2
(f (x
m
) m).
Or, par dnition de m, f
_
x
n
+x
m
2
_
> m, si bien que
0 <

8
|x
n
x
m
|
2
<
1
2
(f (x
n
) m) +
1
2
(f (x
m
) m).
3 CONDITIONS DOPTIMALIT - OPTIMISATION SANS CONTRAINTE 19
On en dduit que (x
n
)
nN
est de Cauchy, et donc converge vers une limite x

K (K est ferm),
qui est ncessairement le minimum de f , puisque f est continue. Lunicit dcoule du tho-
rme 2.8.
Enn, soit x K. Utilisons encore le caractre -elliptique de f , on obtient :

8
|x

x|
2
<
f (x

) + f (x)
2
f
_
x

+x
2
_
<
f (x) f (x

)
2
,
car f
_
x+x

2
_
> f (x

).
Remarque 2.17
On peut aaiblir les hypothses du thorme prcdent, en remplaant lhypothse de conti-
nuit de f par une hypothse de semi-continuit infrieure de f . La dmonstration reste alors
inchange, et il sut dcrire que
f (x

) <liminf
n+
f (x
n
).
3 Conditions doptimalit - optimisation sans contrainte
Dans le cadre du programme de lagrgation, nous nous concentrons essentiellement sur
ltude des conditions doptimalit en dimension nie. Nous donnons tout de mme quelques
pistes en dimension innie.
Thorme 3.1. Inquation dEuler
Soit f : K V R, o K est un convexe inclus dans V , un espace de Hilbert. On
suppose que f est direntiable en x K. Si x est un minimum local de f sur K, alors
x vrie linquation dEuler :
d f
x
(y x) >0, y K.
Si de plus, f est convexe, alors x est un minimum global de f sur K.
Dmonstration. Pour y K et t ]0, 1], x+t (y x) K et donc
f (x+t (yx))f (x)
t
>0. On en dduit
linquation dEuler en faisant tendre t vers 0. La deuxime assertion de ce thorme a dj t
montre dans le thorme 2.6.
3 CONDITIONS DOPTIMALIT - OPTIMISATION SANS CONTRAINTE 20
3.1 Conditions doptimalit - optimisationsans contrainte
On sintresse dans cette section au problme
_
min f (x)
x R
n
.
(4)
o f : R
n
R. Souvenons-nous quen dimension 1, si un point maximise ou minimise lo-
calement une fonction drivable, alors, sa drive sannule ncessairement en ce point. Nous
allons prciser cette proprit et la gnraliser aux dimensions suprieures.
Thorme 3.2. Conditions ncessaires
Soit x

, un minimum local pour le problme (4).


i si f est direntiable en x

, alors f (x

) 0. On dit que x

est un point
stationnaire ou critique.
ii si f est deux fois direntiable en x

, alors Hess f (x

) est semi-dnie positive.


Remarque 3.3
Lexemple f (x) x
4
montre que lon na pas mieux que le caractre semi-dni positif de la
hessienne, mme si x

est un minimum global. Lexemple f (x) x


3
montre que ce thorme
donne une condition ncessaire mais pas susante.
Dmonstration. i Oncrit f (x

) < f (x

+h) f (x

)+f (x

), h+[h[(h), avec (h)


0
0. On divise alors par >0 puis on fait tendre vers 0
+
. Enn, en choisissant dans le d-
veloppement prcdent h pour tout h R
n
, la conclusion sensuit.
ii On utilise un dveloppement de Taylor-Young lordre 2 et on utilise les mmes nota-
tions que prcdemment. On a :
f (x

+h) f (x

) +f (x

), h +
1
2
Hess f (x

)h, h +|h|
2
(h)
f (x

) +
1
2
Hess f (x

)h, h +|h|
2
(h)
Comme prcdemment, on remplace h par h, h quelconque, petit, puis on divise par

2
et on fait tendre vers 0.
3 CONDITIONS DOPTIMALIT - OPTIMISATION SANS CONTRAINTE 21
Thorme 3.4. Conditions susantes
Soit f , deux fois direntiable en x

R
n
, tel que f (x

) 0 et de plus :
soit Hess f (x

) est dnie positive,


soit f est deux fois direntiable dans un voisinage de x

et Hess f (x) est semi-


dnie positive dans ce voisinage.
Alors, x

est un minimum local pour f .


Remarque 3.5
Le caractre semi-dni positif de la hessienne en x

ne sut pas pour conclure, comme en


atteste lexemple f (x) x
3
. En revanche, le caractre dni-positif de la hessienne nest pas
ncessaire, comme en tmoigne lexemple f (x) x
4
.
On rappelle quun point critique qui nest pas un extremum local porte le nom de point selle.
Dmonstration. Hess f (x

) est dnie positive, par consquent, il existe > 0 tel que


Hess f (x

)h, h >|h|
2
pour tout h R
n
(rappelons que peut tre choisi gal la plus
petite valeur propre de la matrice hessienne de f en x

). On crit alors la formule de


Taylor-Young lordre deux en x

:
f (x

+h) f (x

) +
1
2
Hess f (x

)h, h +|h|
2
(h)
> f (x

) +
_

2
+(h)
_
|h|
2
> f (x

),
pourvu que h soit choisi assez petit, puisque (h)
h0
0.
f tant suppose deux fois diffrentiable au voisinage de x

, oncrit la formule de Taylor-


Mac Laurin. Ainsi, il existe t [0, 1] tel que
f (x

+h) f (x

) +
1
2
Hess f (x
t
)h, h > f (x

),
o x
t
x

+t h est proche de x

si h est petit.
On vient donc dtablir une condition ncessaire, des conditions sufsantes, mais a priori pas
de conditions la fois ncessaires et sufsantes. Comme prcdemment, il est possible de pr-
ciser cette tude dans le cadre convexe.
Thorme 3.6. Condition ncessaire et susante, cas convexe
Soit f convexe et direntiable sur R
n
. Une C.N.S. pour que x

soit un minimum
local (donc global) de f est que x

soit un point critique de f , autrement dit, que


f (x

) 0.
3 CONDITIONS DOPTIMALIT - OPTIMISATION SANS CONTRAINTE 22
Dmonstration. La condition ncessaire rsulte immdiatement du thorme 3.2, tandis que
lquivalence local-global rsulte du thorme 2.8. Quant la condition sufsante, elle rsulte
de lapplication du thorme 2.6. En effet, pour tout x R
n
,
f (x) > f (x

) +f (x

), x x

f (x

).
On en dduit que x

est bien un minimum.


Dans la suite, nous allons nous intresser deux exemples fondamentaux dans le domaine
des mathmatiques appliques : la minimisation dune fonctionnelle quadratique et la m-
thode des moindres carrs.
3.2 Minimisation dune fonctionnelle quadratique sans contrainte
On considre la fonctionnelle quadratique
3
f : R
n
R
x f (x)
1
2
Ax, x b, x +c,
o A dsigne une matrice relle symtrique, b est un vecteur de R
n
et c est une constante don-
ne. On considre le problme
_
min f (x)
x R
n
.
(5)
Nous avons montr dans lexemple 2.7 que le gradient de f est f (x) Axb et que Hess f (x)
A, pour tout x R
n
. En particulier, nous avons montr que f est convexe si, et seulement si A
est semi-dnie positive.
Dans ce cas, f admet un minimum(global) si, et seulement si il existe x

R
n
tel que Ax

b ou encore si, et seulement si b Im A. Notons, puisque nous sommes en dimension nie et


que A est symtrique, que Im A (ker A

(ker A)

.
tant donn que A est symtrique relle, on peut la diagonaliser dans une base orthonor-
me relle de vecteurs propres note {e
i
}
1<i <n
. Le spectre de A rang par ordre croissant est :

1
< <
n
.
On distingue alors plusieurs cas selon le signe de la plus petite valeur propre
1
:
si
1
<0, alors f nest pas borne infrieurement. En effet,
z R, f (ze
1
)

1
2
z
2
zb, e
1
+c
z+
.
Le problme (5) na donc pas de solution dans ce cas.
si
1
0 et si b (ker A)

, alors lquation f (x) 0 na pas de solution, ce qui implique


que le problme (5) na donc pas de solution. Plus prcisment, f est convexe, mais pas
borne infrieurement et il existe e
1
ker A tel que b, e
1
/0. On en dduit :
z R, f (ze
1
) zb, e
1
+c
zsgn(b,e
1
)
.
3. On dit que cette fonctionnelle est quadratique par abus de langage bien quelle soit en ralit la somme dune
fonction quadratique et dune fonction afne.
3 CONDITIONS DOPTIMALIT - OPTIMISATION SANS CONTRAINTE 23
si
1
0 et si b (ker A)

, alors lquation f (x) 0 possde une innit de solutions, ce


qui implique que le problme (5) a une innit de solutions. Puisque A est semi dnie
positive, f est convexe et tout minimum local est un minimum global. Plus prcisment,
si x
0
dsigne une solution particulire de lquation f (x) 0, il est ais de vrier que
lensemble des solutions est lespace afne x
0
+ker A et
min
xR
n
f (x)
1
2
b, x
0
+c.
si
1
> 0, la matrice A est inversible et lquation f (x) 0 admet une solution unique
qui est A
1
b. On notera que, en vertu de lexemple 2.13, f est
1
-elliptique, donc stricte-
ment convexe en particulier. De plus, la valeur du minimum est
min
xR
n
f (x)
1
2
b, A
1
b +c.
3.3 La mthode des moindres carrs
Onpourra se rfrer par exemple [2]. Soit A, une matrice relle de taille mn (enpratique,
m est souvent bien plus grand que n). On suppose donc que m > n. On cherche rsoudre
Ax b au mieux, i.e. on cherche x

minimisant
f : R
n
R
x f (x) |Ax b|
2
,
la notation | | dsignant bien sr la norme euclidienne de R
n
. Pour montrer que le problme
consistant minimiser f sur R
n
possde une solution, on peut le rexprimer sous la forme : re-
chercher lexistence dun projet de b sur le sous espace vectoriel Im A. Puisque nous sommes
en dimension nie, on sait quil existe un unique projet b sur le sous espace vectoriel Im A,
car celui-ci est de dimension nie donc ferm (voir par exemple [6]).
On peut rexprimer f (x) sous une forme mieux adapte la procdure de minimisation
que lon souhaite mettre en uvre. En effet,
x R
n
, f (x)
1
2
|Ax b|
2

1
2
Ax, Ax Ax, b +
1
2
|b|
2

1
2
A

Ax, x A

b, x +
1
2
|b|
2
.
La fonction f est bien videmment convexe. Remarquons que la matrice A

A est de taille nn,


symtrique et semi-dnie positive (immdiat). On peut alors rutiliser ltude faite dans la
section 3.2. On distingue deux cas :
Si A est de plein rang n. Alors, daprs le thorme du rang, la matrice A est injective,
ce qui garantit que A

A est galement injective donc inversible. En consquence, le pro-


blme des moindres carrs (ou de projection orthogonale) possde une solution unique
x

. On peut obtenir explicitement x

en rsolvant le systme dquations normales issu


de la fonctionnelle quadratique f (i.e. f (x) 0) :
A

Ax A

b.
3 CONDITIONS DOPTIMALIT - OPTIMISATION SANS CONTRAINTE 24
Si rgA < n. Alors, la plus petite valeur propre de A

A est nulle, puisque A

A nest pas
injective. On a vu que le problme des moindres carrs se ramne un problme de pro-
jection orthogonale et que ce problme possde (au moins) une solution. Daprs ltude
faite dans la section 3.2, dans le cas o la plus petite valeur propre de A

A est nulle, ce
qui est le cas ici, le problme de minimisation de la fonctionnelle quadratique associe
a soit une innit de solutions, soit pas de solution. On en dduit que le problme des
moindres carrs possde dans ce cas une innit de solutions. On peut galement sen
convaincre de la faon suivante : lquation A

Ax A

b possde au moins une solution


si, et seulement si A

b ImA

A, i.e. A

b [ker A

A]

[ker A]

(car ker A

A ker A),
ce qui est vrai puisque ker A [ImA

]
4
.
Remarque 3.7 Pseudo-inverse
Dans le cas o A

A est inversible, la matrice


A

(A

A)
1
A

sappelle pseudo-inverse ou inverse gnralis de A. Le pseudo-inverse se calcule laide dune


gnralisation du thorme spectral aux matrices non carres. Lopration de pseudo-inversion
est trs utile en analyse numrique. Elle est en particulier involutive et commute avec la trans-
position et la conjugaison.
Exemple 3.8 La rgression linaire
On pourra par exemple se rfrer [3, Chapitre 2] pour la rgression linaire sans contrainte et
[3, Chapitre 3] pour la rgression linaire avec contraintes.
On considre un nuage de m points de R
2
: M
i
(t
i
, x
i
), pour i {1, , m}. Ces donnes
sont souvent le rsultat de mesures et on cherche dcrire le comportement global de ce
nuage. En gnral, ces points ne sont pas aligns, mais si on a de bonnes raisons de penser
quils devraient ltre (un modle physique, biologiste, etc. peut guider lintuition), on peut se
demander quelle est la droite approchant au mieux ces points.
La mthode des moindres carrs consiste alors rechercher la droite telle que la somme des
carrs des distances des points du nuage cette droite soit minimale.
Autrement dit, on cherche rsoudre
_
_
_
min f (, )
n

i 1
(x
i
t
i
)
2
,
(, ) R
2
.
Posons X (, )

. Alors, on peut crire que


f (, ) |AX b|
2
, avec A
_
_
_
t
1
1
.
.
.
.
.
.
t
m
1
_
_
_, b
_
_
_
x
1
.
.
.
x
m
_
_
_
4. En effet, rappelons que, puisque nous sommes en dimension nie, tout espace vectoriel est ferm et
[ImA

ImA

ImA

4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 25


On a vu que ce problme possde une solution unique si A est de rang plein, i.e. 2. On en
dduit que ce problme possde une solution unique sauf si t
1
t
m
.
De plus,
A

A
_
m
i 1
t
2
i

m
i 1
t
i

m
i 1
t
i
m
_
et A

b
_
m
i 1
x
i
t
i

m
i 1
x
i
_
.
On en dduit que lquation normale associe est
_
S
t
2+S
t
S
xt
S
t
+mS
x
o lon a pos S
t

m
i 1
t
i
, S
x

m
i 1
x
i
, S
xt

m
i 1
x
i
t
i
et S
t
2

m
i 1
t
2
i
. Sous rserve que lon
ne soit pas dans la situation t
1
t
m
(ce qui se retrouve en calculant le dterminant du
systme et en retrouvant un cas dgalit de Cauchy-Schwarz), ce systme a pour solution

S
x
S
t
mS
xt
(S
t
)
2
mS
t
2
et
S
xt
S
t
S
x
S
t
2
(S
t
)
2
mS
t
2
.
4 Conditions doptimalit - optimisation sous contraintes
Dans cette section, oncherche noncer des conditions doptimalit aupremier ordre pour
des problmes doptimisation avec contraintes, du type
_
_
_
inf f (x)
h(x) 0
g(x) <0,
o f : R
n
R, h : R
n
R
p
et g : R
n
R
q
, p et q dsignant deux entiers naturels non nuls.
Dans lnonc du problme ci-dessus, la contrainte ingalit doit tre interprte composante
par composante.
Lnonc des conditions doptimalit ncessite lintroduction de multiplicateurs de La-
grange. Dans un premier temps, on va sintresser un problme sous contrainte simpli,
dans lequel ne gurent que des contraintes galit.
4.1 Multiplicateurs de Lagrange, le thorme des extrema lis
Dans un premier temps et pour comprendre de faon intuitive les rsultats qui vont suivre,
considrons le cas o lensemble des contraintes est une intersection nie dhyperplans. On
cherche donc rsoudre
_
inf f (x)
h(x) 0
avec f : R
n
R, une fonction difrentiable sur R
n
et
h(x)
_
_
_
a
1
, x
.
.
.
a
p
, x
_
_
_
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 26
On pose K {x R
n
, h(x) 0}. Puisque K est un espace vectoriel, il est ais de voir que si x

est un minimum local de f sur K, alors


f (x

), x 0, x K.
Autrement dit, f (x

) est un lment de K

. Or, on peut aisment se convaincre que


K

vect{a
i
, 1 <i <p}.
Par consquent,
(
1
, ,
p
) R
p
[ f (x

) +
p

i 1

i
a
i
0.
Chaque rel
i
sappelle un multiplicateur de Lagrange.
On va gnraliser cette notion au cas o h est quelconque. Soit h
1
, , h
p
, p fonctions de
R
n
dans R
p
. On appelle K, lensemble des contraintes
K {x R
n
, h
1
(x) h
p
(x) 0}. (6)
Le thorme qui suit gnralise le rsultat tabli dans lexemple introductif.
Thorme 4.1. Extrema lis
Soit f : R
n
R, une fonction direntiable et h : R
n
R
p
, de classe C
1
. On suppose
que f admet un minimum local sur lensemble K et que
la famille h
1
(x

), , h
p
(x

) est libre. (7)


Alors, il existe un p-uplet (
1
, ,
p
) R
p
tel que
f (x

) +
p

k1

k
h
k
(x

) 0. (8)
Remarque 4.2 Qualication des contraintes
La condition (7) est appele condition de qualication des contraintes. Remarquons que si cette
condition nest pas satisfaite, alors la conclusion du thorme 4.1 tombe en dfaut. En eet,
pour sen convaincre, considrons lexemple suivant :
_
inf f (x) x
x R et h(x) 0,
o h : x Rx
2
. Alors, le minimum de f sur K est atteint en x

0 et lquation (8) na pas


lieu puisque h

(x

) 0 et f

(x

) 1.
Pour remdier ce problme, on peut remplacer la condition (8) par la condition
(
0
,
1
, ,
p
) R
p
[
0
f (x

) +
p

k1

k
h
k
(x

) 0.
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 27
On peut cependant dmontrer (voir par exemple [3, 7]) que la condition de qualication des
contraintes (7) assure que
0
/0 et on retrouve alors les conclusions du thorme 4.1.
Dmonstration. Dans le but dviter un formalisme pnible, on prsente une preuve du tho-
rme 4.1 dans le cas n 2 et p 1. Cependant, aucune difcult conceptuelle supplmentaire
napparat dans le cas gnral. On note donc
K {x R
n
, h(x) 0}.
Lide de la preuve consiste se ramener la recherche de minima locaux dune fonction dune
variable. Notons que, quitte effectuer un changement de coordonnes, la condition (7) se
rcrit sous la forme
h
x
2
(x

) /0,
ce qui nous incite utiliser le thorme des fonctions implicites. En effet, on peut rire K
comme un graphe dans une petite boule centre en x

:
>0, C
1
(R, R), K B(x

, ) {x (x
1
, x
2
) B(x

, ), x
2
(x
1
)}.
Par consquent, la fonction

f : x
1
f (x
1
, (x
1
)) admet unminimumlocal en x

1
. crivons alors
les conditions doptimalit au premier ordre pour une telle fonction.

f

(x

1
) 0
f
x
1
(x

1
, (x

1
)) +

(x

1
)
f
x
2
(x

1
, (x

1
)) 0.
Par ailleurs, de h(x
1
, (x
1
)) 0 dans un voisinage de x

1
, on dduit
h
x
1
(x

1
, (x

1
)) +

(x

1
)
h
x
2
(x

1
, (x

1
)) 0
La conclusion sensuit en remarquant que x

2
(x

1
) et en posant

f
x
2
(x

)
h
x
2
(x

)
.
Remarque 4.3 Interprtation gomtrique
Pour donner une interprtation gomtrique au thorme prcdent, on va dcomposer les
gradients de h et f dans une base adapte. En eet, plutt que de dcomposer le gradient de
h dans la base canonique (

e
1
,

e
2
) (i.e. h(x

)
h
x
1
(x

)

e
1
+
h
x
2
(x

)

e
2
), on peut le dcomposer
suivant

n (x

) (vecteur normal la varit h(x) 0) et



(x

) (vecteur tangentiel la varit


4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 28
h(x) 0) en x

(le fait que h soit une fonction de classe C


1
et que h(x

) / 0 garantit
lexistence de tels vecteurs), autrement dit
h(x

)
h
n
(x

)

n (x

) +
h

(x

)

(x

),
avec
h
n
(x

) h(x

)

n (x

) et
h

(x

) h(x

)

(x

).
Or, puisque K B(x

, ) est le graphe dune fonction , on en dduit que



(x

)
1
_
1+
2
(x

1
)
_
1

(x

1
)
_
et

n (x

)
1
_
1+
2
(x

1
)
_

(x

1
)
1
_
prsent, remarquons que la composante tangentielle du gradient de h scrit
h

(x

)
1
_
1+
2
(x

1
)
_
h
x
1
(x

) +

(x

1
)
h
x
2
(x

)
_
.
un facteur multiplicatif prs, on reconnat la drive de x
1
h(x
1
, (x
1
)) en x

1
, qui est par
consquent nulle. On en dduit :
h(x

)
h
n
(x

)

n (x

).
De la mme faon, le fait que la drive de x
1
f (x
1
, (x
1
)) sannule en x

1
(condition
doptimalit au premier ordre) sinterprte gomtriquement comme :
f

(x

) 0.
Il sensuit que le gradient de f en x

est dirig suivant le vecteur normal



n (x

), ce quexprime
exactement la relation (8). (voir Figure 2)
Exemple 4.4 Un premier exemple trs simple
Pour comprendre comment utiliser le thorme des extrema lis, considrons lexemple suivant :
_
inf f (x, y) x
4
+y
4
(x, y) R
2
tel que x
2
+y
2
1.
Remarquons que lexistence est immdiate. En eet, on minimise une fonction continue de deux
variables sur un compact de R
2
. On peut dailleurs mener un calcul direct en se ramenant
la minimisation dune fonction dune variable relle. Ainsi, posons x cos et y sin, avec
[0, 2[. On trouve alors que
f (cos, sin) (cos
2
+sin
2
)
2
2cos
2
sin
2

1
1
2
sin
2
(2).
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 29
FIGURE 2 Reprsentation de la fonction
x
2
(x
1
)
f cste.

n
cste
_
1+
2
(x
1
)
_

(x
1
)
1
_
On en dduit que f (cos, sin) est minimale lorsque sin
2
(2) 1, cest--dire pour
_

4
,
3
4
,
5
4
,
7
4
_
ou encore que f est minimale pour (x, y)
_

_
2
2
,
_
2
2
_
. On retrouve immdiate-
ment ce rsultat en appliquant le thorme des extrema lis. En eet, il existe R tel que,
au point (x, y) minimisant f sur le cercle unit, f (x, y) h(x, y), avec h(x, y) x
2
+y
2
1,
autrement dit
_
x(x
2
) 0
y(y
2
) 0.
Ainsi x 0 et y
_
ou y 0 et x
_
ou x y
_
. Dans chacun des cas, la
valeur de sobtient en tenant compte de la contrainte galit. Ainsi, 1 pour les deux
premiers cas et
1
2
pour le dernier cas. ce stade, il est ncessaire de faire le tri parmi les
points critiques, entre maxima locaux, minima locaux et points selle. La meilleure solution est
dvaluer f aux points obtenus. On montre alors aisment que f est maximale dans les deux
premiers cas, et minimale dans le dernier. On retrouve ainsi le rsultat obtenu par un calcul
direct prcdemment.
Exemple 4.5 Une dmonstration du thorme spectral grce au thorme des extrema lis
On considre le problme de minimisation sous contrainte
_
infAx, x
|x| 1,
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 30
avec A R
nn
, une matrice symtrique. Lexistence dune solution est triviale (fonction continue
sur un compact) En posant f (x) Ax, x et h(x) |x|
2
1, on peut appliquer le thorme des
extrema lis. On en dduit quil existe un (x

) R
n
R tel que
2Ax

+2

0,
autrement dit, il existe un couple propre pour toute matrice symtrique. On peut en dduire le
thorme spectral :
Thorme 4.6. Thorme spectral
Soit A, une matrice symtrique coecients rels.
Alors, A est diagonalisable sur R dans une base orthonorme de vecteurs propres.
Pour sen convaincre, raisonnons par rcurrence sur la dimension n. Pour n 1, le thorme
spectral est une trivialit. Lhrdit se prouve de la faon suivante : considrons le sous-espace
vectoriel H [vect (x

)]

. Cet espace est stable par A. en eet, soit y H. Alors,


x

, y 0 et x

, Ay Ax

, y

, y 0.
La restriction de A H tant encore symtrique, lhypothse de rcurrence assure lexistence
dune base orthonorme de H qui diagonalise la restriction de A H.
Exemple 4.7 Lingalit arithmtico-gomtrique
On cherche (re)dmontrer lingalit arithmtico-gomtrique laide du thorme des ex-
trema lis. On rappelle cette ingalit :
(x
1
, . . . , x
n
) R
n
+
,
n
_
n

i 1
x
i
<
1
n
n

i 1
x
i
.
Pour ce faire, considrons la fonction
J : R
n
+
R
x (x
1
, . . . , x
n
)
n
_

n
i 1
x
i

n
i 1
x
i
Remarquons que la fonction J ainsi dnie est positivement homogne de degr 1, cest--dire
que J(x) J(x) pour tout x R
n
+
et t >0. Il sensuit que le problme consistant minimiser
J sur R
n
+
est quivalent au problme doptimisation
_
inf f (x)
n
_

n
i 1
x
i
x X
_
x R
n
+
[
1
n

n
i 1
x
i
1
_
.
En remarquant que X est un compact et que f est continue, on peut armer que ce problme
possde (au moins) une solution. Par ailleurs, notons que, en un point x o le maximum de f sur
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 31
X est atteint, ncessairement x
i
>0 pour tout i {1, . . . , n}. On peut donc appliquer le thorme
des extrema lis sans se proccuper des contraintes ingalit x
i
>0. On obtient alors lexistence
de R tel que f (x) h(x), o lon a pos h(x)
1
n

n
i 1
x
i
1. Or,
f
x
i
(x)
1
n
f (x)
x
i
et
h
x
i
(x)
1
n
. On en dduit que, loptimum
f (x) x
1
x
n
,
puis que tous les x
i
sont gaux. Compte tenu de la contrainte galit, x
i
1 pour tout i
{1, . . . , n}. Ainsi, pour tout x X, f (x) <1 ce qui montre que
max
xR
n
+
J(x) 1.
On retrouve lingalit arithmtico-gomtrique.
4.2 Les thormes de F. John et Karush-Kuhn-Tucker
Le thorme que nous allons noncer prsent est plus gnral que le thorme des ex-
trema lis, puisquil permet de traiter des contraintes de type ingalit. Enrevanche, la preuve
dun tel thorme est plus ardue et peut tre trouve dans [1, 3, 4, 7].
On introduit lensemble des contraintes
K {x R
n
, h(x) 0 et g(x) <0},
o h : R
n
R
p
et g : R
n
R
q
sont de classe C
1
. Pour mieux comprendre le thorme qui va
suivre, on introduit la notion de direction admissible.
Dnition 4.8. Direction admissible
En tout point x K, lensemble
K(x)
_
h R
n
, (x
n
)
nN
K
N
, (
n
)
nN
(R

+
)
N
lim
n+
(x
n
) x, lim
n+

n
0, lim
n+
x
n
x

n
h
_
est appel le cne des directions admissibles au point x.
On peut dire que K(x) est lensemble de tous les vecteurs qui sont tangents en x une courbe
contenue dans K et passant par x. Remarquons que si K est une varit rgulire, K(x) est
simplement lespace tangent K en x.
Considrons le problme doptimisation
_
inf f (x)
x K,
(9)
o f : R
n
R est suppose diffrentiable. Si lon cherche crire les conditions doptimalit
pour ce problme, on peut utiliser le mme raisonnement que dans la preuve du thorme 3.1.
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 32
Ainsi, les conditions doptimalit au premier ordre pour ce problme scrivent : si x

est un
minimum local de f sur K, alors
f (x

), d 0, d K(x

).
Cependant, cette criture nest gure utile en pratique, tant donn quil est difcile de dter-
miner de faon explicite le cne des directions admissibles K(x

). Le thorme que lon pr-


sente maintenant traduit lappartenance des directions admissibles un tel cne.
Thorme 4.9. F. John
Soit x

, un minimum local du problme (9).


Alors, il existe (
1
, ,
p
) R
p
et (
0
,
1
, ,
q
) R
q+1
+
tels que

0
f (x

) +
p

i 1

i
h
i
(x

) +
q

j 1

j
g
j
(x

) 0,
et
h(x

) 0 et g(x

) <0,

j
g
j
(x

) 0, j {1, , q} (condition de complmentarit).


Enn, comme pour le thorme 4.1, on peut obtenir la non nullit du multiplicateur appa-
raissant devant le gradient de la fonctionnelle optimiser si les contraintes vrient des condi-
tions de qualication.
Dnition 4.10. Contrainte active, qualication des contraintes
Soit x K.
Lensemble I (x) {i {1, , q}, g
i
(x) 0} est appel ensemble des contraintes
actives en x.
On dit que les contraintes sont qualies en x K si, et seulement si il existe une
direction d R
n
telle que lon ait pour tout i {1, , p} et j I (x),
h
i
(x), d 0 et g
j
(x), d <0, (10)
et si les vecteurs h
1
(x), , h
p
(x) sont linairement indpendants.
La direction h ainsi dnie est alors une sorte de direction rentrante (il est ais de voir que
x +t d K si t est assez petit).
Remarque 4.11 Une autre condition de qualication des contraintes
Il est intressant de constater quune condition susante pour que (10) ait lieu est
les vecteurs g
1
(x), , g
q
(x) sont linairement indpendants.
4 CONDITIONS DOPTIMALIT - OPTIMISATION SOUS CONTRAINTES 33
En eet, pour sen convaincre, il sut de dmontrer que lon peut trouver d R
n
\{0} tel que
h
i
(x), d 0, i {1, , p} et g
j
(x), d <0, j I (x).
Cherchons d sous la forme d

p
i 1
d
i
h
i
(x) +

j I (x)

j
g
j
(x) et imposons
h
i
(x), d 0, i {1, , p} et g
j
(x), d 1, j I (x).
On est alors conduit au systme linaire
_
p
i 1
d
i
h
i
(x), h
k
(x) +

j I (x)

j
g
j
(x), h
k
(x) 0, k {1, , p}

p
i 1
d
i
h
i
(x), g
k
(x) +

j I (x)

j
g
j
(x), g
k
(x) 0, k I (x).
La matrice associe ce systme est une matrice de Gram, de la forme (e
j
, e
k
)
j ,k
o la famille
(e
i
)
i
associe est une base. Elle est donc inversible et le systme ci-dessus est de Cramer.
nonons prsent le thorme principal de cette section.
Thorme 4.12. (Karush-Kuhn-Tucker)
Soit x

, un minimum local du problme (9). On suppose que les contraintes sont


qualies en x.
Alors, il existe (
1
, ,
p
) R
p
et (
1
, ,
q
) R
q
+
tels que
f (x

) +
p

i 1

i
h
i
(x

) +
q

j 1

j
g
j
(x

) 0,
et
h(x

) 0 et g(x

) <0,

j
g
j
(x

) 0, j {1, , q} (condition de complmentarit).


Notons que la condition de complmentarit se comprendaisment. Eneffet, si une contrainte
ingalit est inactive, alors elle ne joue aucun rle et on peut considrer que le multiplicateur
de Lagrange associ est nul.
Enn, notons que, comme dans le cas sans contrainte, sous hypothse de convexit, le
thorme de Karush-Kuhn-Tucker devient une condition ncessaire et sufsante doptimalit.
Exemple 4.13 Une application du thorme de Karush-Kuhn-Tucker
On considre le problme de minimisation sous contrainte
_
inf f (x, y) x
4
+3y
4
x
2
+y
2
>1.
Rglons au pralable la question de lexistence. On sait que pour tous (x, y) R
2
,
f (x, y) >2x
2
+6y
2
4 >2|(x, y)|
2
4
|(x,y)|+
+.
RFRENCES 34
On en dduit que f est innie linni, et lensemble des contraintes K {(x, y) R
2
, g(x, y) <0},
avec g(x, y) 1x
2
y
2
est ferm, ce qui garantit lexistence de solution(s) pour le problme
doptimisation ci-dessus. On cherche prsent crire les conditions doptimalit au premier
ordre pour un tel problme. Soit (x, y) un minimiseur (global). Le thorme de Kuhn-Tucker
assure lexistence
5
de >0 tel que f (x, y) +g(x, y) 0, plus prcisment :
_

_
4x
3
2x 0
12y
3
2y 0
x
2
+y
2
>1
(x
2
+y
2
1) 0.
Supposons que lon ait 0. Alors, les deux premires quations du systme ci-dessus
fournissent immdiatement x y 0. Mais cest impossible car (0, 0) nappartient pas
lensemble des contraintes. Par consquent, on a ncessairement >0.
Des deux premires quations, on tire que les minimiseurs sont choisir parmi
X
1

_
0,
_

6
_
, X
2

2
, 0
_
et X
3

2
,
_

6
_
tude de X
1
. Puisque x
2
+y
2
1, on obtient 6 dans ce cas, et
X
1
(0, 1) et f (X
1
) 3.
tude de X
2
. Puisque x
2
+y
2
1, on obtient 2 dans ce cas, et
X
2
(1, 0) et f (X
2
) 1.
tude de X
3
. Puisque x
2
+y
2
1, on obtient
3
2
dans ce cas, et
X
3

_
3
2
,
1
2
_
et f (X
3
)
3
4
.
On en dduit que
min
xK
f (x) f (X
3
)
3
4
.
Rfrences
[1] G. ALLAIRE, Analyse numrique et optimisation, ditions de lcole Polytechnique, 2005.
[2] G. ALLAIRE, S.M. KABER, Numerical Linear Algebra, Texts in Applied Mathematics, Vol. 55,
Springer, 2008.
[3] M. BERGOUNIOUX, Optimisation et contrle des systmes linaires, Dunod, 2001.
5. La qualication des contraintes est aise constater. Ce petit exercice est laiss au lecteur.
RFRENCES 35
[4] J.F. BONNANS, J.C. GILBERT, C. LEMARCHAL, C. SAGASTIZABAL, Optimisationnumrique,
coll. SMAI Mathmatiques et Applications n
o
27, Springer, 1997.
[5] P. CIARLET, Introduction lanalyse numrique matricielle et loptimisation, Masson,
1988.
[6] X. GOURDON, Analyse et Algbre, Ellipse, 1994.
[7] J-B. HIRIART-URRUTY, Convex Analysis and Minimization Algorithms I, Springer-Verlag,
1996.
[8] J-B. HIRIART-URRUTY, Loptimisation, Que sais-je ?, Presses Universitaires de France,
1996.
[9] C. ZUILY, H QUEFFLEC, Analyse pour lagrgation, 3
me dition
, Dunod, 2007.

Das könnte Ihnen auch gefallen