Sie sind auf Seite 1von 104

Cours “Calcul Différentiel et Intégral I”

Wolfgang Bertram

8 décembre 2006
ii Introduction

Introduction

Le sujet de ce cours est l’étude et l’analyse des fonctions de plusieurs va-


riables, f : Rn → Rm , ou, plus généralement f : V → W , où V et W sont
des espaces vectoriels sur R. Pour donner une idée du plan du cours, on
peut le diviser en trois parties principales :
I. La continuité : Notions de base de la topologie générale.
II. Différentiation.
III. Eléments d’intégration.
Les fonctions que nous allons étudier sont des fonctions « régulières ». Le
premier degré de régularité, noté C 0 , est la continuité ; le degré suivant,
noté C 1 , est la continue différentiabilité ; encore plus régulières sont les
fonctions C 2 , C 3 , ..., puis C ∞ (« lisse »). Ces propriétés seront étudiées en
détail dans les parties I et II, et nous dirons aussi quelques mots sur les
fonctions les plus régulières qui sont les fonctions analytiques.
Quant à la partie III, comme dans le cas d’une variable, l’intégration a deux
aspects, a priori complètement différents l’un de l’autre : d’abord, le calcul
d’aires (ou de volumes) ; cet aspect est étudié dans la théorie de la mesure
qui constitue le sujet d’un autre cours. Ensuite, l’intégration joue aussi le
rôle d’une « réciproque de la différentiation » : elle permet de « retrouver
le chemin parcouru à partir du relevé de vitesse ». Plus précisément, la
recherche de primitives mène au problème beaucoup plus vaste d’« intégrer
une équation différentielle », et la relation fondamentale qui existe entre la
différentiation et l’intégration en une variable sera généralisée par les cé-
lèbres théorèmes de Gauss et de Stokes. Dans la partie III, nous développons
des outils qui sont nécessaires pour attaquer ces grands sujets, et qui sont
également utilisés dans un grand nombre d’autres théories mathématiques.
Passons en revue ces trois parties de l’analyse pour le cas des fonctions
réelles d’une variable, et essayons de dégager quelques aspects importants
qui serviront pour comprendre la suite.
Introduction iii

Continuité
Qu’est-ce qu’une fonction continue ? Pour trouver une bonne réponse à
cette question, les mathématiciens ont mis plus de cent ans de temps de
réflexion. Peut-être l’auraient-ils trouvée plus vite s’ils avaient commencé
par la question négative : Qu’est-ce qu’une fonction discontinue ? Si l’on
pose la question de cette façon, on arrive tout naturellement à la fameuse
« définition epsilon-delta » de la continuité. Pour simplifier la notation, nous
écrivons d(x, y) = |x− y| pour la distance entre deux points x, y de la droite
réelle R et Br (x) = {y ∈ R| d(x, y) < r} pour l’intervalle de centre x et de
rayon r. Alors voici la formulation logique de la définition de la continuité
d’une fonction f : I → R au point a ∈ I :
(C) (∀ε > 0) (∃δ > 0) (∀x ∈ I ∩ Bδ (a)) d(f (x), f (a)) 6 ε.
Selon les règles de la logique, le contraire logique de (C) est la propriété
suivante :
(NC) (∃ε > 0) (∀δ > 0) (∃x ∈ I ∩ Bδ (a)) d(f (x), f (a)) > ε.
Traduisons la formule (NC) en language usuel : on pourra dire que la fonc-
tion f présente au point a un « saut », d’une certaine hauteur, notée ε, où
ε est un nombre strictement positif. Cela veut dire que l’on peut trouver
des points x aussi proche de a que l’on veut (de distance plus petite que δ,
quel que soit δ > 0), tels que l’écart d(f (x), f (a)) entre f (x) et f (a) soit
toujours plus grand que ε. Souvent, on préfère reformuler les conditions (C)
et (NC) en termes de suites :
(C’) (∀(xn )n∈N , xn ∈ I) xn → x(n → ∞) ⇒ f (xn ) → f (x)(n → ∞)
(NC’) (∃(xn )n∈N , xn ∈ I) xn → x(n → ∞) ∧ f (xn ) 6→ f (x)(n → ∞)
Les définitions (C) et (C’) sont à la base de l’approche moderne à l’analyse ;
elles sont tellement fondamentales, que nous recommandons au lecteur de
les apprendre par cœur comme un poème pour pouvoir les réciter sans
hésitation et en toute circonstance. Ces mêmes définitions gardent tout
leur sens si, par exemple, d(x, y) désigne la distance entre deux points x, y
dans le plan ou dans Rn . On peut donc définir les applications continues
de Rn dans Rm exactement de la même manière. On en parlera au cours
des trois premiers chapitres.
Dérivabilité
Pour n’importe quelle fonction f : I → R et x, y ∈ I avec x 6= y, la pente
est définie par
f (x) − f (y)
P (x, y) := . (0.1)
x−y
On peut interpréter cette expression comme le coefficient directeur de la
sécante de f déterminée par x et y, i.e., de l’hypoténuse dans le triangle
iv Introduction

rectangle marqué par les trois points (x, f (x)), (y, f (y)) et (y, f (x)) dans
le plan R2 . Faisons tendre y vers x : on dit que f est dérivable en x si la
« sécante tend vers la tangente », i.e. :

(D) Pour toute suite yn de points de I qui tend vers x, la limite de la pente
f 0 (x) := limn→∞ P (x, yn ) existe. (On écrit aussi f 0 (x) = limy→x P (x, y).)

Mais il existe aussi une deuxième notion qui est tout aussi naturelle : on
pourra faire bouger les deux extrémités du triangle caractéristique et faire
tendre à la fois x et y vers un point a. Si tout va bien, la sécante devrait,
là encore, tendre vers la tangente :

(DS) Pour toute suite (xn , yn ) de points de I × I qui tend vers (a, a) (et
tel que xn 6= yn ), la limite de la pente f 0 (x) := limn→∞ P (xn , yn ) existe.
(On écrit aussi f 0 (a) = lim (x,y)→(a,a) P (x, y).)
x6=y

La surprise est alors que les deux notions ne coïncident pas ! Donnons un
contre-exemple : la fonction
x sin( x1 ) si x 6= 0
n 2
f : R → R, f (x) =
0 si x = 0
est bien différentiable en tout point x ∈ R : comme | sin( x1 )| 6 1, on trouve
que f 0 (0) = 0, et pour x 6= 0, les règles usuelles de dérivation donnent
f 0 (x) = 2x sin( x1 ) − cos( x1 ). Mais elle ne satisfait pas la condition (DS) :
comme cos( x1 ) a des oscillations de plus en plus rapprochées quand x tend
vers 0, on peut trouver une suite de couples (xn , yn ), disons, avec xn <
yn < 0, telle que xn et donc yn tend vers 0 pour n → ∞, et telle que
P (xn , yn ) = 21 . Mais de la même façon on peut construire une suite avec
des propriétés analogues, mais telle que P (x0n , yn0 ) = − 21 . Pour la suite
mixte obtenue en mettant les deux suites ensemble, la pente n’admet donc
pas de limite. Autrement dit, lim (x,y)→(0,0) P (x, y) n’existe pas.
x6=y

Nous devons donc distinguer ces deux propriétés, et nous dirons que f est
strictement différentiable en a si la condition (DS) est vérifiée. Et voici un
résultat important d’analyse en une variable :

Théorème. (Théorème de la pente.) Pour une fonction f : I → R sont


équivalentes :
1) La fonction f est dérivable en tout point de I, et f 0 : I → R est conti-
nue.
2) La fonction f est strictement dérivable en tout point de I.
3) Il existe une fonction continue de deux variables f <1> : I × I → R telle
que f <1> (x, y) = P (x, y) si x 6= y.
Introduction v

Sous ces conditions, on a f <1> (x, x) = f 0 (x).

On dit alors que f est de classe C 1 . Nous allons esquisser la preuve de


ce théorème tout de suite. La preuve la plus simple utilise le théorème des
valeurs intermédiaires ; mais cette preuve ne peut pas être généralisée au cas
de Rn . Pour cette raison, nous en préférons une autre dont l’outil principal
est l’intégrale et sa relation avec le calcul différentiel.

La relation fondamentale entre différentiation et intégration

Le lecteur connaîtra la « formule reine » du calcul différentiel et intégral en


une variable : si f : I → R est dérivable et x, y ∈ I,
Z y
f 0 (t) dt = f (y) − f (x). (0.2)
x

Nous supposons connues quelques propriétés simples de l’intégrale – à sa-


voir :
a) Toute fonction continue f : [a, b] → R est intégrable.
Rb
b) Normalisation : a 1 du = bR− a. R R
c) L’intégrale
R est Rlinéaire : (f + g)(u)du = f (u)du + g(u)du,
λf (u)du = λ f (u)du. R R
d) L’intégrale est monotone : | f (u)du| 6 |f (u)| du.

Mais (vu qu’il y a plusieurs façons de se procurer la notion d’intégrale,


qu’elle soit de Riemann ou de Lebesgue ou autre) nous n’allons pas inter-
roger le lecteur sur les origines de son savoir. De toute manière, la formule
reine est une conséquence des propriétés a) – d), ainsi que le fait que l’inté-
Rt
grale à borne supérieure variable, F (t) = t0 f (u) du (pour n’importe quel
choix de t0 ∈ [a, b]), est une primitive de f , i.e., F 0 = f . Si, dans la formule
t−x
reine, on fait un changement de variables u = y−x , on peut la reécrire :
Z 1
f (y) − f (x) = (y − x) f 0 (x + u(y − x)) du,
0

de sorte que
Z 1
f (y) − f (x)
= f 0 (x + u(y − x)) du. (0.3)
y−x 0

Pour x 6= y on reconnaît la pente ! Mais le membre de droite a aussi un


sens si x = y : on retrouve f 0 (x). Cette remarque contient déjà la moitié
de la preuve du théorème de la pente (cf. chapitre 5, preuve du théorème
5 -3.2).
Pour généraliser cette approche au cas de Rn , il faut toutefois franchir
encore un obstacle : si x, y ∈ Rn , alors x−y est un vecteur, et on ne peut pas
Introduction 1

diviser par des vecteurs. C’est un problème de nature plutot géométrique


que nous allons résoudre en modifiant la définition de la pente dans le cas
général (chapitre 6).
Revenons au théorème lui-même, en oubliant sa preuve. D’une certaine
façon, il ramène la notion de dérivabilité (de classe C 1 ) à la notion plus
primitive de continuité : une fonction f est C 1 si et seulement si on peut
prolonger sa pente en une fonction continue de deux variables (x, y) ∈ I ×I.
A priori, la pente n’est pas définie sur la diagonale {(x, x)| x ∈ I} de I × I,
mais, si f est C 1 , on peut « boucher les trous » en prenant la dérivée f 0 (x)
comme valeur. Comme nous venons de le voir, pour des fonctions comme
f (x) = x2 sin( x1 ), la situation est moins agréable et il faut s’attendre à des
complications. Pour cette raison, nous écartons de telles fonctions, et nous
nous concentrons, dans ce cours, sur des fonctions de classe C 1 .
∗∗∗
Les notes qui suivent font partie d’un projet de livre qui les mettra dans
une perspective plus générale. Le signe ?? remplace des références à des
exercices et à des résultats ultérieurs qui seront donnés dans la version
finale de ce projet. Quelques références bibliographiques se trouvent à la
fin du texte.
Je ne peux pas exclure que ce texte contient encore des erreurs, et je re-
mercie le lecteur de me signaler s’il en trouve.

Vandœuvre, septembre 2006


W. Bertram
2 1. Continuité dans les espaces métriques

Chapitre 1

Continuité dans les espaces


métriques

L’espace euclidien est l’espace vectoriel Rn , muni de structures que l’on


appelle métriques, comme la distance ou le produit scalaire. Si l’on retient
seulement la notion de distance et on oublie tout le reste, on arrive à la
définition d’un espace métrique : c’est un ensemble muni d’une application
qui à un couple de points (x, y) associe leur distance d(x, y). Dans cette
situation, on peut parler de convergence de suites et de continuité d’appli-
cations.

1. L’espace euclidien Rn
Nous appelons indifféremment points ou vecteurs les éléments x, y, . . . de
l’espace vectoriel Rn et les écrivons sous forme de vecteurs colonnes
   
x1 y1
 ..   .. 
x =  . , y =  . .
xn yn
La distance euclidienne entre deux points x, y ∈ Rn est donnée par la
formule célèbre qui remonte à Pythagore :
v
u n
uX
d(x, y) = t (xi − yi )2 .
i=1
2. Espaces vectoriels normés 3

Nous notons la norme euclidienne de v ∈ Rn par


v
u n
uX
||v|| = d(0, v) = t vi2 ,
i=1

de sorte que d(x, y) = ||x − y||. La norme est liée au produit scalaire cano-
nique de Rn X
hx, yi = xi yi = xt y
i=1
t
(où x est la matrice transposée de x ; c’est donc une matrice ligne, et il
s’agit d’un produit matriciel de type « ligne × colonne » qui donne toujours
un scalaire réel). Alors on a
p
||v|| = hv, vi.

1.1. Proposition. La norme euclidienne a les trois propriétés suivantes.


Pour tout v, w ∈ Rn et r ∈ R,
(N1) ||v|| > 0, et ||v|| = 0 si et seulement si v = 0,
(N2) ||rv|| = |r| · ||v||,
(N3) ||v + w|| 6 ||v|| + ||w||.

Nous supposons connue la preuve de ces propriétés – en effet, (N1) et (N2)


sont triviales, tandis que pour démontrer (N3) on a besoin de l’inégalité de
Cauchy-Schwarz (la revoir, si nécessaire !).

2. Espaces vectoriels normés

2.1. Définition. Soit V un espace vectoriel sur R (de dimension finie ou


infinie). On appelle norme (sur V ) toute application N : V → R, v 7→ N (v)
qui satisfait les propriétés
(N1) N (v) > 0, et N (v) = 0 si et seulement si v = 0,
(N2) N (rv) = |r| · N (v),
(N3) N (v + w) 6 N (v) + N (w).
Un espace vectoriel normé est un espace vectoriel réel V muni d’une norme
N sur V .

S’il n’y pas de danger de confusion, nous écrivons encore ||v|| au lieu de
N (v) ; mais il faut être conscient du fait que, sur un seul espace il peut
exister plusieurs (même : une infinité de) normes. Pour le cas de V = Rn ,
le lecteur vérifiera que les formules suivantes définissent des normes sur Rn
4 1. Continuité dans les espaces métriques

(pour les exemples (1) et (3), c’est un exercice facile ; l’exemple (4) est plus
difficile et sera traité dans le chapitre 4) :
P
(1) ||v||1 := ni=1 |vi |
Pn
(2) ||v||2 := ( i=1 |vi |2 )1/2 (la norme euclidienne)
(3) ||v||∞ := maxi=1,...,n |vi | (la norme sup)
Pn
(4) ||v||p := ( 1=1 |vi |p )1/p pour p ∈ [1, ∞[ fixé (la p-norme)
(5) ||v||p,A := ||Av||p , où A est une matrice inversible de taille n × n.
On peut visualiser une norme || · || en dessinant sa boule unité
B1 (0) = {x ∈ V | ||x|| < 1}.
Le lecteur est incité à le faire pour n = 2 dans les exemples (1) – (5) ci-
dessus. (Comme matrice A pour l’exemple (5) on pourra choisir une matrice
diagonale.) On constatera alors : la forme de la « boule » dépend fortement
de la norme, et elle n’est pas toujours « ronde ».
Supposons maintenant que (V, || · ||) soit un espace vectoriel normé. On
définit la distance d(x, y) entre x, y ∈ V par
d(x, y) := ||x − y||.

2.2. Proposition. Pour tout x, y, z ∈ V ,


(M1) d(x, y) > 0, et d(x, y) = 0 ssi x = y.
(M2) d(x, y) = d(y, x) (symétrie)
(M3) d(x, z) 6 d(x, y) + d(y, x) (inégalité triangulaire).
Démonstration. La propriété (M1) vient de (N1), (M2) du fait que |−1| = 1
et (M3) est obtenu en utilisant (N3) :
d(x, z) = ||x − z|| = ||x − y + y − z||

6 ||x − y|| + ||y − z|| = d(x, y) + d(y, z).

3. Espaces métriques

3.1. Définition. Un espace métrique est un ensemble M muni d’une ap-


plication d : M × M → R, (x, y) 7→ d(x, y), encore appelée « distance »,
telle que les propriétés (M1), (M2), (M3) formulées ci-dessus (Proposition
1 -2.2) soient vérifiées.

Ainsi la proposition 1 -2.2 signifie que tout espace vectoriel normé donne lieu
à un espace métrique. D’autres exemples d’espaces métriques sont obtenus
par les deux constructions suivantes :
3. Espaces métriques 5

Sous-espaces métriques. Toute partie A d’un espace métrique M est


elle-même un espace métrique, en posant dA (x, y) := d(x, y) si x, y ∈ A.
(Les propriétés (M1) – (M3) pour dA sont vérifiées car elles sont vraies dans
M et A est une partie de M .) Nous dirons alors que A est un sous-espace
métrique de M , et dA est la métrique induite par la métrique de M .
Produit cartésien d’espaces métriques. Si (M1 , d1 ) et (M2 , d2 ) sont
deux espaces métriques, on vérifie facilement que, sur le produit cartésien
M = M1 × M2 , on peut définir une métrique par
d((x, x0 ), (y, y 0 )) := max{d1 (x, y), d2 (x0 , y 0 )},
dite la métrique produit. De même, on définit une métrique sur un produit
d’un nombre fini de n espaces métriques. Par exemple, le produit de R avec
lui-même (n fois) est Rn muni de la métrique d∞ provenant de la norme
|| · ||∞ .

3.2. Définition. (Boules, ouverts, voisinages.) Soit (M, d) un espace


métrique. Les trois notions suivantes seront fondamentales pour tout ce qui
suit.
(1) On introduit les boules ouvertes (centrées en x ∈ M et de rayon r ∈ R+ )
Br (x) = {y ∈ M | d(x, y) < r}.
Par exemple, si M = M1 × M2 est un produit cartésien de deux espaces
métriques, alors
Br ((x1 , x2 )) = {(y1 , y2 ) ∈ M1 × M2 | d1 (x1 , y1 ) < r, d2 (x2 , y2 ) < r}
= Br (x1 ) × Br (x2 ) .
Ainsi une boule ouverte dans (Rn , d∞ ) est un produit cartésien d’intervalles
ouverts.
(2) Une partie U de M est dite ouverte si, pour tout x ∈ M , il existe une
boule de rayon positif, centrée en x, qui soit entièrement incluse dans U :
∀x ∈ U : ∃ε > 0 : Bε (x) ⊂ U.
Intuitivement, il faut penser à des ouverts comme des parties « grosses » ou
« épaisses ». Par exemple, une boule ouverte Br (z) est une partie ouverte
dans ce sens car, si x appartient à cette boule, la boule Bε (x) avec rayon
ε = r − d(x, z) est incluse dans Br (z) (utiliser l’inégalité triangulaire pour
le démontrer). Par contre, les singletons ou les plans dans R3 ne sont pas
ouverts.
(3) Si x ∈ M , on dit qu’une partie V de M est un voisinage de x, s’il existe
un ouvert U de M tel que x ∈ U et U ⊂ V . Par exemple, tout ouvert O
contenant x est un voisinage de x (prendre V = O) ; alors on dit que c’est
un voisinage ouvert de x.
6 1. Continuité dans les espaces métriques

4. Continuité dans les espaces métriques


Nous avons motivé les définitions suivantes par la discussion heuristique en
avant-propos dans la section « continuité ».

4.1. Définition. Une application f : M → M 0 entre espaces métriques


(M, d) et (M 0 , d0 ) est dite continue au point x ∈ M si, pour tout ε > 0, il
existe δ > 0 tel que, si d(y, x) < δ, alors d0 (f (y), f (x)) < ε. On dit que f
est continue (sur M ) si f est continue en tout point x ∈ M .
Dans la pratique, on utilise souvent une autre caractérisation de la conti-
nuité qui est de nature « séquentielle » (i.e., formulée en termes de suites).

4.2. Définition. On dit qu’une suite (xn )n∈N de points xn ∈ M converge


dans M s’il existe un point x ∈ M tel que d(xn , x) → 0 (n → ∞). En
utilisant des formules, cela s’écrit : ∀ε > 0 : ∃N ∈ N : ∀n > N : d(x, xn ) < ε.
On écrit alors xn → x (n → ∞) ou limn→∞ xn = x.
Remarquons que la limite d’une suite convergente est unique : si x =
limn→∞ xn et x0 = limn→∞ xn , alors d(x, x0 ) 6 d(x, xn ) + d(x0 , xn ) pour
tout n, et en prenant la limite on trouve que d(x, x0 ) = 0 et ainsi x = x0 .

4.3. Exemple. Dans (Rm , d∞ ), une suite (x(n) )n∈N converge vers x si et
seulement si chacune des composantes est une suite convergente dans R,
i.e., pour i = 1, . . . , m, la suite numérique (x(n) )i converge vers xi .
Si M = M1 × M2 est un produit cartésien de deux espaces métriques, alors
(xn , yn ) → (x, y) (n → ∞) si et seulement si xn → x et yn → y (n → ∞),
et de même pour un produit cartésien de n espaces métriques.

4.4. Définition. Soit f : M → M 0 une application, x0 ∈ M et a ∈ M 0 .


Nous écrivons a = limx→x0 f (x), si, pour toute suite (xn ) avec xn 6= x0 et
qui converge vers x0 , la suite f (xn ) converge vers a. Nous dirons alors que
l’application f admet une limite au point x0 . On remarquera que la limite
est alors unique.

4.5. Théorème. Soit f : M → M 0 une application entre espaces métriques


et soit x ∈ M . Alors sont équivalents :
(1) f est continue au point x.
(2) Pour tout ε > 0, il existe δ > 0 tel que f (Bδ (x)) ⊂ Bε (f (x)).
(3) Pour tout voisinage V de f (x), il existe un voisinage W de x tel que
f (W ) ⊂ V .
(4) Pour toute suite xn qui converge vers x, la suite f (xn ) converge vers
f (x).
4. Continuité dans les espaces métriques 7

(5) limy→x f (y) = f (x)


Démonstration. L’équivalence entre (1) et (2) et celle entre (4) et (5) sont
des conséquences directes des définitions.
Montrons que (2) implique (3). Soit V un voisinage de f (x). Cela signifie
qu’il existe ε > 0 tel que Bε (f (x)) ⊂ V . Choisissons δ avec la propriété du
point (2) et posons W := Bδ (x). Alors W est bien un voisinage de x, et
f (W ) ⊂ Bε (f (x)) ⊂ V . Ainsi (3) est vérifié.
Montrons que (3) implique (4). Soit xn une suite qui converge vers x, et
soit ε > 0. Comme V := Bε (f (x)) est un voisinage de x, il existe, d’après
(3), un voisinage W de x tel que f (W ) ⊂ Bε (f (x)). Comme W est un
voisinage de x, il existe δ > 0 tel que Bδ (x) ⊂ W . Coisissons N ∈ N tel que
xn ∈ Bδ (x) pour tout n > N . Ainsi, pour n > N ,
f (xn ) ∈ f (Bδ (x)) ⊂ f (W ) ⊂ Bε (f (x)),
0
et donc d (f (xn ), f (x)) < ε. En résumé, f (xn ) → f (x) (n → ∞), et (4) est
vérifié.
Montrons finalement par contraposition que (4) implique (1). La négation
de (1) est : il existe ε > 0 tel que, pour tout δ > 0, il existe y ∈ M tel que
d(x, y) < δ et d0 (f (x), f (y)) > ε. (« La fonction f a un saut de hauteur ε
en x. ») Ainsi, si (1) est faux, avec ε comme ci-dessus, pour δ = n1 , il existe
yn tel que d(x, yn ) < n1 et d0 (f (x), f (yn )) > ε. La suite yn converge donc
vers x, mais f (yn ) ne converge pas vers f (x), et (4) est faux. 

4.6. Théorème. Soit f : M → M 0 une application entre espaces métriques.


Alors sont équivalents :
(1) f est continue sur M .
(2) Pour tout ouvert U de M 0 , l’image réciproque f −1 (U ) est un ouvert de
M.
Démonstration. (1) ⇒ (2) : Supposons que f est continue sur M et U est un
ouvert de M 0 . Si f −1 (U ) est vide, alors c’est une partie ouverte (l’ensemble
vide est toujours ouvert). Si f −1 (U ) est non-vide, soit x ∈ f −1 (U ), i.e.,
f (x) ∈ U . Comme f est continue en x et U est un voisinage de f (x), il
existe un voisinage W de x tel que f (W ) ⊂ U , i.e., W ⊂ f −1 (U ). Or, W
est un voisinage de x ; il existe donc δ > 0 avec Bδ (x) ⊂ W ⊂ f −1 (W ), ce
qui montre que f −1 (W ) est un ouvert de M .
(2) ⇒ (1) : Supposons que f satisfait (2), et soit x ∈ M . Pour montrer que
f est continue en x, vérifions la propriété (3) du théorème précédent : Soit
V un voisinage de f (x) et soit U := Bε (f (x)) ⊂ V . Comme U est ouvert,
il s’ensuit que f −1 (U ) est ouvert. Or, x ∈ f −1 (U ), et donc W := f −1 (U )
est un voisinage tel que f (W ) = f (f −1 (U )) ⊂ U ⊂ V . 
8 1. Continuité dans les espaces métriques

Il ne faut pas confondre la propriété du point (2) avec la propriété suivante :

4.7. Définition. On dit qu’une application f : M → M 0 entre espaces


métriques est une application ouverte si, pour tout ouvert V de M , son
image directe f (V ) est un ouvert de M 0 .
Par exemple, toute fonction constante f : M → R, x 7→ c avec c ∈ R
est continue (car f −1 (U ) est, soit vide, soit égal à M , donc toujours ou-
vert), mais elle n’est pas ouverte (car f (V ) est toujours un singleton, et
les singletons ne sont pas ouverts dans R). Dans le reste de ce paragraphe,
nous cherchons à construire, de manière systématique, des grandes classes
d’exemples d’applications continues. La remarque suivante y est souvent
utile :

4.8. Remarque. S’il existe une constante C < ∞ telle que


∀x, y ∈ M : d(f (x), f (y)) 6 C d(x, y),
on dira que f est C-lipschitzienne. Alors f est continue : en effet, soit ε > 0
donné, alors il suffit de choisir δ = Cε pour vérifier que f est continue.

4.9. Exemple. Si (V, N ) est un espace vectoriel normé, alors la norme


N : V → R est lipschitzienne avec C = 1. Autrement dit, on a
|N (x) − N (y)| = | ||x|| − ||y|| | 6 ||x − y|| = d(x, y).
Pour démontrer cette inégalité, on écrit ||x|| = ||x − y + y|| 6 ||x − y|| + ||y||,
donc ||x|| − ||y|| 6 ||x − y||, et ensuite on échange les rôles de x et y.

4.10. Exemples. Les applications suivantes sont continues (V désigne un


espace vectoriel normé, et des produits cartésiens sont toujours munis de
la métrique produit) :
aV : V × V → V, (u, v) 7→ u + v
mV : R × V → V, (r, v) 7→ r · v
aR : R × R → R, (r, s) 7→ r + s
mR : R × R → R, (r, s) 7→ r · s
iR : R := R \ {0} → R, r 7→ r−1
×

À titre d’exemple, démontrons la continuité de l’application mV . Soient


(r0 , v0 ) ∈ R × V et (r, v) dans un voisinage borné de (r0 , v0 ), i.e., |r| < C1
et ||v|| < C2 . Alors
d(r0 v0 , rv) = ||r0 v0 − rv|| = ||(r0 − r)v0 + r(v0 − v)||
6 |r0 − r| ||v0 || + |r| ||v0 − v|| 6 C2 |r0 − r| + C1 ||v0 − v||.
4. Continuité dans les espaces métriques 9

À partir de cette majoration, on peut vérifier facilement le critère du théo-


rème 1 -4.5 que l’on préfère : si on aime les suites, on remplace (r, v) par
une suite (rn , vn ) qui tend vers (r0 , v0 ), et on conclut que d(r0 v0 , rn vn ) tend
vers zéro ; si on préfère le critère epsilon-delta, on constate que mV est lip-
schitzienne sur un voisinage borné de (r0 , v0 ) (avec constante de Lipschitz
C = 2 max(C1 , C2 )) ; en tout cas, mV est bien continue. Pour aV , la preuve
de la continuité est encore plus simple, et les applications aR et mR ne sont
rien d’autre que le cas particulier V = R. Finalement, pour l’application
iR , si t, s ∈ R∗ , il existe ρ > 0 avec |t| > ρ et |s| > ρ et en utilisant la
majoration
1 1 1 1 |s − t| 1
d , =| − |= < 2 d(s, t) ,
t s t s |st| ρ
on conclut comme ci-dessus.

Pour montrer qu’une application est continue, nous allons souvent la « dé-
visser » en une composée, somme, produit ou quotient d’autres applications
continues, en utilisant les résultats suivants :

4.11. Proposition. (Composée.) Soient f : M1 → M2 , g : M2 → M3 des


applications entre espaces métriques (Mi , di ), i = 1, 2, 3.
(a) Si f est continue au point x et g est continue au point f (x), alors g ◦ f
est continue au point x.
(b) Si f est continue et g est continue, alors g ◦ f est continue.
(c) L’identité idM : M → M est continue (à condition de prendre la même
métrique sur l’espace du départ et sur l’espace d’arrivée).
Démonstration. (a) Vérifions le critère (3) du théorème 1 -4.5 : soit V un
voisinage de g(f (x)). Comme g est continue en f (x), il existe un voisinage
W de f (x) tel que g(W ) ⊂ V . Comme f est continue en x, il existe aussi un
voisinage U de x tel que f (U ) ⊂ W . Par conséquent g(f (U )) ⊂ g(W ) ⊂ V ,
et le critère est vérifié.
Le point (b) est une conséquence de (a), et (c) est trivial. 

4.12. Définition. Une application continue et bijective f telle que l’appli-


cation réciproque f −1 soit aussi continue, est appellée un homéomorphisme.
(En vertu du théorème 1 -4.6, ceci équivaut à dire que la bijection f est une
application continue et ouverte.)

On peut se demander si la continuité d’une bijection f entraîne automa-


tiquement la continuité de f −1 . Or, ceci est faux : un contre-exemple est
donnée en exercice ??.
10 1. Continuité dans les espaces métriques

4.13. Corollaire. (Groupe des homéomorphismes.) Les homéomorphismes


f : M → M forment un groupe par rapport à la composition.
Démonstration. L’inverse d’un homéomorphisme en est un, et la composée
de deux homéomorphismes en est un, d’après la proposition précédente.
Ainsi la loi de groupe est interne, et l’élément neutre idM est un homéo-
morphisme ; les homéomorphismes forment donc un sous-groupe du groupe
des bijections de M . 

4.14. Proposition. (Addition et multiples de fonctions.) Soient V en es-


pace vectoriel normé, M un espace métrique et f, g : M → V deux appli-
cations continues. Alors aussi
f + g : M → V, x 7→ (f + g)(x) := f (x) + g(x),
rf : M → V, x 7→ (rf )(x) := r · f (x)
(où r ∈ R) sont continues. Ainsi l’ensemble C (M, V ) des applications conti-
nues de M dans V est un espace vectoriel sur R.
Démonstration. Soit x ∈ M et xn une suite qui converge vers x. Comme f
et g sont continues en x et l’application aV (exemple 1 -4.10) est continue,
il s’ensuit que
(f + g)(xn ) = aV (f (xn ), g(xn )) → aV (f (x), g(x)) = (f + g)(x),
si xn → x (n → ∞), et donc f + g est continue en x. La preuve de
la continuité de rf est encore plus simple, et ainsi C (M, V ) est stable
sous addition et multiplication par des scalaires. Comme le vecteur nul (la
fonction constante = 0) appartient aussi à C (M, V ), c’est donc un sous-
espace vectoriel de l’espace de toutes les fonctions de M dans V . 

Si V = R, on montre de manière analogue que le produit de deux fonctions


continues est continu et que la fonction f1 est continue, si f est continue et
non-nulle partout.

4.15. Lemme. (Continuité des composantes.) Soient N, M1 , M2 des es-


paces métriques.
(1) Une application f : N → M1 × M2 , x 7→ f (x) = (f1 (x), f2 (x)) est
continue si et seulement si les deux composantes fi : N → Mi , i = 1, 2,
sont continues.
(2) Les deux projections pri : M1 × M2 → Mi , (x1 , x2 ) 7→ xi , i = 1, 2, sont
continues.
Démonstration. (1) Soit x ∈ N et xn une suite qui converge vers x. Alors
f (xn ) = (f1 (xn ), f2 (xn )) converge vers f (x) = (f1 (x), f2 (x)) si et seulement
4. Continuité dans les espaces métriques 11

si f1 (xn ) converge vers f1 (x) et f2 (xn ) converge vers f2 (x) (cf. exemple
1 -4.3).
(2) Si (xn , yn ) → (x, y), alors xn → x pour n → ∞ ; donc pr1 est continue
en (x, y), et pareil pour pr2 . 

Par une récurrence simple, le lemme se généralise au cas d’une application


f : N → M1 × . . . × Mn . En particulier, une application f : N → Rn (muni
de la norme || · ||∞ ) est continue si et seulement si toutes ses composantes
fi : N → R sont des fonctions continues.

4.16. Remarque. Si la continuité de f : N → Rn se réduit aussi facilement


à la continuité des composantes fi : N → R, que peut-on dire de la conti-
nuité d’une application f : Rn → N ? Il est clair que, si cette application
est continue, alors les applications partielles
R → N, t 7→ f (x1 , . . . , xi−1 , t, xi+1 , . . . , xn ),
(où l’index i et les valeurs xj pour j 6= i sont fixés), étant composées d’ap-
plications continues, sont toujours continues. Réciproquement, si toutes les
applications partielles sont continues, peut-on conclure que f est continue ?
La réponse est « Non ! » – cf. exercice ??.

Finalement, nous pouvons démontrer le résultat principal de cette section


qui nous fournit une grande classe d’applications continues : les applica-
tions polynomiales. Rappelons qu’une application polynomiale p : Rn → R,
homogène de degré k, est une application qui s’écrit sous la forme
X
p(x) = aα · xα1 αn
1 · · · xn , (4.1)
α=(α1 ,...,αn )∈Nn
α1 +...+αn =k

où les coefficients aα appartiennent à R. Une fonction polynomiale p : Rn →


Pk
R est une application de la forme p(x) = i=0 pi (x) où chaque pi : Rn →
R, i = 0, . . . , k est polynomiale homogène de degré i, et une application
f : Rn → Rm est dite polynomiale si chaque composante fi : Rn → R est
polynomiale.

4.17. Théorème. Soient V = Rn et W = Rm , munis de leur norme || · ||∞


respectives. Alors toute application polynomiale f : V → W est continue.
En particulier, toute application linéaire et toute application affine f : V →
W est continue.
Démonstration. En vertu du lemme 1 -4.15, il suffit de montrer que chaque
composante fi : Rn → R de f est continue. Or, la fonction p := fi est
12 1. Continuité dans les espaces métriques

polynomiale, i.e., elle est de la forme


X
p= aα · prα αm
1 · · · prn ,
1

α∈Nn

où pri : Rn → R est la projection ie (qui est continue) et priαi est le produit


αi fois de cette fonction avec elle-même (qui est toujours continue). Ainsi
p est une combinaison linéaire de fonctions continues et est donc continue.
Rappelons qu’une application affine f : V → W n’est autre qu’une ap-
plication polynomiale de degré au plus un, et qu’une application linéaire
n’est autre qu’une application affine sans terme constant. Ce sont donc des
applications polynomiales, donc elles sont continues. 

Nous allons voir plus tard que ce théorème est en fait vrai pour n’importe
quelle norme sur Rn et Rm , mais faux en dimension infinie.

5. Petit vocabulaire de topologie


Les notions de boule, ouvert et voisinage ont déjà montré leur utilité. Ce
n’est que le début d’une collection de vocabulaire concernant les notions
dites « topologiques » :
(1) La topologie. L’ensemble de toutes les parties ouvertes d’un espace
métrique M s’appelle la topologie de M . En partant de la définition d’une
partie ouverte, on montre facilement que les ouverts de M ont les propriétés
suivantes :

(OU1) M est un ouvert, et ∅ est un ouvert.


(OU2)
S Si (Ui )i∈I est une famille quelconque d’ouverts, alors la réunion
i∈I Ui est un ouvert.
Tn
(OU3) Si U1 , . . . Un est une famille finie d’ouverts, alors l’intersection i=1 Ui
est un ouvert.
Tn
Par exemple, pour démontrer (OU3), soit x ∈ i=1 Ui . Comme chaque
Ui est ouvert, il existe εi > 0 telT que Bεi (x) ⊂ Ui . Alors, pour ε :=
mini=1,...,n εi , on a bien Bε (x) ⊂ ni=1 Ui . (Noter bien que ε > 0 ; pour
une intersection infinie, l’argument échoue en ce point.)
(2) Parties fermées. On dit qu’une partie F ⊂ M est fermée si son
complémentaire F c = M \ F est un ouvert. En vertu des lois de de Morgan,
les fermés vérifient des propriétés « duales » à (OU1), (OU2), (OU3), à
savoir

(FE1) M est un fermé, et ∅ est un fermé.


6. Applications linéaires bornées et équivalence de normes 13

(FE2)
T Si (Fi )i∈I est une famille quelconque de fermés, alors l’intersection
i∈I Fi est un fermé.
Sn
(FE3) Si F1 , . . . Fn est une famille finie de fermés, alors la réunion i=1 Fi
est un fermé.
La preuve du lemme suivant est laissée comme exercice (??) :

5.1. Lemme. Si M est un espace métrique, alors A est fermé dans M si


et seulement si, pour toute suite (xn )n∈N avec xn ∈ A qui converge dans
M , la limite x = limn→∞ xn appartient à A.

(3) L’adhérence A d’une partie A de M est le plus petit fermé qui


T contient
A. Un tel fermé existe toujours car il peut être défini par A = F ⊃A F .
F ferme
On remarquera qu’une partie A est fermée si et seulement si A = A. La
preuve du lemme suivant est laissée comme exercice (??) :

5.2. Lemme. Si M est un espace métrique et A une partie de M , alors A


est l’ensemble des points qui peuvent être décrits comme limites de suites
d’éléments de A.

(4) L’intérieur A◦ d’une partie A de M est le plus grand ouvert contenu


dans
S A. Un tel ouvert existe toujours car il peut être défini par A◦ =
U ⊂A U . On remarquera que A est ouvert si et seulement si A = A◦ .
U ouvert

(5) La frontière topologique ∂A d’une partie A de M est ∂A = A \ A◦ .


(6) Parties denses. Une partie A d’un espace métrique (M, d) est dite
dense dans M si A = M . Cela signifie que tout point de M est limite d’une
suite d’éléments de A.
(7) Sous-espace métrique. Notion déjà introduite en début de la section
1 -3.
(8) Produit d’espaces métriques. Notion déjà introduite en début de la
section 1 -3.

6. Applications linéaires bornées et


équivalence de normes

6.1. Théorème. (Applications linéaires continues.) Soient (V, || · ||V ),


(W, || · ||W ) des e.v. normés et f : V → W une application linéaire. Alors
sont équivalents :
14 1. Continuité dans les espaces métriques

(1) f est continue.


(2) f est continue au point 0.
(3) Il existe une constante C < ∞ telle que, pour tout x ∈ V ,
||f (x)||W 6 C||x||V .

Démonstration. L’implication (1) ⇒ (2) est triviale. Montrons que (2) im-
plique (3). Si f est continue en 0, alors pour ε = 1, il existe δ > 0 tel que
||x|| < δ implique ||f (x)|| < 1. Ainsi, pour tout x 6= 0,
2||x|| x 2
||f (x)|| = ||f ( δ)|| < ||x||
δ 2||x|| δ
x δ 2
puisque || 2||x|| δ|| = 2 < δ. La constante C := δ convient.
Montrons que (3) implique (1). En effet, si (3) est vérifiée, alors
d(f (x), f (y)) = ||f (x) − f (y)|| = ||f (x − y)||
6 C||x − y|| = Cd(x, y).
Ainsi f est C-lipschitzienne, donc continue (remarque 1 -4.8). 

6.2. Définition. Une application linéaire entre espaces vectoriels normés


est dite bornée si elle vérifie les conditions du théorème précédent. Dans ce
cas, le réel
||f ||op := sup{||f (x)||W | x ∈ V, ||x||V 6 1}
est appelé la norme d’opérateur de f (ce sup est fini car ||x||V 6 1 implique
||f (x)||W 6 C, et donc ||f ||op 6 C).

Pour justifier la terminologie, on vérifie que || · ||op définit effectivement une


norme sur l’espace vectoriel réel L(V, W ) des applications linéaires bornées
de V dans W ; cependant, on remarquera que cette norme ne provient pas
d’un produit scalaire sur L(V, W ) (exercice ??). Finalement, on peut définir
de manière analogue une norme sur l’espace L(V, V ; W ) des applications
continues bilinéaires b : V × V → W (exercice ??).

6.3. Définition. (Équivalence de normes.) Soient ||x||1 et ||x||2 deux


normes sur un espace vectoriel réel V . On dit que ces deux normes sont (to-
pologiquement) équivalentes s’il existe des constantes C1 , C2 ∈]0, ∞[ telles
que, pour tout x ∈ V ,
C1 ||x||1 6 ||x||2 6 C2 ||x||1 .
(i)
Le lecteur vérifiera facilement que ceci équivaut à dire : si Br (y) est la
boule Br (y) par rapport à la distance di (x, y) = ||x − y||i , i = 1, 2, alors,
6. Applications linéaires bornées et équivalence de normes 15

pour tout r ∈ R+ :
(2) (2)
BC1 r (0) ⊂ Br(1) (0) ⊂ BC2 r (0).

P pP
6.4. Exemple. Sur V = Rn , les normes ||x||1 = i |x|i et || · ||2 = 2
i xi
et ||x||∞ = maxi |x|i sont toutes équivalentes entre elles : nous conseillons
au lecteur de faire d’abord un dessin des boules unités de ces normes pour
n = 2 ou n = 3, puis de démontrer que (exercice ??)
1
||x||1 6 ||x||∞ 6 ||x||1
n
1 √
√ ||x||1 6 ||x||2 6 n ||x||1 .
n

6.5. Proposition. Deux normes || · ||1 et || · ||2 sur un espace vectoriel réel
V sont équivalentes si et seulement si un ouvert par rapport à la distance
d1 est aussi un ouvert par rapport à d2 , et inversement.
Démonstration. Supposons que || · ||1 et || · ||2 sont équivalentes et que U
est un ouvert par rapport à d1 . Donc, pour tout x ∈ U , il existe ε > 0 tel
(1)
que Bε (x) ⊂ U . On pose ε0 := C1 ε > 0 ; alors
(2) (2)
Bε0 (x) = BC1 ε (x) ⊂ Bε(1) (x) ⊂ U,
Ceci montre que U est un ouvert par rapport à d2 . De la même manière,
on montre que les ouverts de d2 sont aussi des ouverts pour d1 .
Pour la réciproque, supposons que d1 et d2 ont les mêmes ouverts. Comme
(1)
B1 (0) est un ouvert de d1 , elle est aussi ouverte par rapport à d2 . Il existe
(2) (1)
donc ε > 0 tel que Bε (0) ⊂ B1 (0). Cela veut dire que, avec C1 := ε,
la première relation C1 ||x||1 6 ||x||2 est vérifiée. On échangeant les rôles
de d1 et d2 , on démontre la deuxième relation ||x||2 6 C2 ||x||1 , et donc les
deux normes sont équivalentes. 

En utilisant le vocabulaire introduit dans la section précédente, la propo-


sition peut être résumée comme suit : deux normes sont équivalentes si et
seulement si elles définissent la même topologie sur V . Une conséquence
immédiate en est que l’équivalence de normes est effectivement une rela-
tion d’équivalence sur l’ensemble des normes sur V et que, si A : V → V
est un homéomorphisme linéaire, alors la formule ||x||A := ||Ax|| définit
une norme qui est équivalente à la norme || · || de départ (exercice ??). En
invoquant le théorème 1 -4.17, il s’ensuit que, sur un espace vectoriel V de
dimension finie n, la classe d’équivalence de la norme ||·||∞ est bien définie,
i.e., elle ne dépend pas du choix de la base utilisée pour identifier V avec
Rn (exercice ??).
16 2. Compacité

Chapitre 2

Compacité

Au sein des espaces métriques, les espaces compacts jouent un rôle qui est
comparable à celui des ensembles finis en théorie des ensembles. Il existe
deux versions de cette « propriété de finitude topologique » : une version
séquentielle (section 2 -1) et une version ensembliste (section 2 -4).

1. La propriété de Bolzano-Weierstrass

1.1. Définition. Soit (M, d) un espace métrique. On dit que M est séquen-
tiellement compact, ou : M possède la propriété de Bolzano-Weierstrass, si
(BW) toute suite (xn )n∈N de points de M admet une sous-suite (xnk )k∈N
qui est convergente dans M .
Une partie A de M est dite séquentiellement compacte si elle l’est en tant
que sous-espace métrique de M (i.e, toute suite de points de A admet une
sous-suite qui converge dans A).

1.2. Exemples. Il est facile de vérifier directement que


• Rn n’est pas séquentiellement compact,
• un intervalle ouvert de R n’est pas séquentiellement compact,
• une partie finie de Rn est séquentiellement compacte.

1.3. Théorème. Soit f : M → N un application continue entre espaces


métriques. Si M est séquentiellement compact, alors l’image directe f (M )
est séquentiellement compacte.
Démonstration. Soit yn = f (xn ), avec xn ∈ M , une suite dans f (M ).
Comme M est compact, (xn )n∈N admet une sous-suite convergente (xnk )k∈N .
2. Les parties compactes de Rn 17

Soit x ∈ M sa limite. Par continuité de f , il s’ensuit que limk→∞ f (xnk ) =


f (x), et donc (ynk )k∈N = (f (xnk ))k∈N est une sous-suite de (yn ) qui converge
dans f (M ). 

2. Les parties compactes de Rn


Une partie E de Rn est dite bornée s’il existe R < ∞ tel que ||x||∞ < R
pour tout x ∈ E.

2.1. Théorème. (Bolzano – Weierstrass) On munit V = Rn de la norme


||x||∞ = maxi=1,...,n |xi |. Pour une partie E de Rn , sont équivalents :
(1) E est séquentiellement compacte.
(2) E est fermée et bornée.
Démonstration. Supposons (1). Montrons que E est borné : sinon, on pour-
rait trouver une suite (x(k) ) dans E avec ||x(k) ||∞ > k pour tout k ∈ N.
Or, on ne peut pas extraire de sous-suite convergente d’une telle suite ;
contradiction. Montrons que E est fermé : soit x ∈ E. Alors il existe une
suite (x(k) ) dans E qui converge vers x (lemme 1 -5.2). Comme E est sé-
quentiellement compact, il existe une sous-suite (x(kj ) ) qui converge dans
E. Comme (x(k) ) est convergente dans Rn , la limite de la sous-suite est la
même que celle de (x(k) ), et donc x = limj→∞ x(kj ) appartient à E. Nous
avons montré que E = E, donc E est fermé.
Supposons (2). Soit (x(k) ) une suite dans E. Comme E est borné, chaque
suite de composantes ((x(k) )i ), pour i = 1, . . . , n fixé, est une suite bornée
dans R. D’après le théorème de Bolzano-Weierstrass dans R, une suite
bornée dans R admet une sous-suite convergente (le lecteur se souviendra
que ce théorème est une façon d’exprimer le fait que R est complet ; cf. le
chapitre 12 pour un approfondissement de ce sujet). On peut donc extraire
une sous-suite telle que la première composante (x(kj ) )1 converge dans R,
puis de nouveau une sous-suite telle que la deuxième composante converge
dans R, etc. Ainsi on trouve une sous-suite (x(mj ) )j∈N telle que toutes les
composantes convergent dans R. Alors cette suite converge dans Rn vers
une limite x. Comme E est fermé, cette limite x appartient à E, et donc la
sous-suite converge bien dans E. 

Le théorème nous donne beaucoup d’exemples de parties séquentiellement


compactes : les intervalles fermés bornés ; les boules fermées ; les sphères ;
les pavés fermés.
18 2. Compacité

3. Applications de la compacité

3.1. Théorème. (Théorème du max et du min.) Soit M un espace métrique


séquentiellement compact et f : M → R une fonction continue. Alors f
possède un maximum (i.e., il existe p ∈ M tel que f (x) 6 f (p) pour tout
x ∈ M ) et un minimum.
Démonstration. D’après le théorème 2 -1.3, l’image f (M ) est séquentiel-
lement compacte dans R, et d’après le théorème 2 -2.1, c’est une partie
fermée et bornée de R. Comme f (M ) est borné, m := sup f (M ) existe
dans R. Comme f (M ) est fermé, m appartient à f (M ), c’est-à-dire qu’il
existe p ∈ M tel que m = f (p). Ainsi f possède un maximum. Pour le
minimum, on applique le même raisonnement. 

3.2. Théorème. (Unicité de la topologie de Rn .) Sur un espace vectoriel


V de dimension finie, toutes les normes sont équivalentes. Autrement
dit, les ouverts sont les mêmes pour toutes les normes.
Démonstration. Fixons une base e1 , . . . , en de V et identifions V avec Rn
en utilisant cette base ; fixons aussi la norme || · ||∞ sur V = Rn comme
« norme de référence ». Soit || · || une deuxième norme et montrons qu’elle
est équivalente à notre norme de référence.
Pn
Soit C := i=1 ||ei ||. Alors, pour tout x ∈ Rn ,
n
X n
X n
X
||x|| = || xi ei || 6 |xi | ||ei || 6 max |xi | ||ei || = C ||x||∞ ,
i=1,...,n
i=1 i=1 i=1

ce qui donne la première des inégalités cherchées.


Pour établir la deuxième inégalité, remarquons (cf. l’exemple 1 -4.9) que
| ||x|| − ||y|| | 6 ||x − y|| 6 C ||x − y||∞ .
Ainsi la norme f : Rn → R, x 7→ ||x|| est lipschitzienne, donc continue. La
sphère S = {x ∈ Rn | ||x||∞ = 1} est bornée fermée, donc séquentiellement
compacte (th. 2 -2.1), et ainsi la fonction continue f atteint un minimum
m sur S. Ce minimum est strictement positif car || · || est une norme.
Finalement, du fait que ||x|| > m > 0 pour tout x ∈ S, on déduit que
||x|| > m||x||∞ pour tout x ∈ V , ce qui donne la deuxième inégalité. 

Il faut bien noter qu’en dimension infinie les normes n’ont aucune raison
d’être toutes équivalentes – cf. exercice ??.

3.3. Définition. Soient M et N deux espaces métriques et f : M → N


une application. Nous dirons que f est uniformément continue si, pour tout
4. *La propriété de Heine-Borel-Lebesgue 19

ε > 0, il existe δ > 0 tel que, pour tout x, y ∈ M , d(x, y) < δ implique
d(f (x), f (y)) < ε.
Noter que cette propriété est plus forte que la continuité usuelle : on peut
trouver δ qui convient pour tout x. Par exemple, l’application R∗ → R,
t 7→ 1t est continue, mais pas uniformément continue. Une application C-
lipschitzienne est uniformément continue : voir la remarque 1 -4.8.

3.4. Théorème. (Continuité uniforme.) Soient M et N deux espaces mé-


triques, avec M supposé séquentiellement compact, et soit f : M → N
continue. Alors f est uniformément continue.
Démonstration. Par l’absurde : si f n’est pas uniformément continue, alors
il existe ε > 0 tel que, pour tout δ > 0, il existe x, y ∈ M avec : d(x, y) < δ
et d(f (x), f (y)) > ε. En particulier, c’est vrai pour δ = n1 . Ainsi il existe
xn , yn ∈ M avec d(xn , yn ) 6 n1 et d(f (xn ), f (yn )) > ε. Comme M est
séquentiellement compact, la suite (xn ) admet une sous-suite convergente
(xnk ). Soit x sa limite ; alors (ynk ) tend également vers x. Comme f est
continue, f (xnk ) et f (ynk ) tendent vers f (x). D’autre part, d(f (xnk ), f (ynk )) >
ε. Donc, en passant à la limite, on a d(f (x), f (x)) > ε > 0 ; contradiction.

4. *La propriété de Heine-Borel-Lebesgue

4.1. Définition. Un espace métrique M est dit compact s’il possède la


propriété de Heine-Borel-Lebesgue suivante :
(HBL) tout recouvrement ouvert de M (i.e., une famille d’ouverts (Ui )i∈I
S
telle que i∈I Ui = M , où I est un ensemble d’indices non-spécifié)
possède un sous-recouvrement fini (i.e., il existe un nombre fini d’indices
Sn
i1 , . . . , in ∈ I tel que M = j=1 Uij ).

4.2. Exemples. (1) M = R ou M =]0, 1[ avec leurs métriques usuelles ne


sont pas compacts (exercice ??).
(2) L’intervalle fermé [0, 1] possède la propriété (HBL). (Voir l’exercice ??
pour la preuve. Il est important de noter que la complétude de R y est la
clef, tout comme dans la preuve du théorème de Bolzano-Weierstrass.) Cet
exemple est important aussi pour la raison qu’il contient déjà les points
principaux de la preuve du théorème 2 -4.4.

4.3. Proposition. Un espace métrique compact est séquentiellement com-


pact : (HBL) ⇒ (BW).
20 2. Compacité

Démonstration. Supposons que (BW) est en défaut : il existe alors une


suite (xn )n∈N sans sous-suite convergente. Autement dit, tout point p ∈ M
possède un voisinage ouvert Vp tel que la cardinalité de {n ∈ N| xn ∈
Vp } soit finie. Or, la famille (Vp )p∈M est un recouvrement ouvert de M .
Si M satisfait (HBL), on peut S en extraire un sous-recouvrement fini Vpi ,
i = 1, . . . , n. Comme M = ni=1 Vpi , il s’ensuit que la cardinalité de {n ∈
N| xn ∈ M } soit finie, ce qui est absurde. 

4.4. Théorème. (Heine-Borel-Lebesgue) Une partie E de Rn est compacte


si et seulement si elle est fermée et bornée.

Ainsi E est compacte si et seulement si E est séquentiellement compacte.


Plus généralement encore, il est vrai que les propriétés (BW) et (HBL)
pour un espace métrique sont équivalentes. Nous n’allons pas utiliser ces
résultats dans ce cours ; le lecteur interessé trouvera les preuves, e.g., dans
[Lang p. 31], [Dieudonné ] ou dans tout autre traité de topologie générale.
21

Chapitre 3

*Espaces topologiques

Les espaces topologiques généralisent les espaces métriques. Pour plusieurs


raisons cette généralisation est importante : pour nous, la raison principale
est que la notion de continuité ne dépend pas vraiment de la métrique, mais
plutot de la notion d’ouvert et de voisinage (Th. 1 -4.5 et 1 -4.6). Si on ne
retient que ces notions et leurs propriétés, on arrive à la notion d’espace
topologique. Un espace métrique donne ainsi lieu à un espace topologique
« sous-jacent ».

1. Espaces topologiques

1.1. Définition. Un espace topologique est un couple (M, T ), où M est


un ensemble et T une collection de parties de M ; les éléments de T sont
appelés les ouverts, et on exige qu’ils vérifient les propriétés (OU1), (OU2)
et (OU3) suivantes :
(OU1) M est un ouvert, et ∅ est un ouvert.
(OU2) Si (Ui )i∈I est une familleS d’ouverts (où I est un ensemble quelconque
d’indices), alors la réunion i∈I Ui est un ouvert.
T
(OU3) Si U1 , . . . Un est une famille finie d’ouverts, alors l’intersection ni=1 Ui
est un ouvert.
Si, de plus, la propriété suivante est vérifiée :
(H) pour tout x, y ∈ M avec x 6= y, il existe des ouverts Ux et Uy tels que
x ∈ Ux et y ∈ Uy et Ux ∩ Uy = ∅,
on dit que l’espace topologique (M, T ) est séparé ou un espace de Haus-
dorff.

– 21 –
22 3. *Espaces topologiques

1.2. Exemples. (1) Soit (M, d) un espace métrique et T sa topologie (cf.


1 -5 (1)). Alors (M, T ) est un espace topologique séparé. (En effet, nous
avons vu que les ouverts d’un espace métrique satisfont bien les propriétés
(OU1) – (OU3), et la propriété (H) est facile à établir (exercice ??).)
(2) Soit M un ensemble quelconque. La topologie grossière est définie par
T = {M, ∅}, i.e., il existe seulement deux ouverts : l’ensemble vide et M
lui-même. Si la cardinalité de M est au moins 2, alors cette topologie n’est
pas séparée, et donc elle ne provient pas d’une métrique (exercice ??).
(3) Si M est un ensemble quelconque, la topologie discrète, T = P(M ) est
l’ensemble de toutes les parties de M , i.e., toute partie de M est ouverte.
Cette topologie est séparée. De plus, elle peut être définie par une métrique
(exercice ??).

1.3. Définition. Reprenons rapidement le vocabulaire déjà connu pour les


espaces métriques :
(1) Voisinage d’un point x ∈ M : c’est une partie V ⊂ M qui contient un
ouvert U avec x ∈ U .
(2) Partie fermée de M : c’est une partie F ⊂ M telle que M \ F est
ouvert. Noter que, si M est séparé, alors les singletons {x} sont des parties
fermées (exercice ??).
(3) Adhérence A d’une partie A de M : plus petit fermé qui contient
A. Attention : les caractérisations séquentielles comme les lemmes 1 -5.1 et
1 -5.2 ne sont plus disponibles dans les espaces topologiques généraux (cf.
remarques ci-dessous).
(4) Intérieur A◦ d’une partie A de M : plus grand ouvert contenu dans
A.
(5) Frontière topologique ∂A = A \ A◦ .
(6) A est dense dans M si A = M .
(7) Sous-espace topologique : Soit A ⊂ M une partie quelconque d’un
espace topologique M et soit U ⊂ A. On dira que U est ouvert dans A s’il
existe un ouvert V de M tel que U = A ∩ V . (Exercice : vérifier que ceci
définit une topologie sur A, dite la topologie induite.) On dira que A, muni
de cette topologie, est un sous-espace topologique de M .
(8) Produit cartésien de deux espaces topologiques (M1 , T1 ) et
(M2 , T2 ) : on dira que U ⊂ M1 ×M2 est un ouvert si, pour tout (x1 , x2 ) ∈ U ,
il existe un voisinage ouvert U1 de x1 dans M1 et un voisinage ouvert U2
de x2 dans M2 tel que U1 × U2 ⊂ U . (Exercice ?? : vérifier que ceci définit
une topologie sur M1 × M2 et étudier ses propriétés.) De même, on définit
le produit d’un nombre fini n d’espaces topologiques. (Nous ne parlons pas
ici de produits infinis.)
2. Applications continues 23

(9) Compacité. C’est une notion très importante en topologie générale


que nous n’allons pas approfondir dans ce cours : on dit que M est séquen-
tiellement compact s’il possède la propriéte de Bolzano-Weierstrass (BW),
et M est compact s’il possède la propriété de Heine-Borel-Lebesgue (HBL).
L’implication (HBL) ⇒ (BW) est toujours vraie, mais non sa réciproque.

1.4. Définition. (Limites de suites dans les espaces topologiques.)


On dit qu’une suite (xn ) dans un espace topologique est convergente (vers
une limite x) si, pour tout voisinage U de x, il existe N ∈ N tel que, pour
tout n > N on a xn ∈ U .
Prenons l’exemple de R muni de sa topologie grossière (exemple 3 -1.2 (2)) :
le seul voisinage d’un point x ∈ R est R lui-même, et donc n’importe
quelle suite (xn ) converge vers n’importe quel point x ∈ R. Cette situation
pathologique est due au fait que la topologie grossière n’est pas séparée :

1.5. Lemme. Supposons que M soit un espace topologique séparé et que


(xn ) soit une suite convergente. Alors la limite de cette suite est déterminée
de façon unique.
Démonstration. Si xn converge vers x et vers y avec x 6= y, choisissons Ux
et Uy comme dans la propriété (H). Alors il existe N ∈ N tel que, pour
tout n > N , xn ∈ Ux . Comme Ux ∩ Uy est vide, seulement un nombre fini
de xn peut être dans Uy ; contradiction. 

Pour garantir l’unicité des limites, dans toute la suite, quand nous parlons
d’espaces topologiques, nous supposons qu’ils soient séparés (des espaces de
Hausdorff ).

2. Applications continues

2.1. Définition. Une application f : M → M 0 entre deux espaces topolo-


giques (M, T ) et (M 0 , T 0 ) est dite continue au point x ∈ M si, pour tout
voisinage V de f (x) dans M 0 il existe un voisinage W de x dans M tel que
f −1 (V ) ⊂ W . (C’est la propriété (3) du théorème 1 -4.5. Ainsi, pour les
espaces métriques, nous retrouvons la notion connue de continuité.) Nous
dirons que f est continue (sur M ) si f est continue en tout point x ∈ M .

Le résultat suivant est l’analogue du théorème 1 -4.6 ; sa preuve est laissée


au lecteur :

2.2. Théorème. Soit f : M → M 0 une application entre espaces topolo-


giques. Alors sont équivalents :
24 3. *Espaces topologiques

(1) f : M → M 0 est continue.


(2) Pour tout ouvert U de M 0 , l’image réciproque f −1 (U ) est un ouvert de
M.

Il est vrai aussi que, si f est continue en x, alors, pour toute suite xn → x
(n → ∞), on a f (xn ) → f (x) (n → ∞). (Preuve : soit U un voisinage
de f (x) ; on choisit un voisinage W de x tel que f (W ) ⊂ U ; comme xn
converge vers x, il existe N ∈ N tel que, pour tout n > N , xn ∈ W , et
donc aussi f (xn ) ∈ f (W ) ⊂ U ; cela veut dire que f (xn ) converge vers
f (x).) Par contre, la réciproque n’est plus vraie en général. Autrement
dit, la caractérisation « séquentielle » de la continuité, si pratique dans les
espaces métriques, cesse d’être possible dans les espaces topologiques plus
généraux. Dans beaucoup de cas, le lemme suivant sert à remplacer ces
arguments séquentiels :

2.3. Lemme. (Principe du prolongement des identités.) Supposons que


f : M → N et g : M → N soient deux applications continues qui coïncident
sur une partie dense A de M . Alors f = g sur M .
Démonstration. Montrons que l’ensemble E = {x ∈ M | f (x) = g(x)} est
un fermé de M . Soit x ∈ M \ E, i.e. f (x) 6= g(x). Comme N est supposé
séparé, il existe des voisinages ouverts U1 de f (x) et U2 de g(x) tels que
U1 ∩ U2 = ∅. L’ensemble U = f −1 (U1 ) ∩ g −1 (U2 ) est un voisinage ouvert de
x. La condition y ∈ U implique que f (y) 6= g(y) et donc U ⊂ M \ E. Ainsi
M \ E est ouvert et donc E est fermé. Par hypothèse, E contient la partie
dense A de M , et donc M = A ⊂ E = E, donc M = E et f = g sur M . 

L’énoncé et la preuve du résultat suivant sont exactement les mêmes que


ceux de la proposition 1 -4.11 :

2.4. Proposition. La composée d’applications continues est continue ; l’ap-


plication identité d’un espace topologique est continue.

2.5. Remarque sur les catégories. Chaque fois qu’on rencontre une
structure mathématique (espace vectoriel ; espace métrique ; espace topolo-
gique, etc.), on cherche à définir des morphismes de cette structure (appli-
cation linéaire = morphisme d’espaces vectoriels ; isométrie = morphisme
d’espaces métriques ; application continue = morphisme d’espaces topo-
logiques, etc.), et à démontrer une version de la proposition précédente
(« la composée de morphismes est un homomorphisme », « l’identité est
un morphisme »). Alors nous dirons que les objets en question, avec leurs
morphismes, forment une catégorie. Nous ne donnons pas ici une définition
3. Les structures algébriques topologiques 25

formelle de cette notion, mais il est utile de s’habituer à cette façon de


parler. On dit alors :
– Un isomorphisme est un morphisme f : M → N tel qu’il existe un
morphisme f −1 : N → M avec f ◦ f −1 = idN et f −1 ◦ f = idM . (Dans
le cas des espaces topologiques on les appelle aussi homéomorphismes.)
– Un automorphisme est un isomorphisme f : M → M d’un objet sur
lui-même.
Par exemple, les espaces métriques, eux aussi, forment une catégorie. Leurs
morphismes sont les applications qui préservent la distance, appelées aussi
des isométries : d0 (f (x), f (y)) = d(x, y). Une telle application est lipschit-
zienne, donc continue, mais la classe des applications continues est infini-
ment plus grande que la classe des isométries. Or, en analyse, ce sont les
applications continues qui nous intéressent, et donc la catégorie topologique
est la catégorie naturelle pour faire de l’analyse. Les isométries sont plus
intéressantes du point de vue géométrique, et donc la catégorie des espaces
métriques est souvent bien adaptée pour faire de la géométrie.

3. Les structures algébriques topologiques


En combinant une structure algébrique avec une structure topologique on
obtient des concepts puissants et de plus grande importance dans les ma-
thématiques modernes :

3.1. Définition.
(GT) Un groupe topologique est un groupe G muni d’une topologie T telle
que la multiplication de groupe m : G × G → G, (g, h) 7→ m(g, h) = gh et
l’inversion j : G → G, g 7→ g −1 sont des applications continues.
(EVT) Un espace vectoriel topologique (sur R) (abrégé : e.v.t.) est un
espace vectoriel V sur R, muni d’une topologie T , telle que les applications
a : V × V → V, (u, v) 7→ u + v
m : R × V → V, (r, v) 7→ r · v
sont continues.
(AT) Un anneau topologique est un anneau (A, +, ·) muni d’une topologie
telle que l’addition + : A × A → A et la multiplication · : A × A → A sont
continues.
(CT) Un corps topologique est un corps (K, +, ·) muni d’une topologie telle
que l’addition + : K × K → K, la multiplication · : K × K → K et l’inversion
j : K× → K sont continues (où K× = K \ {0} ; c’est un ouvert car {0} est
un fermé).
26 3. *Espaces topologiques

Partout dans ces définitions, des produits cartésiens tels que G × G, V × R


etc. sont munis de leur topologie produit.
Dans tous les cas, on définit les morphismes comme étant les morphismes
algébriques (i.e., les applications compatibles avec la structure algébrique)
qui sont de plus continus. Il est alors commun de vérifier l’analogue de la
proposition 3 -2.4. Autrement dit, nous avons défini quatre catégories notées
(GT), (EVT), (AT) et (CT). Chacun des ces quatre concepts est d’une telle
richesse de propriétés et d’exemples qu’il serait justifié d’y consacrer une
monographie en entier. Nous en donnons quelques avant-goûts dans les
chapitres ?? et ?? et les exercices ??, ?? et ??.

3.2. Exemples.
(EVT) Tout e.v. normé est un e.v.t. (exemple 1 -4.10) ; il existe des e.v.t.
dont la topologie ne provient pas d’une norme (exercice ??).
(GT) Le groupe (Rn , +), le groupe général linéaire GL(n, C) et ses sous-
groupes Sl(n, R), O(n),... sont des groupes topologiques (exercice ??).
(AT) Les anneaux de matrices M (n, R) et les anneaux de polynômes
R[x]/(p) pour p un polynôme non-nul sont des anneaux topologiques (exer-
cice ??).
(CT) K = R, C, Q ou tout corps compris entre Q et C avec la topologie
induite par C fournit un exemple de corps topologique.

Nous allons évoquer quelques aspects simples des e.v.t. dans le chapitre
?? et des corps et anneaux topologiques dans le chapitre ?? et dans les
exercices avancés. Citons, pour terminer, juste un résultat qui met en relief
encore une fois l’unicité de la topologie des espaces vectoriels de dimension
finie :

3.3. Théorème. (Les e.v.t. de dimension finie.) Soit V un espace vectoriel


topologique de dimension finie n sur R. Alors V est isomorphe, en tant que
e.v.t., à Rn . Plus précisément, pour n’importe quelle base b1 , . . . , bn de V ,
l’application
Rn → V, (r1 , . . . , rn ) 7→ r1 b1 + . . . + rn bn
est un isomorphisme d’espaces vectoriels topologiques.

Voir [8], Chapitre 9, pour une preuve détaillée de ce résultat. Le théorème


montre que le seul intérêt de la théorie des e.v.t. est en dimension infinie –
cf. aussi des remarques dans le chapitre ??.
27

Chapitre 4

*Interlude : Convexité

La notion de convexité est à la charnière entre la topologie et la géométrie.


Même si, d’un point de vue strictement théorique, nous n’en aurons pas
besoin dans la suite, elle est omniprésente dans les applications de nos
résultats théoriques, et elle permet de mieux comprendre la géométrie des
espaces vectoriels réels.

1. Parties convexes

1.1. Définition. Soit V un espace vectoriel réel. Rappelons que, si p, q sont


deux points (distincts) de V , la droite passant par p et q est l’ensemble
Dp,q = {p + t(q − p)| t ∈ R} = {(1 − t)p + tq| t ∈ R},
et le segment [p, q] est donné par
[p, q] = {p + t(q − p)| t ∈ [0, 1]} = {(1 − t)p + tq| t ∈ [0, 1]}.

Une partie C ⊂ V est dite convexe si, pour tout p, q ∈ C, le segment [p, q]
est entièrement dans C.
Une semi-norme sur V est une application N : V → R telle que, pour tout
v, w ∈ V ,
(SN1) N (v) > 0,
(SN2) N (rv) = |r| · N (v),
(SN3) N (v + w) 6 N (v) + N (w).
Les ensembles Br (x) = {y ∈ V | N (x − y) < r} sont appellés les semi-boules
(ouvertes) de cette semi-norme.

– 27 –
28 4. *Interlude : Convexité

Toute norme est une semi-norme, mais la réciproque est fausse : par exemple,
Rn → R, x 7→ |x1 | est une semi-norme qui n’est pas une norme (si n > 1).
Le lecteur dessinera les semi-boules de cette semi-norme pour n = 2 ou
n = 3.

1.2. Proposition. Si N est une semi-norme sur V , alors les semi-boules


Br (x) sont convexes.
Démonstration. On peut se ramener au cas x = 0. Alors, pour tout p, q ∈
Br (0) et t ∈ [0, 1] (ainsi t > 0 ou 1 − t > 0), en appliquant (SN3), puis
(SN2)
 
N (1 − t)p + tq 6 N (1 − t)p + N (tq) = (1 − t)N (p) + tN (q)

< (1 − t)r + tr = r.

1.3. Exercice. (Exemples de parties convexes.) Montrer :


a) Pour toute forme linéaire λ : V → R et tout s ∈ R, le demi-espace
{x ∈ V | λ(x) > s} est convexe.
b) L’intersection d’une famille quelconque de parties convexes est convexe.
c) Si V = Rn et C ⊂ V est une partie convexe quelconque, alors l’adhé-
rence C ⊂ V et l’intérieur C ◦ sont convexes.

1.4. Exercice. (L’enveloppe convexe.) Une combinaison convexe de k


éléments a1 , . . . , ak d’un espace vectoriel réel V est une combinaison linéaire
Pk Pk
de la forme i=1 ri ai avec ri ∈ R tels que ri > 0 et i=1 ri = 1.
a) Soit C convexe et a1 , . . . , ak ∈ C. Montrer que C contient toutes les
combinaisons convexes de a1 , . . . , ak . (Indication : récurrence sur k =
2, 3, . . .)
b) Soit A ⊂ V une partie quelquonque. Montrer : l’ensemble de toutes
Pk
les combinaisons convexes d’éléments de A, C(A) := { i=1 ri ai | k ∈
Pk
N, ri > 0, i=1 ri = 1, a1 , . . . , ak ∈ A}, est convexe, et c’est le plus
petit ensemble convexe qui contient A (dit l’enveloppe convexe de A).

1.5. Exercice. (Points extrémaux.) Soit C convexe. Un point x ∈ C


est dit un point extrémal de C s’il a la propriété suivante : si y1 , y2 ∈ C
sont tels que x = ty1 + (1 − t)y2 avec t ∈]0, 1[, alors y1 = y2 = x.
pP
Soit V = Rn , muni de l’une des normes ||x||2 = i xi , ||x||∞ = maxi |xi |
2
P
ou ||x||1 = i |xi |. Déterminer les points extrémaux pour C = B1 (0), la
boule unitée fermée par rapport à la norme choisie.
2. Fonctions convexes 29

2. Fonctions convexes

2.1. Définition. Soit f : I → R une fonction, définie sur un intervalle


I ⊂ R. On peut alors définir trois parties de la bande I × R, dites le graphe,
le surgraphe et le sousgraphe de f :
Γf = {(r, s) ∈ I × R| r ∈ I, s = f (r)}
Γ+
f = {(r, s) ∈ I × R| r ∈ I, s > f (r)}
Γ−
f = {(r, s) ∈ I × R| r ∈ I, s 6 f (r)}.

Si le surgraphe est une partie convexe de R2 , nous avons les inégalités


suivantes : pour tout a, b ∈ I et t ∈ [0, 1],

f (1 − t)a + tb 6 (1 − t)f (a) + tf (b). (Cx)
Nous dirons que f est une fonction convexe si elle vérifie (Cx), et que f est
concave si −f est convexe, ce qui revient à dire que, pour tout a, b ∈ I et
t ∈ [0, 1], 
f (1 − t)a + tb > (1 − t)f (a) + tf (b). (Cv)

2.2. Exercice. (Fonctions convexes et la pente.) Pour une fonction


f : I → R et x 6= y, notons la pente de f par P (x, y) := f (y)−f
y−x
(x)
. Montrer
que les assertions suivantes sont équivalentes :
1) f est convexe.
2) Si x, y, z ∈ I avec x < y < z, alors P (x, y) 6 P (y, z).
3) Si x, y, z ∈ I avec x < y < z, alors P (x, y) 6 P (x, z).
4) Si x, y, z ∈ I avec x < y < z, alors P (x, z) 6 P (y, z).

2.3. Exercice. (Fonctions convexes et convexité du surgraphe.)


Soit f : I → R une fonction. Montrer que les assertions suivantes sont
équivalentes :
1) f est convexe.
2) Le surgraphe Γ+ 2
f est une partie convexe de R .
Pk
3) Pour tout choix de k ∈ N, ri > 0, i=1 ri = 1 et x1 , . . . , xn ∈ I, on a
f (r1 x1 + . . . + rk xk ) 6 r1 f (x1 ) + . . . + rk f (xk ).

2.4. Exercice. (Théorème principal sur les fonctions convexes.)


Montrer :
1) Soit f : I → R une fois dérivable. Alors f est convexe si et seulement
si f 0 est croissante.
30 4. *Interlude : Convexité

2) Soit f : I → R deux fois dérivable. Alors f est convexe si et seulement


si f 00 > 0.

Le résultat précédent est une source d’inégalités fondamentales, qui per-


mettent, entre autres, de démontrer que les p-normes (section 1 -2, exemple
(4) vérifient effectivement l’inégalité triangulaire :

2.5. Exercice. (Quelques inégalités fondamentales.) Montrer que le


logarithme log : R+ → R est une fonction concave. En déduire l’inégalité
entre moyen arithmétique et géométrique : pour tout choix de r1 , . . . , rk > 0
P
avec ki=1 ri = 1 et x1 , . . . , xk ∈ R+ ,
xr11 · · · xrrk 6 r1 x1 + . . . + rk xk .
Soient p, q ∈]1, ∞[ tels que 1p + q1 = 1. Écrire le cas particulier k = 2, r1 = p1 ,
r2 = 1q de l’inégalité précédente, et en déduire l’inégalité de Hölder : pour
x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn ,
n
X n
X n
 p1 X  p1
|xj yj | 6 |xj |p |yj |p .
j=1 j=1 j=1

2.6. Exercice. (Les p-normes sur Rn .) Pour x ∈ Rn et p ∈ [1, ∞[ on


définit
n
X  p1
||x||p := |xj |p .
j=1

Montrer que ceci définit une norme sur Rn . (Indications. Utiliser l’inégalité
de Hölder pour démontrer l’inégalité de Minkowski ||x+y||p 6 ||x||p +||y||p .)
Montrer aussi que
lim ||x||p = ||x||∞ .
p→∞

2.7. Exercice. (Convexité implique continuité.) Montrer que, si l’in-


tervalle I est ouvert et f : I → R est convexe, alors f est continue. Que
peut-on dire si I n’est pas ouvert ?

Pour la théorie plus approfondie de la convexité, on pourra consulter nombre


d’ouvrages qui traitent de l’analyse fonctionelle, entre autres, [7] ou [8].
31

Chapitre 5

Les courbes différentiables

Avec ce chapitre, nous entrons dans le vif du sujet : le calcul différentiel.


Mais avant d’attaquer le calcul différentiel de fonctions de plusieurs va-
riables, nous restons encore dans le cadre des fonctions d’une variable réelle,
mais à valeurs vectorielles : ce sont les courbes dans Rn . Leur analyse est
relativement simple, car, composante par composante, tout peut être réduit
au cas des fonctions à valeurs réelles. Si, du point de vue calculatoire, la
réduction aux composantes est satisfaisante, elle l’est moins du point de
vue conceptuel : on cherchera à donner une description « intrinsèque » de
nos opérations.

1. La courbe dérivée d’une courbe


Une courbe (dans Rn ) est une application
 
γ1 (t)
γ : I → Rn , t 7→ γ(t) =  ...  ,
 

γn (t)
où I est un intervalle de R (ouvert ou non, de longueur finie ou non). Si
γ est continue, on parle de courbe continue. D’après le lemme 1 -4.15, une
courbe γ est continue si et seulement si toutes les composantes γi : I → R
sont continues. Il est utile de penser au paramètre t comme le « temps »
et à γ(t) comme décrivant la trajectoire d’un point de masse dans Rn en
fonction du temps t. Les physiciens écrivent souvent x(t) au lieu de γ(t).

1.1. Définition. Une courbe γ : I → Rn est dite continûment différentiable


ou : de classe C 1 , si toutes les composantes γi : I → R sont de classe C 1 ,

– 31 –
32 5. Les courbes différentiables

i.e., si elles sont dérivables (dans le sens usuel) et la dérivée γi0 : I → R est
encore continue. Alors la courbe dérivée est définie par
 0 
γ1 (t)
0  .. 
γ (t) :=  .  .
γn0 (t)
Ainsi γ 0 : I → Rn est une courbe continue. Nous dirons que γ est de classe
C 2 si elle est de classe C 1 et si γ 0 est encore de classe C 1 , auquel cas
on peut définir la dérivée seconde γ 00 (t) := (γ 0 )0 . Ainsi de suite, on définit
les classes C k , k ∈ N. En langage motivé par la mécanique, on dit que
γ 0 (t) est la vitesse et γ 00 (t) est l’accélération (au temps t), notée parfois
v(t) = x0 (t) = ẋ(t), resp. a(t) = x00 (t) = ẍ(t).

1.2. Proposition. Le vecteur γ 0 (t) ne dépend pas de la base de Rn , i.e.,


n
pour n’importe quelle base
Pn b1 , . . . , bn de R , en utilisant le développement
selon cette base γ(t)
P= i=1 νi (t)bi , la courbe dérivée se calcule de la même
n
manière : γ 0 (t) = i=1 νi0 (t)bi .
Démonstration. Plusieurs raisonnements sont possibles : on pourra vérifier
l’énoncé par un calcul direct en utilisant les formules de changement de
base connues en algèbre linéaire. Cependant, il est plus élégant et plus utile
de montrer que la dérivée peut être définie de manière « intrinsèque » (i.e.,
sans faire référence à une base). Il existe deux possibilités de le faire.
(a) On montre que γ 0 (t) est une limite, prise dans V = Rn :
γ(t + s) − γ(t)
γ 0 (t) = lim .
s→0 s
En effet, en chaque composante la relation γi0 (t) = lims→0 γi (t+s)−γ
s
i (t)

est vérifiée par définition même de la dérivée en une variable. Ensuite,


on conclut en utilisant que, dans Rn , les limites peuvent être calculées
composante par composante (cf. exemple 1 -4.3).
(b) On montre que le vecteur γ 0 (t) est l’unique vecteur dans V = Rn tel
que, pour toute forme linéaire λ : V → R,
λ(γ 0 (t)) = (λ ◦ γ)0 (t).
En effet, pour les projections, λ = pri , cette relation est vraie par P défini-
tion de γ 0 , et si λ est une forme linéaire quelconque, on écrit λ = i λi pri ,
et alors
X  X X
λ ◦ γ0 = λi pri ◦ γ 0 = λi pri ◦ γ 0 = λi (pri ◦ γ)0 = (λ ◦ γ)0 .
i i i
0
Observons que le vecteur γ (t) est déterminé de manière unique par (a) ou
(b), et que ni l’une ni l’autre de ces relations ne fait appel à une base de Rn .
2. Intégrale simple d’une courbe 33

Ainsi, si on introduit une base quelconque de Rn , le calcul des composantes


de γ 0 (t) s’effectue exactement comme pour la base canonique. 

2. Intégrale simple d’une courbe

2.1. Définition. Soient a, b ∈ R, a < b et I = [a, b]. On définit l’intégrale


(simple) d’une courbe continue γ : I → Rn composante par composante,
i.e. par R 
b
γ 1 (t)dt
 a .
Z b

γ(t) dt = 
 .
.
 ∈ Rn .

a Rb
a
γn (t)dt
Chaque composante est donc une intégrale usuelle d’une fonction continue
à valeurs dans R.
Rb
2.2. Proposition. Le vecteur a γ(t)dt ne dépend pas de la base de Rn ,
i.e., pour n’importe quelle base b1 , . . . , bn de Rn , en utilisant le développe-
Pn
ment selon cette base γ(t) = i=1 νi (t)bi , l’intégrale se calcule de la même
manière : Z b X n Z b
γ(t)dt = νi (t) dt · bi .
a i=1 a

Démonstration. Les mêmes remarques comme pour la preuve de la prop.


5 -1.2 s’appliquent : on pourra utiliser les formules de changements de base,
mais la meilleure preuve consiste à donner des définitions intrinsèques de
cette intégrale. Dans ce cas aussi, il existe deux possibilités de le faire :
(a) On peut définir l’intégrale comme limite de sommes de Riemann, en
utilisant des fonctions en escalier et en procédant comme dans le cas
de fonctions I → R. Ce n’est guère plus compliqué que dans le cas des
fonctions f : I → R (cf. [4], p. 19 – 21), mais comme c’est un peu
technique, nous n’allons pas détailler cette méthode.
Rb
(b) On montre que l’intégrale a γ(t)dt est l’unique vecteur de V = Rn tel
que, pour toute forme linéaire λ : V → R,
Z b  Z b
λ γ(t)dt = λ ◦ γ(t)dt.
a a
Rb
En effet, par définition de l’intégrale a γ(t)dt, cette relation est vraie
pour les projections, i.e. pour λ = pri , et on en déduit qu’elle est vraie
P
pour toute forme λ = i λi pri , par linéarité de l’intégrale. 
34 5. Les courbes différentiables

2.3. Théorème. (Relation fondamentale entre calcul différentiel et inté-


gral : cas des courbes.) L’intégration et la différentiation de courbes sont
des opérations réciproques :
(i) Si γ : I → Rn est de classe C 1 , alors pour tout r, s ∈ I,
Z r
γ(r) − γ(s) = γ 0 (t)dt.
s

(ii) Si γ : I → Rn est une courbe continue, alors, pour tout t0 ∈ I, la


Rt
courbe Γ(t) := t0 γ(u)du est de classe C 1 , et Γ0 (t) = γ(t).
Démonstration. Il est bien connu que (i) et (ii) sont vraies pour des fonctions
à valeurs réelles ; ainsi elles sont vraies pour toute composante γi , et donc
aussi pour γ. 

2.4. Théorème. (Majoration d’intégrale : cas des courbes.) Soit γ : I →


Rn une courbe continue. Par rapport à la norme euclidienne sur Rn , on a
l’inégalité
Z Z b
b
γ(t) dt 6 ||γ(t)|| dt.
a a

Rb
Démonstration. Soit v := a γ(t)dt. Alors (en utilisant l’inégalité de Cauchy-
Schwarz en passant de la première ligne à la ligne suivante)
Z b Z b
||v||2 = hv, vi = hv, γ(t) dti = hv, γ(t)i dt
a a
Z b Z b
6 ||v|| ||γ(t)|| dt = ||v|| ||γ(t)|| dt.
a a

Après division par ||v|| on trouve le résultat annoncé. 

2.5. Remarque. Le résultat reste vrai pour une norme quelconque. Pour
les normes || · ||∞ et || · ||1 , le lecteur pourra le vérifier à titre d’exercice. Par
contre, dans le cas général, la preuve devient nettement plus sophistiquée.

3. La pente
Pour toute courbe γ : I → Rn , on peut définir la pente par
γ(t) − γ(s)
P (s, t) := (s 6= t).
t−s
On peut l’interpréter comme la vitesse moyenne entre les temps t et s. Dans
la vie quotidienne (radars automatiques, championnats d’athlétisme etc.),
3. La pente 35

on peut se contenter de connaître des vitesses moyennes pour des « petits »


intervalles [t, s], mais pour une théorie mathématique, il faut parler de
« vitesse exacte » : si γ est différentiable, pour s → t, la vitesse moyenne
tend vers la « vitesse instantanée au temps t » qui est γ 0 (t). Le lemme
suivant exprime le fait que la pente est vraiment une moyenne (intégrale)
de vitesse :

3.1. Lemme. (Lemme de la vitesse moyenne.) Si γ : I → Rn est une courbe


de classe C 1 , alors la pente admet la représentation intégrale suivante : pour
tout (s, t) ∈ I × I, s 6= t,
Z 1
P (s, t) = γ 0 (u t + (1 − u) s) du.
0

Démonstration. On part de la relation


Z t
γ(s) − γ(t) = γ 0 (w) dw
s

(théorème 5 -2.3), on fait un changment de variable u = w−s


t−s , et l’énoncé
en découle. (Remarque : le changement de variables pour les intégrales de
courbes fonctionne comme pour les fonctions réelles car on peut l’effectuer
en chaque composante.) 

3.2. Théorème. (Théorème de la pente) Pour une courbe γ : I → Rn sont


équivalentes :
(1) γ est de classe C 1 .
(2) La pente se prolonge en une application continue de deux variables
γ <1> : I × I → Rn .
Cela veut dire qu’il existe une application continue γ <1> : I × I → Rn
telle que, pour tout (s, t) ∈ I × I avec s 6= t,
γ(s) − γ(t)
γ <1> (s, t) = . (!)
s−t
Sous ces conditions, γ 0 (t) = γ <1> (t, t).
Démonstration. (2) ⇒ (1) : Si l’application continue γ <1> existe, alors,
par définition de la continuité, la limite lim s→t γ <1> (s, t) existe et vaut
s6=t

γ <1> (t, t). Or, ceci signifie que γ est dérivable avec dérivée γ 0 (t) = γ <1> (t, t).
Finalement, comme γ <1> est continue, t 7→ γ <1> (t, t) = γ 0 (t) aussi est
continue.
36 5. Les courbes différentiables

(1) ⇒ (2) : Nous devons montrer que, pour une courbe γ de classe C 1 ,
l’application définie par
n γ 0 (t) si s = t
γ <1> (s, t) := γ(s)−γ(t)
s−t si s 6= t
est continue sur I × I. En effet, d’après le lemme 5 -3.1, nous avons pour
s 6= t, Z 1
γ <1> (s, t) = γ 0 ((ut + (1 − u)s) du ,
0

et on constate que l’égalité a lieu également pour s = t. Comme γ est


de classe C 1 , l’intégrand est une fonction continue du triplet (u, t, s), et il
suffit d’appliquer le lemme suivant (que nous utiliserons très souvent dans
la suite) :

3.3. Lemme. (Intégrale dépendant d’un paramètre.) Soit D ⊂ Rn ouvert,


I = [a, b] et f : I × D → Rm continue. Alors la fonction
Z b
g : D → Rm , x 7→ f (t, x) dt
a

est continue. Autrement dit, on a pour tout x ∈ D,


Z b Z b
lim f (t, y) dt = lim f (t, y) dt.
y→x a a y→x

Démonstration. Fixons la norme ||v|| = maxi |vi | sur Rm , soit x ∈ D


et montrons que g est continue au point x. Choisissons r > 0 tel que
B2r (x) ⊂ D. Alors I × B r (x) est borné fermé, donc compact, et donc f est
uniformément continue sur I × B r (x) (théorème 2 -3.4). Pour tout ε > 0, il
existe donc δ > 0 tel que, si t, s ∈ I et z, y ∈ B r (x) avec |t−s|+||z −y|| < δ,
ε
alors ||f (t, z) − f (s, y)|| < b−a . En particulier, si ||x − y|| < δ et t ∈ I, alors
ε
||f (t, x) − f (t, y)|| < b−a . Par conséquent, si ||x − y|| < δ,
Z 1 Z b
ε
||g(x) − g(y)|| 6 ||f (t, x) − f (t, y)||dt < dt = ε.
0 b−a a
Donc g est continue en x, et le lemme et le théorème sont démontrés. 
37

Chapitre 6

La classe C 1 et la
différentielle

Dans toute la suite, soit V = Rn , W = Rm , U un ouvert de V et f : U → W


une application. On cherche à analyser f en se ramenant au cas plus simple
des courbes. Pour le faire, on fixe x ∈ U et une « direction », i.e., un vecteur
non-nul v ∈ V , et on étudie le comportement de f sur la droite x+ tv, t ∈ R
(plus précisément, sur la partie ouverte Ix,v = {t ∈ R| x + tv ∈ U } ⊂ R qui
contient 0). Autrement dit, on étudie la courbe (à valeurs dans W !)
γ := γx,v : Ix,v → W, t 7→ γ(t) := f (x + tv).
Ensuite, on fera varier v et x.

1. La dérivée directionnelle et la pente

1.1. Définition. On dit que f admet une dérivée directionnelle (au point
x et en direction v) si la courbe γx,v est différentiable en 0, autrement dit,
si la limite
f (x + tv) − f (x) d
∂v f (x) := lim = |t=0 f (x + tv)
t→0 t dt
existe ; alors ∂v f (x) est dit la dérivée directionnelle de f au point x en
direction v.
Peut-être le lecteur aura déjà rencontré les dérivées partielles d’une fonction
f . Elles sont liées aux dérivées directionnelles comme suit : soit e1 , . . . , en la
base canonique de Rn . Alors la dérivée partielle (par rapport à la ie variable)

– 37 –
38 6. La classe C 1 et la différentielle

n’est autre que la dérivée directionnelle en direction du vecteur ei , notée


f (x + tei ) − f (x) d
∂ei f (x) = lim = |t=0 f (x1 , . . . , xi + t, . . . , xn ).
t→0 t dt
Les notations
∂f
∂i f (x) := (x) := ∂ei f (x)
∂xi
sont aussi couramment utilisées pour la dérivée partielle. On peut définir
des dérivées partielles également par rapport à n’importe quelle autre base
b1 , . . . , bn au lieu de la base canonique : en général, il n’y a aucune raison de
préférer les dérivées partielles usuelles à ∂b1 , . . . , ∂bn . Il vaut mieux éviter
les dérivées partielles autant que possible, et dans des situations concrètes,
on utilise des bases bien adaptées au problème (s’il y en a).
La dérivée directionnelle est la limite de la pente que nous définissons par
f (x + tv) − f (x)
Φ(x, v, t) := , (t 6= 0).
t
On a donc ∂v f (x) = limt→0 Φ(x, v, t). La pente est une application des trois
variables (x, v, t), définie sur l’ensemble
U ]1[ := {(x, v, t) ∈ U × V × R | x + tv ∈ U, t 6= 0}. (1)
Nous définissons aussi l’ensemble
U [1] := {(x, v, t) ∈ U × V × R | x + tv ∈ U }. (2)
Remarquons que U [1] et U ]1[ sont des parties ouvertes de V × V × R (car
image réciproque d’ouverts sous une application continue), et que U ]1[ est,
à son tour, une partie ouverte et dense dans U [1] .

2. La classe C 1

2.1. Définition. Une application f : U → W est dite continûment diffé-


rentiable (sur U ), ou de classe C 1 , si la dérivée directionnelle ∂v f (x) existe
pour tout x ∈ U et v ∈ V , et si elle dépend de manière continue du couple
(x, v), i.e., si l’application
V × U → W, (v, x) 7→ ∂v f (x)
est une application continue.

2.2. Lemme. (Représentation intégrale de la pente.) Soit f : U → W


une application de classe C 1 . Alors la pente de f admet la représentation
intégrale suivante : si x ∈ U , v ∈ V et t ∈ R∗ sont tels que le segment
2. La classe C 1 39

[x, x + tv] est dans U ,


Z 1
f (x + tv) − f (x)
= (∂v f )(x + stv) ds.
t 0

Démonstration. La relation fondamentale entre calcul différentiel et calcul


intégral (th. 5 -2.3), appliquée à la courbe γ(t) = f (x + tv) (de dérivée
γ 0 (t) = ∂v f (x + tv)) donne
Z t Z 1
f (x + tv) = f (x) + ∂v f (x + rv) dr = f (x) + t ∂v f (x + stv) ds
0 0

après changement de variable r = st. En regroupant et en divisant par t,


on obtient l’énoncé. 

2.3. Corollaire. Si f est de classe C 1 , alors f est continue.


Démonstration. Pour t = 1, le lemme implique que
Z 1
f (x + v) = f (x) + ∂v f (x + sv)ds.
0

Pour x fixé, l’intégrand est continu en fonction de (v, s), et donc, d’après
le lemme sur les intégrales à paramètres (5 -3.3), f (x + v) est continue en
fonction de v, donc limv→0 f (x + v) = f (x + 0) = f (x), ce qui signifie que
f est continue en x. 

2.4. Théorème. (Théorème de la pente.) Pour une application f : U →


W = Rm , définie sur un ouvert U de V = Rn , sont équivalentes :
(1) f est de classe C 1 sur U .
(2) La pente Φ : U ]1[ → W se prolonge en une application continue
f [1] : U [1] → W , où U [1] est défini par l’équation (2) ci-dessus. Ce
prolongement est unique. Autrement dit, il existe une unique application
continue f [1] : U [1] → W telle que, pour tout (x, v, t) ∈ U [1] avec t 6= 0,
f (x + tv) − f (x)
= f [1] (x, v, t).
t
Sous ces conditions, la dérivée directionnelle de f est donnée par
∂v f (x) = f [1] (x, v, 0).

Démonstration. Supposons (2). Alors, par continuité de f [1] ,


f (x + tv) − f (x)
lim = lim f [1] (x, v, t) = f [1] (x, v, 0).
t→0
t6=0
t t→0
t6=0
40 6. La classe C 1 et la différentielle

Ainsi la dérivée directionnelle ∂v f (x) existe pour tout x ∈ U , v ∈ E, et elle


est égale à f [1] (x, v, 0). L’application
V × U → W, (v, x) 7→ ∂v f (x) = f [1] (x, v, 0)
est continue car f [1] l’est. Par conséquent, f est de classe C 1 .

Supposons (1). Montrons d’abord que l’application continue f [1] , si elle


existe, est unique. En effet, par continuité, il faut que
f (x + tv) − f (x)
f [1] (x, v, 0) = lim = ∂v f (x),
t→0 t
et ainsi f [1] : U [1] → W est l’unique application telle que
n f (x+tv)−f (x)
si t 6= 0
f [1] : U [1] → W, (x, v, t) 7→ t (3)
∂v f (x) si t = 0 .

Démontrons maintenant l’existence : nous définissons f [1] par (3), et nous


devons montrer que l’application f [1] ainsi définie est continue. Rappelons
(cor. 6 -2.3) que f est continue, et ainsi f [1] est continue sur U ]1[ (car quo-
tient de deux applications continues sur cet ensemble). Il reste à montrer
que f [1] est continue aux points de la forme (x, v, 0). En effet, ceci découle
du lemme 6 -2.2, car, dans un voisinage d’un tel point, la représentation
intégrale
Z 1
[1]
f (y, w, r) = (∂w f )(y + srw) ds
0

est valable, et, d’après le lemme sur les intégrales à paramètres (5 -3.3), le
membre de droite définit bien une application continue pour (y, w, r) dans
un voisinage de (x, v, 0). 

3. La différentielle

3.1. Définition. Si f : U → W est de classe C 1 et x ∈ U un point que l’on


fixe pour le moment, on écrit Df (x)v := ∂v f (x), et on appelle l’application
Df (x) : V → W, v 7→ ∂v f (x) = f [1] (x, v, 0)
la différentielle de f au point x. (Pour économiser des parenthèses, on écrit
Df (x)v et non (Df (x))(v).)

3.2. Proposition. (Linéarité de la différentielle.) Si f est de classe C 1 ,


alors la différentielle Df (x) : V → W est une application linéaire.
3. La différentielle 41

Démonstration. Additivité : montrons que Df (x)(v + w) = Df (x)v +


Df (x)w. Pour s 6= 0,
f (x + s(v + w)) − f (x)
f [1] (x, v + w, s) =
s
f (x + sv + sw) − f (x + sv) f (x + sv) − f (x)
= +
s s
= f [1] (x + sv, w, s) + f [1] (x, v, s).
Les deux membres dépendent de manière continue de s et coïncident pour
s ∈ I \ {0}, où I est un intervalle contenant 0, donc coïncident aussi pour
s = 0. On posant s = 0, on obtient alors Df (x)(v+w) = Df (x)w+Df (x)v.
Homogénéité : montrons que Df (x)(rv) = rDf (x)v. Pour r, s 6= 0,
f (x + s(rv)) − f (x)
f [1] (x, rv, s) =
s
f (x + sr v)) − f (x)
=r
sr
= r f [1] (x, v, rs).
Par le même argument que ci-dessus, les deux membres coïncident aussi
pour s = 0. On posant s = 0, on trouve Df (x)(rv) = rDf (x)v. Là encore,
par continuité, l’égalité reste vraie aussi pour r = 0. 

3.3. Proposition. Si f est de classe C 1 , la dérivée de f


Df : U → Hom(V, W ), x 7→ Df (x)
est une application continue.
Démonstration. Fixons des bases dans V et dans W et identifions V = Rn
et W = Rm . Alors on peut identifier l’espace Hom(V, W ) des applica-
tions linéaires V → W avec l’espace des matrices M (m, n; R). Celui-ci est
de dimension mn, donc de dimension finie. Par conséquent, Df : U →
M (m, n; R) est continue si et seulement si toutes les composantes le sont.
Or, les composantes de Df (x) sont exactement les coefficients de la matrice
de Df (x). Calculons ces coefficients : en écrivant
 
f1 (x)
f (x) =  ... 
 

fm (x)
le coefficient à la place (ij) de la matrice de Df (x) est
(Df (x))ij = (Df (x)ej )i = (∂j f (x))i .
Comme f est supposée C 1 , l’application x 7→ ∂j f (x) est continue, et donc
x 7→ (Df (x))ij est continue, pour tout i = 1, . . . , m, j = 1, . . . , n. 
42 6. La classe C 1 et la différentielle

La matrice de Df (x) par rapport aux bases canoniques est appelée la ma-
trice jacobienne de f au point x, notée souvent Jf (x). Nous venons de voir
que ses coefficients sont (Jf (x))ij = (∂j f (x))i . Or, en écrivant composante
par composante
f (x + tej ) − f (x)  fi (x + tej ) − fi (x)
(∂j f (x))i = lim i
= lim = (∂j fi )(x),
t→0 t t→0 t
on trouve que (∂j f )i = ∂j fi , de sorte que la matrice jacobienne est donnée
par
 
∂1 f1 (x) · · · ∂n f1 (x)

Jf (x) = ((∂j fi )(x)) i=1,...,m =  .. .. 
j=1,...,n . . .
∂1 fm (x) · · · ∂n fm (x)
Pour bien mémoriser cette définition, il faut se souvenir que la matrice
jacobienne contient comme colonnes les dérivées partielles de f par rapport
à e1 , . . . , en . Par exemple, si f est une fonction scalaire (i.e., W = R,
m = 1), alors Jf (x) est une matrice ligne, et si f est une courbe (i.e.,
n = 1), alors Jf (x) est une matrice colonne, donc un vecteur de Rm .

3.4. Théorème. (Règle de composition.) Soient Vi , i = 1, 2, 3 des espaces


vectoriels de dimension finie, U1 ⊂ V1 et U2 ⊂ V2 des ouverts et f : U1 →
U2 , g : U2 → V3 de classe C 1 . Alors g ◦ f : U1 → V3 est de classe C 1 ,
et, pour tout x ∈ U1 , sa différentielle au point x est la composée de la
différentielle de g au point f (x) avec la différentielle de f au point x :
D(g ◦ f )(x) = Dg(f (x)) ◦ Df (x).

Démonstration. Calculons la pente de g ◦ f : soit U = U1 et (x, v, t) ∈ U [1] .


Alors, comme f est C 1 , f (x + tv) = f (x) + tf [1] (x, v, t), et donc, si t 6= 0,

g(f (x + tv)) − g(f (x)) g f (x) + tf [1] (x, v, t) − g(f (x))
=
t t

= g [1] f (x), f [1] (x, v, t), t .
Le membre de droite est une fonction continue de (x, v, t) ∈ U [1] car com-
posée d’applications continues. Ainsi le membre de gauche admet bien un
prolongement continu sur U [1] , donné par

(g ◦ f )[1] (x, v, t) = g [1] f (x), f [1] (x, v, t), t .
En posant t = 0, on obtient D(g ◦ f )(x)v = Dg(f (x))(Df (x)v). 

3.5. Remarque. Il important de bien comprendre l’énoncé de la règle de


composition. À cette fin, donnons deux interprétations de cette règle :
3. La différentielle 43

(A) Interprétation calculatoire. Il faut lire le signe ◦ dans la règle de com-


position comme un « produit de matrices ». En effet, si, par rapport aux
bases canoniques de Vi = Rdim Vi , on représente les différentielles par leurs
matrices jacobiennes, on sait de l’algèbre linéaire que la composée d’appli-
cations linéaires devient un produit de matrices, ce qui s’écrit
J(g ◦ f )(x) = Jg(f (x)) · Jf (x).
Plus précisement, les coefficients du produit de matrices C = A · B sont
P
donnés par cij = k aik bkj , si bien que pour la matrice jacobienne de g ◦ f
on obtient
dim
XV2
J(g ◦ f )ij (x) = ∂j (g ◦ f )i (x) = ∂k gi (f (x)) · ∂j fk (x).
k=1

(B) Interprétation abstraite ou « fonctorielle ». Pour une partie Y dans un


espace vectoriel E posons
T Y := Y × E,
et pour une application f : U → W de classe C 1 , posons
T f : T U → T W, (x, v) 7→ T f (x, v) := (f (x), Df (x)v),
dite l’application tangente de f . Alors la règle de composition s’écrit
T g(T f (x, v)) = T g(f (x), Df (x)v)
= (g ◦ f (x), Dg(f (x))(Dg(x)))
= (g ◦ f (x), D(g ◦ f )(x))
= T (g ◦ f )(x, v).
La règle s’énonce alors simplement T (g ◦ f ) = T g ◦ T f : l’application tan-
gente d’une composée est la composée des applications tangentes respec-
tives.

3.6. Corollaire. (Différentielle d’une application réciproque.) Si f : U →


U est une application bijective telle que f et f −1 : U → U ⊂ V soient de
classe C 1 (on dit alors que f est un difféomorphisme), alors la différentielle
de f −1 au point y ∈ U est
 −1
Df −1 (y) = Df f −1 (y) .

Démonstration. Remarquons d’abord que la différentielle de l’identité idU


en tout point est l’identité de V : D(idU )(x) = idV . Le théorème 6 -3.4
44 6. La classe C 1 et la différentielle

donne
Df −1 (f (x)) ◦ Df (x) = D(f −1 ◦ f )(x) = D(idU )(x) = idV ,
Df (f −1 (y)) ◦ Df −1 (y) = D(f ◦ f −1 )(y) = D(idU )(y) = idV
et en posant y = f (x), ceci implique que Df −1 (f (x)) = (Df (x))−1 , ou
 −1
bien Df −1 (y) = Df f −1 (y) . 

On pourra rajouter les mêmes remarques qu’après le théorème 6 -3.4 : d’un


point du vue calculatoire, on peut trouver la différentielle de f −1 en cal-
culant la matrice inverse de Jf (x) (c’est donc un problème bien connu
d’algèbre linéaire) ; et d’un point de vue « fonctoriel », le corollaire peut
s’écrire aussi sous la forme T (f −1 ) = (T f )−1 .

3.7. Remarque. Suivant la philosophie expliquée dans l’introduction de


ce cours, nous n’avons pas cherché à définir, dans ce chapitre, la différentia-
bilité « en un seul point », mais nous avons introduit directement, sans ce
détour, la classe C 1 . Les propriétés « en un seul point » sont moins impor-
tantes et plus délicates que celles « sur un ensemble ouvert ». Pour cette
raison, nous leur consacrerons des chapitres ultérieurs (chapitres ?? et ??)
qui ne font pas partie du parcours élémentaire de ce cours.
45

Chapitre 7

La classe C 1 – exemples et
règles de calcul

Nous donnons les exemples de base d’applications de classe C 1 . Grossiè-


rement, on peut distinguer trois méthodes différentes pour vérifier qu’une
application est de classe C 1 :

• « attaque directe » :
– écrire f (x+tv)−f
t
(x)

– simplifier ... (c’est ici qu’il faut parfois trouver des astuces)
– après simplification : prolongement continu, pour t = 0 inclus.
• « dévisser et décomposer » : écrire la fonction en question sous forme
de composée, somme, produit ou quotient (ou une combinaison de tout
cela) d’applications dont on sait qu’elles sont de classe C 1
• « par dérivées partielles » : on vérifie que les dérivées partielles de f
existent et sont continues (voir le théorème 7 -2.4 ci-dessous).

1. Exemples
Dans la suite, soit V = Rn et W = Rm .

(0) Fonctions d’une variable. Assurons-nous tout d’abord que pour des
fonctions f : I → R définies sur un intervalle I, nous récupérons l’ancien
calcul différentiel : pour tout t 6= 0 et v 6= 0, la limite pour t → 0 de
f (x + tv) − f (x) f (x + tv) − f (x)
= v
t tv

– 45 –
46 7. La classe C 1 – exemples et règles de calcul

existe si, et seulement si, f 0 (x) existe, et alors on a


Df (x)v = f 0 (x) v.
Si v = 0, f (x+tv)−f
t
(x)
vaut zéro, et la limite existe aussi et est égale à
0 = Df (x)v. La fonction (x, v) 7→ Df (x)v est continue si et seulement si
la fonction x 7→ f 0 (x) est continue, car on peut récupérer l’une par l’autre
(noter que f 0 (x) = Df (x)1). Ainsi f est de classe C 1 si et seulement si f
est continûment dérivable au sens usuel.
Des remarques analogues s’appliquent au cas des courbes γ : I → Rn , qui
sont aussi des fonctions d’une variable : une courbe γ est C 1 au sens du
chapitre 5 si et seulement si elle l’est au sens du chapitre 6, et le lien entre
les fonctions γ [1] (chapitre 6) et γ <1> (chapitre 5) est
γ [1] (x, v, t) = γ <1> (x + tv, x) v.
Pour t = 0 ceci donne
Dγ(x)v = vγ <1> (x, x) = γ 0 (x) · v
ou encore : γ 0 (x) = Dγ(x)1.

(1) Translations. La translation f = τw : V → V , x 7→ x + w est de classe


C 1 : « attaque directe »,
f (x + tv) − f (x) x + tv + w − (x + w)
= =v
t t
se prolonge bien en une application continue, avec Df (x)v = v, i.e., Df (x) =
idV .

(2) Application linéaires. Soit f : V → W linéaire. Alors f est de classe


C 1 . Attaque directe :
f (x + tv) − f (x) f (x) + tf (v) − f (x)
= = f (v)
t t
est bien continue en fonction de (x, v, t) (car toute application linéaire f :
Rn → Rm est continue, cf. 1 -4.17), avec Df (x)v = f (v), i.e. Df (x) = f .

(3) Applications bilinéaires. Soit f : V1 × V2 → W une application


bilinéaire. Alors f est de classe C 1 . Attaque directe :
f (x + tv) − f (x) f ((x1 , x2 ) + t(v1 , tv2 )) − f (x1 , x2 )
=
t t
f (x1 + tv1 , x2 + tv2 ) − f (x1 , x2 )
=
t
f (x1 , x2 ) + tf (v1 , x2 ) + tf (x1 , v2 ) + t2 f (v1 , v2 ) − f (x1 , x2 )
=
t
= f (v1 , x2 ) + f (x1 , v2 ) + tf (v1 , v2 )
1. Exemples 47

est bien continue en fonction de (x, v, t) (car, en dimension finie, toute


application bilinéaire est continue, cf. th. 1 -4.17), et pour t = 0, on trouve
Df (x1 , x2 )(v1 , v2 ) = f (v1 , x2 ) + f (x1 , v2 ).

(3’) Applications multilinéaires. Soit f : V1 × . . . × Vn → W multi-


linéaire. On trouve, par le même genre de calcul que ci-dessus (exercice
??),
n
X
(Df (x1 , . . . , xn ))(v1 , . . . , vn ) = f (x1 , . . . , xi−1 , vi , xi+1 , . . . , xn ).
i=1

(4) Produit et somme de fonctions scalaires. Soient f : U → R,


g : U → R deux fonctions scalaires de classe C 1 . Alors f + g et f · g sont
de classe C 1 (cf. exercice ??). Par une attaque directe, comme dans (3), ou
en dévissant, on trouve
D(f g)(x)v = Df (x)v · g(x) + f (x) · Dg(x)v
ce qui peut s’écrire aussi ∂v (f g) = ∂v f · g + f · ∂v g. On trouve de même
D(f + g) = Df + Dg.

(5) Fonctions polynomiales scalaires. Soit


X
f : V → R, x 7→ aα xα
α∈Nn
|α|6k

une application polynomiale de degré au plus k (cf. notations introduites


avant l’énoncé du théorème 1 -4.17). Alors, en dévissant f exactement comme
dans la preuve du théorème 1 -4.17, et en utilisant les points (4) et (2) ci-
dessus (les projections pri : x 7→ xi sont linéaires, donc C 1 ), on constate
que f est C 1 .

(6) Applications quadratiques. Une application f : V → W est dite


quadratique s’il existe une application bilinéaire b : V × V → W telle que
f (x) = b(x, x). Alors, par une attaque directe, ou en dévissant en utilisant
(3), on trouve que f est de classe C 1 , et que
Df (x)v = b(x, v) + b(v, x).
Si b est bilinéaire symétrique (auquel cas on peut toujours se ramener !),
alors on a Df (x)v = 2b(x, v), donc Df (x) = 2b(x, ·).
On pourra également observer que les applications quadratiques sont exac-
tement les applications dont les composantes sont polynomiales homogènes
de degré 2 (exercice ??), et déduire du point (5) que f est C 1 ; cependant,
il n’est pas recommendable de calculer la différentielle de cette manière.
48 7. La classe C 1 – exemples et règles de calcul

(6’) Applications cubiques... Une application f : V → W est dite cu-


bique s’il existe une application trilinéaire T : V × V × V → W telle que
f (x) = T (x, x, x). Alors f est de classe C 1 (exercice ??), et
Df (x)v = T (x, x, v) + T (x, v, x) + T (v, x, x).
Si T est symétrique, on a alors Df (x)v = 3T (x, x, v). Plus généralement, si
f : V → W est une application polynômiale homogène de degré k, i.e. de la
forme f (x) = m(x, . . . , x) (où m : V k → W est k fois multilinéaire), alors
f est C 1 , et
X k
Df (x)v = m(x, . . . , x, v, x, . . . , x),
i=1

avec v à la i-ième place. Si m est symétrique (i.e., invariant sous permu-


tations des arguments), alors Df (x) = k m(x, . . . , x, ·). Finalement, une
Pk
application polynômiale f : V → W est une somme finie f = j=0 pj , où
chaque pj : V → W est une application polynomiale homogène de degré j.
Alors f est C 1 , car chaque pj est C 1 .
La notion d’application polynomiale que nous venons de définir coïncide
avec celle introduite dans la section 1 -4 (cf. l’exercice ??), et elle a l’avan-
tage d’être plus conceptuelle et mieux adaptée à une généralisation en di-
mension infinie.

(7) Inversion matricielle. Soit V = M (n, n; R) et U = GL(n, R) =


{X ∈ M (n, n; R)| det(X) 6= 0} (c’est un ouvert de V ) et soit f (X) = X −1
l’inversion matricielle. (Le cas n = 1 donne l’inversion usuelle dans R.)
Alors f est continue (exercice ??), et f est C 1 . Attaque directe :
f (X + tV ) − f (X) (X + tV )−1 − X −1
=
t t
1 
= (X + tV )−1 X − (X + tV ) X −1
t
1
= (X + tV )−1 (−tV )X −1
t
= −(X + tV )−1 V X −1
dépend bien de manière continue de (X, V, t) car c’est une composée d’applica-
tions continues. Pour t = 0 nous obtenons
Df (X)V = −X −1 V X −1 .
Le cas particulier n = 1 nous montre que l’inversion R× → R est C 1 avec
Df (x)v = − x12 v, ce qui correspond à la formule connue ( x1 )0 = − x12 .

(8) Fonctions rationnelles. Nous venons de voir que l’inversion i : R∗ →


R, t 7→ t−1 est de classe C 1 . Par conséquent, si f : U → R est C 1 et telle
2. Dérivées partielles et matrice jacobienne 49

g
que f (U ) ⊂ R∗ , alors f1 = i ◦ f est de classe C 1 , et de même pour f = g · f1 .
De plus, en dévissant on trouve la règle de différentiation
g (∂v g)f − g(∂v f )
∂v ( ) = .
f f2
En particulier, une fonction rationnelle f (x) = p(x)
q(x) (quotient de deux po-
lynômes, définie sur l’ouvert U = q (R )) est de classe C 1 sur U .
−1 ∗

(9) Applications à valeurs dans un produit. Une fonction f : U → Rm


est de classe C 1 si et seulement si toutes les composantes fi : U → R
(i = 1, . . . , m) sont de classe C 1 . En effet, pour t 6= 0,
 f1 (x+tv)−f1 (x) 
t
f (x + tv) − f (x)  .. 
= . .
t
fm (x+tv)−fm (x)
t
La limite pour t → 0 du membre de droite existe si et seulement si la
limite pour t → 0 existe en chaque composante, et le membre de droite se
prolonge alors en une fonction continue de (x, v, t) si et seulement si c’est
le cas pour chaque composante, et ainsi, pour (x, v, t) ∈ U [1] ,
(f [1] )i (x, v, t) = (fi )[1] (x, v, t) (i = 1, . . . , m).
Pour t = 0, ceci donne (∂v f )i = ∂v fi . Plus généralement, le même argument
s’applique si W = W1 × . . . × Wm est un produit de m espaces vectoriels,
avec Wi = Rki , i = 1, . . . , m. Alors f : U → W est de classe C 1 si et
seulement si les composantes fi : U → Wi , i = 1, . . . , m, sont de classe C 1 .

(10) Applications dont le domaine de définition est dans un pro-


duit. Cette situation est beaucoup moins triviale que celle du point (9) et
fera l’objet du paragraphe suivant.
(11) Restriction. Si U1 ⊂ U est un ouvert et si f : U → W est C 1 ,
alors la restriction f |U1 : U1 → W est, elle aussi, de classe C 1 . Si V2 ⊂ V
est un sous-espace vectoriel (ou affine), alors U2 := U ∩ V2 est un ouvert
de U2 , et s’il est non-vide, la restriction f |U2 : U2 → W est encore de
classe C 1 . On peut facilement vérifier ces énoncés directement à partir des
définitions, ou en constatant que les inclusions U1 → U , resp. V2 → V sont
des applications de classe C 1 et que la restriction de f est la composée de
f avec une inclusion.

2. Dérivées partielles et matrice jacobienne


Supposons que V = V1 × V2 est un produit de deux espaces vectoriels de
dimension finie (après un choix de base, on pourra supposer que V = Rn ,
50 7. La classe C 1 – exemples et règles de calcul

Vi = Rni , n = n1 + n2 ), que U ⊂ V est un ouvert et f : U → W une


application. Le cas n = 2, n1 = n2 = 1 est déjà non-trivial et est bien
adapté pour illustrer le raisonnement qui suivra (on demandera donc au
lecteur de représenter graphiquement U comme un ouvert de R2 avec V1
comme premier et V2 comme deuxième axe).

2.1. Définition. On dira que f est C 1 par rapport à la première variable


si, pour tout v ∈ V1 , la dérivée directionnelle « en direction du premier
facteur »
D1 f (x, y)v := ∂(v,0) f (x, y)
existe et dépend de façon continue de ((x, y), v), i.e., l’application
U × V1 → W, ((x, y), v) 7→ D1 f (x, y)v
est continue. De même, on dit que f est C 1 par rapport à la deuxième
variable si, pour tout w ∈ V2 , ∂(o,w) f (x, y) existe, et l’application
U × V2 → W, ((x, y), w) 7→ D2 f (x, y)w := ∂(0,w) f (x, y)
est continue.

2.2. Théorème. Avec les notations introduites ci-dessus, sont équiva-


lentes :
(1) f est de classe C 1 .
(2) f est C 1 par rapport à la première et à la deuxième variable.
Sous ces conditions, la différentielle de f au point (x, y) ∈ U est donnée
par
Df (x, y)(v, w) = D1 f (x, y)v + D2 f (x, y)w.

Démonstration. Supposons (1). Alors ∂(v,0) f (x, y) = f [1] ((x, y), (v, 0), 0)
existe et est continue en fonction de (x, y, v), et de même en deuxième
variable. De plus, par linéarité de Df (x, y),
Df (x, y)(v, w) = Df (x, y)((v, 0) + (0, w))
= Df (x, y)(v, 0) + Df (x, y)(0, w)
= D1 f (x, y)v + D2 f (x, y)w.

Supposons (2). Alors, pour t 6= 0, nous calculons la pente de f en deux


étapes, en se déplaçant d’abord en direction du premier « axe », puis en se
déplaçant en direction du deuxième « axe ». Ensuite, on applique à chaque
2. Dérivées partielles et matrice jacobienne 51

terme la réprésentation intégrale (lemme 6 -2.2) :


f ((x, y) + t(v, w)) − f (x, y) f (x + tv, y + tw) − f (x, y)
=
t t
f (x + tv, y + tw) − f (x + tv, y) f (x + tv, y) − f (x, y)
= +
t t
Z 1 Z 1
= ∂(0,v) f (x + tv, y + stw) ds + ∂(0,w) f (x + stv, y) ds
0 0

Suite à l’hypothèse, pour les deux intégrales, l’intégrand est une fonction
continue de ((x, y), (v, w), t, s), et donc (d’après le lemme sur les intégrales
à paramètres, lemme 5 -3.3) le membre de droite est une fonction continue
de ((x, y), (v, w), t), et donc f est C 1 . 

Si U est un ouvert dans un produit de n espaces vectoriels, nous dirons que


f est C 1 par rapport à la i-ième variable, pour i = 1, . . . , n, si les dérivées
directionnelles ∂(0,...,vi ,...,0) f (x1 , . . . , xn ) existent et si l’application
U × Vi → W, (x1 , . . . , xn , vi ) 7→ ∂(0,...,vi ,...,0) f (x1 , . . . , xn )
est continue. On écrit alors
Di f (x1 , . . . , xn )vi := ∂(0,...,vi ,...,0) f (x1 , . . . , xn ).
Par une application répétée du théorème précédent, nous obtenons

2.3. Corollaire. Soit U ⊂ V1 × . . . × Vn ouvert et f : U → W . Alors f


est de classe C 1 si et seulement si f est C 1 par rapport à chacune des n
variables, et alors
n
X
Df (x1 , . . . , xn )(v1 , . . . , vn ) = Dj f (x1 , . . . , xn )vj .
j=1

Une spécialisation au cas Rn = R × . . . × R donne le critère suivant pour


une fonction d’être de classe C 1 :

2.4. Théorème. Une application f : Rn ⊃ U → Rm est de classe C 1 si


et seulement si toutes les dérivées partielles ∂i f : U → Rm existent et sont
continues, i = 1, . . . , n. Alors
n
X ∂
Df (x)v = f (x)vj .
j=1
∂xj

Démonstration. Nous sommes dans la situation du corollaire avec Vi = R


52 7. La classe C 1 – exemples et règles de calcul

pour chaque i. Dans ce cas,


Dj f (x1 , . . . , xn )vj = ∂(0,...,0,vj ,0,...,0) f (x)

= vj ∂(0,...,0,1,0,...,0) f (x) = f (x)vj ,
∂xj
et donc f est C 1 par rapport à la i-ième variable si et seulement si la dérivée
partielle ∂i f existe et est continue. 
Pn ∂
2.5. Remarque. L’expression j=1 ∂x j
f (x)vj n’est rien d’autre que le
calcul de Df (x)v sous forme de produit matriciel de la matrice jacobienne
Jf (x) avec le vecteur v ∈ Rn :
X
(Df (x)v)i = ∂j fi (x) · vj = Jf (x) · v.
j
53

Chapitre 8

Les classes C k , k > 2

Comme dans le cas de fonctions d’une variable, on définit les classes C k ,


k > 1, par récurrence : on dit que f est deux fois continûment dérivable,
ou simplement : de classe C 2 , si elle est de classe C 1 et sa dérivée Df
est, elle aussi, de classe C 1 , de sorte qu’on peut définir D(Df ), et ainsi
de suite. Mais, alors que dans le cas d’une variable, les dérivées successives
d’une courbe sont toujours des courbes, dans le cas de plusieurs variables
les choses se compliquent : pour U ⊂ Rm , m > 1, les dérivées supérieures
d’une application f : U → W ne sont plus des applications U → W .

1. La dérivée seconde

1.1. Définition. Une application f : U → W est dite de classe C 2 si elle


est C 1 , et si, pour tout v ∈ V , l’application ∂v f : U → W est C 1 . Cela veut
dire : pour tout w ∈ V et x ∈ U fixés, la dérivée directionnelle seconde
∂v f (x + tw) − ∂v f (x)
∂w (∂v f )(x) = lim
t→0 t
existe, et l’application
U × V → W, (x, w) 7→ ∂w (∂v f )(x)
est continue.

1.2. Théorème. Les propriétés suivantes sont équivalentes :


(1) f est de classe C 2
(2) Pour i, j ∈ {1, . . . , n}, les dérivées partielles ∂j f et les dérivées par-
tielles mixtes ∂i ∂j f existent et sont continues.

– 53 –
54 8. Les classes C k , k > 2

(3) f est de classe C 1 , et l’application U × V → W , (x, v) 7→ ∂v f (x) est


C 1.
(4) f est de classe C 1 , et l’application Df : U → Hom(V, W ), x 7→ Df (x)
est C 1 .
(5) f est de classe C 1 , et l’application f [1] : U [1] → W est de classe C 1 .
Démonstration. (1) ⇒ (2) : Prendre v = ej et w = ei dans la définition de
la classe C 2 .
(2) ⇒ (3) : En utilisant le théorème 7 -2.4, on déduit d’abord que f est de
classe C 1 . L’hypothèse implique que l’application U × V → W , (x, v) 7→
∂v f (x) admet des dérivées partielles continues, et donc, toujours en vertu
du théorème 7 -2.4, elle est de classe C 1 .
(3) ⇒ (5) : Nous utilisons la représentation intégrale de la pente
Z 1
f [1] (x, v, t) = ∂v f (x + stv)ds.
0

Nous devons démontrer que f [1] est de classe C 1 . Suite à l’hypothèse, l’in-
tégrand est une fonction C 1 des variables (x, v, s, t). Pour conclure que
l’intégrale est une fonction C 1 des variables (x, v, t), on applique le lemme
suivant :

1.3. Lemme. (Intégrale à paramètres : bis.) Soit D ⊂ Rn ouvert, I un


ouvert de R qui contient l’intervalle compact [a, b] et f : I × D → Rm de
classe C 1 . Alors la fonction
Z b
m
g : D → R , x 7→ f (u, x) du
a
1
est de classe C . De plus, « on peut dériver sous le signe intégrale » :
Z b Z b
∂v f (u, x) du = ∂(0,v) f (u, x) du .
a a

Preuve du lemme. On écrit la pente de g, pour t 6= 0,


Z b
g(x + tv) − g(x) f (u, x + tv) − f (u, x)
= du
t a t
Z b
= f [1] ((u, x), (0, v), t) du
a

L’intégrand se prolonge en une fonction continue de (u, x, v, t), pour t =


0 inclus, car f est C 1 , et donc le lemme sur les intégrales à paramètres
(lemme 5 -3.3) implique que le membre de droite est une fonction continue
1. La dérivée seconde 55

de (x, v, t) ∈ D[1] si t est suffisamment petit. Ainsi la pente de g se prolonge


en une fonction continue de (x, v, t), ce qui signifie que g est de classe C 1 .
De plus, pour t = 0 on obtient
Z b Z b
[1]
∂v g(x) = f ((u, x), (0, v), 0) du = ∂(0,v) f (u, x) du,
a a

et le lemme est prouvé.


(5) ⇒ (1) : Si f [1] est de classe C 1 , alors l’application x 7→ ∂v f (x) =
f [1] (x, v, 0) étant la restriction d’une application C 1 , est elle-même de classe
C 1 (cf. section 7 -1 (11)).
(2) ⇔ (4) : Rappelons que Df : U → M (m, n; R) est C 1 si et seulement
si toutes ses composantes ∂j f (j = 1, . . . , n) le sont. Or, chacune de ces
composantes est C 1 si et seulement si elle admet des dérivées partielles
continues (th. 7 -2.4), et cela signifie que toutes les dérivées partielles se-
condes ∂i ∂j f existent et sont continues. 

1.4. Théorème. (Différentielle de la différentielle.) Si f est de classe C 2 ,


la différentielle Df : U → Hom(V, W ) est de classe C 1 , et la différentielle
de la différentielle,
D(Df ) : U → Hom(V, Hom(V, W )),
est donnée, en un point x ∈ U , par les dérivées directionnelles secondes :
  
D(Df ) (x)v w = ∂v ∂w f (x).

Démonstration. Nous avons déjà vu ci-dessus que Df est de classe C 1 . Par


définition, sa différentielle au point x est donnée par
 Df (x + tv) − Df (x)
D(Df ) (x)v = lim ,
t→0 t
ce qui donne, appliqué à un vecteur w ∈ V (le lecteur justifiera le deuxième
signe égalité !),
    Df (x + tv) − Df (x) 
D(Df ) (x)v w = lim w
t→0 t
Df (x + tv)w − Df (x)w
= lim
t→0 t
∂w f (x + tv) − ∂w f (x)
= lim
t→0 t
= ∂v ∂w f (x)
car ∂w f est de classe C 1 . On a donc ((D(Df ))(x)v)w = ∂v ∂w f (x). 
56 8. Les classes C k , k > 2

1.5. Définition. Nous définissons la différentielle seconde de f au point


x ∈ U par
D2 f (x) : V × V → W, (v, w) 7→ ∂v ∂w f (x).

 que cette application est bilinéaire : en ef-


Le théorème précédent implique

fet, l’expression D(Df ) (x)v w est linéaire en v et en w car D(Df ) (x)
appartient à Hom(V, Hom(V, W )).

2. Symétrie

2.1. Théorème. (Lemme de Schwarz) Si f : U → W est de classe C 2 ,


alors, pour tout x ∈ U et u, v ∈ V ,
∂w ∂v f (x) = ∂v ∂w f (x).
La différentielle seconde D2 f (x) est donc une application bilinéaire symé-
trique de V × V dans W .
Démonstration. Comme f est C 2 , la « pente de la pente » f [2] := (f [1] )[1]
existe, et c’est une application continue définie sur l’ouvert U [2] := (U [1] )[1]
à valeurs dans W . Nous allons exprimer les dérivées directionnelles secondes
à l’aide de l’application f [2] , et en exploitant une symétrie de f [2] nous en
déduirons l’énoncé. Commençons par écrire
∂v f (x + tw) − ∂v f (x)
∂w ∂v f (x) = lim
t→0 t
 f (x + tw + sv) − f (x + tw) − f (x + sv) + f (x) 
= lim lim .
t→0 s→0 ts
En appliquant deux fois la définition de la pente, on trouve pour s, t 6= 0,
f (x + sv + tw) − f (x + tw) − f (x + sv) + f (x)
ts
1  [1]  
= f (x + tw, v, s) − f [1] (x, v, s) = f [2] (x, v, s), (w, 0, 0), t .
t
Bien entendu, le même genre de calcul donne également la relation
f (x + sv + tw) − f (x + sv) − f (x + tw) + f (x)
ts
1  [1]  
= f (x + sv, w, t) − f [1] (x, w, t) = f [2] (x, w, t), (v, 0, 0), s ,
s
et donc
 
f [2] (x, v, s), (w, 0, 0), t = f [2] (x, w, t), (v, 0, 0), s .
2. Symétrie 57

Comme f [2] est continue et cette égalité a lieu pour tout t, s 6= 0, elle reste
vraie, par densité, aussi pour t = s = 0 :
 
f [2] (x, v, 0), (w, 0, 0), 0 = f [2] (x, w, 0), (v, 0, 0), 0
Or, en vue de la continuité de f [2] , le calcul fait au début de la preuve
signifie que

∂w ∂v f (x) = lim lim f [2] (x, v, s), (w, 0, 0), t
t→0 s→0

= f [2] (x, v, 0), (w, 0, 0), 0 ,
et ainsi ∂w ∂v f (x) = ∂v ∂w f (x). 

2.2. Remarque. On peut reformuler le théorème 8 -1.4 en disant que les


deux applications
D(Df ) : U → Hom(V, Hom(V, W )),
D2 f : U → Bil(V × V, W )
(où Bil(E × F, G) est l’espace des applications bilinéaires b : E × F →
G) sont « les mêmes ». Plus formellement, cela veut dire : on sait que
l’application
 
Hom(V, Hom(V, W )) → Bil(V × V, W ), A 7→ b := (u, v) 7→ (A(u))(v)

est un isomorphisme d’espaces vectoriels (son inverse est donné en associant


à b l’application A : V → Hom(V, W ) donnée par (A(u))(v) = b(u, v) ; c’est
un « isomorphisme canonique », qui existe aussi en dimension quelconque
et sur des corps quelconques). Si l’on identifie les deux espaces vectoriels
Hom(V, Hom(V, W )) et Bil(V × V, W ) par cet isomorphisme, alors les ap-
plications D(Df ) et D2 f s’identifient elles aussi. Mais, attention, il existe
aussi un autre isomorphisme canonique du même genre, en échangeant les
rôles de u et de v :
 
Hom(V, Hom(V, W )) → Bil(V × V, W ), A 7→ (u, v) 7→ (A(v))(u) .

Le lemme de Schwarz dit précisément qu’il est sans importance lequel des
deux isomorphismes canoniques nous utilisons.

2.3. Définition. Soit f : U → R une fonction scalaire de classe C 2 . D’après


le lemme de Schwarz, D2 f (x) : V × V → R est une forme bilinéaire sy-
métrique. La matrice de cette forme, par rapport à la base canonique de
V = Rn , est appelée la matrice hessienne (de f au point x), notée parfois
Hf (x),
(Hf (x))i,j=1,...,n = (D2 f (x)(ei , ej ))i,j=1,...,n = (∂i ∂j f (x))i,j=1,...,n .
58 8. Les classes C k , k > 2

C’est donc la matrice des dérivées partielles secondes, qui est une matrice
symétrique, et on peut exprimer D2 f (x) par cette matrice via
X X
D2 f (x)(u, v) = Hij ui vj = ui vj ∂i ∂j f (x)
i,j i,j

(exercice ??). Noter aussi que, dans le cas d’une seule variable (n = 1),
la matrice hessienne est une matrice 1 × 1 qui s’identifie avec la dérivée
seconde usuelle f 00 (x).

3. La classe C k
La définition de la classe C k se fait par récurrence : nous dirons que f :
U → W est k + 1 fois continûment différentiable ou de classe C k+1 , si f
est de classe C k , et si, pour toute famille v1 , . . . , vk de vecteurs de V , la
dérivée directionelle itérée

∂v1 (. . . ∂vk f ) : U → W

existe et est encore de classe C 1 . Nous dirons que f est lisse ou de classe
C ∞ si elle est de classe C k pour tout k ∈ N. Par récurrence, le théorème
8 -1.2 implique :

3.1. Théorème. Soit k ∈ N. Pour une application f : U → W sont


équivalentes :

(1) f est de classe C k .

(2) Pour tout i1 , . . . , ik ∈ {1, . . . , n}, les dérivées partielles itérées

∂i1 . . . ∂ik f : U → W

existent et sont continues.

(3) Pour tout v1 , . . . , vk ∈ V , ∂v1 (. . . ∂vk f ) : U → W existe, et l’applica-


tion

V × . . . × V × U → W, (v1 , . . . , vk , x) 7→ ∂v1 (. . . ∂vk f )(x)

est continue.

(4) f est de classe C 1 , et Df : U → Hom(V, W ) est de classe C k−1 .

(5) f est de classe C 1 , et f [1] : U [1] → W est de classe C k−1 .


3. La classe C k 59

3.2. Définition. Le résultat précédent permet de définir, par récurrence,


les ensembles U [k] := (U [k−1] )[1] et la pente itérée1
f [k] := (f [k−1] )[1] : U [k] → W ;
cette application est continue si f est C k . Nous définissons également la
dérivée k e de f au point x par
Dk f (x) : V k → W, (v1 , . . . , vk ) 7→ ∂v1 · · · ∂vk f (x).
Par récurrence, le lemme de Schwarz implique :

3.3. Théorème. Soit f de classe C k , k ∈ N. Alors l’application Dk f (x) :


V k → W est k-fois multilinéaire et symétrique.

Également par récurrence, le théorème 8 -1.4 implique que l’application


Dk f : x 7→ Dk f (x) s’identifie avec les différentielles itérées, définies par
récurrence via
Dk f := D(Dk−1 f ) : U → Hom(V, Hom(V, . . . , Hom(V, W ))).
Finalement, nous avons la règle de composition :

3.4. Théorème. (Règle de composition C k .) Soient Vi , i = 1, 2, 3 des


espaces vectoriels de dimension finie, U1 ⊂ V1 et U2 ⊂ V2 des ouverts et
soient f : U1 → U2 et g : U2 → V3 des applications de classe C k , avec
k ∈ N ou k = ∞. Alors g ◦ f : U1 → V3 est aussi de classe C k .
Démonstration. Par récurrence : le cas k = 1 est l’énoncé du théorème
6 -3.4. On a vu dans la preuve de ce théorème que
(g ◦ f )[1] (x, y, t) = g [1] (f (x), f [1] (x, y, t), t) .
Ainsi, si f et g sont de classe C k , alors (g ◦ f )[1] est une composée d’appli-
cations de classe C k−1 ; en utilisant l’hypothèse de récurrence, on conclut
que c’est une application de classe C k−1 . Le point (5) du théorème 8 -3.1
montre qu’alors g ◦ f est de classe C k . 

3.5. Remarque. Pour k = 2, nous avons la formule explicite suivante pour


calculer la différentielle Dk (g ◦ f )(x) en termes des différentielles de g et de
f (exercice ?? ; cf. exercice ?? pour le cas général) :
D2 (g ◦ f )(x) = Dg(f (x)) ◦ D2 f (x) + D2 g(f (x)) ◦ (Df (x) × Df (x)).
1 Qu’il soit permis d’ajouter ici une remarque personnelle : la pente itérée f [k] est

un objet d’une complexité énorme [le nombre de variables est de 2k+1 − 1] que, au jour
d’aujourd’hui, personne ne comprend vraiment. Ou, tout au moins, l’auteur de ces lignes
ne le prétend pas.
60 8. Les classes C k , k > 2

3.6. Exemple. Les applications polynomiales f : V → W sont de classe


C ∞ . On peut se convaincre de ce fait par récurrence, en observant que
les dérivées partielles d’une application polynomiale sont toujours polyno-
miales et en appliquant le point (2) du théorème 8 -3.1, ou en constatant
que la différentielle Df : V → Hom(V, W ) est encore polynomiale (exercice
??).
On vérifie également que l’inversion matricielle est C ∞ (exercice ??), et on
en déduit que les applications rationnelles sont C ∞ .

3.7. Remarque. (Expression en coordonnées.) Tout comme la diffé-


rentielle seconde s’exprime à l’aide de coefficients de la matrice hessienne
(définition 8 -2.3), on peut également exprimer les différentielles Dk f (x) à
l’aide des dérivées partielles mixtes d’ordre k – voir l’exercice ??. Il convient
aussi de remarquer que, dans le cas n = 1 (cas des courbes), tout cela se
simplifie considérablement : dans ce cas, un seul coefficient contient déjà
toute l’information – c’est la dérivée k-ième usuelle
f (k) (t) = ∂1 . . . ∂1 f (t) = Dk f (t)(1, . . . , 1).

3.8. Remarque. (Expression de la différentielle par la dérivée


d’une courbe.) Soit f : U → W une application de classe C k et défi-
nissons la courbe γ : I → W par γ(t) = f (x + tv) (cf. début du chapitre 6).
Alors
f (x + (t + s)v) − f (x + tv)
γ 0 (t) = lim = Df (x + tv)v = ∂v f (x + tv).
s→t s
En appliquant le même raisonnement, avec ∂v f au lieu de f , et ainsi de
suite, on trouve
γ 00 (t) = ∂v ∂v f (x + tv) = D2 f (x + tv)(v, v),
...
γ (k) (t) = (∂v )k f (x + tv) = Dk f (x + tv)(v, . . . , v),
et donc
γ (k) (0) = Dk f (x)(v, . . . , v) .
La connaissance de ces valeurs pour v ∈ V est déjà suffisante pour connaître
Dk f (x) entièrement car on peut toujours retrouver une application multili-
néaire symétrique m(v1 , . . . , vk ) à partir des valeurs m(v, . . . , v) (exercice
??).
61

Chapitre 9

La formule de Taylor

La formule de Taylor classique en une variable donne une approximation


d’une fonction de classe C k par un polynôme p au voisinage d’un point x0 :
1 1
f (x0 + h) = f (x0 ) + f 0 (x0 )h + f 00 (x0 )h2 + . . . + f (j) (x0 )hj +Rj (h).
2 j!
| {z }
=:p(h)

Par exemple, si j = 1, il s’agit d’approcher f par la tangente du graphe de


f au point (x0 , f (x0 )). La question se pose alors de mesurer la qualité de
cette approximation (sans quoi la formule serait complètement inutile : elle
dit tout simplement que le reste est défini par Rj (h) = f (x0 + h) − p(h)).
Une première réponse est donnée par la représentation intégrale du terme
reste :
j Z
X f (i) (x0 ) i hj+1 1
f (x0 + h) = h + (1 − s)j f (j+1) (x0 + sh) ds.
i=0
i! j! 0

(Le lecteur se souviendra que la preuve de cette formule consiste simplement


en une intégration par parties répétée : cf. l’exercice ??.) On en déduit une
deuxième réponse par la majoration
Z j+1
hj+1 1 |h|
|Rj (h)| = | (1−s)j f (j+1) (x+sh) ds| 6 max |f (j+1) (y)| ,
j! 0 j! y∈[x0 ,x0 +h]
qui implique que le reste est « négligeable envers le terme polynomial » :
Rj (h)
limh→0 |h| j = 0. Dans ce chapitre, on verra que ces faits se généralisent
de manière directe au cas de plusieurs variables.

– 61 –
62 9. La formule de Taylor

1. Développement à l’ordre 0
Commençons par une remarque triviale : Une application f est continue au
point x0 , si et seulement si on peut écrire f (x0 + h) = f (x0 ) + R(h), avec
un terme reste tel que limh→0 R(h) = 0. C’est un développement de f à
l’ordre 0 . Si f est de classe C 1 , et par rapport à des normes sur V et sur W ,
on peut rendre ce développement plus précis, en utilisant la représentation
R1
intégrale f (x0 + h) = f (x0 ) + 0 Df (x0 + sh)h ds :
Z 1
||R(h)|| =||f (x0 + h) − f (x0 )|| = || Df (x0 + sh)hds||
0
Z 1
6 ||Df (x0 + sh)h||ds (théorème 5 -2.4)
0
Z 1
6 ||Df (x0 + sh)|| · ||h||ds (norme d’opérateur)
0
Z 1
= ||Df (x0 + sh)||ds · ||h||
0
6 ||h|| · sup ||Df (x0 + sh)||.
s∈[0,1]

Pour pouvoir appliquer le théorème 5 -2.4, nous devrions supposer que la


norme utilisée sur W est euclidienne ; mais comme mentionné en remarque
5 -2.5, ce résultat reste vrai pour une norme quelconque. Nous pouvons donc
résumer :

1.1. Théorème. (Formule de la moyenne.) Fixons des normes sur V = Rn


et sur W = Rm . Soit f : U → W de classe C 1 , soient x ∈ U et y = x0 +h ∈
U tel que le segment [x0 , y] soit dans U . Alors on a

||f (x0 + h) − f (x0 )|| 6 ||h|| · sup ||Df (x0 + sh)||.


s∈[0,1]

Il s’ensuit que f est C-lipschitzienne sur toute boule B r (x0 ) qui est contenue
dans U , avec constante de Lipschitz

C= max ||Df (y)|| .


y∈B r (x0 )

Démonstration. Seulement la dernière affirmation reste à prouver. Or, c’est


une conséquence immédiate de ce qui précède car sups∈[0,1] ||Df (x0 +sh)|| 6
C. (Comme Df est continue sur la boule fermée B r (x0 ), ce maximum
existe.) 
2. Développement à l’ordre 1 63

2. Développement à l’ordre 1
Si f est de classe C 1 , nous pouvons écrire, comme ci-dessus,
Z 1
f (x0 + h) = f (x0 ) + Df (x0 )h + Df (x0 + sh)h − Df (x0 )h ds,
0
R1
et en nous pouvons majorer le reste φ(h) = 0
(Df (x0 + sh) − Df (x0 ))h ds
de la même façon :
Z 1
||φ(h)|| = ||f (x0 + h) − f (x0 ) − Df (x0 )h|| = || (Df (x0 + sh) − Df (x0 ))hds||
0
Z 1
6 ||(Df (x0 + sh) − Df (x0 ))h|| ds (théorème 5 -2.4)
0
Z 1
6 ||Df (x0 + sh) − Df (x0 )|| · ||h||ds (norme d’opérateur)
0
Z 1
= ||Df (x0 + sh) − Df (x0 )||ds · ||h||
0
6 ||h|| · sup ||Df (x0 + sh) − Df (x0 )||.
s∈[0,1]

Puisque f est C 1 , Df est continue, et ainsi


sup ||Df (x0 + sh) − Df (x0 )|| → 0 (h 7→ 0).
s∈[0,1]

Ceci prouve

2.1. Théorème. (Formule de Taylor-Young à l’ordre 1.) Si f : U → W


est de classe C 1 , alors pour x0 , x0 + h ∈ U ,
f (x0 + h) = f (x0 ) + Df (x0 )h + φ(h),
avec une application φ définie dans un voisinage de 0 qui satisfait (par
rapport à n’importe quelle norme sur W ) la relation limh→0 φ(h)
||h|| = 0.

3. Développement à l’ordre > 2


Soit f : U → W de classe C k . On fixera le « point de développement »
x0 ∈ U pour toute la suite. Alors, pour j = 1, 2, . . . , k le j e polynôme de
Taylor (de f au point x0 ) est défini par
1 1
Tj (h) := f (x0 ) + Df (x0 )h + D2 f (x0 )(h, h) + · · · + Dj f (x0 )(h, . . . , h)
2 j!
j
X 1 i
= D f (x0 )(h, . . . , h).
i=0
i!
64 9. La formule de Taylor

(Il s’agit bien d’une application polynomiale : cf. le point (6) de la section
7 -1.) Nous définissons aussi le terme reste d’ordre j par
Rj (h) := f (x0 + h) − Tj (h),
de sorte que f (x0 +h) = Tj (h)+Rj (h). Bien entendu, le polynôme de Taylor
et le terme reste dépendent de x0 ; s’il faut faire apparaître cette dépendence
dans la notation, nous écrivons Tjx0 et Rjx0 . Le théorème de Taylor donne
une représentation intégrale du terme reste et décrit son comportement
lorsque h tend vers 0.

3.1. Théorème. (Théorème de Taylor.) Soit f : U → W une application


de classe C k , et utilisons les notations introduites ci-dessus.
(i) Pour j = 0, . . . , k − 1, le reste admet la représentation intégrale
Z
1 1 
Rj (h) = (1 − s)j Dj+1 f (x0 + sh) (h, . . . , h) ds,
j! 0
et pour j = 1, . . . , k, il admet la représentation intégrale
Z 1
1 
Rj (h) = (1 − s)j−1 Dj f (x0 + sh) − Dj f (x0 ) (h, . . . , h) ds.
(j − 1)! 0
(ii) Par rapport à n’importe quelle norme sur V , le terme reste Rj (h) est
négligeable envers ||h||j : pour j = 0, . . . , k,
Rj (h)
lim = 0.
h→0 ||h||j

Démonstration. (i) La deuxième représentation intégrale est une simple


conséquence de la première, en observant que
1 j
Rj (h) = Rj−1 (h) − D f (x0 )(h, . . . , h)
j!
R1
et que 0 (1 − s)j−1 ds = 1j . Pour démontrer la première formule, supposons
d’abord que f est une fonction réelle d’une variable, i.e., n = m = 1.
Dans ce cas, Dj f (x)(h, . . . , h) = f (j) (x)hj , et la formule de Taylor avec
terme reste intégral est précisément la formule classique citée au début de
ce chapitre.
Ensuite, supposons que n = 1, m quelconque, i.e., f est une courbe I →
Rm . Rappellons qu’alors (Dj f (x))(h, . . . , h) = f (j) (x)hj (remarque 8 -3.7),
(j) (j)
et que la dérivée usuelle f (j) est le vecteur de composantes (f1 , . . . , fm )
(chapitre 5). Ainsi, la formule de Taylor pour f s’obtient simplement en
appliquant la formule de Taylor du cas n = m = 1 à chaque composante
fi : I → R, i = 1, . . . , m.
3. Développement à l’ordre > 2 65

Finalement, soient n et m quelconques. On considère la courbe γ(t) =


f (x0 + th). On écrit la formule de Taylor pour cette courbe à l’origine
(cas précédent), on pose ensuite t = 1, et en observant que γ (k) (0) =
Dk f (x0 )(h, . . . , h) (comme expliqué dans la remarque 8 -3.8), on trouve la
formule de Taylor pour f .
(ii) On utilise la deuxième formule de la partie (i), et on procède exacte-
ment comme dans la preuve du théorème 8 -2.1. Dans la troisième ligne du
calcul qui suit, on utilisera la norme ||A|| d’une application multilinéaire
A : V j → W , vue comme élément de Hom(V, Hom(. . . Hom(V, W ))) ; c’est
donc une norme d’opérateur itérée, et des propriétés connues de la norme
Qj
d’opérateur on déduit que ||A(v1 , . . . , vj )|| 6 ||A|| i=1 ||vi ||, cf. exercice
??. En utilisant cette inégalité en passant à la troisième ligne, on obtient :
Z 1
j 1
||Rx0 (h)|| = || (1 − s)j (Dj f (x0 + sh) − Dj f (x0 ))(h, . . . , h)ds||
j! 0
Z
1 1
6 ||(Dj f (x0 + sh) − Dj f (x0 ))(h, . . . , h)||ds
j! 0
Z
1 1
6 ||Dj f (x0 + sh) − Dj f (x0 )|| · ||h||j ds
j! 0
Z
1 1
= ||Dj f (x0 + sh) − Dj f (x0 )||ds · ||h||j
j! 0
1
6 ||h||j · sup ||Dj f (x0 + sh) − Dj f (x0 )||
j! s∈[0,1]

et, par continuité de Dj f , nous avons


 
lim sup ||Dj f (x0 + sh) − Dj f (x0 )|| = 0 . 
h→0 s∈[0,1]

3.2. Remarque. (Comportement asymptotique du terme reste.)


Comme dans le cas de fonctions d’une variable réelle, concernant le com-
portement du terme reste de Taylor Rk (h), on peut poser deux questions
de nature « asymptotique » :
(a) Quel est son comportement lorsque h tend vers 0 ? Si f est C k , la
réponse est fournie par la partie (ii) du théorème de Taylor (qu’on appelle
aussi la formule de Taylor-Young). Plus généralement, même si f n’est pas
supposée C k , on s’intéresse à des applications ayant la propriété décrite
par la formule de Taylor-Young : cela nous amène à introduire la notion de
développement limité, voir la définition ci-dessous et le chapitre ??.
(b) Quel est son comportement (si f est supposée C ∞ ) lorsque k tend
vers l’infini ? Est-ce qu’il tend toujours vers 0, c’est-à-dire, l’approximation
66 9. La formule de Taylor

Tk f (h) converge-t-elle toujours vers f (x0 + h) ? Malheureusement, ce n’est


pas toujours le cas : un contre-exemple notoire est donné en exercice ??. Les
« bonnes » fonctions, pour lesquelles la réponse est positive, sont appelées
analytiques et feront l’objet du chapitre ??.

3.3. Définition. Soient V et W des e.v.n et f : U → W une application


(que nous ne supposons pas différentiable ou continue). Nous dirons que f
admet un développement limité (d.l.) d’ordre k au point x0 ∈ U si on peut
écrire
f (x0 + h) = p(h) + Rk (h),

p(h) = a0 (h) + a1 (h) + a2 (h) + . . . + ak (h)
est un polynôme continu de degré k (cela veut dire que aj (h) = mj (h, . . . , h)
avec une application continue j-fois multilinéaire mj : V j → W , cf. la
section 7 -1, points (6) et (6’)), et le terme reste satisfait la condition
Rk (h)
lim = 0. (3.1)
h→0 ||h||k
Nous reviendrons plus sytématiquement au sujet des développements limi-
tés dans le chapitre ??. Pour le moment, constatons seulement qu’un tel
développement, s’il existe, est unique. En particulier, si f est C k , il s’ensuit
que, nécessairement, on a ai (h) = i!1 Di f (x0 )(h, . . . , h).

3.4. Théorème. (Unicité du développement.) Si f : U → W admet un


développement limité au point x0 ∈ U , alors ce développement est unique.
Démonstration. Notons bj et Sk les coefficients d’un deuxième développe-
ment limité :
k
X k
X
f (x0 + h) = ai (h) + Rk (h) = bi (h) + Sk (h)
i=1 i=1

avec limh→0 R||h||


k (h)
k = 0 = limh→0 S||h||
k (h)
k . En posant h = 0, on trouve le

terme constant b0 (h) = f (x0 ) = a0 (h) (car Rk (0) = 0 = S k (0)). Ensuite,


en remplaçant h par th (où t appartient à un intervalle I contenant 0) nous
trouvons, après division par t, si t 6= 0,
k k
X Rk (th) X j−1 S k (th)
tj−1 aj (h) + = t bj (h) + .
j=1
t j=1
t
k k
Puisque limt→0 R (th)
t = 0 = limt→0 S (th) t , on peut passer à la limite t → 0
aux deux cotés, ce qui donne b1 (h) = a1 (h). En itérant ce procédé, on trouve
bj (h) = aj (h) pour tout j = 0, . . . , k, d’où finalement S k (h) = Rk (h). 
67

Chapitre 10

Analyse vectorielle

Après avoir développé la théorie générale des applications différentiables,


arrêtons-nous un instant pour évoquer les cas les plus importants d’appli-
cation de cette théorie : ce sont sans doute les fonctions scalaires f : U → R
(où U est un ouvert de Rn ) d’une part, et les courbes γ : R → U d’autre
part, ainsi que tout objet lié de manière directe à ces deux types d’ap-
plications. Il existe une dualité remarquable entre les fonctions scalaires
et les courbes : formellement, on obtient l’une en renversant la flèche de
l’autre (U → R et R → U ). Ainsi, la différentielle Df (x) : V → R d’une
fonction scalaire est une forme linéaire, i.e., elle appartient à l’espace dual
V ∗ = HomR (V, R) de V , tandis que la différentielle γ 0 (t) = Dγ(t)1 d’une
courbe est un élément de V lui-même. Puisque la dualité (ici : celle entre V
et V ∗ ) est un traît profond des mathématiques, nous organisons ce chapitre
autour de cet aspect.

1. Champs de vecteurs

1.1. Définition. Soit U un ouvert de V . Un champ de vecteurs de classe C k


est une application X : U → V de classe C k . Nous notons X(U ) l’ensemble
des champs de vecteurs de classe C ∞ sur U .

Si V = Rn , un champ de vecteurs associe donc à chaque point de U un


vecteur colonne. Pour représenter graphiquement un champ de vecteurs,
on fait un dessin du domaine U , et pour un choix suffisamment générique
de points x ∈ U , on dessine le vecteur X(x) sous forme d’une flèche fixée
en x. Voici l’exemple des champs X(x1 , x2 ) = (−x2 , 2x1 ) et X(x1 , x2 ) =
(x1 + x2 , x1 − x2 ) :

– 67 –
68 10. Analyse vectorielle

[inserer graphique !]

Les champs de vecteurs sont directement liés aux courbes : en regardant le


dessin d’un champ de vecteurs, on a immédiatement envie de le compléter
par des courbes qui « suivent le champ » dans le sens que, en chaque point
γ(t), le vecteur vitesse γ 0 (t) de la courbe coïncide avec le vecteur X(γ(t))
du champ. On les appelle courbes intégrales du champ :

1.2. Définition. Soit X : U → V un champ de vecteurs sur U . Une courbe


intégrale de X est une courbe γ : I → U de classe C 1 telle que, pour tout
t ∈ I, on a γ 0 (t) = X(γ(t)).

1.3. Problème de calcul intégral relatif aux champs de vecteurs.


Etant donné un champ de vecteurs X : U → V et un point p ∈ U , peut-on
trouver une courbe intégrale γ : I → U de X telle que γ(0) = p ? Autrement
dit, si V = Rn , peut-on trouver une courbe γ telle que
∀i = 1, . . . , n : γi0 (t) = Xi (γ(t)) ?
Si oui, que peut-on dire de ces courbes ? Nous ne discutons pas ici la solution
de ces problèmes qui fait l’objet de la théorie des équations différentielles
ordinaires et des systèmes dynamiques et qui est trai tée dans de nombreux
ouvrages, voir par exemple, [4], chapitres 7 et 8.

2. Les 1-formes
Si f : U → R est une fonction de classe C 1 , alors sa dérivée Df : U → V ∗
n’est pas un champ de vecteurs car elle prend ses valeurs dans l’espace dual
V ∗ et non dans V . On dira qu’elle est une 1-forme :
3. Gradients 69

2.1. Définition. Une 1-forme de classe C k sur V est une application


ω : U → V ∗ de classe C k , où V ∗ = HomR (V, R) est l’espace dual de V .
On dira que ω est exacte s’il existe une fonction f de classe C k+1 (dite une
primitive) telle que ω = Df .

Par convention, on écrit souvent hφ, vi au lieu de φ(v) pour une forme
linéaire φ ∈ V ∗ et un vecteur v ∈ V , et ainsi on écrit hω(x), vi au lieu de
(ω(x))(v). Si V = Rn (autrement dit, si on fixe une base dans V ), alors
ω(x) : Rn → R est une matrice ligne, et hω(x), vi est un produit « matrice
ligne × matrice colonne » :
ω(x) = (ω(x)e1 , . . . , ω(x)en ) =: (ω1 (x), . . . , ωn (x)),
X
hω(x), vi = ωi (x)vi .
i

Ainsi on peut dire qu’une 1-forme associe à chaque point de U un vecteur


ligne. Cette forme est exacte s’il existe une fonction f telle que ωi (x) =
∂i f (x) pour i = 1, . . . , n.

2.2. Problème de calcul intégral relatif aux formes. Étant donnée


une 1-forme ω : U → V ∗ , peut-on trouver une primitive de ω ? Si oui, quel
est l’ensemble de toutes les primitives ? Nous allons discuter ce problème
bientôt (chapitre 11). On pourra remarquer que, dans Rn , le problème
consiste à trouver une fonction f telle que les dérivées partielles satisfont
les relations
∀i = 1, . . . , n : ωi (x) = ∂i f (x) .
C’est une équation à dérivées partielles (d’ordre 1). De manière générale,
les équations à dérivées partielles forment un vaste domaine des mathéma-
tiques et des applications des mathématiques.

3. Gradients
Quand on travaille sur Rn , on a tendance à identifier des vecteurs lignes
et vecteurs colonnes, autrement dit, à identifier V (vecteurs colonnes) avec
son espace dual V ∗ (vecteurs lignes), en confondant une matrice avec sa
matrice transposée. Mais il est très important de garder en tête que, pour
un espace vectoriel V quelconque (de dimension finie), il existe une infinité
de façons d’identifier V avec son dual V ∗ ; cela représente un choix plus
au moins arbitraire. Rappelons du cours d’algèbre linéaire que ce choix
peut être effectué en utilisant un produit scalaire1 sur V . Soit donc h·, ·i
1 De manière plus générale, on pourra utiliser une forme bilinéaire non-dégénérée
quelconque (qu’on supposera symétrique). Nous proposons au lecteur plus avancé de
70 10. Analyse vectorielle

un produit scalaire quelconque sur V . Alors l’application (qui dépend du


produit scalaire !)
δ : V → V ∗ , v 7→ h·, vi
est linéaire et injective, donc (pour des raisons de dimension) bijective. Son
application inverse δ −1 : V ∗ → V est caractérisée par la relation
∀φ ∈ V ∗ , v ∈ V : hδ −1 (φ), vi = φ(v).

3.1. Définition. Soit f : U → R une fonction de classe C k . Le gradient de


f (par rapport à un produit scalaire fixé) est le champ de vecteurs
gradf = δ −1 ◦ Df : U → V,
i.e. le champ caractérisé par la relation
∀x ∈ U, v ∈ V : h(gradf )(x), vi = (Df (x))v.
Un champ de vecteurs X : U → V est dit un champ gradient s’il existe un
potentiel de X, i.e., une fonction f de classe C 1 telle que X = gradf .

Si V = Rn est muni du produit scalaire standard, alors Df (x) s’identifie à


sa matrice jacobienne (∂1 f (x), . . . , ∂n f (x)), et
 
∂1 f (x)
gradf (x) =  ... 
 

∂n f (x)
est sa matrice transposée.
Pour donner une interprétation géométrique du gradient, nous pensons (au
cas n = 2) à la fonction f : U → R comme associant à un point x de
la surface terrestre sa hauteur f (x) au-dessus (ou en-dessus) du niveau
de l’océan. Ainsi f représente un relief montagneux. Dans une carte, on
représente un tel relief par des lignes de niveau f = const. Dans un relief
montagneux, les cours d’eau traversent de manière orthogonale ces lignes :
ils prennent la ligne de descente maximale que l’on pourra appeler une ligne
orographique.

3.2. Lemme. Soit f : U → R de classe C 1 et x ∈ U .


(i) Si γ : I → U est une courbe de niveau (i.e., f (γ(t)) = const = c),
alors γ 0 (t) et gradf (γ(t)) sont des vecteurs orthogonaux.
(ii) Le gradient gradf (x) est le vecteur directeur d’une direction de pente
maximale au point x. C’est-à-dire, max||v||=1 |∂v f (x)| est atteint si v
et gradf (x) sont parallèles.
vérifier quels énoncés de la suite restent vrais si l’on remplace le produit scalaire par une
telle forme.
4. Extrema locaux 71

Démonstration. (i) En dérivant,


d 
0= f (γ(t)) = Df γ(t) γ 0 (t) = hgradf (γ(t)), γ 0 (t)i.
dt
(ii) En utilisant l’inégalité de Cauchy-Schwarz,
|∂v f (x)| = |Df (x)v| = |hgradf (x), vi| 6 ||gradf (x)|| ||v||,
avec égalité si et seulement si v et gradf (x) sont parallèles. 

4. Extrema locaux
Les points culminants d’un relief sont certainement d’un interêt particulier.
Si f : U → R est une fonction scalaire et p ∈ U , nous dirons que p est un
maximum global de f sur U si f (y) 6 f (p) pour tout y ∈ U . Nous dirons
que ce maximum est strict si l’inegalité est stricte pour y 6= p, et nous
dirons que p est un maximum local (strict) s’il existe ε > 0 tel que p soit un
maximum (strict) de f sur la boule Bε (p). De manière analogue, on définit
des minima (stricts), globaux ou locaux, de f .

4.1. Proposition. (Condition nécessaire.) Soit f : U → R de classe C 1 et


p un maximum ou minimum local de f . Alors la différentielle de f s’annule
en p : Df (p) = 0.
Démonstration. Supposons que p est un minimum local. Nous avons donc,
pour tout t et v tel que p+tv ∈ Bε (p), f (p+tv)−f (p) > 0. Par conséquent,
nous trouvons pour la pente,
f (p + tv) − f (p) n> 0 si t > 0
t 6 0 si t < 0
En prenant la limite t → 0, ceci implique que Df (p)v = 0. 

4.2. Définition. Soit f : U → R une fonction de classe C 1 . On dit que


x ∈ U est un point critique de f si Df (x) = 0. (Si on fixe un produit
scalaire sur V , ceci équivaut à dire que gradf (x) = 0, ou encore que toutes
les dérivées partielles de f s’annulent en x.)

Un extremum local est donc nécessairement un point critique. La réciproque


est fausse : déjà, en une dimension, la fonction f (t) = t3 en t = 0 fournit un
contre-exemple. En dimension deux, on trouve des contre-exemples encore
plus intéressantes : si au point p se trouve un col du relief donnée par f ,
alors p est un point critique de f sans être un sommet ou un puits. Il est
donc souhaitable de disposer d’un critère suffisant pour décider si un point
critique est un extremum.
72 10. Analyse vectorielle

4.3. Théorème. (Condition suffisante.) Soit f : U → R de classe C 2 et p


un point critique de f et soit H := D2 f (p) : V × V → R la forme hessienne
de f au point p.
(1) Si H est définie positive (i.e., pour tout v ∈ V \ {0}, H(v, v) > 0),
alors p est un minimum local strict.
(2) Si H est définie négative (i.e., pour tout v ∈ V \ {0}, H(v, v) < 0),
alors p est un maximum local strict.
(3) Si H est indéfinie (i.e., ∃v ∈ V : H(v, v) > 0 et ∃w ∈ V : H(w, w) <
0), alors p n’est pas un extremum local.
Démonstration. (1) Par hypothèse, H est une forme bilinéaire définie posi-
tive qui est symétrique (lemme p de Schwarz), c’est donc un produit scalaire
sur V . Nous notons |v| := H(v, v) la norme correspondant à ce pro-
duit scalaire. La partie (ii) du théorème de Taylor étant valable pour toute
norme sur V , nous pouvons écrire
1
f (p + h) = f (p) + Df (p)h + D2 f (p)(h, h) + R2 (h)
2
1 2 R2 (h)
= f (p) + |h| + R2 (h), et lim = 0.
2 h→0 |h|2

D’après la dernière condition, pour tout ε > 0, il existe δ > 0 tel que
|h| < δ implique |R|h|2 (h)|
2 < ε. On prend ε = 14 . Alors |h| < δ implique
1
|R2 (h)| < 4 |h| , donc R2 (h) > − 14 |h|2 et
2

1 1 1
f (p + h) > f (p) + |h|2 − |h|2 = f (p) + |h|2 > f (p)
2 4 4
si h 6= 0. Par conséquent, p est un minimum local strict.
(2) On applique la partie (1) à la fonction −f .
(3) D’après la partie (1), la courbe γ(t) := f (x + tv) a un minimum strict
en t = 0 (car γ 00 (0) = D2 f (p)(v, v) > 0), et d’après la partie (2), la courbe
ρ(t) := f (x + tw) a un maximum strict en t = 0. Donc p ne peut pas être
un extremum local de f . 

Attention : si D2 f (p) est seulement semi-définie (positive ou négative ; i.e.,


pour tout v ∈ V , H(v, v) > 0, resp. H(v, v) 6 0), on ne peut pas conclure :
le point p peut être un extremum ou non (exercice ??). Dans la pratique,
pour vérifier si une matrice symétrique est définie positive ou négative on
utilise le résultat suivant d’algèbre linéaire (cf. exercice ??) :

4.4. Théorème. Soit H ∈ M (n, n; R) une matrice symétrique. Alors H


est diagonalisable sur R, et les propriétés suivantes sont équivalentes :
(1) H est définie positive (i.e., xt Hx > 0 pour tout x ∈ Rn , x 6= 0).
4. Extrema locaux 73

(2) Il existe une matrice A ∈ GL(n; R) telle que H = At A.


(3) Toutes les valeurs propres de H sont strictement positives.
(4) Tous les mineurs principaux de H sont strictement positifs.

Rappelons que les mineurs principaux de H sont les déterminants des sous-
matrices Hr de H obtenues en enlevant de H les r dernières lignes et
colonnnes, r = 0, 1, . . . , n − 1. Pour n = 2, le critère (4) permet des vérifi-
cations très rapides (mais faire attention de bien traduire ce critère au cas
d’une matrice définie négative, ce qui signifie que −H est définie positive).
Cependant, le calcul des valeurs propres et vecteurs propres (calcul qui
exige souvent un effort important, voire est impossible) fournit des infor-
mations plus précieuses : il donne, dans un sens, une description complète
de la géométrie de la fonction f au voisinage du point critique (« Lemme de
Morse », voir le théorème ?? ; pour attaquer les exercices correspondants,
il faut attendre le chapitre 11).
74 11. Recherche de primitives ; connexité

Chapitre 11

Recherche de primitives ;
connexité

1. Le problème
Le problème de résoudre des équations différentielles commence par la re-
cherche de primitives : si f : U → W est une application de classe C 1 , on
peut calculer sa différentielle qui est une application continue Df : U →
Hom(V, W ). Comme dans le cas d’une variable, on espère qu’il existe une
opération réciproque. Mais dans le cas n > 1 ce problème est plus compli-
qué. Rappellons tout d’abord du chapitre 10 les définitions suivantes :

1.1. Définition. Une 1-forme de classe C k (à valeurs dans W ) est une


application de classe C k
ω : U → Hom(V, W ).
Pour k = 0 on parle d’une 1-forme continue, et pour k = 1 on parle aussi
d’une forme de Pfaff (à valeurs dans W ). Si W = R, on parle d’une 1-forme,
resp. d’une forme de Pfaff tout court ; dans ce cas, Hom(V, W ) = Hom(V, R)
est l’espace dual de V . Dans la suite, on va supposer que W = R (pour
m > 1, on peut se ramener composante par composante à ce cas).

Problème. Etant donnée une 1-forme de classe C k , peut-on trouver une


primitive de ω, i.e., une application f : U → W de classe C k+1 telle que
ω = Df ? Si oui, on veut décrire toutes les solutions du problème !

Équation homogène. La correspondence f 7→ Df est linéaire. Comme


toujours pour les opérateurs linéaires, on constate que, si f1 , f2 sont deux
2. Connexité 75

solutions de Dfi = ω, alors f = f1 − f2 satisfait Df = ω − ω = 0, et ainsi


nous avons deux possibilités :
a) soit, l’ensemble des solutions de Df = ω est vide,
b) sinon, il suffit de trouver une solution particulière f0 , i.e., une fonction
f0 telle que Df0 = ω, puis rajouter la solution générale de l’équation
homogène Df = 0.

Nous commençons donc par l’équation homogène Df = 0. La somme et les


multiples de deux solutions sont encore des solutions ; ainsi l’ensemble des
solutions est un espace vectoriel. Des solutions évidentes sont données par
f = const. Y en a-t-il d’autres ?

1.2. Exemple. On suppose que U = Br (x) est une boule et que f : U → W


de classe C 1 telle que Df = 0. D’après la représentation intégrale, pour
tout z ∈ Br (x), on posant h = z − x,
Z 1
f (z) = f (x + h) = f (x) + Df (x + sh)hds = f (x) + 0 = f (x),
0

donc f est constante sur U . Les constantes sont donc les seules solutions
de Df = 0 sur une boule.

1.3. Exemple. Soit U = {(x, y) ∈ R2 | x 6= 0}. La fonction f : U → R,


f (x, y) = 1 si x > 0, f (x, y) = 0 si x < 0, est une solution de Df = 0, et
elle n’est pas constante. Ces deux exemples mènent à la conclusion que la
nature topologique de U a une forte influence sur l’ensemble des solutions
{f ∈ C 1 (U, R)| Df = 0}.

2. Connexité

2.1. Définition. Un espace métrique (M, d) (resp., un espace topologique


(M, T )) est dit non-connexe s’il admet une partition (i.e., une réunion
disjointe) M = U1 ∪ U2 en deux parties non-vides qui sont toutes les deux
ouvertes (par conséquent, U1 et U2 sont aussi toutes les deux fermées !)
Dans le cas contraire, on dit que M est connexe.

Par exemple, si M = U est comme dans l’exemple 11 -1.2 ci-dessus, M est


non-connexe.

2.2. Théorème. Soit U ⊂ Rn un ouvert connexe et f : U → W de classe


C 1 . Alors sont équivalentes :
76 11. Recherche de primitives ; connexité

(1) Df = 0
(2) f est constante.
Démonstration. Clairement, si f est constante, on a Df = 0.
Réciproquement, soit Df = 0 sur U . Soit x0 ∈ U et c := f (x0 ). Il est clair
que U est une réunion disjointe des ensembles U1 et U2 suivants
U1 := {x ∈ U | f (x) = c}, U2 := {z ∈ U | f (z) 6= c} = f −1 (R \ {c}).
L’ensemble U2 , étant l’image réciproque d’un ouvert par une application
continue, est ouvert. L’ensemble U1 est également ouvert : soit z ∈ U1 et
r > 0 tel que Br (z) ⊂ U ; alors, d’après l’exemple 11 -1.2, f est constante
sur la boule Br (z), et donc Br (z) ⊂ U1 , et ainsi U1 est ouvert. Comme
U est connexe et U1 non-vide, il faut que U2 soit vide. Donc U = U1 , et
f = const = c. 

2.3. Exemples. (Parties connexes.)


1) Un intervalle ouvert ou fermé I ⊂ R est connexe. (Preuve : par l’ab-
surde. Supposons I = U1 ∪ U2 , réunion disjointe de deux ouverts. Alors
la fonction f : I → R, f (x) = 0 si x ∈ U1 , f (x) = 1 si x ∈ U2 serait
continue : l’image réciproque d’un ouvert U de R est U1 si 0 ∈ U et
1 ∈/ U , U2 si 1 ∈ U et 0 ∈ / U , ∅ si 0, 1 ∈
/ U , I si 0, 1 ∈ U , et donc
f −1 (U ) est toujours ouvert et ainsi f est continue. Or, ceci contredit
le théorème des valeurs intermédiaires qui dit que, pour a, b ∈ I, la
fonction continue f prend toutes les valeurs entre f (a) et f (b).)
2) Un espace topologique M est dit connexe par arcs si, pour tout x, y ∈
M , il existe un chemin continu γ : [0, 1] → M tel que γ(0) = x et
γ(1) = y.
Proposition : Si M est connexe par arcs, alors M est connexe.
Preuve : par l’absurde. Si on avait une partition M = U1 ∪ U2 en deux
parties ouvertes non-vides, on pourrait choisir x ∈ U1 et y ∈ U2 et
un chemin continu γ qui joint x à y, et alors γ −1 (U1 ) ∪ γ −1 (U2 ) =
[0, 1] serait (par continuité de γ) une partition de [0, 1] en deux parties
ouvertes. Ceci est impossible car, d’après le point précédent, [0, 1] est
connexe.
3) Toute boule Br (z) dans un espace vectoriel normé est connexe par arcs,
donc connexe (exercice ??).
4) Toute partie convexe d’un espace vectoriel normé est connexe par arcs,
donc connexe (exercice ??).
5) Une partie E dans un espace vectoriel réel V est dite étoilée s’il existe
un point z ∈ E tel que, pour tout point x ∈ E, le segment [z, x]
est entièrement dans E. Alors E est connexe par arcs, donc connexe
(exercice ??).
3. Existence de primitives : condition nécessaire 77

6) Tout espace topologique peut être décomposé en une réunion disjointe


de parties connexes maximales (appelés composantes connexes ; voir
l’exercice ??)). Par exemple, l’ensemble U de l’exemple 11 -1.3 a deux
composantes connexes (les décrire !).

Revenons à l’équation Df = ω et supposons que U ⊂ V = Rn est une partie


ouverte et connexe (un domaine). Le théorème 11 -2.2 implique : si f0 est
une solution de Df = ω sur U , alors la solution générale est donnée par
f = f0 + c, avec c ∈ R, si une solution particulière f0 existe. En dimension
n = 1, on sait qu’il en existe toujours une. Mais en dimension n > 1, la
situation change dramatiquement !

3. Existence de primitives : condition


nécessaire
Supposons que ω : U → V ∗ est une 1-forme de classe C 1 admettant une
primitive f : ainsi ω = Df , et par suite f est de classe C 2 et Dω = D(Df ) =
D2 f . D’après le lemme de Schwarz, D2 f (x) est symétrique : D2 f (x)(u, v) =
D2 f (x)(v, u), ce qui signifie que (((D(Df ))(x))u)v = (((D(Df ))(x))v)u (cf.
th. 8 -1.4), et donc
∀x ∈ U, ∀u, v ∈ V : (((Dω)(x))u)v = (((Dω)(x))v)u. (3.1)

3.1. Définition. Nous dirons qu’une 1-forme de classe C 1 est fermée si elle
vérifie la condition (3.1). Ainsi nous avons la condition nécessaire : si une
1-forme ω de classe C 1 admet une primitive, alors elle est fermée. Avec la
notion introduite dans la section 10 -2, la condition s’écrit aussi
h∂v ω(x), ui = h∂u ω(x), vi.
En choisissant u = ek et v = ej , toujours avec les notations de la section
10 -2, nous constatons que ω est fermée si et seulement si
∂ωk ∂ωj
∀j, k = 1, . . . , n : (x) = (x).
∂xj ∂xk
Ou encore, en termes de la dérivée extérieure (section 10 -2) : ω est fermée
si et seulement si dω = 0.

3.2. Exemple. Soit ω : Rn → (Rn )∗ définie par (ω(x))(v) = t xAv, où


A ∈ M (n, n; R) est une matrice carrée que l’on fixe. Puisque ω dépend de
manière linéaire de x, on trouve ((Dω)(x)u)v = t uAv. Cette expression
est symétrique en (u, v) si et seulement si la matrice A est une matrice
78 11. Recherche de primitives ; connexité

symétrique. Par conséquent, si A n’est pas symétrique, alors ω n’est pas


fermée et n’admet donc pas de primitive. Ainsi il existe bien des formes de
Pfaff qui n’admettent pas de primitive !

3.3. Exemple. Soit V = Rn , muni de son produit scalaire canonique et


X : U → V un champ de vecteurs. En identifiant V avec son espace dual
V ∗ via le produit scalaire, le problème de trouver une primitive se traduit
au problème de trouver un potentiel de X, i.e., une fonction f : U → R
telle que X se réalise sous forme de champ gradient : X = grad(f ) (cf.
Section 10 -3). Alors, si f existe, il s’ensuit que, pour tout j, k = 1, . . . , n,
nous avons ∂j Xk = ∂k Xj . Si n = 3, ceci signifie que le rotationnel de X est
nul : rot(X) = 0.

4. Existence de primitives : une condition


suffisante
La condition que ω soit fermée n’est pas suffisante pour en déduire l’exis-
tence d’une primitive : il faut rajouter une hypotèse de nature topologique.
Pour en donner une idée, supposons pour le moment que ω admette une
primitive f . En fixant un point x0 ∈ U , et si le segment [x0 , x + h] est dans
U , on peut écrire
Z 1
f (x0 + h) = f (x0 ) + Df (x0 + th)h dt
0
Z 1
= f (x0 ) + hω(x0 + th), hi dt.
0
Pour résoudre le problème réciproque, on veut utiliser la dernière expres-
sion pour définir une primitive de ω. On rencontre alors un problème de
nature topologique : on ne peut pas toujours joindre un point x ∈ U à un
point donné x0 ∈ U par un segment. Pour cette raison nous allons faire
l’hypothèse que U soit étoilé :

4.1. Théorème. (“Lemme de Poincaré”.) Soit ω : U → V ∗ une 1-forme


fermée de classe C 1 et soit U un domaine étoilé. Alors il existe f : U → R
de classe C 2 telle que Df = ω.
Démonstration. Par translation du domaine U , on peut supposer que U
soit étoilé par rapport à l’origine 0. Alors, pour tout x ∈ U , le segment
[0, x] est dans U , et on peut définir
Z 1
f (x) := hω(tx), xi dt.
0
4. Existence de primitives : une condition suffisante 79

Vérifions que Df (x)v = hω(x), vi. Par dérivation sous le signe intégral,
Z 1
Df (x)v = ∂v f (x) = ∂v hω(tx), xi dt
0
Z 1
= th(∂v ω)(tx), xi + hω(tx), vi dt
0
Z 1
= th(∂x ω)(tx), vi + hω(tx), vi dt (ω fermée !)
0
Z 1
d
= hω(tx), tvi dt
0 dt
= hω(x), vi − hω(0), 0i = hω(x), vi
pour tout v ∈ V , et donc Df (x) = ω(x). 

4.2. Exemple. Soit (ω(x))(v) = t xAv comme dans l’exemple 11 -3.2 ci-
dessus. Si A est une matrice symétrique, alors ω est fermée. Comme U = Rn
est bien étoilé, il existe alors une primitive f . (La calculer explicitement !)

4.3. Exemple. Si U est étoilé dans Rn et X : U → V un champ de


vecteurs de classe C 1 tel que, pour tout j, k = 1, . . . , n, ∂j Xk = ∂k Xj .
Alors X admet un potentiel (exemple 11 -3.3). Ce fait a des applications
importantes en physique.

4.4. Exemple. Sur U := R2 \ {(0, 0)}, définissons


1 
ω(x, y) = (ω1 (x, y), ω2 (x, y)) = −y x
x2 + y2
Un calcul direct montre que cette forme est bien fermée, mais toutefois on
trouve qu’elle n’admet pas de primitive sur U = R2 \ {(0, 0)} (exercice ??).
Ceci n’est pas en contradiction avec le lemme de Poincaré : le domaine U
n’est pas étoilé ! Par contre, si on enlève la demi-droite D = {(t, 0)| t 6 0},
alors U 0 := U \ D est bien étoilé, et ω admet donc une primitive sur U 0 (la
déterminer explicitement : cf. exercice ??).
80 12. Le théorème du point fixe ; complétude

Chapitre 12

Le théorème du point fixe ;


complétude

Outre la connexité, il existe une autre propriété de nature topologique


qui est importante pour toute théorie d’intégration : la complétude. Par
exemple, l’espace métrique (Q, d) n’est pas complet, tandis que R l’est ;
c’est pourquoi il faut introduire les nombres réels avant de développer la
théorie de l’intégrale.

1. Espaces métriques complets

1.1. Définition. Une suite de Cauchy dans un espace métrique (M, d) est
une suite (xn )n∈N dans M telle que limn,m→∞ d(xn , xm ) = 0, i.e., pour tout
ε > 0, il existe N ∈ N tel que, pour tout m, n > N , on a d(xn , xm ) < ε.

1.2. Lemme. Une suite convergente dans un espace métrique est une suite
de Cauchy.
Démonstration. Si xn est une suite convergente, alors, pour tout ε > 0, il
existe N ∈ N tel que d(xn , x) < 2ε pour tout n > N , et donc d(xn , xm ) <
d(xn , x) + d(xm , x) < ε si m, n > N . 

La réciproque du lemme n’est pas toujours vraie – par


P exemple, prendre
M = Q avec la métrique d(x, y) = |x − y| et xn = nj=0 j!1 . Cette suite
converge dans R mais non dans Q car sa limite (le nombre d’Euler) est
irrationnel.
1. Espaces métriques complets 81

1.3. Définition. Un espace métrique (M, d) est dit complet si toute suite
de Cauchy converge dans M . Un espace de Banach est un espace vectoriel
normé qui est complet pour la métrique d(x, y) = ||x − y||.

1.4. Exemple. Soit (V, ||·||) un espace vectoriel normé.P∞ Une série de terme
général un est dite absolument convergente si la série n=1 ||un || converge
Pn
dans R. Alors la suite des sommes partielles, xn = j=1 un , est de Cauchy :
Pm
en effet, d(xn , xm ) 6 j=n+1 ||uj || converge vers 0 pour n, m → ∞, d’après
la condition nécessaire de convergence dans R. Ainsi, dans un espace de
Banach, la convergence absolue d’une série entraîne sa convergence au sens
usuel.

1.5. Théorème.
(i) Par rapport à n’importe quelle norme, Rn est un espace de Banach.
(ii) Une partie M de Rn est complète si et seulement si elle est fermée.
Démonstration. (i) Pour n = 1, par la définition même des nombres réels,
R est complet. Pour n > 1, la preuve de la complétude de Rn s’en déduit
par récurrence : remarquons d’abord qu’une suite dans Rn est de Cauchy
par rapport à une norme si et seulement si elle l’est par rapport à une
norme équivalente. Comme toutes les normes sur Rn sont équivalentes (th.
2 -3.2), il suffit alors de montrer que Rn est complet par rapport à la norme
|| · ||∞ . Dans ce cas, Rn est le produit direct des espaces métriques Rn−1
et R, et il suffit de prouver l’assertion suivante : si (Mi , di ), i = 1, 2, sont
deux espaces métriques complets, alors le produit direct M = M1 × M2 est
également complet. Preuve : soit (xm , ym )m∈N une suite de Cauchy dans M ,
i.e. max(d1 (xm , xn ), d2 (ym , yn )) → 0 (n, m → ∞). Il s’ensuit que (xm )m∈N
est une suite de Cauchy dans M1 et (ym )m∈N en est une dans M2 . Comme
M1 et M2 sont complets, ces suites convergent vers des points x ∈ M1 ,
resp. y ∈ M2 , et ainsi (xm , ym )m∈N converge vers (x, y).
(ii) Puisque nous venons de voir que Rn est complet, il suffit de démontrer
le suivant : une partie M dans un espace métrique complet N est complète
si et seulement si elle est fermée dans N . Preuve : soit (x)m∈N une suite
de Cauchy dans M . Comme N est complet, cette suite converge vers une
limite y ∈ N . Alors (x)m∈N converge dans M si et seulement si la limite y
appartient à M , et donc M est complet si et seulement si M contient toutes
les limites de suites de M , et c’est le cas si et seulement M est fermée dans
N. 

La partie (ii) montre que, par exemple, les sphères, les boules fermées et
les sous-espaces vectoriels sont des parties complètes de Rn .
82 12. Le théorème du point fixe ; complétude

2. Théorème du point fixe

2.1. Définition. Une contraction d’un espace métrique est une application
f : M → M qui est lipschitzienne avec une constante de Lipschitz C < 1.
Autrement dit, pour tout x, y ∈ M , d(f (x), f (y)) 6 C d(x, y).
Rappelons que les applications itérées de f sont définies par
f 2 := f ◦ f, . . . , f n+1 := f ◦ f n = f n ◦ f.
Par récurrence, on voit immédiatement que, si f est C-lipschitzienne, alors
f n est C n -lipschitzienne ; ainsi la suite f n contracte M « de plus en plus
fort ». On verra que, à la limite, cette suite envoie M sur un seul point :

2.2. Théorème. (Théorème du point fixe.) Soit f : M → M une contrac-


tion d’un espace métrique complet. Alors f admet un unique point fixe :
il existe un unique point p ∈ M tel que f (p) = p. Ce point fixe peut être
construit de la façon suivante : pour tout point x ∈ M , la suite
x0 = x, x1 = f (x), . . . , xn := f n (x) = f (xn−1 ), . . .
converge vers p.
Démonstration. Unicité : si p et q sont des points fixes, f (p) = p et f (q) =
q, alors d(p, q) = d(f (p), f (q)) 6 Cd(p, q), donc (1 − C)d(p, q) 6 0. Or,
1 − C > 0, et donc d(p, q) = 0 et p = q.

Existence : fixons x = x0 ∈ M , et soit xn = f n (x0 ). Montrons que (xn )n∈N


est une suite de Cauchy : en appliquant n fois la propriété qui définit une
contraction, on trouve
d(xn , xn+1 ) = d(f n (x), f n (f (x))) 6 C n d(x, f (x)) = C n d(x0 , x1 ).
Montrons que (xn ) est une suite de Cauchy : pour m > n,
m−n−1
X
d(xn , xm ) 6 d(xn+i , xn+i+1 )
i=0
m−n−1
X m−n−1
X
6 C n+i d(x0 , x1 ) = C n d(x0 , x1 ) Ci
i=0 i=0

n1 − C m−n
=C d(x0 , x1 ) → 0 (n, m → ∞).
1−C
Par conséquent, (xn ) est une suite de Cauchy. Comme M est complet, cette
suite converge vers un élément p ∈ M . Alors p est un point fixe : comme f
3. Espaces de Banach 83

est lipschitzienne, donc continue, on a


f (p) = f ( lim xn ) = lim (f (xn )) = lim xn+1 = p. 
n→∞ n→∞ n→∞

2.3. Remarque. Par le même genre de calcul que ci-dessus on trouve aussi
la majoration
Cn
d(p, xn ) 6 d(x1 , x0 )
1−C
qui permet de mesurer la qualité de l’approximation de p par la suite xn .

3. Espaces de Banach
Le résultat suivant permet de construire des espaces de Banach de dimen-
sion infinie :

3.1. Théorème. Soit W un espace de Banach. Alors les espaces suivants


sont aussi des espaces de Banach :
(1) (pour n’importe quel ensemble M ) l’espace B(M, W ) de toutes les
fonctions bornées f : M → W , avec la norme ||f ||∞ = supx∈M ||f (x)||
(2) (pour n’importe quel espace métrique (M, d)) l’espace C B(M, W ) de
toutes les fonctions bornées et continues f : M → W , avec la norme
||f ||∞
(3) (pour n’importe quel espace vectoriel normé V ) l’espace L(V, W ) des
applications linéaires continues f : V → W , muni de la norme d’opé-
rateur
||f (x)||
||f ||op = sup .
x∈V,x6=0 ||x||

Avant de donner la preuve du théorème, mentionnons que le cas particu-


lier W = R est très important : ainsi, on obtient les espaces de Banach
L∞ (R) := B(R, R) et C B(R, R) qui sont des espaces de Banach de dimen-
sion infinie (de même l’espace B(N, R) des suites bornées). La partie (3)
montre que, pour un e.v. normé V , l’espace V 0 = L(V, R), appelé le dual
topologique de V , est toujours un espace de Banach.
Démonstration. Dans les trois cas, on vérifie tout d’abord qu’il s’agit bien
des espaces vectoriels normés (cf. section 1 -6 et exercice ?? pour le dernier
cas). Il faut montrer que ces espaces sont complets. On se donne donc une
suite de Cauchy (fn )n∈N , et on veut établir qu’elle converge dans l’espace
en question. Dans les trois cas, on constate que la suite fn converge point
par point, i.e., que fn (x) converge dans W pour tout x ∈ M (resp. x ∈ V ).
84 12. Le théorème du point fixe ; complétude

En effet, ceci résulte du fait que W est complet et que fn (x) est une suite
de Cauchy dans W (dans les cas (1) et (2), ||fn (x) − fm (x)|| 6 ||fn − fm ||∞
tend vers 0 pour n, m → ∞ car fn est de Cauchy, et dans le cas (3) nous
avons
||fn (x) − fm (x)|| 6 ||fn − fm ||op ||x|| → 0 (n, m → ∞).)
On pose alors f (x) := y. Montrons ensuite cas par cas que la fonction
f : M → W (resp. f : V → W ) ainsi définie appartient à l’espace en
question, et que fn converge vers f dans cet espace.
(1) Comme fn est une suite de Cauchy, pour ε > 0, il existe N tel que
∀m, n > N, ∀x ∈ M : ||fn (x) − fm (x)|| < ε.
On prend la limite pour m → ∞, donc
∀m > N, ∀x ∈ M : ||fn (x) − f (x)|| 6 ε. (∗)
En fixant une valeur de n, on en déduit d’abord que
sup ||f (x)|| 6 sup ||f (x) − fn (x)|| + sup ||fn (x)|| 6 ε + ||fn ||∞
x∈M x∈M x∈M

est finie (car fn est bornée), et donc f est bornée. De plus, (∗) implique
que ||fn − f ||∞ 6 ε, et donc fn converge vers f dans B(M, W ).
(2) Il suffit de montrer que C B(M, W ) est fermé dans B(M, W ) (cf. preuve
du théorème 12 -1.5), autrement dit, si fn → f uniformément et toutes les
fn sont continues, alors f est continue. Pour la preuve, fixons x ∈ M et
écrivons
||f (x) − f (y)|| 6 ||f (x) − fn (x)|| + ||fn (x) − fn (y)|| + ||fn (y) − f (y)||.
Pour ε > 0 donné, on choisit n ∈ N tel que ||fn − f ||∞ < 3ε , i.e., ||fn (z) −
f (z)|| < 3ε pour tout z ∈ M . Comme fn est continue, il existe δ > 0
tel que, si d(x, y) < δ, alors ||fn (x) − fn (y)|| < 3ε . Ensemble, cela donne
||f (x) − f (y)|| < ε si d(x, y) < δ ; donc f est continue au point x.
(3) Il est facile de montrer que f est linéaire en utilisant que les fn sont li-
néaires. Des arguments analogues à celles de la preuve du point (1) montrent
qu’alors fn est continue et que fn → f dans L(V, W ). 
85

Chapitre 13

Inversion locale et fonctions


implicites

S’il est vrai que la différentielle Df (x), ou le polynôme de Taylor Txk f ,


est une bonne approximation de f au point x, on pourra espérer que cer-
taines propriétés de la différentielle restent valables au niveau local, i.e., il
existe un voisinage de x sur lequel cette propriété a lieu. Il s’agit là aussi
des résultats d’« intégration » : étendre une propriété « infinitésimale » ou
« différentielle » en une propriété locale. Le premier résultat important de
ce type concerne la propriété d’être inversible.

1. Théorème d’inversion locale

1.1. Théorème. (Théorème d’inversion locale.) Soit V = Rn , W = Rm ,


U ⊂ V ouvert, a ∈ U et f : U → W une application de classe C k . Alors
sont équivalentes :
(1) La différentielle Df (a) : V → W est bijective.
(2) f est un C k -difféomorphisme local en a (c.-à.-d., il existe des voi-
sinages ouverts U1 de a et U2 de f (a) tels que f : U1 → U2 est bijective
et son inverse f −1 : U2 → U1 est de classe C k ).

Avant de nous plonger dans la preuve, ajoutons trois remarques :


a) La complétude de Rn est essentielle ici. Comparons pour K = R et
K = Q le comportement de f (x) = x2 au voisinage de a = 1 : dans
les deux cas, la différentielle est Df (1) = 2, donc inversible. Mais pour

– 85 –
86 13. Inversion locale et fonctions implicites


K = R, l’inverse local f −1 (x) = x existe, tandis que pour K = Q il
n’existe pas.
b) Dans le cas n = 1, on peut donner une preuve très simple de ce théorème
en utilisant la notion de monotonie (exercice ??). Cette preuve n’a pas
de généralisation évidente au cas n > 1.
c) Même si Df (a) est inversible pour tout a ∈ U , on ne peut pas conclure
qu’un inverse global existe : un exemple pour cette situation est la fonc-
tion exponentielle exp : C = R2 → C = R2 , (x, y) 7→ ex (cos y, sin y) (cf.
exercice ??).
Démonstration. (2) ⇒ (1) : sous la condition du point (2), la différentielle
Df (a) est inversible avec inverse D(f −1 )(f (a)), voir le corollaire 6 -3.6.

(1) ⇒ (2) : la preuve se fait en plusieures étapes :


A. Simplification. Pour simplifier les notations, par translation on se ramène
à a = 0 et f (a) = 0. Ensuite, remarquons que l’application
f˜ := (Df (0))−1 ◦ f,
est de nouveau de classe C k et a une différentielle inversible à l’origine :
D(f˜)(0) = (Df (0))−1 ◦ Df (0) = idV .
De plus, puisque Df (0) est un difféomorphisme, l’application f est un dif-
féomorphisme local si et seulement si f˜ l’est. Ainsi, quitte à remplacer f
par f˜, nous supposons dans la suite que V = W et Df (0) = idV .

B. Recherche d’image réciproque en utilisant le théorème du point fixe. Soit


y ∈ V . On pose
gy : U → V, x 7→ y + (x − f (x)).
Alors, pour x ∈ U , les conditions f (x) = y et gy (x) = x sont équivalentes.
Ceci suggère de chercher si gy admet des points fixes.
Comme D(g0 )(0) = id − id = 0 et D(g0 ) est continue, il existe r > 0
tel que maxx∈B r (0) ||D(g0 )(x)|| < 21 , et donc g0 : B r (0) → B r (0) est
C-lipschitzienne avec constante C = 21 (formule de la moyenne, 9 -1.1).
Puisque g0 (0) = 0, il s’ensuit que g0 envoie B r (0) dans B r2 (0).
Soit y tel que ||y|| < 2r . Comme gy = g0 + y, il s’ensuit que gy est également
1
2 -lipschitzienne, et donc

gy (B r (0)) ⊂ y + B r2 (0) ⊂ B r (0).


Ainsi gy : B r (0) → B r (0) est une contraction d’une boule fermée. Comme
une boule fermée est complète, le théorème du point fixe (12 -2.2) implique
qu’il existe un unique x ∈ B r (0) tel que gy (x) = x, et donc f (x) = y. Tout
élément y ∈ B r2 (0) admet donc une unique image réciproque dans B r (0).
1. Théorème d’inversion locale 87

C. Posons U2 = B r2 (0) et
U1 := {x ∈ Br (0)| f (x) ∈ B 2r (0)} = Br (0) ∩ f −1 (B r2 (0))
(qui est ouvert car f est continue). Nous affirmons : La restriction f |U1 :
U1 → U2 est une bijection. Preuve de cette affirmation : Injectivité. Si
y ∈ B r2 (0), d’après la partie B de la preuve, il existe un unique x ∈ B r (0)
tel que y = f (x). Donc il existe au plus un antécédent de y dans U1 .
Surjectivité. Avec y et x comme ci-dessus, il faut montrer que x ∈ U1 .
Comme f (x) = y, on a bien x ∈ f −1 (B r2 (0)). Reste a démontrer que
x ∈ Br (0). Or, pour tout z, z 0 ∈ B r (0), en utilisant que z = g0 (z) + f (z),
z 0 = g0 (z 0 ) + f (z 0 ), on trouve
||z − z 0 || = ||g0 (z) + f (z) − (g0 (z 0 ) + f (z 0 ))||
6 ||g0 (z) − g0 (z 0 )|| + ||f (z) − f (z 0 )||
1
6 ||z − z 0 || + ||f (z) − f (z 0 )||
2
(car g0 est 21 -lipschitzienne) et donc
||z − z 0 || 6 2||f (z) − f (z 0 )||.
Pour z 0 = 0 et z = x, ceci nous donne ||x|| 6 2||f (x)|| < r car f (x) ∈ B r2 (0).

D. Continuité de l’application réciproque. Comme f : U1 → U2 est bijective,


il existe une application réciproque φ : U2 → U1 . Elle est continue (même :
lipschitzienne), car, posant z = φ(y), z 0 = φ(y 0 ), le calcul ci-dessus montre
que
||φ(y) − φ(y 0 )|| 6 2||y − y 0 ||.

E. L’application φ est de classe C 1 . D’abord, pour tout x ∈ U1 , la diffé-


rentielle Df (x) est inversible, i.e., Df (x) ∈ GL(V ). (En effet, pour tout
x ∈ U1 , on a ||Df (x) − id|| = ||Dg0 (x)|| < 21 , et donc Df (x) est inversible ;
cf. exercice ??.)
Ensuite, comme f est C 1 , nous pouvons écrire
Z 1
f (x + h) − f (x) = Df (x + th)hdt = Φ(x, h)(h)
0
R1
avec Φ(x, h) := 0 Df (x + th)dt. Remarquons que Φ(x, h) est inversible
pour tout couple (x, h) avec x ∈ U1 et h dans un voisinage Vx de 0. En
effet, ceci résulte du fait que (x, h) 7→ Φ(x, h) est continue et que, pour
x ∈ U1 , Φ(x, 0) appartient à l’ouvert GL(V ) de End(V ). Nous pouvons
alors écrire en appliquant Φ(x, h)−1 :

h = Φ(x, h)−1 f (x + h) − f (x) . (1)
Si x, x + h ∈ U1 , comme f : U1 → U2 est un homéomorphisme d’inverse
88 13. Inversion locale et fonctions implicites

φ : U2 → U1 , nous pouvons faire le changement de variables suivant :


n y := f (x) n x = φ(y)
0
h := f (x + h) − f (x), h = x + h − x = φ(y + h0 ) − φ(y) .
En utilisant cette notation, (1) s’écrit

φ(y + h0 ) − φ(y) = h = Φ(x, h)−1 f (x + h) − f (x)
 −1 0
= Φ φ(y), φ(y + h0 ) − φ(y) h.

Pour t 6= 0, la pente de φ s’écrit donc


φ(y + th0 ) − φ(y) 1 −1 0
= Φ φ(y), φ(y + th0 ) − φ(y) th
t t
 −1 0
= Φ φ(y), φ(y + th0 ) − φ(y) h.

Le membre de droite est bien une fonction continue de (y, h0 , t), pour t =
0 inclus (car composée de fonctions continues ; rappelons que l’inversion
matricielle est continue), et donc φ est bien de classe C 1 (et pour t =
0 on retrouve le résultat déjà connu par le corollaire 6 -3.6 : Dφ(y)h0 =
Φ(φ(y), 0)−1 h0 = Df (φ(y)))−1 h0 ).

F. L’application φ est de classe C k . Nous venons de voir que Dφ = J ◦Df ◦φ


où J est l’inversion matricielle. Comme J est de classe C ∞ (cf. exercice ??),
f est de classe C k et φ de classe C 1 , il s’ensuit que Dφ est de classe C 1 ,
donc φ est C 2 , et ainsi de suite (récurrence), on trouve que φ est C k . 

1.2. Remarque. Il existe plusieurs généralisations de ce théorème : d’une


part, il est valable dans les espaces de Banach (cf. [4]) et, sous des hy-
pothèses convenables, dans d’autres espaces de dimension infinie (cf. [?]) ;
d’autre part, on peut affaiblir l’hypothèse que f soit de classe C 1 : si f est
supposée strictement différentiable au point a tel que Df (a) soit bijectif,
alors f est un homéomorphisme local au voisinage de a, et l’application
réciproque locale est encore strictement différentiable au point f (a) (cf. [2],
p. 14]).

2. Théorème des fonctions implicites


Fonctions définies implicitement. On rencontre souvent, en mathéma-
tiques aussi bien qu’en applications des mathématiques, le problème de
devoir « résoudre » des équations de la forme F (z) = c, où c ∈ Rm est
une constante, z ∈ Rn est l’inconnue et F une application définie sur une
partie de Rn et à valeurs dans Rm . On peut dire qu’il s’agit là de m équa-
tions en n inconnues, et, motivé par ce que l’on sait sur le cas des systèmes
2. Théorème des fonctions implicites 89

linéaires, on peut espérer que, si l’ensemble des solutions n’est pas vide,
qu’il soit paramétré par k := n − m paramètres « libres ». Quitte à re-
numéroter les axes de coordonnées de Rn , on pourra alors s’arranger à ce
que ces paramètres libres soit les premiers k coordonnées de Rn ; on écrit
donc z = (x, y), x ∈ Rk , y ∈ Rn−k .
Ces considérations nous amènent au problème modifié suivant : pour ré-
soudre une équation de la forme F (x, y) = c (où x ∈ Rk , y ∈ R` , avec
c ∈ Rm donné), on cherche une fonction f (x) telle que F (x, y) = c équi-
vaut à y = f (x) ; l’ensemble des solutions sera donc l’ensemble des points de
la forme (x, f (x)) (le graphe de f ). Considérons l’exemple k = ` = m = 1 et
F (x, y) = x2 + y 2 . Les « ensembles de niveau » F = const sont des cercles
concentriques dans R2 . Si la tangente à un tel cercle au point (a, b) ∈ R2
est verticale, on ne peut pas paramétrer, au voisinage de ce point, l’arc
de cercle sous la forme (x, f (x)), tandis que si la tangente n’est pas ver-
ticale (ce qui veut dire que ∂2 F (a, b) 6= 0), alors c’est possible, au moins
localement. Prenons un autre exemple :
 2 
3 2 x − y2
F : R → R , F (x, y, z) =
x2 − z 2
Pour c ∈ R2 , l’équation F (x, y, z) = c équivaut à deux équations en trois
inconnues. On peut donc espérer que, « dans le meilleur des cas », l’ensemble
des solutions soit paramétré par un paramètre réel, par exemple, qu’il soit
de la forme (x, f (x)), avec une fonction f : R → R2 , ou peut-être de la forme
(h(z), z), pour une autre fonction h : R → R2 . Le résultat suivant donne
un critère suffisant pour assurer l’existence de telles fonctions – comme le
montre le premier exemple, une telle solution existe, en général, seulement
localement.

2.1. Théorème. (Fonctions implicites.) Soit U ⊂ Rk × R` un ouvert,


(a, b) ∈ U un point que l’on fixera pour la suite et F : U → Rm une appli-
cation de classe C r . On pose c := F (a, b). Supposons que la différentielle
par rapport à la deuxième variable (cf. section 7-2)
D2 F (a, b) : R` → Rm , v 7→ ∂(0,v) F (a, b)
soit bijective (en particulier, ceci entraîne que ` = m). Alors F détermine
implicitement une fonction f : Ua → Ub de classe C r au voisinage de a ;
c’est-à-dire : il existe des voisinages ouverts Ua de a et Ub de b et une
fonction f : Ua → Ub de classe C r tels que
F (x, y) = c, x ∈ Ua , y ∈ Ub ⇔ y = f (x), x ∈ Ua .

Démonstration. Nous cherchons à nous ramener au théorème d’inversion


90 13. Inversion locale et fonctions implicites

locale. Dans ce but, nous définissons l’application


Φ : U → Rk × R` , (x, y) 7→ (Φ1 (x, y), Φ2 (x, y)) := (x, F (x, y)).
En subdivisant la matrice de Jacobi de Φ en blocs, on trouve
 
D1 Φ1 (a, b) D2 Φ1 (a, b)
DΦ(a, b) =
D1 Φ2 (a, b) D2 Φ2 (a, b)
 
id 0
= .
D1 F (a, b) D2 F (a, b)
Comme le déterminant de D2 F (a, b) n’est pas nul par hypothèse, la matrice
DΦ(a, b) est inversible, et donc, d’après le théorème d’inversion locale, Φ
est un difféomorphisme local au voisinage de (a, b). Soit Ψ : U2 → U1 son in-
verse local de classe C r . En écrivant Ψ(x, y) = (Ψ1 (x, y), Ψ2 (x, y)), la condi-
tion Φ ◦ Ψ = id nous donne (x, y) = Φ(Ψ(x, y)) = (Φ1 (x, y), F (Ψ(x, y)))
et donc Ψ1 (x, y) = x. Comme U2 est ouvert, il contient un ouvert de la
forme Ua × Ub , et pour tout (x, y) ∈ Ua × Ub nous avons les équivalences
suivantes :
F (x, y) = c ⇔ Φ(x, y) = (x, F (x, y)) = (x, c)
⇔ (x, y) = Ψ(x, c) = (x, Ψ2 (x, c))
⇔ y = Ψ2 (x, c).
Donc f (x) := Ψ2 (x, c) est l’unique solution de F (x, y) = c ; ainsi F dé-
termine implicitement une fonction f : Ua → Ub au voisinage de (a, b), et
cette fonction est de classe C r car Ψ est de classe C r . 

2.2. Remarque. En dérivant la condition F (x, f (x)) = c, on peut exprimer


Df (x) en termes de DF (x, y). Cela peut être un moyen utile pour le calcul
éffectif de Df , cf. exercice ??.

2.3. Remarque. La condition du théorème est suffisante, mais non néces-


saire pour pouvoir définir une fonction implicite (exercice ??).

2.4. Remarque. Reprenons l’exemple de la fonction F : R3 → R2 donné


avant l’énoncé du théorème. On trouve la matrice jacobienne
 
2x −2y 0
Jf (x, y, z) = .
2x 0 −2z
Si y 6= 0 et z 6= 0, alors la matrice extraite formée par les deux dernières
colonnes est inversible, ce qui veut dire que D2 F (x, y, z) est inversible, et
ainsi on peut appliquer le théorème. Si x 6= 0 et y 6= 0, on peut faire la même
chose, mais en échangeant d’abord le rôle de la première et de la troisième
variable : dans ce cas, il existe une fonction différentiable h : I → R2 telle
3. Le théorème du rang constant 91

que l’ensemble des solutions soit paramétré de la forme {(h(z), z)|z ∈ I}


(cf. exercice ??). De manière générale, retenons qu’il peut être nécessaire,
avant d’appliquer le théorème, de permuter les coordonnées de manière
convenable (pour extraire une sous-matrice inversible m × m de la matrice
jacobienne).

3. Le théorème du rang constant


Un peu d’algèbre linéaire. Soit F : V = Rn → W = Rm une application
linéaire. Un résultat simple et fondamental d’algèbre linéaire dit que, par
rapport à des bases convenables, F peut être représentée par la matrice
 
1r 0r,n−r
Πr = ∈ M (m, n; R)
0m−r,r 0m−r,n−r
où r = rg(F ) est le rang de F (rappelons que le rang rg(F ) de F est la
dimension de l’image de F , et c’est aussi le rang de toute matrice décrivant
F ), 1r est la matrice unitée de taille r × r et 0p,q la matrice nulle de taille
p×q. En langage matriciel, cela veut dire que toute matrice A ∈ M (m, n; R)
est similaire à une matrice de la forme Πr . Plus précisément : soit
πr : Rn → Rm , x 7→ Πr · x = (x1 , . . . , xr , 0, . . . , 0)
l’application linéaire de matrice Πr . Alors il existe G ∈ GL(W ) et H ∈
GL(V ) tels que G ◦ F ◦ H = πr (ou en langage matriciel : il existe S ∈
GL(m, R) et T ∈ GL(n, R) tels que SAT = Πr ). Le théorème suivant est
un analogue de ce fait pour les applications différentiables :

3.1. Théorème. (Théorème du rang constant.) Soit f : U → W une


application de classe C k , soit a ∈ U et supposons que la fonction
U → {0, . . . , min(m, n)}, x 7→ r(x) := rg(Df (x))
qui associe à x ∈ U le rang de Df (x), soit constante égale à r := r(a) au
voisinage de a. Alors il existe des voisinages ouverts Ua de a, Uf (a) de f (a),
U0 de 0 dans V et U00 de 0 dans W et des difféomorphismes h : U0 → Ua
et g : Uf (a) → U00 de classe C k tels que g ◦ f ◦ h = πr :
f
Ua → Uf (a)
h ↑∼
= ∼
=↓ g
πr
U0 → U00
c’est-à-dire, pour tout x ∈ U0 ,
g ◦ f ◦ h(x) = (x1 , . . . , xr , 0, . . . , 0).
92 13. Inversion locale et fonctions implicites

Avant de donner la preuve, donnons un exemple simple pour montrer que,


sans hypothèse sur la fonction r(x), la conclusion devient fausse : siPa est
un point critique isolé de f , comme par exemple a = 0 pour f (x) = i x2i ,
alors r = r(a) = 0 ; ainsi πr = 0, et dire que g ◦ f ◦ h = πr au voisinage de
a revient à dire que f = 0 au voisinage de a, ce qui n’est pas le cas. Or, r
n’est pas constant au voisinage de a, et il n’y a pas de contradiction avec
le théorème.
Démonstration. Nous procédons en trois étapes :
A. Simplification. Par des translations, on se ramène à a = 0 et f (a) = 0,
puis (en utilisant le résultat d’algèbre linéaire mentionné ci-dessus pour
F = Df (0) en remplaçant f par G ◦ f ◦ H dont la différentielle à l’origine
est G ◦ F ◦ H) on se ramène à Df (0) = πr .
B. Première application du théorème d’inversion locale. Comme dans la
section précédente, nous écrivons (x, y) avec x ∈ Rk et y ∈ Rn−r pour des
éléments de Rn , et pareillement pour des éléments de Rm = Rr × Rm−r .
Ainsi f (x, y) = (f1 (x, y), f2 (x, y)), et nous posons
Φ : U → Rn , (x, y) 7→ (Φ1 (x, y), Φ2 (x, y)) := (f1 (x, y), y).
Comme Df (0) = πr , on a D1 f1 (0) = 1r , D2 f1 (0) = 0 et donc DΦ(0, 0) =
idRn . Le théorème d’inversion locale nous donne l’existence d’un difféomor-
phisme local h = Φ−1 : U1 → U2 . Posons Ψ := f ◦ h. Alors Ψ1 (x, y) =
f1 (h(x, y)) = Φ1 Φ−1 (x, y) = x, et donc
Ψ(x, y) = (x, Ψ2 (x, y)).
Distinguons deux cas : si r = m, on a Ψ(x, y) = x (car Ψ2 (x, y) ∈ Rm−r ),
ce qui signifie que f ◦ h = πm et démontre ainsi le théorème pour ce cas.
(Remarque : le lecteur attentif aura observé que nous n’avons pas encore
utilisé l’hypothèse de la constance locale du rang. En effet, si r(a) = m est
maximal, cette hypothèse est une conséquence des autres hypothéses, cf. la
remarque 18 -3.3 ci-dessous.)
C. Deuxième application du théorème d’inversion locale. Si r < m, posons,
pour y ∈ Rm−r au voisinage de 0,
g(x, y) := (x, y − Ψ2 (x, y))
et montrons que g est un difféomorphisme local tel que g ◦ f ◦ h = πr au
voisinage de 0. Constatons d’abord que
   
D1 Ψ1 (x, y) D2 Ψ1 (x, y) 1r 0
DΨ(x, y) = = .
D1 Ψ2 (x, y) D2 Ψ2 (x, y) D1 Ψ2 (x, y) D2 Ψ2 (x, y)
Or, le rang de D(Ψ)(x, y) = Df (h(x, y))◦Dh(x, y) est celui de Df (h(x, y)),
donc est constant égal à r au voisinage de (0, 0). Il s’ensuit que la matrice
3. Le théorème du rang constant 93

D2 Ψ2 (x, y) est de rang nul (sinon, elle aurait au moins une colonne non-
nulle, et le rang de DΨ(x, y) était au moins r + 1), et donc D2 Ψ2 (x, y) = 0.
En particulier, D2 Ψ2 (0, 0) = 0, et
   
1r 0 1r 0
Dg(0, 0) = =
−D1 Ψ2 (0, 0) 1m−r − D2 Ψ2 (0, 0) −D1 Ψ2 (0, 0) 1m−r
est inversible, et donc g est un difféomorphisme local. De plus, la condition
D2 Ψ2 (x, y) = 0 au voisinage de (0, 0) implique que Ψ2 (x, y) ne dépend que
de x. Nous écrivons Ψ2 (x, y) = Ψ2 (x). En utilisant ceci, un calcul direct
montre que

g ◦ f ◦ h(x, y) = g(Ψ(x, y)) = g x, Ψ2 (x, y)

= x, Ψ2 (x, y) − Ψ2 (x, Ψ2 (x, y))

= x, Ψ2 (x) − Ψ2 (x) = (x, 0) = πr (x, y)
ce qui démontre le théorème dans le cas général. 

Les deux cas extrèmes r = m et r = n sont particulièrement intéressants.

3.2. Définition. Une application f : Rn ⊃ U → Rm de classe C 1 est dite


une submersion si, pour tout x ∈ U , la différentielle Df (x) : Rn → Rm est
surjective (i.e., r(x) = m), et f est dite une immersion si, pour tout x ∈ U ,
la différentielle Df (x) : Rn → Rm est injective (i.e., r(x) = n).

3.3. Remarque. Si Df (a) est surjective (resp. injective) en un seul point


a ∈ U , alors Df (x) est automatiquement surjective (resp. injective) pour
tout x suffisamment proche de a. Plus généralement, la fonction x 7→ r(x)
a une propriété de semi-continuité, cf. l’exercice ??.

3.4. Proposition. Retenons les hypothèses et notations du théorème 18-3.1


et supposons en outre que a = 0 et f (a) = 0.
(i) Si r = m (i.e., f est une submersion au voisinage de 0), alors il existe
un difféomorphisme local h tel que, au voisinage de 0,
f ◦ h(x1 , . . . , xn ) = (x1 , . . . , xm ).

(ii) Si r = n (i.e., f est une immersion au voisinage de 0) et si a = 0,


alors il existe un difféomorphisme local g tel que, au voisinage de 0,
g ◦ f (x1 , . . . , xn ) = (x1 , . . . , xn , 0, . . . , 0).

Démonstration. Rappelons tout d’abord que des énoncés analogues au ni-


veau d’algébre linéaire sont vrais : soit F : Rn → Rm une application
linéaire de rang r. Alors, si r = m (i.e., si F est surjective), alors il existe
94 13. Inversion locale et fonctions implicites

H ∈ GL(V ) tel que F ◦ H = πr ; si r = n (i.e., si F est injective), alors


il existe G ∈ GL(W ) tel que G ◦ F = πr . On utilise cette remarque pour
la simplification (étape A de la preuve du théorème 18 -3.1). Ensuite, la
preuve de (i) est exactement le cas r = m mentionné dans la preuve du
théorème du rang constant.
Preuve de (ii) : si r = n (et donc m > r = n), on écrit f : Rr ⊃ U →
Rr × Rm−r , x 7→ (f1 (x), f2 (x)), et on pose, pour y ∈ Rm−r ,

fˆ(x, y) := f (x) + (0, y) = f1 (x), f2 (x) + y .
Alors, du fait que Df (0) = πr : Rr → Rr × Rm−r est l’injection de Rr
comme premier facteur, on déduit que Dfˆ(0, 0) = idRm , et donc fˆ est un
difféomorphisme local. De plus, fˆ(x, 0) = (f1 (x), f2 (x)) = f (x), de sorte
que pour g := fˆ−1 , nous avons g(f (x)) = (x, 0) = πr (x). 

3.5. Remarque. Géométriquement, le résultat précédent s’interprète comme


une « linéarisation locale » des fibres (ensembles f −1 (c)), resp. de l’image
f (U ) d’une application différentiable f . Plus précisément, si f : U → Rm
est une submersion au voisinage de a et c := f (a), alors la partie M :=
f −1 (c) ⊂ Rn ressemble (à un difféomorphisme local près, au vosinage de a)
au sous-espace vectoriel ker(Df (a)) = Rn−m ⊂ Rn . En particulier, si f est
une fonction scalaire (m = 1), M ressemble à un hyperplan de Rn .
Si f : U → Rm est une immersion au voisinage de a, alors il existe un
voisinage ouvert (éventuellement plus petit) U1 de a tel que la partie M :=
f (U1 ) ⊂ Rm ressemble (à un difféomorphisme local près) au sous-espace
vectoriel ima(Df (a)) = Rn ⊂ Rm .
Ainsi, quitte à composer localement avec un difféomorphisme local, ces en-
sembles correspondent à des sous-espaces vectoriels de Rn , resp. de Rm , et
sont dans ce sens « localement linéaires ». Ces observations sont systémati-
sées par la notion et la théorie des sous-variétés différentiables de Rn , voir,
par exemple, [4], Chapitre 6.
95

Chapitre 14

Extrema liés

Nous avons déjà étudié le problème de déterminer les extrema d’une fonc-
tion f sur un ouvert de Rn (section 10 -4). En pratique, le problème se
pose souvent sous une autre forme : on veut déterminer les extrema d’une
fonction f sur une partie S de Rn qui n’est pas ouverte mais plutôt de la
forme « g = const », i.e.,
S = {x ∈ U | g(x) = d}
où g : U → W = R est une application de classe C 1 et d ∈ W . (C’est donc
m

une partie fermée de U .) Si f : U → R est une fonction scalaire de classe


C 1 , on cherche à déterminer les extrema de f restreint à S – s’il en existe !
Par exemple, si S est compact, nous savons qu’une fonction continue prend
des maxima et des minima – on pourra penser à U = R2 , g(x, y) = x2 + y 2
et d = 1 ; alors S est le cercle unité. Si f (x, y) = x + y, on peut déterminer
« la » solution par un dessin : en dessinant les lignes de niveau f = const,
on remarque que ces lignes touchent S de façon tangentielle aux points où
f atteint son maximum, resp. son minimum sur S. Nous commençons donc
par expliquer des notions comme « ligne tangent », « plan tangent », etc.

1. L’espace tangent

1.1. Définition. Soit S ⊂ Rn une partie et p ∈ S. Un vecteur v ∈ Rn


est dit un vecteur tangent à S au point p s’il existe un intervalle non-vide
I =] − ε, ε[ et une courbe γ : I → Rn de classe C 1 telle que
i) γ(0) = p, γ 0 (0) = v,
ii) l’image de γ est dans S, i.e., γ(I) ⊂ S.

– 95 –
96 14. Extrema liés

L’ensemble des vecteurs tangents à S au point p est noté Tp S et s’appelle


l’espace tangent de S en p. Pour visualiser l’espace tangent, il faut encore
le translater par p, i.e., on dessine l’espace tangent affine p + Tp S. Noter
que 0 appartient toujours à Tp S (prendre la courbe constante γ(t) = p) ; à
part cela on ne peut pas dire grande chose sur Tp S si S est un ensemble
quelconque. Par contre, sous des hypothèses convenables, on peut décrire
Tp S de manière satisfaisante :

1.2. Théorème. Soit S = {x ∈ U | g(x) = d} où g : U → W = Rm est de


classe C 1 . Soit p ∈ S tel que Dg(p) soit surjectif, i.e., de rang m. Alors on
a
Tp S = ker(Dg(p)).
En particulier, Tp S est alors un sous-espace vectoriel de V de dimension
n − m.
Démonstration. “⊆” : Soit v ∈ Tp S. Les conditions v = γ 0 (0) et g(γ(t)) = d
impliquent
d
0 = |t=0 g(γ(t)) = Dg(p)v
dt
et donc v ∈ ker Dg(p). (La condition sur le rang de Dg(p) n’est pas utilisée
ici.)
“⊇” : On veut appliquer le théorème du rang constant pour « linéariser
localement ». À cette fin, sans perte de généralité, on peut supposer que
d = 0. Comme Dg(p) est surjectif, il existe un voisinage ouvert Up de p tel
que Dg(x) soit surjectif pour tout x ∈ Up (cf. exercice ??). Le théorème
du rang constant dit qu’alors il existe un difféomorphisme local h tel que
h(0) = p et g ◦ h = πr . Soit v ∈ ker Dg(p), alors on pose w := Dh(0)−1 v.
La courbe
γ(t) := h(tw)
satisfait bien les conditions de la définition 19 -1.1 : γ(0) = h(0) = p,
γ 0 (0) = Dh(0)w = Dh(0)(Dh(0))−1 v = v
et g(γ(t)) = g(h(tw)) = πr (tw) = 0 (car πr étant linéaire, est égale à sa
propre différentielle, donc πr (w) = Dπr (0)w = D(g ◦ h)(0)w = Dg(p)v =
0). Ainsi γ(I) ⊂ S, et on a montré que v ∈ Tp S. 

Reprenons l’exemple de la sphère S = {x ∈ Rn |hx, xi = 1}, avec g(x) =


hx, xi, m = 1. Comme Dg(x)v = 2hx, vi, l’hypothèse du théorème est
vérifiée si x ∈ S, et donc on trouve que Tp S = {x ∈ Rn | hx, pi = 0} =
p⊥ (c’est le supplémentaire orthogonal de p). Donc l’ensemble p + Tp S
correspond bien à la notion intuitive d’hyperplan tangent a S en p (faire
un dessin !).
2. La méthode des multiplicateurs de Lagrange 97

2. La méthode des multiplicateurs de Lagrange


Revenons au problème décrit au début de ce chapitre : nous cherchons les
extrema d’une fonction f : U → R (de classe C 1 ), restreinte à un ensemble
S ⊂ U . Supposons que p est un extremum de f |S . Si v = γ 0 (0) est un
vecteur tangent à S au point p, avec γ : I → Rn comme dans la définition
19 -1.1, alors 0 est aussi un extremum de la fonction f ◦ γ : I → R ; alors,
nécessairement, (f ◦ γ)0 (0) = 0, et donc
0 = Df (γ(0))γ 0 (0) = Df (p)v.
Ainsi, l’espace tangent Tp S est inclus dans le noyau ker Df (p).

2.1. Définition. Un point critique de f |S est un point p ∈ S tel que


Tp S ⊂ ker Df (p).

2.2. Théorème. (Multiplicateurs de Lagrange.) Soit S = {x ∈ U | g(x) =


d} où g : U → W = Rm est de classe C 1 et d ∈ W . On suppose que, pour
tout x ∈ S, Dg(x) soit surjective. Soit aussi f : U → R une fonction de
classe C 1 .
(a) Si p ∈ S est un extremum de f |S , alors p est un point critique de f |S .
(b) Si p ∈ S est un point critique de f |S, alors il existe une forme linéaire
λ : Rm → R telle que
Df (p) = λ ◦ Dg(p).
Autrement dit, pour tout v ∈ Rn , nous avons Df (p)v = λ(Dg(p)v), ou
encore : il existe λ1 , . . . , λm ∈ R (dits des multiplicateurs de Lagrange)
tels que
Xm
Df (p)v = λi Dgi (p)v.
i=1

Démonstration. (a) Ceci a été démontré ci-dessus.


(b) Comme Dg(p) est surjectif par hypothèse, le théorème 19 -1.2 s’ap-
plique, et donc ker(Dg(p)) = Tp S ⊂ ker(Df (p)). Ainsi, dire que p est un
point critique revient à dire que ker α ⊂ ker β avec α = Dg(p) : Rn → Rm
et β = Df (p) : Rn → R. Alors l’énoncé est une conséquence du lemme
d’algèbre linéaire suivant :

2.3. Lemme. Soient α : Rn → Rm et β : Rn → R des applications


linéaires telles que ker(α) ⊂ ker(β). Alors il existe une application linéaire
λ : Rm → R telle que β = λ ◦ α.
98 14. Extrema liés

Démonstration du lemme. Soit bi , i = 1, . . . , r, une base dans ima(α). Il


existent donc ci ∈ Rn tels que bi = α(ci ), i = 1, . . . , r. Les ci sont indé-
pendants car les bi le sont. On complète les bi en une base b1 , . . . , bm de
Rm et les ci en une base c1 , . . . , cn de Rn . On pose alors λ(bi ) := β(ci ),
i = 1, . . . , r, et λ(bj ) = 0 si j > r, et on vérifie que l’application linéaire λ
ainsi définie vérifie β = λ ◦ α. Ceci démontre le lemme.
Pm
Pour terminer la preuve du théorème, en écrivant λ(x) = i=1 λi xi , on
obtient la dernière assertion. 

2.4. Remarque. On peut résumer le théorème en disant : pour chercher


les extrema de f |S , il faut résoudre simultanément les équations
m
X
g(x) = d, Df (x) − λi Dgi (x) = 0.
1=1

En composantes, ceci revient à m + n équations en m + n inconnues (qui


sont x1 , . . . , xn , λ1 , . . . , λm ). Dans des situations convenables, on peut ef-
fectivement les résoudre (cf. les exercices ??, ??).

2.5. Exemple. Soit S = {x ∈ Rn |hx, xi = 1} la sphère (donc m = 1)


et f (x) = hAx, xi avec une matrice symétrique A donnée. Comme S est
compact, f atteint un max et un min sur S. La partie (b) du théorème
donne la condition pour que p soit un point critique de f |S : il existe
λ : R → R (i.e., un scalaire réel) tel que
∀v ∈ V : hAp, vi = λhp, vi.
Ceci étant vrai pour tout v ∈ V , on trouve Ap = λp. Ainsi p est un vecteur
propre (de norme un) de A, et nous avons démontré le résultat suivant :
toute matrice symétrique A admet un vecteur propre.
Pour des exemples concrets de matrice A, on peut donc déterminer les
points critiques de f (exercice ??).
BIBLIOGRAPHIE 99

Bibliographie

[1] Bertram, W., H. Gloeckner et K.-H. Neeb, Differential Calculus, manifolds


and Lie groups over arbitrary infinite fields Expo. Math. 22 (2004), 213-282
(cf. arXiv : math.GM/0303300 )
[2] Bourbaki, N., “Variétés différentielles et analytiques – Fascicule de résultats”,
Hermann, Paris 1967
[3] Cartan, H., “Calcul différentiel", Hermann, Paris 1967
[4] Chaperon, M, “Calcul différentiel et calcul intégral 3e année", Dunod, Paris
2003
[5] Dieudonné, J., “Calcul infinitésimal”, Hermann, Paris 1968
[6] Dieudonné, J., “fondements de l’analyse moderne”, cahiers scientifiques Fasc.
XXVIII, Gauthier-Villars, Paris 1963
[7] Lang, S., “Analyse réelle”, InterEditions, Paris 1977
[8] Trèves, F., “Topological Vector Spaces, Distributions and Kernels”, Acade-
mic Press, New York 1967

Commentaire. Les livres de Cartan [3] et de Dieudonné [6] sont des clas-
siques du domaine en France ; les deux sont écrits dans l’esprit de l’œuvre
de Bourbaki (cf. [2]) et sont donc de niveau assez élévé – par exemple, le
calcul différentiel y est traité, dès le départ, dans les espaces de Banach qui
peuvent être de dimension infinie. Il en est de même pour les cours de Lang
[7] et de Chaperon [4] qui, néanmoins, sont plus facile à lire. En particulier,
je recommende le livre [4] de Marc Chaperon, qui contient beaucoup plus
de matériel que nous avons pu présenter ici et pourra servir comme lecture
ultérieure (en Master et en préparation d’Agrégation).
Nous n’avons, dans ce cours, traité que peu de sujets d’analyse fonctionelle
– les livres [6], [7] et [8] contiennent beaucoup plus de matériel, qui fera, en
partie, objet d’un cours de Master.
Finalement, l’article [1] est étroitement lié à l’approche au calcul différentiel
présentée dans ce cours.

– 99 –

Das könnte Ihnen auch gefallen