Sie sind auf Seite 1von 512

R E S E A R C H

U N I V E R S I T Y

Mthodes numriques
Introduction l'analyse numrique et au
calcul scientique
Guillaume Legendre
(version provisoire du 16 juillet 2014)

Avant-propos
Ce document est une version augmente et regroupe des notes de deux cours enseigns l'universit Paris-Dauphine, respectivement en deuxime anne de licence de Mathmatiques et Informatique
appliques l'conomie et l'Entreprise (MI2E) et en premire anne de master de Mathmatiques
de la Modlisation et de la Dcision  Mathmatiques Appliques (MMDMA). Ces enseignements se
composent la fois de cours magistraux et de sances de travaux dirigs et de travaux pratiques.
Leur but est de prsenter plusieurs mthodes numriques de base utilises pour la rsolution des
systmes linaires, des quations non linaires, des quations direntielles et aux drives partielles,
pour le calcul numrique d'intgrales ou encore pour l'approximation de fonctions par interpolation
polynomiale, ainsi que d'introduire aux tudiants les techniques d'analyse (thorique) de ces dernires.
Certains aspects pratiques de mise en uvre sont galement voqus et l'emploi des mthodes est motiv
par des problmes  concrets . La prsentation et l'analyse des mthodes se trouvent compltes par un
R 1 et GNU
travail d'implmentation et d'application ralis par les tudiants avec les logiciels Matlab
2
Octave .
Il est noter que ce support de cours comporte plusieurs passages qui ne sont pas traits dans le
cours devant les tudiants (ce dernier xant le programme de l'examen), ou tout au moins pas de manire
aussi dtaille. Il contient galement deux annexes de taille relativement consquente, l'une consacre des
rappels d'algbre, l'autre des rappels d'analyse, qui constituent les pr-requis une bonne comprhension
des deux premires parties du cours. Les courtes notes biographiques, qui apparaissent en bas de page
chaque premire fois que le nom d'un scientique est cit, sont pour partie tires de Wikipedia 3 .
Je tiens enn adresser mes remerciements tous les tudiants ayant dcel des erreurs, Matthieu
Hillairet pour son attentive relecture d'une partie du manuscrit et ses remarques, Nicolas Salles, Julien
Salomon et Gabriel Turinici pour leurs suggestions et enn Donald Knuth pour l'invention de TEX.
Guillaume Legendre
Paris, fvrier .

Quelques rfrences bibliographiques


Pour approfondir les thmes abords dans ces pages, voici une slection de plusieurs ouvrages de
rfrence, que l'on pourra consulter avec intrt en complment du cours. Par ailleurs, an de faciliter
l'accs la littrature de langue anglaise, des traductions des termes spciques ce cours sont proposes
tout au long du manuscrit, gnralement lors de l'introduction de l'objet ou de la notion en question.

Ouvrages rdigs en franais


[AD08]

L. Amodei et J.-P. Dedieu. Analyse numrique matricielle. De Mathmatiques pour le master/SMAI.


Dunod, 2008.

[AK02]

G. Allaire et S. M.
Ellipses, 2002.

1.
2.
3.

Kaber.

Algbre linaire numrique. De Mathmatiques pour le deuxime cycle.

Matlab est une marque dpose de The MathWorks, Inc., http://www.mathworks.com/.


GNU Octave est distribu sous licence GNU GPL, http://www.gnu.org/software/octave/.
Wikipedia, the free encyclopedia, http://www.wikipedia.org/.
i

[Cia98]
[Dem06]
[Fil09]
[LT00a]
[LT00b]
[QSS07]

P. G. Ciarlet. Introduction l'analyse numrique matricielle et l'optimisation  cours et exercices


corrigs. De Mathmatiques appliques pour la matrise. Dunod, 1998.
J.-P. Demailly. Analyse numrique et quations direntielles. De Grenoble Sciences. EDP Sciences,

2006.

Analyse numrique  Algorithme et tude mathmatique. Dunod, 2009.


et R. Thodor. Analyse numrique matricielle applique l'art de l'ingnieur. 1.
Mthodes directes. Dunod, 2000.
P. Lascaux et R. Thodor. Analyse numrique matricielle applique l'art de l'ingnieur. 2.
Mthodes itratives. Dunod, 2000.
A. Quarteroni, R. Sacco et F. Saleri. Mthodes numriques. Algorithmes, analyse et applications.
F.

Filbet.

P.

Lascaux

Springer, 2007.

doi

: 10.1007/978-88-470-0496-2.

Ouvrages rdigs en anglais


F. S.
1990.

[Atk89]

An introduction to numerical analysis. John Wiley & Sons, second edition, 1989.
O. Axelsson. Iterative solution methods. Cambridge University Press, 1994. doi: 10 . 1017 /

[Axe94]

K.

Acton.

Numerical methods that (usually) work. The Mathematical Association of America,

[Act90]

Atkinson.

CBO9780511624100.

T. H. Cormen, C. E. Leiserson, R. L.
Press, third edition, 2009.

[DB08]

G.

Dahlquist

[Gau97]

W.

Gautschi.

[GVL96]

G. H. Golub and C. F.
third edition, 1996.

[Hig02]

N. J. Higham. Accuracy and stability of numerical algorithms. SIAM, second edition, 2002.
10.1137/1.9780898718027.

[IK94]

Analysis of numerical methods. Dover, 1994.


R. J. LeVeque. Finite dierence methods for ordinary and partial dierential equations: steady-state
and time-dependent problems. SIAM, 2007. doi: 10.1137/1.9780898717839.
B. N. Parlett. The symmetric eigenvalue problem. Of Classics in applied mathematics. SIAM,

[LeV07]
[Par98]
[PTVF07]
[QV97]

doi:

E.

[SM03]

and C.

Stein.

and . Bjrk. Numerical methods in scientic computing. Volume I. SIAM, 2008.


10.1137/1.9780898717785.

Isaacson

1998.

doi:

Numerical analysis: an introduction. Birkhuser, 1997.


Van Loan. Matrix computations. Johns Hopkins University Press,

and H. B.

Keller.

10.1137/1.9781611971163.

10.1007/978-3-540-85268-1.

and R. Bulirsch. Introduction to numerical analysis. Volume 12 of Texts in applied


mathematics. Springer, third edition, 2002. doi: 10.1007/978-0-387-21738-3.
E. Sli and D. F. Mayers. An introduction to numerical analysis. Cambridge University Press,
J.

Stoer

2003.

doi:

10.1017/CBO9780511801181.

[Ste01]

G. W. Stewart. Matrix algorithms. Volume II: eigensystems. SIAM, 2001.


9780898718058.

[Ste98]

G. W. Stewart. Matrix algorithms. Volume I: basic decompositions. SIAM, 1998.


1.9781611971408.

[TB97]

L. N.

[Var00]
[Wil65]

doi:

W. H. Press, S. A. Teukolsky, W. T. Veterling, and B. P. Flannery. Numerical recipes: the


art of scientic computing. Cambridge University Press, third edition, 2007.
A. Quarteroni and A. Valli. Numerical approximation of partial dierential equations. Volume 23
of Springer series in computational mathematics. Springer, corrected second printing edition, 1997.
doi:

[SB02]

Rivest,

Introduction to algorithms. MIT

[CLRS09]

doi:

10.1137/1.

doi:

10.1137/

Numerical linear algebra. SIAM, 1997.


R. S. Varga. Matrix iterative analysis. Volume 27 of Springer series in computational mathematics.
Trefethen

and D.

Bau, III.

Springer, second edition, 2000.

doi:

10.1007/978-3-642-05156-2.

Wilkinson. The algebraic eigenvalue problem. Of Numerical mathematics and scientic


computation. Oxford University Press, 1965.

J. H.

ii

Table des matires


1 Gnralits sur l'analyse numrique et le calcul scientique
1.1
1.2

Direntes sources d'erreur dans une mthode numrique . . . .


Quelques notions d'algorithmique . . . . . . . . . . . . . . . . . .
1.2.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Codage . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Ecacit et complexit . . . . . . . . . . . . . . . . . . .
1.3 Arithmtique virgule ottante . . . . . . . . . . . . . . . . . . .
1.3.1 Systme de numration . . . . . . . . . . . . . . . . . . .
1.3.2 Reprsentation des nombres rels en machine . . . . . . .
Arrondi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Arithmtique en prcision nie . . . . . . . . . . . . . . .
Un modle d'arithmtique virgule ottante . . . . . . .
Multiplication et addition fusionnes . . . . . . . . . . . .
Perte d'associativit et de distributivit . . . . . . . . . .
Soustraction exacte . . . . . . . . . . . . . . . . . . . . . .
Arithmtique complexe . . . . . . . . . . . . . . . . . . .
1.3.4 La norme IEEE 754 . . . . . . . . . . . . . . . . . . . . .
1.4 Propagation des erreurs et conditionnement . . . . . . . . . . . .
1.4.1 Propagation des erreurs dans les oprations arithmtiques
Cas de la multiplication . . . . . . . . . . . . . . . . . . .
Cas de la division . . . . . . . . . . . . . . . . . . . . . . .
Cas de l'addition et de la soustraction . . . . . . . . . . .
1.4.2 Analyse de sensibilit et conditionnement d'un problme .
Problme bien pos . . . . . . . . . . . . . . . . . . . . . .
Conditionnement . . . . . . . . . . . . . . . . . . . . . . .
Quelques exemples . . . . . . . . . . . . . . . . . . . . . .
1.5 Analyse d'erreur et stabilit des mthodes numriques . . . . . .
1.5.1 Analyse d'erreur directe et inverse . . . . . . . . . . . . .
Quelques exemples (simples) d'analyse d'erreur . . . . . .
1.5.2 Stabilit numrique et prcision d'un algorithme . . . . .
1.6 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Algbre linaire numrique

2.2
2.3

2
3
3
4
4
9
9
10
12
14
14
15
15
16
16
17
18
18
18
18
18
19
20
20
23
29
30
31
34
37
38

41

2 Mthodes directes de rsolution des systmes linaires


2.1

Exemples d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Estimation d'un modle de rgression linaire en statistique * . . . . . . .
2.1.2 Rsolution d'un problme aux limites par la mthode des dirences nies
Remarques sur la rsolution des systmes triangulaires . . . . . . . . . . . . . . .
Mthode d'limination de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 limination sans change . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii

.
.
*
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

45

45
46
47
48
50
51

2.3.2 limination de Gauss avec change . . . . . . . . . . . . . . . . .


2.3.3 Rsolution de systmes rectangulaires par limination . . . . . .
2.3.4 Choix du pivot . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5 Mthode d'limination de GaussJordan . . . . . . . . . . . . . .
2.4 Interprtation matricielle de l'limination de Gauss : la factorisation LU
2.4.1 Formalisme matriciel . . . . . . . . . . . . . . . . . . . . . . . . .
Matrices des transformations lmentaires . . . . . . . . . . . . .
Factorisation LU . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Condition d'existence de la factorisation LU . . . . . . . . . . . .
2.4.3 Mise en uvre . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.4 Factorisation LU de matrices particulires . . . . . . . . . . . . .
Cas des matrices diagonale strictement dominante . . . . . . .
Cas des matrices bandes . . . . . . . . . . . . . . . . . . . . . . .
Cas des matrices tridiagonales . . . . . . . . . . . . . . . . . . .
Cas des matrices de Toeplitz . . . . . . . . . . . . . . . . . . . .
Phnomne de remplissage des matrices creuses . . . . . . . . . .
2.5 Autres mthodes de factorisation . . . . . . . . . . . . . . . . . . . . . .
2.5.1 Factorisation LDMT . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2 Factorisation de Cholesky . . . . . . . . . . . . . . . . . . . . . .
2.5.3 Factorisation QR . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Stabilit numrique des mthodes directes * . . . . . . . . . . . . . . . .
2.6.1 Rsolution des systmes triangulaires * . . . . . . . . . . . . . .
2.6.2 limination de Gauss et factorisation LU * . . . . . . . . . . . .
2.6.3 Factorisation de Cholesky * . . . . . . . . . . . . . . . . . . . . .
2.6.4 Factorisation QR ** . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Mthodes itratives de rsolution des systmes linaires


3.1
3.2
3.3
3.4

Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthodes de Jacobi et de sur-relaxation . . . . . . . . . . .
Mthodes de GaussSeidel et de sur-relaxation successive .
Convergence des mthodes de GaussSeidel et de Jacobi . .
3.4.1 Cas des matrices diagonale strictement dominante
3.4.2 Cas des matrices hermitiennes dnies positives . . .
3.4.3 Cas des matrices tridiagonales . . . . . . . . . . . .
3.5 Remarques sur la mise en uvre des mthodes itratives . .
3.6 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Calcul de valeurs et de vecteurs propres


4.1

4.2
4.3
4.4

4.5

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

. 90
. 94
. 95
. 96
. 97
. 97
. 98
. 101
. 102
. 103

Exemples d'application ** . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Dtermination des modes propres de vibration d'une plaque * . . . . . . . . . .
4.1.2 valuation numrique des nuds et poids des formules de quadrature de Gauss
4.1.3 PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Localisation des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conditionnement d'un problme aux valeurs propres . . . . . . . . . . . . . . . . . . .
Mthode de la puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Approximation de la valeur propre de plus grand module . . . . . . . . . . . .
4.4.2 Dation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.3 Mthode de la puissance inverse . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.4 Mthode de Lanczos ** . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthode de Jacobi pour les matrices symtriques . . . . . . . . . . . . . . . . . . . . .
4.5.1 Matrices de rotation de Givens . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2 Mthode de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv

. .
. .
**
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .

52
54
54
55
56
56
56
58
59
62
63
67
68
68
69
72
73
73
74
76
82
82
83
84
85
85
86

89

107

108
108
109
110
112
114
115
115
117
118
119
119
119
121

4.5.3 Mthode de Jacobi cyclique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125


4.6 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

II

Traitement numrique des fonctions

5 Rsolution numrique des quations non linaires


5.1

Exemples d'applications ** . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 quation de Kepler . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 quation d'tat de van der Waals pour un gaz . . . . . . . . .
5.1.3 Calcul du rendement moyen d'un fonds de placement . . . . . .
5.2 Ordre de convergence d'une mthode itrative . . . . . . . . . . . . . .
5.3 Mthodes d'encadrement . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Mthode de dichotomie . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Mthode de la fausse position . . . . . . . . . . . . . . . . . . .
5.4 Mthodes de point xe . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.2 Quelques rsultats de convergence . . . . . . . . . . . . . . . .
5.4.3 Mthode de relaxation ou de la corde . . . . . . . . . . . . . .
5.4.4 Mthode de NewtonRaphson . . . . . . . . . . . . . . . . . . .
5.4.5 Mthode de Steensen . . . . . . . . . . . . . . . . . . . . . . .
5.4.6 Classe des mthodes de Householder ** . . . . . . . . . . . . .
5.5 Mthode de la scante et variantes . . . . . . . . . . . . . . . . . . . .
5.5.1 Mthode de Muller . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.2 Mthode de Brent ** . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Critres d'arrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Mthodes pour les quations algbriques . . . . . . . . . . . . . . . . .
5.7.1 Localisation des racines ** . . . . . . . . . . . . . . . . . . . .
5.7.2 valuation des polynmes et de leurs drives . . . . . . . . . .
valuation d'un polynme en un point . . . . . . . . . . . . . .
Division euclidienne d'un polynme par un monme . . . . . .
valuation des drives successives d'un polynme en un point
Stabilit numrique de la mthode de Horner . . . . . . . . . .
5.7.3 Mthode de NewtonHorner . . . . . . . . . . . . . . . . . . . .
5.7.4 Dation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.5 Mthode de Bernoulli * . . . . . . . . . . . . . . . . . . . . . .
5.7.6 Mthode de Gre . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.7 Mthode de Laguerre . . . . . . . . . . . . . . . . . . . . . . .
5.7.8 Mthode de DurandKerner ** . . . . . . . . . . . . . . . . . .
5.7.9 Mthode de Bairstow . . . . . . . . . . . . . . . . . . . . . . .
5.7.10 Mthode de JenkinsTraub ** . . . . . . . . . . . . . . . . . .
5.7.11 Recherche des valeurs propres d'une matrice compagnon ** . .
5.8 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Quelques rsultats concernant l'approximation polynomiale . . . . . . . . .


6.1.1 Polynmes et fonctions polynomiales . . . . . . . . . . . . . . . . . .
6.1.2 Approximation uniforme . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3 Meilleure approximation au sens des moindres carrs . . . . . . . . .
Interpolation de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Dnition du problme d'interpolation . . . . . . . . . . . . . . . . .
6.2.2 Direntes reprsentations du polynme d'interpolation de Lagrange
Forme de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

6 Interpolation polynomiale
6.1

6.2

131

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

135

136
136
136
137
137
138
139
140
143
144
145
149
150
155
157
158
160
161
161
162
163
163
164
164
164
165
166
166
167
168
169
171
171
173
173
173
176

179

179
180
180
183
184
184
185
185

Forme de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Formes barycentriques . . . . . . . . . . . . . . . . . . . . . . . . . .
Algorithme de Neville . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.3 Interpolation polynomiale d'une fonction . . . . . . . . . . . . . . . .
Polynme d'interpolation de Lagrange d'une fonction . . . . . . . .
Erreur d'interpolation polynomiale . . . . . . . . . . . . . . . . . . .
Quelques proprits des dirences divises associes une fonction
Convergence des polynmes d'interpolation et exemple de Runge . .
6.2.4 Gnralisations * . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpolation de Hermite . . . . . . . . . . . . . . . . . . . . . . . .
Interpolation de Birkho * . . . . . . . . . . . . . . . . . . . . . . .
6.3 Interpolation par morceaux . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Interpolation de Lagrange par morceaux . . . . . . . . . . . . . . . .
6.3.2 Interpolation par des fonctions splines . . . . . . . . . . . . . . . . .
Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpolation par une fonction spline linaire . . . . . . . . . . . . .
Interpolation par une fonction spline cubique . . . . . . . . . . . . .
6.4 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 Formules de quadrature
7.1
7.2
7.3

Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Formules de NewtonCotes . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimations d'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Cas des formules de NewtonCotes . . . . . . . . . . . . . . . . . . .
7.3.2 Reprsentation intgrale de l'erreur de quadrature * . . . . . . . . .
7.4 Formules de quadrature composes . . . . . . . . . . . . . . . . . . . . . . .
7.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.2 Formules adaptatives ** . . . . . . . . . . . . . . . . . . . . . . . . .
7.5 valuation d'intgrales sur un intervalle born de fonctions particulires **
7.5.1 Fonctions priodiques ** . . . . . . . . . . . . . . . . . . . . . . . . .
7.5.2 Fonctions rapidement oscillantes ** . . . . . . . . . . . . . . . . . . .
7.6 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III

8.2

8.3

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

quations direntielles et aux drives partielles

8 Rsolution numrique des quations direntielles ordinaires


8.1

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Rappels sur les quations direntielles ordinaires * . . . . . . . . .


8.1.1 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.1.2 Problme de Cauchy . . . . . . . . . . . . . . . . . . . . . .
Exemples d'quations et de systmes direntiels ordinaires . . . .
8.2.1 Problme N corps en mcanique cleste . . . . . . . . . .
8.2.2 Modle de LotkaVolterra en dynamique des populations .
8.2.3 Oscillateur de van der Pol . . . . . . . . . . . . . . . . . . .
8.2.4 Modle SIR de KermackMcKendrick en pidmiologie . . .
8.2.5 Modle de Lorenz en mtorologie . . . . . . . . . . . . . .
8.2.6 Problme de Robertson en chimie . . . . . . . . . . . . . . .
Mthodes numriques de rsolution . . . . . . . . . . . . . . . . . .
8.3.1 La mthode d'Euler . . . . . . . . . . . . . . . . . . . . . .
8.3.2 Mthodes de RungeKutta . . . . . . . . . . . . . . . . . .
Construction d'une mthode de RungeKutta explicite pour
Mthodes de RungeKutta implicites . . . . . . . . . . . . .
8.3.3 Mthodes pas multiples linaires . . . . . . . . . . . . . .
vi

187
190
192
194
194
194
196
197
201
201
202
203
203
203
204
204
205
212
214

217

218
219
222
223
225
226
227
231
231
231
231
231
234

237
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
une quation scalaire
. . . . . . . . . . . . .
. . . . . . . . . . . . .

241

241
242
244
246
247
247
251
253
254
256
257
258
261
262
265
271

Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthodes d'Adams . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthodes de Nystrm . . . . . . . . . . . . . . . . . . . . . . . . . .
Gnralisations de la mthode de MilneSimpson . . . . . . . . . . .
Mthodes utilisant des formules de direntiation rtrograde . . . .
8.3.4 Mthodes bases sur des dveloppements de Taylor . . . . . . . . . .
8.4 Analyse des mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.1 Rappels sur les quations aux dirences linaires * . . . . . . . . .
8.4.2 Ordre et consistance . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes un pas . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes pas multiples linaires * . . . . . . . . . . . . .
8.4.3 Zro-stabilit * . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes un pas . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes pas multiples linaires . . . . . . . . . . . . . . .
8.4.4 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes un pas . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes pas multiples linaires . . . . . . . . . . . . . . .
8.4.5 Stabilit absolue . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes un pas . . . . . . . . . . . . . . . . . . . . . . .
Cas des mthodes pas multiples linaires * . . . . . . . . . . . . .
8.4.6 Cas des systmes d'quations direntielles ordinaires . . . . . . . .
8.5 Mthodes de prdiction-correction . . . . . . . . . . . . . . . . . . . . . . .
8.6 Techniques pour l'adaptation du pas de discrtisation . . . . . . . . . . . .
8.6.1 Cas des mthodes un pas . . . . . . . . . . . . . . . . . . . . . . .
8.6.2 Cas des mthodes pas multiples linaires * . . . . . . . . . . . . .
8.7 Systmes raides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7.1 Deux expriences numriques . . . . . . . . . . . . . . . . . . . . . .
8.7.2 Direntes notions de stabilit pour la rsolution des systmes raides
8.8 Application la rsolution numrique de problmes aux limites ** . . . . .
8.8.1 Dnition du problme . . . . . . . . . . . . . . . . . . . . . . . . . .
8.8.2 Mthodes de tir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.9 Notes sur le chapitre * . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 Rsolution numrique des quations direntielles stochastiques


9.1

9.2

Rappels de calcul stochastique . . . . . . . . . . . . . . . . . . . . . . .


9.1.1 Processus stochastiques en temps continu . . . . . . . . . . . . .
9.1.2 Filtrations et martingales * . . . . . . . . . . . . . . . . . . . . .
9.1.3 Processus de Wiener et mouvement brownien * . . . . . . . . . .
9.1.4 Calcul stochastique d'It
o ** . . . . . . . . . . . . . . . . . . . . .
Intgrale stochastique d'It
o . . . . . . . . . . . . . . . . . . . . .
Formule d'It
o . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Intgrale stochastique de Stratonovich . . . . . . . . . . . . . . .
9.1.5 quations direntielles stochastiques * . . . . . . . . . . . . . .
9.1.6 Dveloppements d'It
oTaylor * . . . . . . . . . . . . . . . . . . .
Exemples d'quations direntielles stochastiques . . . . . . . . . . . . .
9.2.1 Exemple issu de la physique *** . . . . . . . . . . . . . . . . . .
9.2.2 Modle de BlackScholes pour l'valuation des options en nance
Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hypothses sur le march . . . . . . . . . . . . . . . . . . . . . .
Stratgie de portefeuille autonance . . . . . . . . . . . . . . . .
Principe d'arbitrage et mesure de probabilit risque-neutre . . .
Rplication et valuation de l'option . . . . . . . . . . . . . . . .
Formule de BlackScholes . . . . . . . . . . . . . . . . . . . . . .
vii

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
*
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

271
273
276
276
277
277
278
279
280
280
283
285
286
288
290
290
291
293
294
296
299
300
305
306
310
310
311
314
318
318
318
318
321

325

326
326
327
328
331
332
334
335
336
337
338
338
338
338
339
340
340
341
342

Extensions et mthodes de Monte-Carlo . . . . . . . . . . . . . . . . .


9.2.3 Modle de Vasicek d'volution des taux d'intrts en nance ** . . . .
9.2.4 Quelques dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3 Mthodes numriques de rsolution des quations direntielles stochastiques
9.3.1 Simulation numrique d'un processus de Wiener * . . . . . . . . . . .
Gnrateurs de nombres pseudo-alatoires . . . . . . . . . . . . . . . .
Approximation d'un processus de Wiener . . . . . . . . . . . . . . . .
9.3.2 Mthode d'EulerMaruyama . . . . . . . . . . . . . . . . . . . . . . .
9.3.3 Direntes notions de convergence et de consistance . . . . . . . . . .
9.3.4 Stabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3.5 Mthodes d'ordre plus lev . . . . . . . . . . . . . . . . . . . . . . . .
Mthode de Milstein . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthodes de RungeKutta stochastiques . . . . . . . . . . . . . . . .
Mthodes multipas stochastiques . . . . . . . . . . . . . . . . . . . . .
9.4 Notes sur le chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

10 Mthodes de rsolution des systmes hyperboliques de lois de conservation

10.1 Gnralits sur les systmes hyperboliques . . . . . . . . . . . . . . . . . . . . . .


10.2 Exemples de systmes d'quations hyperboliques et de lois de conservation * . . .
10.2.1 quation d'advection linaire ** . . . . . . . . . . . . . . . . . . . . . . .
10.2.2 Modle de trac routier * . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2.3 quation de Boltzmann en mcanique statistique ** . . . . . . . . . . . .
10.2.4 quation de Burgers pour la turbulence . . . . . . . . . . . . . . . . . . .
10.2.5 Systme des quations de la dynamique des gaz en description eulrienne
10.2.6 Systme de Saint-Venant ** . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2.7 quation des ondes linaire * . . . . . . . . . . . . . . . . . . . . . . . . .
10.2.8 Systme des quations de Maxwell en lectromagntisme * . . . . . . . . .
10.3 Problme de Cauchy pour une loi de conservation scalaire . . . . . . . . . . . . .
10.3.1 Le cas linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3.2 Solutions classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3.3 Solutions faibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3.4 Solutions entropiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.3.5 Le problme de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4 Mthodes de discrtisation par dirences nies ** . . . . . . . . . . . . . . . . .
10.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.2 Analyse des schmas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Consistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Stabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La condition de CourantFriedrichsLewy . . . . . . . . . . . . . . . . . .
10.4.3 Mthodes pour les quations hyperboliques linaires ** . . . . . . . . . .
Mthode de LaxFriedrichs . . . . . . . . . . . . . . . . . . . . . . . . . .
Schma dcentr amont . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthode de LaxWendro . . . . . . . . . . . . . . . . . . . . . . . . . . .
Autres schmas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cas de l'quation des ondes *** . . . . . . . . . . . . . . . . . . . . . . . .
10.4.4 Mthodes pour les lois de conservation non linaires . . . . . . . . . . . .
Extensions des schmas prcdemment introduits . . . . . . . . . . . . . .
Mthode de Godunov . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
mthode de MurmanRoe . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mthode d'EngquistOsher . . . . . . . . . . . . . . . . . . . . . . . . . .
Autres schmas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.5 Analyse par des techniques variationnelles ** . . . . . . . . . . . . . . . .
viii

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

343
343
343
344
345
345
350
350
350
353
353
353
354
354
354
355

359

359
360
361
361
361
361
362
362
362
363
363
364
365
367
371
376
378
379
381
382
383
386
386
388
388
388
388
391
393
393
393
394
394
394
395
395

10.4.6 Remarques sur l'implmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395


10.5 Notes sur le chapitre ** . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396

11 Rsolution numrique des quations paraboliques

11.1 Quelques exemples d'quations paraboliques * . . . . . . . . . . .


11.1.1 Un modle de conduction thermique * . . . . . . . . . . .
11.1.2 Retour sur le modle de BlackScholes * . . . . . . . . . .
11.1.3 Systmes de raction-diusion ** . . . . . . . . . . . . . .
11.1.4 Systmes d'advection-raction-diusion ** . . . . . . . . .
11.2 Existence et unicit d'une solution, proprits ** . . . . . . . . .
11.3 Rsolution approche par la mthode des dirences nies . . . .
11.3.1 Analyse des mthodes ** . . . . . . . . . . . . . . . . . .
11.3.2 Prsentation de quelques schmas ** . . . . . . . . . . . .
11.3.3 Remarques sur l'implmentation de conditions aux limites
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

IV

. .
. .
. .
. .
. .
. .
. .
. .
. .
**
. .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

Annexes

399

399
399
400
401
402
402
403
403
403
406
406

407

A Rappels et complments d'algbre linaire

A.1 Ensembles et applications . . . . . . . . . . . . . . .


A.1.1 Gnralits sur les ensembles . . . . . . . . .
A.1.2 Relations . . . . . . . . . . . . . . . . . . . .
A.1.3 Applications . . . . . . . . . . . . . . . . . .
A.1.4 Cardinalit, ensembles nis et innis . . . . .
A.2 Structures algbriques . . . . . . . . . . . . . . . . .
A.2.1 Lois de composition . . . . . . . . . . . . . .
A.2.2 Structures de base . . . . . . . . . . . . . . .
Groupes . . . . . . . . . . . . . . . . . . . . .
Anneaux . . . . . . . . . . . . . . . . . . . . .
Corps . . . . . . . . . . . . . . . . . . . . . .
A.2.3 Structures oprateurs externes . . . . . . .
Espaces vectoriels * . . . . . . . . . . . . . .
Algbres * . . . . . . . . . . . . . . . . . . . .
A.3 Matrices . . . . . . . . . . . . . . . . . . . . . . . . .
A.3.1 Oprations sur les matrices . . . . . . . . . .
A.3.2 Liens entre applications linaires et matrices
A.3.3 Inverse d'une matrice . . . . . . . . . . . . .
A.3.4 Trace et dterminant d'une matrice . . . . .
A.3.5 Valeurs et vecteurs propres . . . . . . . . . .
A.3.6 Quelques matrices particulires . . . . . . . .
Matrices diagonales . . . . . . . . . . . . . .
Matrices triangulaires . . . . . . . . . . . . .
Matrices bandes . . . . . . . . . . . . . . . .
Matrices diagonale dominante . . . . . . . .
Matrices symtriques et hermitiennes . . . . .
A.3.7 Matrices quivalentes et matrices semblables
A.3.8 Matrice associe une forme bilinaire ** . .
Forme bilinaire . . . . . . . . . . . . . . . .
Matrice d'une forme bilinaire . . . . . . . .
Matrices congruentes . . . . . . . . . . . . . .
A.3.9 Diagonalisation des matrices * . . . . . . . .
A.3.10 Dcomposition en valeurs singulires * . . . .
A.4 Normes et produits scalaires . . . . . . . . . . . . . .
ix

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

409

409
409
411
414
417
419
419
420
420
420
421
421
421
423
423
424
426
428
428
430
431
431
432
432
432
433
433
434
434
435
435
435
435
437

A.4.1 Dnitions gnrales . . . . . . . . . . . .


A.4.2 Produits scalaires et normes vectoriels . .
A.4.3 Normes de matrices * . . . . . . . . . . .
A.5 Systmes linaires . . . . . . . . . . . . . . . . .
A.5.1 Systmes linaires carrs . . . . . . . . . .
A.5.2 Systmes linaires sur ou sous-dtermins
A.5.3 Systmes linaires sous forme chelonne .
A.5.4 Conditionnement d'une matrice . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

B.1 Nombres rels . . . . . . . . . . . . . . . . . . . . . .


B.1.1 Majorant et minorant . . . . . . . . . . . . .
B.1.2 Proprits des nombres rels . . . . . . . . .
Proprit d'Archimde . . . . . . . . . . . . .
Partie entire d'un nombre rel . . . . . . . .
Valeur absolue d'un nombre rel . . . . . . .
Densit de Q et de R\Q dans R . . . . . . . .
B.1.3 Intervalles . . . . . . . . . . . . . . . . . . . .
B.1.4 Droite numrique acheve . . . . . . . . . . .
B.2 Suites numriques . . . . . . . . . . . . . . . . . . .
B.2.1 Premires dnitions et proprits . . . . . .
Oprations sur les suites . . . . . . . . . . . .
Suites relles monotones . . . . . . . . . . . .
B.2.2 Convergence d'une suite . . . . . . . . . . . .
Proprits des suites convergentes . . . . . .
Proprits algbriques des suites convergentes
B.2.3 Existence de limite . . . . . . . . . . . . . . .
B.2.4 Quelques suites particulires . . . . . . . . . .
Suites arithmtiques . . . . . . . . . . . . . .
Suites gomtriques . . . . . . . . . . . . . .
Suites arithmtico-gomtriques . . . . . . . .
Suites dnies par rcurrence . . . . . . . . .
B.3 Fonctions d'une variable relle * . . . . . . . . . . .
B.3.1 Gnralits sur les fonctions . . . . . . . . . .
Oprations sur les fonctions . . . . . . . . . .
Relation d'ordre pour les fonctions relles . .
B.3.2 Proprits globales des fonctions . . . . . . .
Parit . . . . . . . . . . . . . . . . . . . . . .
Priodicit . . . . . . . . . . . . . . . . . . .
Monotonie . . . . . . . . . . . . . . . . . . . .
Majoration, minoration . . . . . . . . . . . .
Convexit et concavit . . . . . . . . . . . . .
B.3.3 Limites . . . . . . . . . . . . . . . . . . . . .
Limite d'une fonction en un point . . . . . .
Limite droite, limite gauche . . . . . . . .
Caractrisation squentielle de la limite . . .
Passage la limite dans une ingalit . . . .
Thorme d'encadrement . . . . . . . . . . .
Oprations algbriques sur les limites . . . .
Composition des limites . . . . . . . . . . . .
Cas des fonctions monotones . . . . . . . . .
B.3.4 Continuit . . . . . . . . . . . . . . . . . . . .
Continuit en un point . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

B Rappels et complments d'analyse

.
.
.
.
.
.
.
.
.

437
439
443
449
449
450
450
451
454

455

455
456
456
456
457
457
458
458
458
459
459
460
460
461
462
464
467
468
468
468
469
469
470
470
470
471
471
471
471
471
472
472
472
472
474
474
475
475
475
477
477
478
478

Continuit droite, continuit gauche . . . . . . . . . . . . . . . . . .


Caractrisation squentielle de la continuit . . . . . . . . . . . . . . . .
Prolongement par continuit . . . . . . . . . . . . . . . . . . . . . . . .
Continuit sur un intervalle . . . . . . . . . . . . . . . . . . . . . . . . .
Continuit par morceaux . . . . . . . . . . . . . . . . . . . . . . . . . .
Oprations algbriques sur les applications continues . . . . . . . . . . .
Thormes des bornes et des valeurs intermdiaires . . . . . . . . . . . .
Application rciproque d'une application continue strictement monotone
Continuit uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Applications lipschitziennes . . . . . . . . . . . . . . . . . . . . . . . . .
B.3.5 Drivabilit * . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Drivabilit en un point . . . . . . . . . . . . . . . . . . . . . . . . . . .
Proprits algbriques des fonctions drivables en un point . . . . . . .
Drive d'une compose de fonctions . . . . . . . . . . . . . . . . . . . .
Drive d'une fonction rciproque . . . . . . . . . . . . . . . . . . . . . .
Application drive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Drives successives . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Extrema locaux d'une fonction relle drivable . . . . . . . . . . . . . .
Rgle de L'Hpital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Thorme de Rolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Thorme des accroissements nis . . . . . . . . . . . . . . . . . . . . .
Sens de variation d'une fonction drivable . . . . . . . . . . . . . . . . .
Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.4 Intgrales * . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.4.1 Intgrabilit au sens de Riemann * . . . . . . . . . . . . . . . . . . . . .
B.4.2 Classes de fonctions intgrables * . . . . . . . . . . . . . . . . . . . . . .
B.4.3 Thorme fondamental de l'analyse et intgration par parties ** . . . .
B.4.4 Formules de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Index

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

478
478
479
479
479
479
480
481
481
482
483
483
484
484
484
485
485
486
487
487
488
488
489
490
490
492
493
493
494

495

xi

Chapitre 1

Gnralits sur l'analyse numrique et


le calcul scientique
L'analyse numrique (numerical analysis en anglais) est une branche des mathmatiques appliques
s'intressant au dveloppement d'outils et de mthodes numriques pour le calcul d'approximations de
solutions de problmes de mathmatiques 1 qu'il serait dicile, voire impossible, d'obtenir par des moyens
analytiques 2 . Son objectif est notamment d'introduire des procdures calculatoires dtailles susceptibles
d'tre mises en uvre par des calculateurs (lectroniques, mcaniques ou humains) et d'analyser leurs
caractristiques et leurs performances. Elle possde des liens troits avec deux disciplines la croise des
mathmatiques et de l'informatique. La premire est l'analyse des algorithmes (analysis of algorithms
en anglais), elle-mme une branche de la thorie de la complexit 3 (computational complexity theory
en anglais), qui fournit une mesure de l'ecacit d'une mthode en quantiant le nombre d'oprations
lmentaires 4 , ou parfois la quantit de ressources informatiques (comme le temps de calcul, le besoin en
mmoire...), qu'elle requiert pour la rsolution d'un problme donn. La seconde est le calcul scientique
(scientic computing en anglais), qui consiste en l'tude de l'implmentation de mthodes numriques
dans des architectures d'ordinateurs et leur application la rsolution eective de problmes issus de la
physique, de la biologie, des sciences de l'ingnieur ou encore de l'conomie et de la nance.
Si l'introduction et l'utilisation de mthodes numriques prcdent de plusieurs sicles l'avnement
des ordinateurs 5 , c'est nanmoins avec l'apparition de ces outils modernes, vers la n des annes 1940 et
le dbut des annes 1950, que le calcul scientique connut un essor sans prcdent et que l'analyse numrique devint une domaine part entire des mathmatiques. La possibilit d'eectuer un grand nombre
d'oprations arithmtiques trs rapidement et simplement ouvrit en eet la voie au dveloppement
de nouvelles classes de mthodes ncessitant d'tre rigoureusement analyses pour s'assurer de l'exactitude et de la pertinence des rsultats qu'elles fournissent. ce titre, les travaux pionniers de Turing 6 ,
1. Les problmes considrs peuvent virtuellement provenir de tous les domaines d'tude des mathmatiques pures ou
appliques. La thorie des nombres, la combinatoire, les algbres abstraite et linaire, la gomtrie, les analyses relle et
complexe, la thorie de l'approximation et l'optimisation, pour ne citer qu'elles, possdent toutes des aspects calculatoires.
Sont ainsi couramment traites numriquement l'valuation d'une fonction en un point, le calcul d'intgrales, ou encore la
rsolution d'quations, ou de systmes d'quations, algbriques, transcendantes, direntielles ordinaires ou aux drives
partielles (dterministes ou stochastiques), de problmes aux valeurs et vecteurs propres, d'interpolation ou d'optimisation
(avec ou sans contraintes).
2. Pour complter cette premire dnition, on ne peut que recommander la lecture de l'essai de L. N. Trefethen intitul
The denition of numerical analysis, publi dans la revue SIAM News en novembre 1992 et reproduit par la suite dans une
annexe de l'ouvrage [Tre00].
3. Cette branche des mathmatiques et de l'informatique thorique s'attache connatre la dicult intrinsque d'une
rponse algorithmique un problme pos de faon mathmatique et dnir en consquence une classe de complexit
pour ce problme.
4. La notion d' opration lmentaire  est ici laisse ncessairement oue et entendue un sens plus large que celui qu'on
lui attribue habituellement en arithmtique.
5. Le lecteur intress est renvoy l'ouvrage de Goldstine [Gol77], qui retrace une grande partie des dveloppements
de l'analyse numrique en Europe entre le seizime et le dix-neuvime sicle.
6. Alan Mathison Turing (23 juin 1912 - 7 juin 1954) tait un mathmaticien et informaticien anglais, spcialiste de
la logique et de la cryptanalyse. Il est l'auteur d'un article fondateur de la science informatique, dans lequel il formalisa

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

avec notamment l'article [Tur48] sur l'analyse des eets des erreurs d'arrondi sur la factorisation LU, et
de Wilkinson 7 , dont on peut citer l'ouvrage [Wil94] initialement publi en 1963, constituent deux des
premiers exemples d'une longue succession de contributions sur le sujet.
Dans ce premier chapitre, nous revenons sur plusieurs principes qui, bien que n'ayant a priori pas
toujours de rapport direct avec les mthodes numriques, interviennent de manire fondamentale dans
leur mise en uvre et leur application la rsolution de problmes.

1.1

Direntes sources d'erreur dans une mthode numrique

Les solutions de problmes calcules par une mthode numrique sont aectes par des erreurs que
l'on peut principalement classer en trois catgories :
les erreurs d'arrondi dans les oprations arithmtiques, qui proviennent des erreurs de reprsentation dues au fait que tout calculateur travaille en prcision nie, c'est--dire dans un sous-ensemble
discret du corps des rels R, l'arithmtique naturelle tant alors approche par une arithmtique
de nombres virgule ottante (voir la section 1.3),
les erreurs sur les donnes, imputables une connaissance imparfaite des donnes du problme
que l'on cherche rsoudre, comme lorsqu'elles sont issues de mesures physiques soumises des
contraintes exprimentales,
les erreurs de troncature, d'approximation ou de discrtisation, introduites par les schmas de
rsolution numrique utiliss, comme le fait de tronquer le dveloppement en srie inni d'une
solution analytique pour permettre son valuation, d'arrter d'un processus itratif ds qu'un itr
satisfait un critre donn avec une tolrance prescrite, ou encore d'approcher la solution d'une
quation aux drives partielles en un nombre ni de points.
On peut galement envisager d'ajouter cette liste les erreurs qualies d' humaines , telles les
erreurs de programmation, ou causes par des dysfonctionnements des machines ralisant les calculs 8 .
Le prsent chapitre est en grande partie consacr aux erreurs d'arrondi, aux mcanismes qui en sont
l'origine, leur propagation, ainsi qu' l'analyse de leurs eets sur le rsultat d'une suite de calculs.
L'tude des erreurs de troncature, d'approximation ou de discrtisation constitue pour sa part un autre
sujet majeur trait par l'analyse numrique. Elle sera aborde plusieurs reprises dans ce cours, lors de
l'tude de diverses mthodes itratives (chapitres 3, 4 et 5), de techniques d'interpolation polynomiale
(chapitre 6) ou de formules de quadrature (chapitre 7).
Pour mesurer l'erreur entre la solution fournie par une mthode numrique et la solution du problme
que l'on cherche rsoudre (on parle encore d'estimer la prcision de la mthode), on introduit les notions
d'erreur absolue et relative.

Dnition 1.1 Soit x une approximation d'un nombre rel x. On dnit l'erreur
deux scalaires par

absolue

entre ces

|x x
| ,
et, lorsque x est non nul, l'erreur

relative

par

|x x
|
.
|x|
De ces deux quantits, c'est souvent la seconde que l'on privilgie pour valuer la prcision d'un
rsultat, en raison de son invariance par changement d'chelle : la mise l'chelle x x et x
x
,
6= 0, laisse en eet l'erreur relative inchange.
les notions d'algorithme et de calculabilit et introduisit le concept d'un calculateur universel programmable, la fameuse
 machine de Turing , qui joua un rle majeur dans la cration des ordinateurs.
7. James Hardy Wilkinson (27 septembre 1919 - 5 octobre 1986) tait un mathmaticien anglais. Il fut l'un des pionniers,
et demeure une grande gure, de l'analyse numrique.
R
8. Il a t fait grand cas du bogue de division de l'unit de calcul en virgule ottante du fameux processeur Pentium
R , dcouvert peu aprs le lancement de ce dernier sur le march en 1994. En ralisant des tests informatiques pour ses
d'Intel
recherches sur les nombres premiers, Thomas Nicely, de l'universit de Lynchburg (Virginie, USA), constata que la division
de 1 par 824633702441 renvoyait un rsultat erron. Il apparut plus tard que cette erreur tait due l'algorithme de division
implant sur le microprocesseur. Pour plus de dtails, on pourra consulter [Ede97].

1.2. QUELQUES NOTIONS D'ALGORITHMIQUE

Notons que ces dnitions se gnralisent de manire immdiate des variables vectorielles ou matricielles en substituant des normes aux valeurs absolues (on parle de normwise errors en anglais). Par
exemple, pour des vecteurs x et x
de Rn , on a ainsi l'expression kx x
k pour l'erreur absolue et
kx x
k/kxk pour l'erreur relative, o kk dsigne une norme vectorielle donne. Dans ces derniers cas,
les erreurs sont galement couramment values par composante ou par lment (componentwise errors en
anglais) dans le cadre de l'analyse de sensibilit et de l'analyse d'erreur (voir respectivement les sections
1.4 et 1.5). Pour des vecteurs x et x
de Rn , une mesure de l'erreur relative par composante est

|xi x
i |
.
1in
|xi |
max

1.2

Quelques notions d'algorithmique

Une mthode numrique repose sur l'emploi d'un (ou de plusieurs) algorithme(s) (algorithm(s) en
anglais), notion ancienne, apparue bien avant les premiers ordinateurs, avec laquelle le lecteur est peuttre dj familier et que nous abordons plus en dtail ci-aprs.

1.2.1

Algorithme

De manire informelle, on peut dnir un algorithme comme un nonc dcrivant, l'aide d'un enchanement dtermin d'oprations lmentaires (par exemple arithmtiques ou logiques), une dmarche
systmatique permettant la rsolution d'un problme donn en un nombre ni ou inni 9 d'tapes.

Un exemple d'algorithme : l'algorithme d'Euclide. Dcrit dans le septime livre des lments d'Eu-

clide 10 , cet algorithme permet de dterminer le plus grand commun diviseur de deux entiers naturels. Il est bas
sur la proprit suivante : on suppose que a b et on note r le reste de la division euclidienne de a par b ; alors le
plus grand commun diviseur de a et b est le plus grand commun diviseur de b et r. En pratique, on divise le plus
grand des deux nombres entiers par le plus petit, puis le plus petit des deux par le reste de la premire division
euclidienne. On rpte ensuite le procd jusqu' ce que le reste de la division, qui diminue sans cesse, devienne
nul. Le plus grand commun diviseur cherch est alors le dernier reste non nul (ou le premier diviseur, si le premier
reste est nul).

La description d'un algorithme fait intervenir direntes structures algorithmiques, qui peuvent tre
des structures de contrle (control structures en anglais) relatives l'enchanement des oprations lmentaires (comme des instructions d'aectation ou conditionnelles, des boucles, des appels de fonctions,
des commandes de saut, de sortie ou d'arrt, etc...), ou bien des structures de donnes (data structures en
anglais), qui vont contenir et organiser les donnes (sous forme de listes, de tableaux, d'arbres, de piles
ou de les selon le problme considr) an d'en permettre un traitement ecace.
Un algorithme est dit squentiel (sequential en anglais) lorsque les instructions qui le forment sont
excutes les unes aprs les autres. Il est dit parallle (parallel en anglais) lorsqu'elles s'excutent concurremment. D'autre part, un algorithme exploitant des tches s'excutant plusieurs units de calcul relies
par un rseau de communication est dit rparti ou distribu (distributed en anglais).
On dnombre trois principaux paradigmes prsidant la stratgie mise en uvre dans un algorithme
pour la rsolution d'un problme. Tout d'abord, le principe diviser pour rgner (divide and conquer en
anglais) consiste scinder le problme en sous-problmes de mme nature mais dont les donnes sont de
taille plus petite, puis rsoudre ces sous-problmes, pour combiner les rsultats obtenus et construire
une solution au problme pos. Il implique une approche rcursive de la rsolution du problme considr.
9. D'un point de vue pratique, c'est--dire pour tre utilis par le biais d'un programme informatique, un algorithme doit
ncessairement s'achever aprs avoir eectu un nombre ni d'oprations. Dans un contexte abstrait cependant, le nombre
d'oprations ralises peut tre inni, tout en restant dnombrable.
10. Euclide ( en grec, v. 325 avant J.-C. - v. 265 avant J.-C.) tait un mathmaticien de la Grce antique ayant
probablement vcu en Afrique. Il est l'auteur des lments, un trait de mathmatiques et de gomtrie qui est considr
comme l'un des textes fondateurs des mathmatiques modernes.

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

La programmation dynamique (dynamic programming en anglais), introduite dans les annes 1940 et
1950 par Bellman 11 , possde aussi le caractre rcursif de la prcdente stratgie, tout en palliant un
dfaut majeur de cette dernire, conduisant dans certains cas rsoudre plusieurs fois des sous-problmes
identiques. Pour ce faire, une fois obtenue la solution d'un sous-problme, celle-ci est  mmorise  (on
parle de mmosation, du mot anglais memoization ) de manire tre simplement rappele chaque fois
que le sous-problme sera de nouveau rencontr, vitant ainsi un recalcul.
Enn, l'approche gloutonne (greedy en anglais), destine la rsolution de problmes d'optimisation,
vise construire une solution en faisant une suite de choix qui sont chacuns localement optimaux.

1.2.2

Codage

Le codage (on utilise aussi souvent l'anglicisme implmentation ) d'un algorithme consiste en l'criture
de la suite d'oprations lmentaires le composant dans un langage de programmation. Une premire tape
en vue de cette tche est d'crire l'algorithme en pseudo-code, c'est--dire d'en donner une description
compacte et informelle qui utilise les conventions structurelles des langages de programmation 12 tout en
s'aranchissant de certains dtails techniques non essentiels la bonne comprhension de l'algorithme,
tels que la syntaxe, les dclarations de variables, le passage d'arguments lors des appels des fonctions ou
des routines externes, etc... ce titre, les algorithmes 1 et 2 ci-aprs proposent deux manires de calculer
un produit de matrices rectangulaires compatibles.

Algorithme 1 : Algorithme pour le calcul du produit C = AB des matrices A de Mm,p (R) et B


de Mp,n (R) (version  ijk ).

Entre(s) : les tableaux contenant les matrices A et B .


Sortie(s) : le tableau contenant la matrice C .
pour i = 1 m faire
pour j = 1 n faire
C(i, j) = 0

pour k = 1 p faire

n

n

n

C(i, j) = C(i, j) + A(i, k) B(k, j)

Pour chaque problme pos de faon mathmatique, il peut exister plusieurs algorithmes le rsolvant.
Certains se distinguent par la nature et/ou le nombre des oprations lmentaires qui les constituent, alors
que d'autres vont au contraire eectuer strictement les mmes oprations lmentaires en ne dirant que
par la faon d'enchaner ces dernires. An d'illustrer ce dernier point, comparons les algorithmes 1 et
2. On remarque tout d'abord qu'ils ne se direncient que par l'ordre de leurs boucles, ce qui ne change
videmment rien au rsultat obtenu. D'un point de vue informatique cependant, on voit qu'on accde
aux lments des matrices A et B selon leurs lignes ou leurs colonnes, ce qui ne se fait pas la mme
vitesse selon la manire dont les matrices sont stockes dans la mmoire. En particulier, la boucle interne
de l'algorithme 1 correspond un produit scalaire entre une ligne de la matrice A et une colonne de la
matrice B . Dans chacun de ces deux algorithmes prsents, on peut encore modier l'ordre des boucle en
i et j pour obtenir d'autres implmentations parmi les six qu'il est possible de raliser.

1.2.3

Ecacit et complexit

Tout calculateur est soumis des limitations physiques touchant sa capacit de calcul, c'est-dire le nombre maximal d'oprations lmentaires, arithmtiques ou logiques, pouvant tre eectues
chaque seconde 13 , ainsi qu' la mmoire disponible, c'est--dire la quantit d'information disposition
11. Richard Ernest Bellman (26 aot 1920 - 19 mars 1984) tait un mathmaticien amricain. Il est l'inventeur de la
programmation dynamique et t de nombreuses contributions aux thories de la dcision et du contrle optimal.
12. On notera en particulier que le signe = en pseudo-code ne reprsente pas l'galit mathmatique, mais l'aectation
de la valeur d'une variable une autre.
13. On admet implicitement dans la suite qu'une opration lmentaire s'eectue en un temps constant.

1.2. QUELQUES NOTIONS D'ALGORITHMIQUE

Algorithme 2 : Algorithme pour le calcul du produit C = AB des matrices A de Mm,p (R) et B


de Mp,n (R) (version  kij ).

Entre(s) : les tableaux contenant les matrices A et B .


Sortie(s) : le tableau contenant la matrice C .
pour i = 1 m faire
pour j = 1 n faire
n

C(i, j) = 0

n
pour k = 1 p faire
pour i = 1 m faire
pour j = 1 n faire

n

n

n

C(i, j) = C(i, j) + A(i, k) B(k, j)

ou laquelle il est possible d'accder tout moment en un temps raisonnable. Typiquement, le temps
d'excution d'un algorithme mis en uvre sur une machine informatique pour la rsolution d'un problme
dpendra :
de la qualit du codage de l'algorithme dans un langage de programmation et de l'optimisation du
code en langage machine du programme excutable gnr par le compilateur partir de l'analyse
du code source,
de l'organisation et de l'architecture des units de calcul, ainsi que de la rpartition de la mmoire
de la machine,
des donnes du problme,
de la complexit de l'algorithme.
Pour mesurer l'ecacit d'un algorithme en s'aranchissant des facteurs matriels et de l'instance
du problme considr, on a coutume d'utiliser sa seule complexit. Celle-ci est le plus souvent donne
par le nombre d'oprations de base que l'on doit eectuer (on parle alors de complexit temporelle ) et la
quantit de mmoire requise (on parle dans ce cas de complexit spatiale ) pour rsoudre un problme dont
les donnes sont de taille xe. videmment, le type des oprations de base peut varier d'un problme
l'autre ; par exemple, ce seront essentiellement des oprations arithmtiques (addition, soustraction,
multiplication, division, etc...) pour des applications en calcul scientique, mais, comme pour un tri de
donnes, il pourra aussi s'agir d'une comparaison ou d'un dplacement d'lments. De la mme manire,
la mesure de la taille des donnes doit reter la quantit, la nature et la structure de l'information
manipule. Par exemple, pour des oprations sur les matrices, on emploie le (ou les) entier(s) donnant
la taille des matrices en jeu ; dans le cas d'un graphe, ce sont les nombres de sommets ou de nuds et
d'artes ou d'arcs que l'on utilise.
Dans la suite, nous ne nous intressons qu' la complexit temporelle des algorithmes, que nous
dsignons par la fonction T . Nous supposons pour simplier que la taille des donnes est reprsente par
un unique entier naturel n et que la complexit de l'algorithme tudi est une fonction de n, ayant pour
valeur le nombre d'oprations lmentaires eectues, sans que l'on direncie ces dernires 14 .

Analyse de complexit du calcul du produit de deux matrices carres. On considre l'valuation

du produit de deux matrices d'ordre n coecients dans un anneau, R par exemple. Pour le raliser, on a a priori,
c'est--dire en utilisant la dnition (A.1), besoin de n3 multiplications et n2 (n 1) additions, soit 2 n3 n2
14. En pratique cependant, et bien que cela varie avec l'unit de calcul employe, on s'accorde considrer que le cot
d'une addition quivaut celui d'une soustraction, et qu'une addition est moins coteuse qu'une multiplication, qui est
elle-mme moins coteuse qu'une division.

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

oprations arithmtiques. Par exemple, dans le cas de matrices d'ordre 2,




 

b11 b12
a11 a12
c11 c12
,
=
b21 b22
a21 a22
c21 c22

(1.1)

il faut ainsi faire huit multiplications et quatre additions. Plus explicitement, on a


c11 = a11 b11 + a12 b21 ,
c21 = a21 b11 + a22 b21 ,

c12 = a11 b12 + a12 b22 ,


c22 = a21 b12 + a22 b22 .

Il est cependant possible d'eectuer le produit (1.1) avec moins de multiplications. En eet, en faisant appel
aux formules dcouvertes par Strassen 15 en 1969, qui consistent en l'introduction des quantits
q1
q2
q3
q4
q5
q6
q7

= (a11 + a22 )(b11 + b22 ),


= (a21 + a22 )b11 ,
= a11 (b12 b22 ),
= a22 (b11 + b21 ),
= (a11 + a12 )b22 ,
= (a11 + a21 )(b11 + b12 ),
= (a12 a22 )(b21 + b22 ),

telles que
c11 = q1 + q4 q5 + q7 ,
c21 = q2 + q4 ,

c12 = q3 + q5 ,
c22 = q1 q2 + q3 + q6 ,

on utilise sept multiplications et dix-huit additions et soustractions.


Cette construction ne dpendant pas du fait que les lments multiplis commutent entre eux ou non, on peut
l'appliquer des matrices dcomposes par blocs. Ainsi, si A, B et C sont des matrices d'ordre n, avec n un entier
pair, partitionnes en blocs d'ordre n2 ,

 


C11 C12
A11 A12
B11 B12
=
,
C21 C22
A21 A22
B21 B22
les blocs Cij , 1 i, j 2, du produit C peuvent tre calculs comme prcdemment, en substituant aux coecients
les blocs correspondant. L'algorithme de Strassen [Str69] consiste appliquer rcursivement ce procd jusqu' ce
que les blocs soient des scalaires, selon une stratgie de type diviser pour rgner. Pour cela, il faut que l'entier n
soit une puissance de 2, cas auquel on peut toujours se ramener en ajoutant des colonnes et des lignes de zros aux
matrices A, B et C . Pour des matrices d'ordre n = 2m , m N , le nombre T (n) de multiplications et d'additions
requises par l'algorithme de Strassen vrie
T (n) = T (2m ) = 7 T (2m1 ) + 18 (2m1 )2 ,

la somme de deux matrices d'ordre n ncessitant n2 additions. Un raisonnement par rcurrence montre alors que
T (2m ) = 7m T (1) + 18

m1
X

7k 4mk1 7m (T (1) + 6),

k=0

dont on dduit que

T (n) C nlog2 (7) ,

avec C une constante strictement positive 16 et log2 (7) 2, 807.


En pratique, la constante C fait que cette technique de multiplication n'est avantageuse que pour une valeur
de n susamment grande, qui dpend par ailleurs du codage et de l'architecture de l'unit de calcul utilise,
principalement en raison du caractre rcursif de l'algorithme qui implique le stockage de sous-matrices. D'autre
part, le prix payer pour la diminution asymptotique du nombre d'oprations est une stabilit numrique bien
moindre que celle de la mthode  standard  de multiplication. Sur ce point particulier, on pourra consulter
l'article [Hig90].
15. Volker Strassen (n le 29 avril 1936) est un mathmaticien allemand. Il est clbre pour ses travaux sur la complexit
algorithmique, avec l'algorithme de Strassen pour la multiplication rapide de matrices carres et l'algorithme de Schnhage
Strassen pour la multiplication rapide de grands entiers, et en thorie algorithmique des nombres, avec le test de primalit
de SolovayStrassen.
16. Dans [Str69], il est tabli que T (n) 4, 7 nlog2 (7) .

1.2. QUELQUES NOTIONS D'ALGORITHMIQUE

L'exemple prcdent montre que la question de la complexit d'un algorithme revt toute son importance lorsque la taille des donnes est trs grande. C'est donc le comportement asymptotique de cette
quantit qu'il convient de dterminer et l'on peut par consquent simplier l'analyse en ne s'intressant qu'au terme dominant (relativement n) dans l'expression de la fonction T (n). Ce terme xe ce
qu'on nomme l'ordre de croissance (order of growth en anglais) du cot de l'algorithme en fonction de
la taille des donnes du problme. On fait alors appel aux notations de Bachmann 17 Landau 18 [Bac94,
Lan09], provenant de la comparaison asymptotique, pour caractriser la complexit d'un algorithme. Plus
prcisment, tant donn une fonction f valeurs positives dnie sur N, on crit que (voir [Knu76]) :
T (n) O(f (n)) s'il existe une constante C strictement positive et un entier n0 tels que, pour tout
n > n0 , T (n) C f (n),
T (n) (f (n)) s'il existe une constante C strictement positive et un entier n0 tels que, pour tout
n > n0 , C f (n) T (n) (on notera que cette dnition dire de celle 19 de l'article [HL14], dans
lequel le symbole fut introduit, qui a cours en thorie des nombres),
T (n) (f (n)) s'il existe deux constantes C1 et C2 strictement positives et un entier n0 tels que,
pour tout n > n0 , C1 f (n) T (n) C2 f (n).
On pourra remarquer que chacune de ces notations ignore la constante en facteur du terme dominant (parfois appele la constante d'ordre ), celle-ci jouant un rle bien moins signicatif que l'ordre de
croissance si la taille des donnes est susamment grande. En pratique, la notation O() est la plus
communment utilise, la notation () la remplaant lorsque l'on a besoin d'une estimation plus prcise.
Par ailleurs, pour certains problmes et certains algorithmes, la complexit peut dpendre non seulement de la taille des donnes, mais galement des donnes elles-mmes. Lorsque c'est le cas, l'analyse
prend direntes formes, selon que l'on considre la complexit
dans le meilleur des cas, c'est--dire pour une conguration faisant qu'elle est la plus petite possible,
dans le pire des cas, c'est--dire pour une conguration faisant qu'elle est la plus grande possible,
en moyenne, ce qui ncessite de la dnir au travers d'un modle probabiliste de distribution
des donnes, mais permet en contrepartie de caractriser un comportement en quelques sorte
 gnrique  de l'algorithme par rapport aux donnes.

Analyse de complexit du tri rapide. Le tri rapide (quicksort en anglais) est un algorithme de tri en

place de liste invent par Tony Hoare 20 [Hoa61a, Hoa61b, Hoa62] et fond sur le principe diviser pour rgner. Il
consiste, partir du choix arbitraire d'un lment appel pivot, en un rarrangement de toute liste donne en deux
sous-listes contenant respectivement les lments infrieurs (placs gauche) et suprieurs 21 (placs droite) au
pivot. Cette opration, dite de partitionnement, est alors applique rcursivement jusqu' ce que la liste soit trie,
c'est--dire que les sous-listes courantes contiennent un ou aucun lment. chaque tape, un choix de pivot
possible est celui du premier (ou dernier) lment de la liste trier.
Conduisons une analyse de la complexit du tri rapide pour une liste possdant n lments. Pour cela, remarquons que l'tape de partitionnement applique une (sous-)liste contenant k lments trier, k = 2, . . . , n,
entrane k 1 comparaisons et un certain nombre de permutations, induisant un cot linaire en l'entier k, et
supposons que T (1) = T (0) = 1.
Considrons tout d'abord le pire des cas, c'est- dire celui pour lequel chaque choix de pivot scinde une liste
de k lments en une sous-liste contenant k 1 lments et une autre n'en contenant aucun (en choisissant comme
pivot le premier ou dernier lment, ceci correspond au cas d'une liste dj trie, le pivot tant alors le plus petit
17. Paul Gustav Heinrich Bachmann (22 juin 1837 - 31 mars 1920) tait un mathmaticien allemand qui s'intressa
principalement la thorie des nombres.
18. Edmund Georg Hermann Landau (14 fvrier 1877 - 19 fvrier 1938) tait un mathmaticien allemand qui travailla
dans les domaines de la thorie des nombres et de l'analyse complexe.
19. Cette dnition originelle est T (n) (f (n)) si s'il existe une constante C strictement positive telle que pour tout
entier naturel n0 , il existe un entier n > n0 tel que C f (n) T (n).
20. Charles Antony Richard Hoare (gnralement appel Tony Hoare ou C. A. R. Hoare, n le 11 janvier 1934) est un
informaticien anglais. Il inventa en 1960 un algorithme de tri rapide encore trs utilis et fut le premier avoir crit un
compilateur complet pour le langage Algol 60. Il est aussi l'origine de la logique de Hoare, qui sert la vrication des
programmes, et d'un langage formel permettant de spcier l'interaction de processus concurrents.
21. En cas d'galit avec le pivot, on peut placer l'lment dans l'une ou l'autre des sous-listes.

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

ou le plus grand lments de chaque sous-liste contenant au moins deux lments). Il en dcoule que
T (n) = T (0) + T (n 1) + C n = 2 T (0) + T (n 2) + C (n 1 + n) = 3 T (0) + T (n 3) + C (n 2 + n 1 + n)
= = n T (0) + C

n2
X

(n k),

k=0

d'o





1
C 2
C
T (n) = n T (0) + C n(n 2) (n 1)(n 2) =
n + 1
n C.
2
2
2

La complexit de l'algorithme dans ce cas est donc en O(n2 ).


Dans le meilleur des cas, chaque choix de pivot partage chaque liste en deux sous-listes contenant approximativement le mme nombre d'lements, c'est--dire
n
+ C n = = 2k T (1) + C mn,
T (n) = 2 T
2
avec n = 2m , m N . On trouve par consquent
T (n) = n T (1) +

C
n ln(n),
ln(2)

et la complexit est en O(n ln(n)).


Enn, pour l'analyse de complexit en moyenne, faisons l'hypothse que le choix de pivot renvoie avec la mme
probabilit n'importe quelle valeur prsente dans la liste trier. Il vient alors
T (n) = C n +

n
n
1 X
2 X
(T (k 1) + T (n k)) = C n +
T (k 1),
n
n
k=1

k=1

soit encore
n T (n) = C n2 + 2

n
X

T (k 1).

k=1

Pour n > 1, on a aussi


(n 1) T (n 1) = C (n 1)2 + 2

n1
X

T (k 1),

k=1

et, par soustraction,


n T (n) = (n + 1) T (n 1) + C (2n 1),

d'o

T (n)
T (n 1)
C (2n 1)
=
+
.
n+1
n
n(n + 1)

On arrive
T (n)
T (n 2)
=
+C
n+1
n1

2n 3)
2n 1
+
(n 1)n
n(n + 1)


= =

n
X
T (1)
2k 1
+C
,
2
k(k + 1)
k=2

d'o
T (n)

n+

2C n ln(n).

La complexit est l encore en O(n ln(n)).


Bien que l'algorithme de tri rapide possde une complexit en O(n2 ) dans le pire des cas, ce comportement
est rarement observ en pratique, le pivot pouvant tre choisi alatoirement (selon une loi uniforme) de faon
viter les problmes lis aux listes dj presque tries.
Indiquons qu'un autre algorithme de tri ecace est celui du tri par tas (heapsort en anglais) [Wil64], dont la
complexit dans le pire des cas est en O(n ln(n)).

On dit que la complexit d'un algorithme est constante si elle est borne par une constante, qu'elle
est linaire si elle est en O(n), quadratique (et plus gnralement polynomiale ) si elle est en O(n2 ) (en
p
O(np ) pour un certain entier strictement positif p) et exponentielle si elle est en O(2n ) pour un certain
entier strictement positif p. On estime qu'un algorithme est praticable si sa complexit est polynomiale.
On considre gnralement qu'un algorithme est plus ecace qu'un autre pour la rsolution d'un
problme si sa complexit dans le pire des cas est d'ordre de croissance moindre. Bien entendu, en raison
8

1.3. ARITHMTIQUE VIRGULE FLOTTANTE

de la constante d'ordre et de la prsence de termes non dominants dans l'expression de la fonction de


complexit, ce jugement peut tre erron pour des donnes de petite taille, mais il sera toujours vrai pour
des donnes de taille susamment grande.
On terminera en indiquant que l'analyse de complexit du (ou des) algorithme(s) qui la compose(nt)
est une partie importante de l'tude d'une mthode numrique, la recherche dans ce domaine consistant
en la conception de moyens de rsolution ecaces.

1.3

Arithmtique virgule ottante

La mise en uvre d'une mthode numrique sur une machine amne un certain nombre de dicults
d'ordre pratique, qui sont principalement lies la ncessaire reprsentation approche des nombres rels
en mmoire. Avant de dcrire plusieurs des particularits de l'arithmtique virgule ottante en usage
sur la majorit des ordinateurs et calculateurs actuels, les principes de reprsentation des nombres rels
et de leur stockage en machine sont rappels. Une brve prsentation du modle d'arithmtique virgule
ottante le plus en usage actuellement, la norme IEEE 754, clt la section.

1.3.1

Systme de numration

Les nombres rels sont les lments d'un corps archimdien complet totalement ordonn 22not R,
constitu de nombres dits rationnels, comme 76 ou 34 , et de nombres dits irrationnels, comme 2 ou .
On peut les reprsenter grce un systme de numration positionnel relatif au choix d'une base (base
ou encore radix en anglais) , N, 2, en utilisant que

xRx=s

q
X

bi i ,

(1.2)

i=p

o s est le signe de x (s = 1), p N {+}, q N et les coecients bi , p i q , prennent leurs


valeurs dans l'ensemble {0, . . . , 1}. On crit alors 23 conventionnellement

x = s bq bq1 . . . b0 , b1 . . . bp ,

(1.3)

o la virgule 24 est le sparateur entre la partie entire et la partie fractionnaire du rel x, l'indice nal
prcisant simplement que la reprsentation du nombre est faite relativement la base . Le systme de
numration est dit positionnel au sens o la position du chire bi , p i q , par rapport au sparateur
indique par quelle puissance de l'entier il est multipli dans le dveloppement (1.2). Lorsque = 10, on
a aaire au systme de numration dcimal communment employ, puisque l'on manipule gnralement
les nombres rels en utilisant implicitement leur reprsentation dcimale (d'o l'omission de l'indice nal).
En pratique cependant, le choix = 2, donnant lieu au systme binaire, est le plus courant 25 . Dans ce
dernier cas, les coecients bi , p i q , du dveloppement (1.2) peuvent prendre les valeurs 0 et 1 et
sont appels chires binaires, de l'anglais binary digits dont l'abbrviation est le mot bits.
Le dveloppement (1.2) peut possder une innit de termes non triviaux, c'est notamment le cas
pour les nombres irrationnels, et la reprsentation (1.3) lui correspondant est alors qualie d'innie.
Une telle reprsentation ne pouvant tre crite, on a coutume d'indiquer les chires omis par des points
de suspension, par exemple
= 3, 14159265358979323846 . . .10 .
22. Le lecteur est renvoy la section B.1 de l'annexe B pour plus dtails sur ces proprits.
23. Pour bien illustrer le propos, on a considr l'exemple d'un rel x pour lequel p et q sont tous deux strictement plus
grand que 1.
24. Il est important de noter que le symbole utilis comme sparateur par les anglo-saxons, et notamment les langages de
programmation ou les logiciels
et
, est le point et non la virgule.
25. Sur certains ordinateurs plus anciens, le systme hexadcimal, c'est--dire tel que = 16, est parfois utilis. Un
nombre s'exprime dans ce cas l'aide des seize symboles 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E et F.

Matlab GNU Octave

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Par ailleurs, la reprsentation d'un nombre rationnel dans une base donne est dite priodique lorsque
l'criture contient un bloc de chires se rptant l'inni. On a, par exemple,

1
7
1
= 0, 333333333333 . . .10 ,
= 0, 142857142857 . . .10 ,
= 0, 583333333333 . . .10 .
3
7
12
Il est possible de noter cette rptition de chires l'inni en plaant des points de suspension aprs
plusieurs occurrences du bloc en question, comme on l'a fait ci-dessus. Cette criture peut paratre claire
lorsqu'une seule dcimale est rpte une dizaine de fois, mais d'autres notations, plus explicites, font le
choix de placer, de manire classique, la partie entire du nombre rationnel gauche du sparateur et la
partie fractionnaire non priodique suivie du bloc rcurrent de la partie fractionnaire priodique, marqu
d'un trait tir au-dessus ou au-dessous ou bien plac entre crochets, droite du sparateur. On a ainsi,
pour les exemples prcdents,

1
7
1
= 0, 310 ,
= 0, 14285710 ,
= 0, 58310 .
3
7
12
Ajoutons que la reprsentation d'un nombre dans un systme de numration n'est pas forcment unique,
tout nombre pouvant s'crire avec un nombre ni de chires ayant plusieurs reprsentations, dont une
reprsentation innie non triviale. On peut en eet accoler une rptition nie ou innie du chire 0
la reprsentation nie d'un nombre rel pour obtenir d'autres reprsentations, mais on peut galement
diminuer le dernier chire non nul de la reprsentation d'une unit et faire suivre ce chire d'une rptition
innie du chire 1 pour obtenir une reprsentation innie non triviale. Le nombre 1 possde ce titre
les reprsentations nies 110 , 1, 010 , 1, 0000010 , parmi d'autres, et les deux reprsentations innies 1, 010
et 0, 910 . Pour parer ce problme d'unicit, il est courant de ne pas retenir la reprsentation innie d'un
nombre lorsqu'une reprsentation nie existe et d'interdire que les chires de cette reprsentation nie
soient tous nuls partir d'un certain rang.

Exemples d'criture de nombres rels dans les systmes binaire et dcimal.


1
1
10011, 0112 = 24 + 21 + 20 + 22 = 16 + 2 + 1 + + = 19, 37510 ,
4
8
+
+  i
X
1X 1
1 1
1
2i
0, 012 =
2
=
=
= = 0, 310 ,
4 i=0 4
4 1 14
3
i=1
i
+
+ 
X
X
3
1
1
0, 00112 = 3
24i =
= = 0, 210 .
16
16
5
i=1
i=0

Le dernier des exemples ci-dessus montre qu' la reprsentation nie d'un nombre rel dans le systme
dcimal peut parfaitement correspondre une reprsentation innie non triviale dans le systme binaire.
Nous verrons dans la prochaine section que ceci a des consquences au niveau des calculs eectus sur une
machine. En revanche, il est facile de voir qu'un nombre ayant une reprsentation nie dans le systme
binaire aura galement une reprsentation nie dans le systme dcimal.

1.3.2

Reprsentation des nombres rels en machine

La mmoire d'une machine tant constitue d'un support physique, sa capacit est, par construction,
limite. Pour cette raison, le nombre de valeurs (entires, relles, etc...) reprsentables, stockes en machine
sous la forme d'ensembles de chires aects des cellules-mmoire 26 portant le nom de mots-mmoire,
est ni. Pour les nombres rels, il existe essentiellement deux systmes de reprsentation : celui des
nombres virgule xe et celui des nombres virgule ottante.
Tout d'abord, supposons que l'on dispose de N cellules-mmoire pour stocker un nombre rel non
nul. Une manire naturelle de faire est de rserver une cellule-mmoire pour son signe, N r 1 cellulesmmoire pour les chires situs droite du sparateur (la partie entire du nombre) et r cellules-mmoire
restantes pour les chires situs droite du sparateur, l'entier r tant x, c'est--dire

s bnr1 . . . b0 , b1 . . . br ,
26. Quand = 2, on notera que la taille d'une cellule-mmoire est de un bit.

10

(1.4)

1.3. ARITHMTIQUE VIRGULE FLOTTANTE

ce qui revient convenir d'une position immuable et tacite du sparateur. Les nombres rels ainsi reprsentables sont dits virgule xe (xed-point numbers en anglais). Ils sont principalement utiliss lorsque
le processeur de la machine (un microcontrleur par exemple) ne possde pas d'unit de calcul pour
les nombres virgule ottante ou bien quand ils permettent de diminuer le temps de traitement et/ou
d'amliorer l'exactitude des calculs. Cependant, l'absence de  dynamique  dans le choix de placement
du sparateur limite considrablement la plage de valeurs reprsentables par un nombre virgule xe,
sauf disposer d'un grand nombre de cellules-mmoire.
Ce dfaut peut nanmoins tre aisment corrig en s'inspirant de la notation scientique des nombres
rels. L'ide est d'crire tout nombre rel reprsentable sous la forme symbolique
(1.5)

s m e,

o m est un rel positif, compos d'au plus t chires en base , appel signicande (signicand en
anglais), ou plus communment mantisse 27 , et e est un entier sign, appel exposant, compris entre deux
bornes emin et emax (on a gnralement emin < 0 et emax > 0). En autorisant l'exposant e changer
de valeur, on voit qu'on laisse le sparateur (la virgule ou le point selon la convention)  otter  et
une mme valeur du signicande peut alors servir reprsenter des nombres rels dont la valeur absolue
est arbitrairement grande ou petite. Les nombres ainsi dnis sont dits virgule ottante (oating-point
numbers en anglais), et l'entier t est la prcision ou encore nombre de chires signicatifs du nombre
virgule ottante.
On remarquera qu'un mme nombre peut possder plusieurs critures dans ce systme de reprsen1
par 100 103 ,
tation. Par exemple, en base 10 et avec une prcision gale 3, on peut reprsenter 10
2
1
0
1
2
10, 0 10 , 1, 00 10 , 0, 10 10 , 0, 010 10 ou bien 0, 001 10 . La notion d'exposant n'est pas intrinsque
et dpend de conventions adoptes sur le signicande, comme la place du sparateur dans ce dernier. On
parle de reprsentation normalise lorsque le premier chire, encore appel le chire de poids fort, du
signicande est non nul, ce qui assure, une fois la position du sparateur xe, que tout rel non nul 28
reprsentable ne possde qu'une seule reprsentation. En base binaire, une consquence intressante est
que le premier bit du signicande d'un nombre virgule ottante normalis est toujours gal 1. On
peut alors dcider de ne pas le stocker physiquement et on parle de bit de poids fort implicite ou cach
(implicit or hidden leading bit en anglais) du signicande.
Dans toute la suite, on suppose que le sparateur est plac entre le premier et le deuxime chire du
signicande. Le signicande d'un nombre virgule ottante vrie par consquent

0 m (1 t ),
et m 1 si le nombre est normalis. Il est alors facile de vrier que le plus petit (resp. grand) nombre
rel positif atteint par un nombre virgule ottante normalis est

emin (resp. (1 t ) emax +1 ).

(1.6)

L'ensemble des nombres virgule ottante construit partir d'une reprsentation normalise est un
ensemble ni de points de la droite relle 29 , qui ne sont par ailleurs pas quirpartis sur cette dernire 30 .
27. En toute rigueur, ce terme dsigne la dirence entre un nombre et sa partie entire, et c'est en ce sens que l'on parle
de la mantisse d'un logarithme dcimal. C'est probablement le rapport troit entre le logarithme dcimal et la notation
scientique d'un nombre qui est l'origine du glissement de sens de ce mot.
28. La restriction impose fait que le nombre 0 n'est pas reprsentable par un nombre virgule ottante normalis.
29. Par construction, cet ensemble est constitu des nombres rationnels exactement reprsentables dans le systme de
numration utilis.
30. Ils sont en eet plus denses prs du plus petit (resp. grand) nombre positif (resp. ngatif) non nul reprsentable. Par
exemple, pour = 2, t = 3, emin = 2 et emax = 2, les nombres virgule ottante positifs reprsentables sont 0 et les
5
7
nombres normaliss 14 , 16
, 38 , 16
, 12 , 58 , 43 , 78 , 1, 54 , 23 , 47 , 2, 52 , 3, 72 , 4, 5, 6, 7, d'o la rpartition suivante des lments de
F(2, 3, 2, 2)
|
7

|
6

|
5

| | | | | | | | | | | | ||||| | ||||| | | | | | | | |
4
3
2
1
0
1
2

|
3

|
4

|
5

|
6

|
7

sur la droite relle. On remarque que la distance entre deux nombres virgule ottante conscutifs est multiplie par
(double dans cet exemple) chaque fois que l'on passe une puissance de (2 dans cet exemple).

11

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

On note parfois F(, t, emin , emax ) l'union de ces nombres avec le singleton {0}. L'cart entre un nombre
virgule ottante normalis x non nul et son plus proche voisin se mesure l'aide de l'epsilon machine,
mach = 1t , qui est la distance entre le nombre 1 et le nombre virgule ottante le plus proche qui lui
est suprieur. On a l'estimation suivante.

Lemme 1.2 La distance entre un nombre virgule ottante normalis x non nul et nombre virgule
ottante normalis adjacent est au moins 1 mach |x| et au plus mach |x|.

Dmonstration. On peut, sans perte de gnralit, supposer que le rel x est strictement positif et l'on pose
x = m e avec 1 m < . Le nombre virgule ottante suprieur x lui tant le plus proche est x + et+1 ,
d'o
x
1 mach x = t x <
= x + et+1 x = et+1 (m 1t ) et+1 = mach x.
m t1

Si l'on considre le nombre virgule ottante adjacent et infrieur x, celui-ci vaut x et+1 si x > e , ce qui
fournit le mme majorant que prcdemment, et x et si x = e , auquel cas on a
x x + et = 1 t+1 e = 1 mach x.


complt 31

Tout ensemble de nombres virgule ottante normaliss peut tre


par des nombres dnormaliss ou sous-normaux (denormalized or subnormal numbers en anglais). Ces derniers permettent
de reprsenter des nombres rels dont la valeur absolue est aussi petite que emin t+1 , en abandonnant
l'hypothse sur le chire de poids fort du signicande (et donc au dtriment de la prcision de la reprsentation). En reprsentation binaire, le bit de poids fort n'tant plus implicite, on rserve une valeur
spciale de l'exposant (celle qui correspondrait emin 1) pour la reprsentation de ces nombres.

Arrondi
Le caractre ni des ensembles de nombres virgule ottante pose notamment le problme de la
reprsentation en machine d'un nombre rel quelconque donn, que l'on a coutume de rsoudre en remplaant, le cas chant, ce nombre par un autre admettant une reprsentation virgule ottante dans le
systme considr.
Pour un nombre rel dont la valeur absolue est comprise entre les bornes (1.6), une premire manire
de faire consiste tout d'abord crire le nombre sous la forme (1.5) pour ne conserver ensuite que les
t premiers chires de sa mantisse. On parle alors de troncature ou d'arrondi vers zro (chopping ou
rounding towards zero en anglais), qui est un premier exemple d'arrondi dirig. On peut aussi substituer
au nombre rel le nombre virgule ottante qui lui est le plus proche ; c'est l'arrondi au plus proche
(rounding to nearest en anglais). Lorsque le nombre se situe gale distance des deux nombres virgule
ottante qui l'entourent, on choisit la valeur de l'arrondi en faisant appel des arrondis dirigs. On peut
alors prendre
le nombre virgule ottante le plus petit (resp. grand), c'est l'arrondi par dfaut (resp. excs )
(rounding half down (resp. up ) en anglais),
le nombre virgule ottante le plus petit (resp. grand) en valeur absolue, c'est l'arrondi vers zro
(resp. vers l'inni ) (rounding half towards zero (resp. away from zero ) en anglais),
le nombre virgule ottante dont le dernier chire de la mantisse est pair (resp. impair), c'est,
par abus de langage, l'arrondi au chire pair (resp. impair ) (rounding half to even (resp. odd )
en anglais). Cette dernire mthode est employe an d'liminer le biais pouvant survenir en
arrondissant selon les autres rgles.
Dans le cas d'un nombre rel non nul dont la valeur absolue n'appartient pas l'intervalle dni par
(1.6), il n'est pas possible d'eectuer un remplacement correspondant un arrondi. Ce dpassement de
31. Si l'on reprend l'exemple prcdent, les nombres virgule ottante dnormaliss positifs sont
la rpartition suivante pour l'ensemble des nombres virgule ottante
|
7

|
6

|
5

| | | | | | | | | | | | ||||||||||||||||| | | | | | | | |
4
3
2
1
0
1
2

sur la droite relle.

12

|
3

|
4

1
, 1, 3
16 8 16

|
5

|
6

et on a alors
|
7

1.3. ARITHMTIQUE VIRGULE FLOTTANTE

la capacit de stockage est appel dbordement vers l'inni (overow en anglais) si la valeur absolue
du nombre est trop grande ou dbordement vers zro (underow en anglais) si elle est trop petite.
L'occurrence d'un dbordement vers l'inni est un problme srieux 32 , notamment lorsque le nombre
qui le provoque est le rsultat d'une opration, et devrait, en toute rigueur, conduire l'interruption du
calcul en cours. Un dbordement vers zro est moins grave et un remplacement par 0 (la valeur la plus
proche) est en gnral eectu, mais cette solution n'est cependant pas toujours satisfaisante 33 . Quand
l'ensemble des nombres virgule ottante contient des nombres dnormaliss, l'arrondi peut prendre une
valeur non nulle comprise entre 0 et la dernire valeur reprsentable par un nombre normalis 34 et le
dbordement vers zro est dit progressif (gradual or graceful underow en anglais).
Dans toute la suite, on note fl(x) l'arrondi au plus proche d'un nombre rel x, dnissant ainsi une
application de [( t 1) emax +1 , emin ] {0} [ emin , (1 t ) emax +1 ] dans F(, t, emin , emax ). Si x est
un nombre virgule ottante, on a clairement fl(x) = x. On vrie galement la proprit de monotonie
suivante
x y fl(x) fl(y),
pour tous nombres rels x et y pour lesquels l'arrondi est dni. L'erreur d'arrondi (round-o error ou
rounding error en anglais) sur un nombre x est la dirence x fl(x).
Le rsultat suivant montre qu'un nombre rel x, pour lequel l'arrondi est dni, est approch avec
une erreur relative en valeur absolue ne dpassant pas la valeur u = 21 1t = 12 mach , appele prcision
machine (machine precision ou unit round-o 35 en anglais).

Thorme 1.3 Soit x un nombre rel tel que emin |x| (1 t ) emax +1 . Alors, on a
fl(x) = x(1 + ), || < u.
Dmonstration.

x sous la forme

(1.7)

On peut, sans perte de gnralit, supposer que le rel x est strictement positif. En crivant
x = et+1 , t1 < t ,

on observe que x se trouve entre les deux nombres virgule ottante adjacents y1 = bc et+1 et y2 = de et+1
et si de = t ), o bc (resp. de) dsigne la partie entire par dfaut (resp. par excs) du rel .
(ou y2 = de

Par consquent, fl(x) = y1 ou y2 et l'on a


|x fl(x)|

d'o

|y2 y1 |
et+1

,
2
2



et+1
x fl(x)
1t
2

= u.


x
et+1
2

La dernire ingalit est stricte sauf si = t1 , auquel cas fl(x) = x. L'ingalit dans (1.7) est donc stricte.

On peut tablir que les arrondis dirigs satisfont une ingalit identique (1.7) avec || < 2 u. La
version modie suivante du prcdent rsultat est parfois utile pour l'analyse d'erreur.
32. Une illustration des consquences dsastreuses auxquelles peut conduire une mauvaise gestion d'un dpassement de
capacit est celle du vol inaugural d'Ariane 5 le 4 juin 1996, durant lequel la fuse explosa peine quarante secondes aprs son
dcollage de Kourou en Guyane franaise, dtruisant ainsi sa charge utile (quatre sondes spatiales) d'une valeur totale de 370
millions de dollars. Une enqute (voir J.-L. Lions et al., Ariane 5: ight 501 failure, Ariane 501 inquiry board report, 1996)
mit jour un dysfonctionnement du systme de guidage inertiel, caus par la conversion d'un nombre virgule ottante
stock sur 64 bits donnant la vitesse horizontale de la fuse en un entier sign stock sur 16 bits. L'entier obtenu tant
plus grand que 32767, la plus grande valeur entire signe reprsentable avec 16 bits, l'chec de conversion dclencha une
exception non traite (suite une erreur de programmation) qui ft interprte comme une dviation de la trajectoire. La
violente correction demande par le systme de guidage provoqua alors un drapage de la fuse de sa trajectoire, entranant
son auto-destruction prventive. Il s'avre que, pour des raisons d'conomies sur le cot des prparatifs, aucune simulation
n'avait t eectue avant le vol, le systme de navigation tant le mme que celui d'Ariane 4, fuse moins puissante et donc
moins rapide qu'Ariane 5, et rput able...
33. On peut en eet imaginer que le nombre incrimin puisse ensuite tre multipli par un trs grand nombre ; si un
remplacement par zro a lieu, le rsultat nal sera nul...
34. En d'autres mots, en prsence de nombres dnormaliss, on a l'intressante proprit suivante : si x 6= y , la valeur
calcule de x y ne peut tre nulle. Le dpassement de capacit progressif assure ainsi l'existence et l'unicit dans F de
l'oppos d'un nombre virgule ottante.
35. Cette dernire appellation provient du fait que le nombre u reprsente la plus grande erreur relative commise sur les
nombres rels arrondis 1.

13

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Thorme 1.4 Sous les hypothses du thorme 1.3, on a


fl(x) =
Dmonstration.

consquent

x
, || u.
1+

En reprenant la preuve du thorme 1.3, on constate que |yi | e , i = 1, 2. On a par


|x fl(x)|

|fl(x)|

et+1
2
e

1t
= u,
2

dont on dduit le rsultat.

Les erreurs d'arrondi sont invitables et parfois prsentes avant mme qu'une seule opration ait
eu lieu, puisque la reprsentation en machine des donnes d'un problme peut ncessiter de les arrondir.
Prises isolment, ces erreurs sont gnralement bnignes, mais leur propagation et leur accumulation 36 au
cours d'une srie de calculs, notamment lorsque l'on cherche rsoudre un problme mal conditionn (voir
la sous-section 1.4.2) et/ou que l'on utilise un algorithme numriquement instable (voir la sous-section
1.5.2), peuvent faire perdre toute signication au rsultat numrique obtenu.

1.3.3

Arithmtique en prcision nie

L'ensemble des nombres reprsentables sur une machine tant introduit, il faut dnir sur celui-ci
une arithmtique reproduisant de manire aussi dle que possible celle existant sur R. On parle alors
d'arithmtique en prcision nie, les principales dirences avec l'arithmtique  exacte  (i.e., en prcision
innie) provenant du caractre discret et ni de l'ensemble des nombres manipuls.
Une consquence directe de cette arithmtique sur les algorithmes des mthodes numriques est que
leurs rsultats sont entachs d'erreurs 37 , que l'on devrait tre capable de mesurer an de garantir la pertinence des calculs. C'est l'objet de l'analyse d'erreur (voir la section 1.5) que de les estimer et d'identier
leur(s) origine(s). C'est dans cette perspective que nous allons maintenant mettre en avant certaines des
particularits de l'arithmtique en prcision nie.

Un modle d'arithmtique virgule ottante


Le modle d'arithmtique, d Wilkinson [Wil60], classiquement utilis pour l'analyse d'erreur d'un
algorithme possde la proprit suivante : en dsignant par le symbole  op  n'importe quelle opration
arithmtique de base (addition, soustraction, multiplication, division), soit x et y deux nombres virgule
ottante tels que le rsultat x op y ne provoque pas de dpassement de capacit, alors on a

fl(x op y) = (x op y)(1 + ), || u, op = +, , , /.

(1.8)

Ci-dessus, on a utilis la notation fl() applique une expression arithmtique pour reprsenter la
valeur eectivement fournie par la machine pour l'valuation de cette expression. La proprit assure alors
que cette valeur est  aussi bonne  que l'arrondi du rsultat exact, au sens o l'erreur relative possde
la mme borne dans les deux cas. Il n'est cependant pas demand d'avoir = 0 si le rsultat exact
36. Un exemple clbre de dsastre d une erreur d'arrondi est celui de l'chec d'interception par un missile Patriot
amricain d'un missile Scud irakien visant des baraquements militaires situs Dhahran en Arabie Saoudite durant la
guerre du Golfe, le 25 fvrier 1991, qui eut pour consquence la mort de 28 soldats amricains et prs d'une centaine de
blesss. Un rapport (voir United States General Accounting Oce, Patriot missile defense: software problem led to system
failure at Dhahran, Saudi Arabia, GAO/IMTEC-92-26 report, 1992) imputa cette dfaillance une imprcision dans le
calcul de la date depuis le dmarrage du systme de la batterie de missiles Patriot. Plus prcisment, la date tait mesure
en diximes de seconde par l'horloge interne du systme, stocke dans un registre sous la forme d'un entier et obtenue
1
1
en multipliant cet entier par une approximation de 10
stocke sur 24 bits (l'criture de 10
dans le systme binaire est
en eet 0, 000112 ; la valeur tronque eectivement stocke tait donc 0, 000110011001100110011002 , ce qui introduit une
erreur gale 0, 00000000000000000000000112 , soit encore 0, 00000009536743164062510 ). La batterie de missiles ayant t
en service depuis une centaine d'heures au moment de l'attaque, l'erreur accumule cause par l'arrondi fut d'environ 0, 34
seconde, temps pendant lequel un missile Scud parcourt plus de 500 mtres, rendant de fait son interception impossible.
37. Le rsultat d'un calcul est aussi aect par la prsence de perturbations sur les donnes, qui peuvent aussi bien
tre le fruit d'arrondis ayant eu lieu lors de leur stockage en machine qu'tre causes par une connaissance seulement
approximative de celles-ci (c'est le cas lorsque les donnes sont le rsultat de calculs antrieurs ou qu'elles proviennent
d'estimations statistiques, de mesures exprimentales imparfaites, etc...).

14

1.3. ARITHMTIQUE VIRGULE FLOTTANTE

appartient F, alors que cette dernire condition est satisfaite par l'arrondi. Malgr cet inconvnient,
ce modle dcrit la plupart des arithmtiques virgule ottante utilises en pratique et est considr
comme standard. Ajoutons que des contraintes matrielles 38 sont ncessaires pour que la condition (1.8)
soit vrie dans le cas de l'addition et de la soustraction et qu'il est galement courant de supposer que
l'erreur d'arrondi sur le calcul d'une racine carre vrie une ingalit semblable, c'est--dire

fl( x) = x(1 + ), || u.

Multiplication et addition fusionnes


Certaines machines ont la possibilit d'eectuer une multiplication et une addition fusionnes (fused
multiply-add en anglais), c'est--dire une multiplication suivie d'une addition ou d'une soustraction,
comme si elle correspondait une seule opration en arithmtique virgule ottante, et donc en ne

procdant qu' un arrondi, d'o l'erreur suivante sur le rsultat :

fl(x y z) = (x y z)(1 + ), || u.
Cette opration peut avantageusement tre mise prot pour amliorer la rapidit et la prcision
du calcul du produit scalaire de deux vecteurs de taille n (on ne commet alors que n erreurs d'arrondi
conscutives au lieu de 2n 1) ou de l'application de la mthode de Horner (voir la sous-section 5.7.2)
pour l'valuation d'un polynme en un point, par exemple.

Perte d'associativit et de distributivit


Aux problmes dj poss par les arrondis s'ajoute le fait que ces derniers rendent plusieurs des
proprits fondamentales de l'arithmtique  exacte  caduques en arithmtique virgule ottante, ce qui
tend faire de l'analyse d'erreur de calculs eectus sur une machine un travail passablement compliqu.
Ainsi, si l'addition et la multiplication de nombres virgule ottante sont bien commutatives, elles ne sont
en gnral plus associatives, comme le montre l'exemple qui suit. La distributivit de la multiplication
par rapport l'addition est galement perdue.

Exemple de non-associativit de l'addition en arithmtique virgule ottante. Considrons

la somme des trois nombres virgule ottante suivants

x = 0, 1234567 100 , y = 0, 4711325 104 et z = y,

dans un systme avec une mantisse sept chires en base 10. Si l'on ralise le calcul x + (y + z), il vient
fl(y + z) = 0, fl(x + fl(y + z)) = x = 0, 1234567 100 .

En revanche, si l'on eectue d'abord l'addition entre x et y , on trouve


fl(x + y) = 0, 4711448 104 , fl(fl(x + y) + z) = 0, 0000123 104 = 0, 123 100 .

Si x, y et z sont trois nombres virgule


 ottante, x 6= 0, indiquons encore que l'galit xy = xz
n'implique pas y = z ou que le produit x xy ne vaut pas forcment y en arithmtique en prcision nie.
De la mme manire, les implications de stricte comparaison suivantes

x < y x + z < y + z,

y < z, x > 0 xy < xz,

ne seront vries qu' condition d'tre aaiblies en remplaant les ingalits strictes dans les membres
de droite par des ingalits larges.
38. Plus prcisment, on doit avoir recours l'utilisation de
n'est pas le cas, le modle satisfait seulement

chires de garde

durant le calcul (voir [Gol91]). Lorsque ce

fl(x y) = x(1 + 1 ) y(1 + 2 ), |i | u, i = 1, 2,


fl(x op y) = (x op y)(1 + ), || u, op = , /.

15

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Soustraction exacte
Il est intressant de noter que la soustraction de deux nombres virgule ottante susamment proches
est toujours exacte. On dispose en eet du rsultat suivant, d Sterbenz [Ste74], valable dans toute
base de reprsentation et pour un systme d'arithmtique virgule ottante utilisant au moins un chire
de garde.

Thorme 1.5 Soit x et y deux nombres virgule ottante tels que

1
2

y x 2 y . Alors, si le rsultat

x y n'entrane par de dbordement vers zro, on a fl(x y) = x y .

Lorsque le systme permet un dbordement vers zro progressif, l'hypothese du thorme sur la
dirence x y peut tre leve. Ce dernier rsultat s'avre essentiel pour prouver la stabilit (voir la
section 1.5) de certains algorithmes, comme celui de l'exemple suivant.

Exemple du calcul de l'aire d'un triangle connaissant les longueurs de ses cts. Soit un
triangle dont les longueurs des cts sont donnes par les rels a, b et c. Son aire A est donne par la formule de
Hron 39
p
A = s(s a)(s b)(s c),
dans laquelle s est le demi-primtre du triangle, s = 12 (a + b + c). L'implmentation directe de cette formule tend
fournir un trs mauvais rsultat numrique quand le triangle est dit  en pingle , ce qui est, par exemple, le
cas lorsque le nombre c est trs petit devant a et b. L'erreur d'arrondi sur la valeur de s peut alors tre du mme
ordre que c, ce qui conduit des calculs particulirement inexacts des quantits s a et s b. Pour remdier
ce problme, Kahan 40 proposa de renommer a, b et c de manire ce que a b c et d'utiliser la formule
1p
A=
(a + (b + c))(c (a b))(c + (a b))(a + (b c)),
4
dans laquelle le placement des parenthses est fondamental (voir [Kah83]). Lorsque le thorme 1.5 est valide, on
montre que l'erreur relative sur le rsultat fourni par cette dernire galit est borne par un petit multiple de la
prcision machine u, ce qui assure la stabilit (directe) de la mthode (voir la sous-section 1.5.2).

Arithmtique complexe
On peut dduire de la proprit (1.8) des rsultats similaires pour les oprations lmentaires ralises
sur des nombres complexes en considrant qu'un nombre virgule ottante complexe est compos de
deux nombres virgule ottante rels reprsentant respectivement ses parties relle et imaginaire. Ainsi,
en posant x = a + ib et y = c + ib, o i2 = 1 et a, b, c et d sont des nombres rels, et en observant que

x y = a c + i(b d), xy = ac bd + i(ad + bc), et

x
ac + bd
bc ad
= 2
+i 2
,
y
c + d2
c + d2

(1.9)

on tablit le rsultat suivant (voir la preuve du Lemme 3.5 de [Hig02] pour une dmonstration).

Lemme 1.6 Supposons que le modle d'arithmtique virgule ottante relle satisfasse la proprit (1.8)

et soit x et y deux nombres virgule ottante complexes tels que les rsultats des oprations lmentaires
(1.9) ne provoquent pas de dpassement de capacit. Alors, on a les relations suivantes 41

fl(x y) = (x + y)(1 + ), || u,

fl(xy) = xy (1 + ), || 2 2 ,
 

x
x
fl
= (1 + ), || 2 4 ,
y
y
39. Hron d'Alexandrie ( en grec, v. 10 - v. 70) tait un ingnieur, mcanicien et mathmaticien grec
du premier sicle aprs J.-C.. On lui attribue plusieurs dcouvertes mathmatiques, dont une formule de calcul de l'aire
d'un triangle partir des longueurs de ses cts, ainsi qu'une mthode rcursive d'approximation de la racine carre de
n'importe quel nombre positif. Il a cependant t suggr que la premire tait connue d'Archimde, tandis que la seconde
tait apparement dj utilise par les babyloniens.
40. William Morton Kahan (n le 5 juin 1933) est un mathmaticien et informaticien canadien. Surnomm  le pre de
la virgule ottante , il est notamment l'origine de la norme IEEE 754 et l'auteur d'un algorithme de somme bas sur un
principe de compensation des erreurs d'arrondi.

41. Notons que l'on peut obtenir une meilleure estimation pour la multiplication, savoir || 5 u (voir [BPZ07]).

16

1.3. ARITHMTIQUE VIRGULE FLOTTANTE

o est un nombre complexe et 42

n =

nu
pour n N tel que nu < 1.
1 nu

(1.10)

On notera que, en vertu de (1.9), une addition ou une soustraction entre nombres complexes est deux
fois (et une multiplication au moins quatre fois) plus coteuse que son analogue pour des nombres rels.

1.3.4

La norme IEEE 754

Historiquement, la reprsentation interne et le comportement des nombres virgule ottante variaient


d'un ordinateur l'autre et le portage de programmes ncessitait parfois une profonde reprise de ces
derniers, jusqu' ce qu'un standard soit propos par l'Institute of Electrical and Electronics Engineers. La
norme IEEE 754-1985 (IEEE Standard for Binary Floating-Point Arithmetic ), introduite en 1985 et aussi
connue sous le nom de IEC 60559:1989 (Binary Floating-Point Arithmetic for Microprocessor Systems ),
spcie plusieurs formats de reprsentation binaire des nombres rels virgule ottante (normaliss
et dnormaliss), ainsi qu'un ensemble d'oprations sur ces nombres, de valeurs spciales et de modes
d'arrondi. Elle est aujourd'hui 43 la plus employe pour les calculs avec des nombres virgule ottante.
Elle dnit un format simple prcision sur un mot-mmoire de 32 bits (1 bit de signe, 8 bits d'exposant,
23 bits de signicande, avec bit de poids fort implicite pour ce dernier), un format double prcision sur
un mot-mmoire de 64 bits (1 bit de signe, 11 bits d'exposant, 52 bits de signicande, avec bit de
poids fort implicite pour ce dernier), un format simple prcision tendue (rarement utilis) sur un motmmoire d'au moins 43 bits et un format double prcision tendue sur un mot-mmoire d'au moins 79 bits.
Les nombres virgule ottante en simple (resp. double) prcision standard correspondent aux lments
de l'ensemble F(2, 24, 126, 127) (resp. F(2, 53, 1022, 1023)) et peuvent dcrire des nombres rels dont
la valeur absolue est comprise entre 2126 1, 175494351 1038 et (1 224 ) 2128 3, 4028235 1038
(resp. 21022 2, 2250738585072020 10308 et (1 253 ) 21024 1, 7976931348623157 10308 ). Les formats
tendus permettent quant eux d'intgrer la norme des reprsentations dont la prcision est suprieure
la prcision courante, servant habituellement dans les calculs intermdiaires. Le codage du signe se fait
par la valeur 0 du bit correspondant si le nombre est positif et 1 s'il est ngatif (le nombre 0 tant sign)
et l'exposant est biais, c'est--dire qu'on le dcale an le stocker sous la forme d'un entier non sign.
Les valeurs spciales sont deux  innis , +Inf et -Inf, reprsentant respectivement + et ,
renvoys comme rsultat d'un dpassement de capacit comme la division par zro d'une quantit non
nulle, le zro sign, qui correspond aux inverses des innis et reprsente 44 le nombre 0, et la valeur NaN (de
l'anglais not a number ,  pas un nombre  en franais), produite par le rsultat d'une opration arithmtique invalide 45 . Elles permettent de dnir une arithmtique sur un systme ferm, au sens o chaque
opration renvoit un rsultat qui peut tre reprsent, mme si ce dernier n'est pas mathmatiquement
dni 46 .
Enn, les modes d'arrondi proposs sont au nombre de quatre (l'arrondi au plus proche, qui est celui
utilis par dfaut, avec une stratgie d'arrondi au chire pair quand un choix est ncessaire, l'arrondi
vers zro et les arrondis vers ). La norme garantit que les oprations arithmtiques sur les nombres
virgule ottante sont eectues de manire exacte et que le rsultat est arrondi selon le mode choisi.
L'arithmtique virgule ottante qu'elle dnit satisfait donc la proprit (1.8), en assurant de plus que
= 0 lorsque le rsultat de l'opration considre est exactement reprsentable.
42. Dans toute la suite, nous supposons la condition nu < 1 implicitement vrie pour toute valeur de l'entier n envisage,
ceci tant toujours le cas en arithmtique IEEE en simple ou en double prcision (voir la sous-section 1.3.4).
43. La version actuelle, publie en aot 2008, de cette norme est IEEE 754-2008. Elle inclue la quasi-totalit de la
norme originale IEEE 754-1985, ainsi que la norme IEEE 854-1987 (IEEE Standard for Radix-Independent Floating-Point
Arithmetic ).
44. Par convention, le test +0 = 0 est vrai.
45. On l'obtient pour toutes les oprations qui sont des formes indtermines mathmatiques, comme les divisions 0/0,
+/(+), +/(), /(+) et /(), les multiplications 0(+) et 0(), les additions + + () et
+ (+) (ainsi que les soustractions quivalentes) ou encore les oprations sur les rels dont le rsultat est complexe
(racine carre ou logarithme d'un nombre ngatif par exemple). La valeur NaN est en quelque sorte un lment absorbant :
toute opration arithmtique la faisant intervenir ou toute fonction mathmatique lui tant applique la renvoie comme
rsultat. On dit encore que cette valeur se propage.
46. Dans ce cas prcis, les valeurs sont d'ailleurs accompagnes de signaux d'exception (exception ags en anglais) qu'on
peut choisir d'activer pour interrompre le calcul.

17

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

1.4

Propagation des erreurs et conditionnement

Nous avons vu comment des erreurs d'arrondi taient produites par l'excution inexacte d'oprations
arithmtiques par une machine, mais elles ne sont pas les seules aecter une mthode numrique. En
eet, les donnes du problme que l'on cherche rsoudre peuvent elles-mmes contenir des erreurs dont
les sources peuvent tre diverses (voir la section 1.1). Pour tre en mesure d'apprcier la pertinence de
la valeur numrique du rsultat d'un calcul, il est donc fondamental de pouvoir estimer comment des
perturbations, si petites soient-elles, inuent sur ce rsultat. Cette analyse de sensibilit de la solution
d'un problme par rapport des changements dans les donnes est l'un des aspects fondamentaux de
l'tude de la propagation des erreurs et constitue, tout comme l'analyse d'erreur, une tape prliminaire
essentielle l'utilisation d'une mthode numrique. L'objet de cette section est d'introduire des outils
gnraux permettant de la conduire.

1.4.1

Propagation des erreurs dans les oprations arithmtiques

Nous considrons tout d'abord le cas le plus simple de propagation d'erreurs : celle ayant lieu dans des
oprations arithmtiques lmentaires comme la multiplication, la division, l'addition ou la soustraction.
Pour l'tudier, nous allons supposer que les oprations sont eectues de manire exacte, mais que leurs
oprandes contiennent des erreurs.

Cas de la multiplication
On considre les valeurs x+x et y+y , reprsentant deux rels non nuls x et y respectivement
entachs


et y sont susamment
des erreurs absolues |x| et |y|. En supposant que les erreurs relatives x
x
y
petites en valeur absolue pour que les termes d'ordre deux en ces quantits soient ngligeables, on obtient




x y x y
x y
(x + x)(y + y) = xy 1 +
+
+
xy 1 +
+
.
x
y
xy
x
y
L'erreur relative sur le rsultat est donc approximativement gale la somme des erreurs relatives sur les
oprandes, ce qui est parfaitement acceptable. Pour cette raison, la multiplication est considre comme
une opration bnigne du point de vue de la propagation des erreurs.

Cas de la division
Pour la division, on trouve, sous les mmes hypothses que prcdemment,
!


 2


x + x
x
x
y
y
x
x y
=
1+
1
+
...
1+

.
y + y
y
x
y
y
y
x
y
Dans ce cas, l'erreur relative sur le rsultat est de l'ordre de la dierence entre les erreurs relatives sur
les oprandes, ce qui est encore une fois tout fait acceptable.

Cas de l'addition et de la soustraction


Les nombres rels x et y pouvant tre positifs ou ngatifs, on ne va s'intresser qu' l'addition. On a,
en supposant que la somme x + y est non nulle,


y y
x x
+
.
(x + x) + (y + y) = (x + y) 1 +
x+y x
x+y y
Lorsque les oprandes sont de mme signe, l'erreur relative sur le rsultat est majore par
 
x y
max , ,
x
y
18

1.4. PROPAGATION DES ERREURS ET CONDITIONNEMENT

et reste donc du mme ordre les erreurs relatives


En revanche, si ces derniers sont de
sur les oprandes.


y
x
et
est
plus
grand que 1 et au moins l'une des
signes opposs, au moins l'un des facteurs x+y
x+y

erreurs relatives sur les oprandes est amplie, de manire d'autant plus importante que ces oprandes
sont presque gaux en valeur absolue, donnant alors lieu au phnomne d'annulation catastrophique
(catastrophic cancellation en anglais).

Un exemple d'annulation catastrophique. Les racines relles de l'quation


algbrique du
second degr
b+

b2 4ac

b2 4ac

a x2 + b x + c = 0, avec a 6= 0, sont respectivement donnes par les formules


et
. Dans
2a
2a

le cas o b2  |4ac|, on a b2 4ac |b| et le calcul de l'une des deux racines (celle dont la valeur absolue
est la plus petite) sera aect par une annulation, dont l'eet est de mettre en avant l'erreur d'arrondi rsultant

de l'valuation inexacte de la quantit b2 4ac. Il est cependant simple d'viter cette annulation : il sut de
dterminer la racine dont la valeur absolue est la plus grande et d'utiliser ensuite la relation de Vite 47 selon
laquelle le produit des racines est gal ac pour obtenir l'autre racine (voir l'algorithme 3).

Algorithme 3 : Algorithme pour le calcul des racines relles de l'quation algbrique du second
degr a x2 + b x + c = 0.
Entre(s) : les coecients a, b et c.
Sortie(s) : les racines relles 1 et 2 .
d=bb4ac
si d 0 alors
1 = sign(b) (abs(b) + sqrt(d))/(2 a)
2 = c/(a 1 )
n

Le calcul des racines peut galement subir une annulation lorsque celles-ci sont presque gales, c'est--dire
quand b2 4ac. Dans ce cas, il n'existe pas de faon de garantir le rsultat autre que le recours une arithmtique
en prcision tendue pour l'valuation de b2 4ac.

L'annulation ampliant, de manire parfois trs consquente, des imprcisions sur les valeurs des
oprandes d'une addition ou d'une soustraction (causes par exemple par des erreurs d'arrondi accumules
au l d'oprations eectues antrieurement), son eet est potentiellement dvastateur, mais galement
trs dicile anticiper. Il est nanmoins important de comprendre qu'elle n'est pas forcment une fatalit.
Tout d'abord, les donnes sont parfois connues exactement. D'autre part, l'impact d'une annulation sur
un calcul dpend de la contribution du rsultat intermdiaire qu'elle aecte au rsultat nal. Par exemple,
si l'on cherche valuer la quantit x+(yz), o x, y et z sont trois nombres rels tels que x  y z > 0,
alors l'erreur due une annulation ayant lieu lors de la soustraction y z n'est gnralement pas notable
dans le rsultat obtenu.

1.4.2

Analyse de sensibilit et conditionnement d'un problme

L'tude de la propagation des erreurs sur de simples oprations arithmtiques a montr que la sensibilit d'un problme une perturbation des donnes pouvait prsenter deux tendances opposes, de
petites variations des donnes pouvant entraner, selon les cas, de petits ou de grands changements sur
la solution. Ceci nous amne introduire un cadre d'tude gnral, dans lequel on identie la rsolution
d'un problme donn une application dnie sur l'ensemble des donnes possibles pour le problme et
valeurs dans l'ensemble des solutions correspondantes.
47. Franois Vite (ou Franois Viette, Franciscus Vieta en latin, 1540 - 23 fvrier 1603) tait un juriste, conseiller du
roi de France et mathmaticien franais, considr comme le fondateur de l'algbre moderne. En parallle de ses fonctions
au service de l'tat, il dveloppa une uvre mathmatique importante en algbre, en trigonomtrie, en gomtrie, en
cryptanalyse et en astronomie.

19

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Problme bien pos


Dans tout la suite, nous allons nous intresser la rsolution d'un problme de la forme suivante :

connaissant d, trouver s tel que

F (s, d) = 0,

(1.11)

o F dsigne une relation fonctionnelle liant la solution s la donne d du problme, ces dernires
variables tant supposes appartenir des espaces vectoriels norms sur R ou C.
Un tel problme est dit bien pos au sens de Hadamard 48 [Had02] (well-posed in the sense of Hadamard en anglais) si, pour une donne d xe, une solution s existe, qu'elle est unique et qu'elle dpend
continment de la donne d. La premire de ces conditions semble tre la moindre des choses exiger du
problme que l'on cherche rsoudre : il faut qu'il admette au moins une solution. La seconde condition
exclut de la dnition les problmes possdant plusieurs, voire une innit de, solutions, car une telle
multiplicit cache une indtermination du modle sur lequel est bas le problme. La dernire condition,
qui est la moins vidente a priori, est absolument fondamentale dans la perspective de l'utilisation de
mthodes numriques de rsolution. En eet, si de petites incertitudes sur les donnes peuvent conduire
de grandes variations sur la solution, il sera quasiment impossible d'obtenir une approximation valable
de cette dernire par un calcul dans une arithmtique en prcision nie.
Deux exemples de problmes bien poss pour la rsolution desquels des mthodes numriques sont
prsentes dans le prsent document sont ceux de la rsolution d'un systme linaire Ax = b, avec A une
matrice, relle ou complexe, d'ordre n inversible et b un vecteur de Rn ou de Cn donns, traite dans les
chapitres 2 et 3, et de la dtermination des racines d'une quation algbrique, aborde dans la section
5.7.

Conditionnement
De manire abstraite, tout problme bien pos de la forme (1.11) peut tre assimil une bote
noire 49 , ayant pour entre une donne d, qui sera typiquement constitue de nombres 50 , et pour sortie

une solution s dtermine de manire unique par les donnes, qui sera elle aussi gnralement reprsente
par un ensemble de nombres. En supposant que la donne et la solution du problme ne font intervenir
que des quantits relles (la discussion qui suit s'tendant sans dicult au cas complexe), on est alors
en mesure de dcrire la rsolution du problme par une application , dnie de l'ensemble des donnes
convenables pour le problme, suppos tre un sous-ensemble D de Rn , et valeurs dans (un sous-ensemble
de) Rm , avec m et n des entiers naturels non nuls, telle que

(d) = s, d D,
soit encore, en reprenant la notation prcdemment introduite pour le problme,

F ((d), d) = 0, d D.
L'application est gnralement non linaire, mais, en raison de l'hypothse sur le caractre bien pos
du problme, elle est au moins continue. On observe par ailleurs qu'elle n'est pas forcment dnie de
manire unique : il peut en eet exister plusieurs faons de rsoudre un mme problme.
Nous allons nous intresser la sensibilit de l'application par rapport une (petite) perturbation
admissible de la donne ou, plus prcisment, l'estimation de la variation de la solution s due une
modication d de la donne d telle que d+d appartienne D. Pour ce faire, on dnit le conditionnement
absolu (absolute condition number en anglais) de l'application (ou du problme) au point (ou en la
donne) d par


k(d + d) (d)k
,
abs (, d) = lim sup
0 kdk
kdk
48. Jacques Salomon Hadamard (8 dcembre 1865 - 17 octobre 1963) tait un mathmaticien franais, connu pour ses
travaux en thorie des nombres et en cryptologie.
49. Ce terme dsigne un systme (que ce soit un objet, un organisme, un mode d'organisation sociale, etc...) connu
uniquement en termes de ses entres, de ses sorties et de sa fonction de transfert, son fonctionnement interne restant
totalement inaccessible.
50. On pourrait aussi bien considrer des problmes impliquant des espaces plus gnraux, en particulier des espaces de
fonctions, mais on remarquera que, dans la pratique, ceux-ci se trouvent toujours rduits des espaces de dimension nie.

20

1.4. PROPAGATION DES ERREURS ET CONDITIONNEMENT

o kk dsigne indiremment une norme sur Rm ou Rn et o la limite de la borne suprieure de la


quantit est comprise comme sa borne suprieure sur l'ensemble des perturbations innitsimales d.
Lorsque l'application est direntiable au point d, le conditionnement absolu s'exprime en fonction de
la drive de au point d. Par dnition de la direntielle de au point d et en introduisant la matrice
jacobienne J (d) de en d,

1
1
(d) . . .
(d)

d1
dn

..
..
,
J (d) =
.
.


m
m
(d) . . .
(d)
d1
dn
on a (voir [Ric66])

abs (, d) = kJ (d)k,
o kk dsigne la norme matricielle sur Mm,n (R) induite par les normes vectorielles choisies sur Rm et
Rn (voir la proposition A.137).
En pratique 51 , c'est souvent la notion de perturbation ou d'erreur relative qui est pertinente et l'on
utilise alors, en supposant que d et s = (d) sont tous deux non nuls, la quantit
(

1 )
k(d + d) (d)k kdk
(, d) = lim sup
,
(1.12)
0 kdk
k(d)k
kdk
appele conditionnement relatif (relative condition number en anglais) de l'application (ou du problme)
au point (ou en la donne) d. Lorsque l'application est direntiable, ce conditionnement s'exprime en
termes de la matrice jacobienne de en d et l'on a

(, d) = kJ (d)k

kdk
.
k(d)k

(1.13)

Le conditionnement vise donner une mesure de l'inuence d'une perturbation de la donne d'un
problme bien pos sur sa solution. Ainsi, on dit que le problme (1.11) est bien conditionn (wellconditioned en anglais) pour la donne d si le nombre (, d) (ou abs (, d) le cas chant) est  petit 
(typiquement de l'ordre de l'unit quelques centaines), ce qui signie encore que la variation observe
de la solution est grossirement du mme ordre de grandeur que la perturbation de la donne qui en est
l'origine. Au contraire 52 , si le conditionnement est  grand  (typiquement de l'ordre du million et plus),
le problme est mal conditionn (ill-conditioned en anglais).
On notera de plus que, dans toutes ces dnitions, on a considr le problme comme exactement
rsolu, c'est--dire que l'application est value avec une prcision innie. Le conditionnement est par
consquent une proprit intrinsque du problme et ne dpend d'aucune considration algorithmique
sur sa rsolution. Ceci tant, nous verrons dans la section 1.5 qu'il intervient de manire fondamentale
dans l'analyse de stabilit et de prcision d'une mthode numrique. Ajoutons que si la valeur du conditionnement dpend de la norme retenue dans sa dnition, son ordre de grandeur restera plus ou moins
le mme quel que soit ce choix, les normes sur un espace vectoriel de dimension nie tant quivalentes.
La notion de conditionnement trouve son origine dans la thorie des perturbations. Pour comprendre
ceci, considrons un problme pour lequel l'application est une fonction relle d'une variable relle
(on a dans ce cas m = n = 1), par ailleurs suppose rgulire et faisons l'hypothse d'une donne d et
d'une solution s = (d) toutes deux non nulles. En notant d la perturbation de d et en la supposant
51. Ceci est particulirement vrai dans le domaine d'tude de l'analyse numrique, l'usage d'une arithmtique virgule
ottante en prcision nie introduisant, comme on l'a vu, des erreurs relatives plutt qu'absolues.
52. La sparation entre problmes bien et mal conditionns n'est pas systmatique. Les valeurs indicatives du conditionnement donnes ici s'entendent dans le contexte particulier de la rsolution numrique d'un problme dans une arithmtique
virgule ottante dnie par la norme IEEE (voir encore la sous-section 1.5.2). D'autre part, le conditionnement d'un problme dpendant de sa donne, un mme type de problme peut, selon les cas, tre bien ou mal conditionn. Par exemple, on
a vu dans la sous-section 1.4.1 que la soustraction de deux nombres rels de mme signe est d'autant plus mal conditionne
que ces nombres sont proches l'un de l'autre. De la mme faon, nous verrons que le problme de l'valuation d'un polynme
en un point est d'autant plus mal conditionn que ce point est proche d'une des racines du polynme.

21

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

susamment petite pour que les termes d'ordre suprieur un dans le dveloppement de Taylor de
(d + d) au point d soient ngligeables, on trouve que

(d + d) (d) 0 (d) d,
d'o

(1.14)

|(d + d) (d)| |0 (d)| |d| .

Si l'on s'intresse la relation entre l'erreur relative sur la solution et l'erreur relative sur la donne, on
a encore que




(d + d) (d) 0
(d) d d ,




(d)
(d) d
ces galits approches devenant exactes lorsqu'on fait tendre d vers 0 et que l'on passe la limite. Il
apparat alors clairement que le facteur d'amplication de l'erreur absolue (resp. relative) sur la donne
correspond la quantit que l'on a dni comme tant le conditionnement absolu (resp. relatif) de au
point d, c'est--dire 53


0
d
0

).
(, d)abs = | (d)| (resp. (, d) = (d)
(d)
Traitons maintenant le cas o les entiers m et n sont arbitraires ; on a alors


d1
s1
..
..
n
s = (d), avec d = . R , s = . Rm et si = i (d), i = 1, . . . , m.

dn

sm

Supposons que les composantes i , i = 1, . . . , m, soient des fonctions rgulires des variables dj ,
j = 1, . . . , n. L'analyse de sensibilit consiste alors considrer tour tour chacune de ces applications
comme une fonction d'une seule variable, perturber la variable en question et estimer la variation
produite. Sous une hypothse de petites perturbations, on a, au premier ordre, la relation

(d + d) (d) J (d) d,

(1.15)

analogue (1.14), d'o, aprs avoir fait le choix de normes,

k(d + d) (d)k kJ (d)k kdk,


au moins en un sens approch, et

k(d + d) (d)k
kdk kdk
kJ (d)k
.
k(d)k
k(d)k kdk
Ces deux ingalits sont optimales, au sens o elles deviennent des galits pour pour une perturbation d
approprie, ce qui justie les dnitions du conditionnement donnes plus haut. Il faut nanmoins noter
que cette analyse, calque sur le prcdent cas scalaire, ne donne qu'une vision globale de l'approche
perturbative et conduit, pour certains problmes, des majorations d'erreurs trop grossires pour correctement rendre compte ce qui est observ en pratique. Le passage aux normes estompe en eet quelque
peu le fait que les composantes de la donne d puissent tre d'ordres de grandeur trs dirents et que
les perturbations sont, en gnral, relatives par composante (notamment si des erreurs d'arrondis en sont
l'origine), c'est--dire qu'elles satisfont une relation du type

|dj | |dj | , j = 1, . . . , n, > 0,


qui est une condition a priori plus contraignante que

kdk kdk.
53. Lorsque est une fonction positive, on remarque que la seconde quantit concide, la valeur absolue prs, avec
l'lasticit de au point d, utilise en conomie pour mesurer un rapport de cause et d'eet.

22

1.4. PROPAGATION DES ERREURS ET CONDITIONNEMENT

Il est nanmoins possible d'adapter de direntes manires la dnition du conditionnement an


de prendre en compte la nature des perturbations et de caractriser ainsi plus nement la sensibilit
d'un problme. Parmi celles-ci, mentionnons le conditionnement relatif par composante (componentwise
relative condition number en anglais) de l'application (ou du problme) au point d, par opposition
la dnition classique (1.12) du conditionnement relatif que l'on qualie parfois de normwise relative
condition number dans la littrature anglo-saxonne. On le dnit par
(


 )

dj 1
i (d + d) i (d)




max
,
c (, d) = lim sup
max
1jn
0kdk 1im
i (d)
dj
et il vaut encore, lorsque l'application est direntiable,





1
c (, d) = diag (1 (d), . . . , m (d)) J (d) diag (d1 , . . . , dn )


n
X
i

dj

= max
dj (d) i (d) ,
1im
j=1

(1.16)
o diag (1 (d), . . . , m (d)) et diag (d1 , . . . , dn ) dsignent des matrices diagonales d'ordre m et n ayant
pour lments diagonaux respectifs les quantits i (d), i = 1, . . . , m, et dj , j = 1, . . . , n. On notera que
l'on a suppos qu'aucune des composantes des vecteurs d et (d) n'tait nulle, mais il est possible de
gnraliser la dnition pour inclure de telles ventualits sans dicult.
Nous terminons sur la notion de conditionnement relatif mixte (mixed relative condition number en
anglais) d'un problme, faisant le lien entre une erreur relative mesure en norme innie sur la solution
et une perturbation relative par composante de la donne d,
(

 )

dj 1
k(d + d) (d)k

m (, d) = lim sup
.
max
0kdk
1jn dj
k(d)k
Lorsque l'application est direntiable, on a l'identit

m (, d) =

kJ (d) diag (d1 , . . . , dn )k


.
k(d)k

Cette dernire dnition du conditionnement intervient notamment pour la rsolution de systmes linaires (voir le quatrime exemple ci-aprs).
Pour plus dtails sur les direntes dnitions et proprits du conditionnement, on pourra consulter
l'article [GK93].

Quelques exemples
Les direntes dnitions du conditionnement permettent d'tudier, de manire ad hoc, la sensibilit
du problme que l'on cherche rsoudre numriquement par rapport de petites pertubations de ses
donnes. Pour illustrer ce propos, nous allons, sur des exemples classiques, dnir un conditionnement
adapt au problme trait et caractriser des cas pour lesquels le problme est mal conditionn.

Oprations arithmtiques. Commenons par reprendre, l'aune de la notion de conditionnement,

l'analyse de propagation d'erreurs dans les oprations arithmtiques de base mene dans la sous-section
1.4.1. Chaque opration arithmtique considre ayant pour donnes deux oprandes (que l'on va ici
supposer rels), nous allons modliser son valuation par une application dnie de R2 dans R.
Pour la multiplication, on a alors

(x, y) = xy,

(x, y) = y et
(x, y) = x,
x
y


T
d'o ( , (x, y)) = 1 1 , avec kk une norme sur R2 . On obtient par exemple 1 ( , (x, y)) = 2,

2 ( , (x, y)) = 2 ou ( , (x, y)) = 1, et l'on retrouve que la multiplication est une opration bien
conditionne quelles que soient les valeurs des oprandes.
23

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Pour la division, on a de la mme manire

/ (x, y) =

/
x /
1
1
,
(x, y) = et
(x, y) = 2 ,
y x
y
y
y


T
d'o (/ , (x, y)) = 1 1 , dont on dduit que la division est une opration toujours bien conditionne.
En revanche, dans le cas de l'addition et de la soustraction, il vient
(x, y) = x y,

(x, y) = 1 et
(x, y) = 1,
x
y


1
x y T . On a par exemple 1 ( , (x, y)) = |x| + |y| , cette quantit
|x y|
|x y|
pouvant prendre des valeurs arbitrairement grandes ds que |x y|  |x| + |y|. L'addition de deux
nombres de signes opposs (ou la soustraction de deux nombres de mme signe) est par consquent une
opration potentiellement mal conditionne.
et alors ( , (x, y)) =

valuation d'une fonction polynomiale en un point. Soit une fonction polynomiale pn , associe
un polynme rel non identiquement nul de degr n, n 1,

pn (x) = an xn + an1 xn1 + + a1 x + a0 ,

(1.17)

que l'on cherche valuer en un point z de R. La donne et la solution de ce problme sont alors le rel
z et un vecteur a de Rn+1 dont P
les composantes sont les coecients ai , i = 0, . . . , n, du polynme d'une
n
part et la valeur relle pn (z) = i=0 ai z i d'autre part. Faisons dans un premier temps l'hypothse que
seule la donne de z est sujette des perturbations. Dans ce cas, on reprsente l'valuation du polynme
par une application |a de R dans R telle que |a (z) = pn (z), dont le conditionnement relatif au point
z , en supposant que z n'est ni nul, ni racine du polynme, est


0
z

.
(|a , z) = pn (z)
pn (z)
On remarque que le problme d'valuation est mal conditionn au voisinage d'une racine du polynme,
la valeur de ce conditionnement tendant vers l'inni lorsque z tend vers un zro de la fonction pn .
Envisageons prsent une perturbation des coecients du polynme et introduisons une application |z
dnie de Rn+1 dans R telle que |z (a) = pn (z). Dans ce cas, on a coutume de mesurer la sensibilit du
problme d'valuation au moyen du conditionnement relatif par composante. En supposant que les rels
ai , i = 0, . . . , n, sont non nuls, en observant que l'on a

|z
(a) = z i , i = 0, . . . , n,
ai
et puisque z n'est pas racine du polynme, on obtient, en utilisant la dnition (1.16), que

Pn
i
i=0 ai z
c (|z , a) =
.
|pn (z)|
L encore, ce nombre peut tre arbitrairement grand, notamment au voisinage des racines de pn . L'valuation d'un polynme est donc d'autant plus sensible des incertitudes sur les valeurs de ses coecients
qu'il est valu prs d'une de ses racines.

Dtermination des racines d'une quation algbrique. On considre de nouveau la fonction

polynomiale pn de l'exemple prcdent, que l'on suppose telle que an 6= 0 et a0 6= 0 et que l'on normalise
de manire ce que an = 1 (ceci ne modiera pas substantiellement le conditionnement du problme).
Soit une racine simple du polynme 54 , c'est--dire une solution de l'quation pn (x) = 0 telle que

p0n () 6= 0.
54. On note que, par hypothse sur les coecients, la racine est non nulle.

24

1.4. PROPAGATION DES ERREURS ET CONDITIONNEMENT

Le problme de dtermination de la racine connaissant pn ayant pour donne un vecteur a, form de


l'ensemble des coecients ai , i = 0, . . . , n 1, et pour solution la racine , on introduit une application ,
dnie sur Rn valeurs dans C, telle que (a) = . L encore, c'est la notion de conditionnement relatif
par composante qui est utilise en pratique. On obtient alors le conditionnement de la racine suivant


n1

1 X
cond() = c (, a) =
(a) ai .
|| i=0 ai
Pour calculer les drives partielles de l'application , on utilise l'identit

((a))n + an1 ((a))n1 + + a1 (a) + a0 = 0.


Par direntiation, on a, pour tout entier i compris entre 0 et n 1,

n ((a))n1

(a) + (n 1)an1 ((a))n2


(a) + + iai ((a))i1
(a)
ai
ai
ai
+ ((a))i + + a1

(a) = 0,
ai

ce qui se rcrit encore

p0n ()

(a) + i = 0.
ai

La racine tant suppose simple, on trouve nalement

cond() =

n1
X

1
ai i .
0
| pn ()| i=0

Examinons prsent l'exemple clbre du polynme de Wilkinson


, qui est un polynme de degr n
Qn
ayant pour racine les entiers 1, 2, . . . , n, c'est--dire pn (x) = =1 (x ), avec = , = 1, . . . , n. Il
a t tabli dans [Gau73] que

min cond( ) = cond(1 )

1n

n+

n et max cond( )
2

1n

n+

(2

2)n

!n

2+1

.
21

Ceci montre que, lorsque n est grand, la racine conduisant au problme de dtermination le plus mal
conditionn (qui est l'entier le plus proche de n2 ) possde un conditionnement dont la valeur crot
exponentiellement avec n ( titre indicatif, celui-ci vaut approximativement 5, 3952 1013 pour n = 20 et
5, 5698 1028 pour n = 40).
Cet exemple frappant illustre combien les racines d'un polynme crit sous la forme (1.17) peuvent
tre sensibles petites perturbations des coecients du polynme. Il est ainsi mal avis d'essayer de calculer l'ensemble des valeurs propres d'une matrice par recherche des racines du polynme caractristique
associ, ecacement obtenu par la mthode de Le Verrier 55 [LV40] par exemple, cette approche pouvant
se rvler particulirement imprcise ds que l'ordre de la matrice dpasse quelques dizaines en raison
des erreurs sur le calcul des coecients du polynme. Il est alors prfrable d'employer des mthodes
transformant, par une suite de similitudes, la matrice diagonaliser de manire y faire  apparatre 
les valeurs propres (nous renvoyons le lecteur la section 4.5 pour la prsentation d'une telle mthode).

Rsolution d'un systme linaire. Considrons prsent la rsolution du systme linaire


A x = b,

(1.18)

55. Urbain Jean Joseph Le Verrier (11 mars 1811 - 23 septembre 1877) tait un astronome, mathmaticien et homme
politique franais. Il devint clbre lorsque la plante Neptune, dont il avait calcul les caractristiques comme cause
hypothtique des anomalies du mouvement orbital d'Uranus, fut eectivement observe le 23 septembre 1846.

25

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

o A est une matrice relle d'ordre n inversible et b est un vecteur de Rn , que l'on peut voir comme une
2
application de Rn +n dans Rn qui associe aux donnes A et b le vecteur x = A1 b de Rn solution de
(1.18). Soit le systme linaire perturb

(A + A)(x + x) = b + b,
o A est une matrice d'ordre n, telle que kA1 kkAk < 1 (ce qui implique que la matrice A + A est
inversible), et b est un vecteur de Rn . On montre alors (voir la proposition A.151) que

1
kxk

kxk
1 kA1 kkAk


kA1 kkbk
1
+
kA
kkAk
,
kA1 bk

o kk dsigne la fois une norme vectorielle sur Rn et la norme matricielle qui lui est subordonne (voir
la proposition A.137). Pour simplier l'analyse, nous allons supposer que les perturbations des donnes
sont telles que
kAk kAk, kbk kbk, avec > 0.
On a alors

kxk

kxk
1 kA1 kkAk


kA1 kkbk
1
+ kA kkAk ,
kA1 bk

l'galit au premier ordre en tant obtenue pour A = kAkkA1 bkvwT et b = kbkw, o kwk = 1,
kA1 wk = kA1 k et v est un lment dual du dual de x par rapport la norme kk (voir la dnition
A.129). On en dduit que le conditionnement du problme est

(, (A, b)) =

kA1 kkbk
+ kA1 kkAk,
kA1 bk

et qu'il vrie l'encadrement

cond(A) (, (A, b)) 2 cond(A),


o la quantit cond(A) = kAkkA k est appele le conditionnement de la matrice A (voir la sous-section
A.5.4 de l'annexe A).
Pour obtenir une estimation parfois plus satisfaisante de la sensibilit du problme aux perturbations
des donnes, on peut supposer que ces dernires sont la forme
1

|(A)ij | |aij | , |bi | |bj | , i, j = 1, . . . , n, avec > 0,


et envisager une analyse mixte. En introduisant, pour toute matrice M de Mn (R) et tout vecteur v de Rn ,
les notations |M | et |v| pour dsigner la matrice et le vecteur de composantes respectives |M |ij = |mij |,


1 i, j n, et |v|i = |vi |, 1 i n, et en supposant que |A1 | |A| < 1, on obtient que

1

|A | |b| + |A1 | |A| |x|

kxk

.
kxk
1 k|A1 | |A|k
kxk
L'galit au premier ordre en est atteinte pour les perturbations

A = diag sign((A1 )k1 ), . . . , sign((A1 )kn ) |A| diag (sign(x1 ), . . . , sign(xn ))
et


b = diag sign((A1 )k1 ), . . . , sign((A1 )kn ) |b| ,



o l'indice k est tel que |A1 |(|b| + |A| |x|) = |A1 |(|b| + |A| |x|) k , d'o la valeur suivante pour le
conditionnement mixte du problme
1

|A | |b| + |A1 | |A| |x|

.
m (, (A, b)) =
kxk
26

1.4. PROPAGATION DES ERREURS ET CONDITIONNEMENT



La plus grande valeur atteinte par ce conditionnement pour une matrice A donne est 2 |A1 | |A| , la
quantit

1
|A | |A| ,
(1.19)

appele conditionnement de BauerSkeel de la matrice A [Bau66, Ske79], pouvant tre arbitrairement


petite par rapport cond (A) en raison d'une proprit d'invariance par quilibrage des lignes de la
matrice A. On montre en eet facilement que

1
|A | |A| = min {cond (DA) | D matrice diagonale inversible d'ordre n} .

Un exemple canonique de matrices ayant un mauvais conditionnement est celui des matrices dites
de Hilbert 56 . Une matrice de Hilbert Hn d'ordre n, n N , est une matrice carre de terme gnral
(Hn )ij = (i + j 1)1 , 1 i, j n, intervenant dans des problmes d'approximation polynomiale au sens
des moindres carres de fonctions arbitraires 57 . Elle correspond 58 la matrice de Gram 59 associe la
famille 1, x, x2 , . . . , xn de fonctions puissances d'une variable relle x relativement au produit scalaire
de L2 ([0, 1]), c'est par consquent une matrice symtrique dnie positive (donc inversible). On observe
dans le tableau 1.1 que ces matrices sont extrmement mal conditionnes. En particulier, on peut montrer,
grce un rsultat d Szeg 60 [Sze36], qu'on a, asymptotiquement,

( 2 + 1)4(n+1)

.
cond2 (Hn )
n+
215/4 n

n
1
2
5
10
20
50
100
200

cond2 (Hn )
1
1,92815 101
4,76607 105
1,60263 1013
2,45216 1028
1,42294 1074
3,77649 10150
3,57675 10303

Valeurs numriques arrondies du conditionnement de la matrice de Hilbert Hn relativement la


norme kk2 pour quelques valeurs de l'entier n. On rappelle (voir notamment le thorme A.150) que la valeur de
ce conditionnement est gale au produit de la plus grande valeur propre de Hn par la plus grande valeur propre de
son inverse. Pour obtenir la matrice Hn 1 , on a utilis une forme explicite bien connue (voir par exemple [Tod61])
et non cherch la calculer numriquement (ce qui serait dsastreux !).

Table 1.1:

Cette croissance exponentielle de la valeur du conditionnement en fonction de l'ordre de la matrice


rend la rsolution d'un systme linaire associ numriquement impossible : pour des calculs eectus en
56. David Hilbert (23 janvier 1862 - 14 fvrier 1943) tait un mathmaticien allemand, souvent considr comme l'un des
plus grands mathmaticiens du vingtime sicle. Il a cr ou dvelopp un large ventail d'ides fondamentales, comme la
thorie des invariants, l'axiomatisation de la gomtrie ou les fondements de l'analyse fonctionnelle.
57. Dans l'article [Hil94], Hilbert pose la question suivante :  tant donn un intervalle rel [a, b], est-il possible de
trouver un polynme coecients entiers

non trivial, tel que la valeur de l'intgrale

p(x)2 dx

soit infrieure un nombre strictement positif choisi arbitrairement ? . Pour y rpondre, il tablit une formule exacte
pour le dterminant d'une matrice de Hilbert Hn et tudie son comportement asymptotique lorsque n tend vers l'inni. Il
conclut par l'armative la question pose
si la longueur de l'intervalle est strictement infrieure 4.
Z
1

58. On vrie en eet que (Hn )ij =

xi+j2 dx, 1 i, j n.

59. Jrgen Pedersen Gram (27 juin 1850 - 29 avril 1916) tait un actuaire et mathmaticien danois. Il t d'importantes
contributions dans les domaines des probabilits, de l'analyse numrique et de la thorie des nombres.
60. Gbor Szeg (20 janvier 1895 - 7 aot 1985) tait un mathmaticien hongrois. S'intressant principalement l'analyse,
il est l'auteur de rsultats fondamentaux sur les matrices de Toeplitz et les polynmes orthogonaux.

27

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

arithmtique en double prcision, la solution obtenue n'a plus aucune pertinence ds que n 20 (voir la
sous-section 1.5.2).
Les matrices de Vandermonde 61 d'ordre n

1
x0
...
x0 n1
1
x1
...
x1 n1

Vn = .
, (x0 , . . . , xn1 )T Cn ,
..
..
..

.
.

xn1

xn1 n1

...

dont les coecients de chaque ligne prsentent une progression gomtrique, possdent galement la
rputation d'tre mal conditionnes. Elles apparaissent naturellement dans divers domaines des mathmatiques, comme des problmes d'interpolation polynomiale (voir la section 6.2) ou des problmes de
moments en statistiques, et le comportement de leur conditionnement en fonction du nombre et de la
rpartition des points xi , i = 0, . . . , n 1, a pour cette raison t particulirement tudi. Les estimations
1

cond (Vn ) 1 e 4 en( 4 + 2 ln(2)) pour des points quirpartis sur l'intervalle [1, 1], i.e. xi =
n+

2i
n1 ,

i = 0, . . . , n 1,
3

2)n pour les racines du polynme de Chebyshev 62 de premire espce



de degr n, connues sous le nom de points de Chebyshev, xi = cos 2i+1
2n , i = 0, . . . , n 1,
2i
cond (Vn ) = n pour les racines de l'unit, xi = ei n , i = 0, . . . , n 1,
sont par exemple tablies dans [Gau75]. De fait, on peut montrer (voir [Bec00]) que pour tout choix
arbitraire de points rels le conditionnement de Vn crot au moins exponentiellement avec n.
cond (Vn )

34
n+ 4

(1 +

valuation numrique d'une intgrale par une formule de rcurrence. On cherche valuer
numriquement l'intgrale

tn
dt,
0 6+t
avec n un entier naturel x. En remarquant que l'on a d'une part
 
Z 1
7
dt
= ln(7) ln(6) = ln
,
I0 =
6
+
t
6
0
Z

In =

et d'autre part

Z
In =
0


1

6
6+t

tn1 dt =

tn1 dt 10

Z
0

tn1
1
dt = 6 In1 , n 1,
6+t
n

on dduit que l'on peut calculer In par la rcurrence suivante


 
7
1
, Ik = 6 Ik1 , k = 1, . . . , n.
I0 = ln
6
k

(1.20)

Mme en supposant que le calcul numrique de Ik partir de Ik1 , k 1, est exact (ce qui n'est
pas le cas en pratique puisque l'valuation de la fraction k1 engendre invitablement une erreur d'arrondi
pour certaines valeurs de l'entier k ), le fait que la valeur de I0 n'est pas reprsentable en arithmtique
en prcision nie induit une perturbation et le rsultat eectivement obtenu est donc une approximation
de la valeur exacte de In , d'autant plus mauvaise que n est grand. En eet, en associant la relation de
rcurrence (1.20) une application ane 63 k liant Ik I0 , k = 1, . . . , n, on tablit la relation suivante
entre les erreurs relatives sur I0 et In





In


= (n , I0 ) I0 ,
In
I0
61. Alexandre-Thophile Vandermonde (28 fvrier 1735 - 1er janvier 1796) tait un musicien, mathmaticien et chimiste
franais. Son nom est aujourd'hui surtout associ un dterminant.
62. Pafnuti Lvovich Chebyshev (Pafn&
uti@i L~v&oviq Qebyxv en russe, 16 mai 1821 - 8 dcembre 1894) tait un mathmaticien russe. Il est connu pour ses travaux dans le domaine des probabilits et des statistiques.
63. On a en eet I1 = 1 6 I0 = 1 (I0 ), I2 = 12 6 I1 = 21 6 + (6)2 I0 = 2 (I0 ), etc...

28

1.5. ANALYSE D'ERREUR ET STABILIT DES MTHODES NUMRIQUES

o, d'aprs (1.13),



0
I0

(n , I0 ) = n (I0 ) .
In
Par la stricte dcroissance de la suite (tk )kN , t ]0, 1[, et la proprit de monotonie de l'intgrale, la suite
(Ik )kN est strictement dcroissante. On a alors







n I0
n I0


> (6)
= 6n ,
(n , I0 ) = (6)

In
I0
et le problme est donc extrmement mal conditionn lorsque n est grand. Notons que l'on aurait pu
s'en convaincre en s'intressant la relation (1.20), sur laquelle on voit que toute erreur sur la valeur
de l'intgrale une tape va tre, grosso modo, multiplie par 6 la suivante, ce qui rsulte en son
amplication au cours du processus.
On peut toutefois remdier cette dicult en  renversant  la relation de rcurrence. Il vient alors,
pour tout entier naturel p strictement plus grand que 1,

Ik1

1
=
6


1
Ik , k = n + p, . . . , n + 1,
k

(1.21)

l'inconvnient, non ngligeable, tant que l'on ne dispose pas de la valeur In+p permettant d'initier la
rcurrence. Mais, par un raisonnement similaire celui conduit plus haut, on voit que l'erreur relative
sur In satisfait maintenant

 p

In



< 1 In+p ,
In

6
In+p
et, en approchant In+p par 0, c'est--dire en commettant une erreur relative de 100% sur cette valeur, on
obtient la majoration

 p
In
1


In < 6 .
Pour approcher In avec une tolrance infrieure ou gale une valeur > 0, il sut alors de choisir un
entier p vriant
ln()
.
p
ln(6)
On observera pour nir que les erreurs d'arrondi, comme celles produites par l'valuation des fractions
dans la relation (1.21), ne constituent pas un problme, car elles sont, tout comme l'erreur sur la valeur
 initiale  In+p , constamment attenues au cours de la rcurrence.

1.5

Analyse d'erreur et stabilit des mthodes numriques

Si le conditionnement d'un problme est trs souvent la cause premire du manque d'exactitude d'une
solution calcule, la mthode numrique utilise peut galement contribuer l'introduction d'importantes
erreurs dans un rsultat, mme lorsque le problme est par ailleurs bien conditionn. On parle dans ce
cas d'instabilit de la mthode. Dans cette section, nous donnons les bases de l'analyse d'erreur (error
analysis en anglais), qui vise l'apprciation de la prcision de la solution calcule et l'identication des
contributions, de l'algorithme (qui gnre et propage des erreurs d'arrondi) et du problme (au travers
de son conditionnement), l'erreur observe. C'est par le biais d'une telle analyse qu'est introduite
l'importante notion de stabilit numrique 64 (numerical stability en anglais) d'un algorithme.
64. On notera que cette notion est spcique aux problmes dans lesquels les erreurs d'arrondi sont la forme dominante
d'erreur, le terme de stabilit pouvant avoir une signication dirente dans d'autres domaines de l'analyse numrique,
comme celui de la rsolution numrique des quations direntielles par exemple (voir le chapitre 8).

29

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

1.5.1

Analyse d'erreur directe et inverse

Considrons la rsolution d'un problme bien pos par l'valuation d'une application en un point d
au moyen d'un algorithme excut dans une arithmtique en prcision nie et notons s le rsultat obtenu.
L'objectif de l'analyse d'erreur est d'estimer l'eet cumul des erreurs d'arrondi sur la prcision de s.
Pour cela, on peut principalement procder de deux faons (voir la gure 1.1).
Tout d'abord, on peut, de manire naturelle, chercher  suivre  la propagation des erreurs d'arrondi
chaque tape intermdiaire de l'excution de l'algorithme par des techniques similaires celles de la
sous-section 1.4.1. Cette technique porte le nom d'analyse d'erreur directe (forward error analysis en
anglais) et rpond la question :  Avec quelle prcision le problme est-il rsolu ? . Elle conduit une
majoration ou, plus rarement, une estimation de l'cart entre la solution attendue s et son approximation
s, appel l'erreur directe (forward error en anglais). Un de ses principaux inconvnients est que, dans
de nombreux des cas, l'tude de la propagation des erreurs intermdiaires devient rapidement une tche
ardue.

espace des donnes

espace des rsultats

s = (d)

erreur inverse

erreur directe

d + d

s = (d + d)
Diagramme de reprsentation des erreurs directe et inverse pour l'valuation de s = (d). Un trait
plein reprsente une valuation exacte, un trait discontinu le rsultat d'un calcul en prcision nie.

Figure 1.1:

On voit par ailleurs que cette mthode prend en compte de faon indirencie l'inuence de la
sensibilit du problme (lorsque la donne est entache d'erreurs) et celle de l'algorithme de rsolution
(qui gnre et propage des erreurs d'arrondi) dans l'erreur directe obtenue, ce qui rend son exploitation
dicile en pratique.
Avec l'analyse d'erreur inverse ou rtrograde (backward error analysis en anglais), introduite par
Wilkinson [Wil60] pour des problmes d'algbre linaire, on contourne la dicult conduire l'analyse
directe et interprter les rsultats qu'elle fournit en montrant que la solution calcule est la solution
 exacte  du problme que l'on cherche rsoudre dans lequel la donne a t perturbe. En d'autres mots,
on identie la valeur s l'valuation exacte de l'application en un point d + d, correspondant une
donne d perturbe par une erreur inverse 65 d. On rpond alors la question :  Quel problme a-t-on
eectivement rsolu ? . Si l'on sait par ailleurs quelle est la sensibilit du problme une perturbation
de la donne, on est en mesure d'estimer, ou d'au moins majorer, l'erreur directe sur le rsultat.
Il est important de retenir que l'analyse inverse procde en deux temps : on cherche tout d'abord
estimer ou majorer (en norme ou bien par composante) l'erreur inverse et on ralise ensuite une analyse
de sensibilit du problme rsoudre pour estimer ou majorer son tour l'erreur directe. Elle prsente
l'avantage d'identier clairement la contribution du problme dans la propagation des erreurs et de
ramener sa dtermination une tude gnrique, car ralise pour chaque type de problme (et non chaque
problme) rsoudre, de conditionnement par les techniques de perturbation linaire prsentes dans la
sous-section 1.4.2. Dans la pratique, cette dmarche conduit des estimations souvent plus simples et
plus nes que celles fournies par l'analyse directe. Ainsi, si l'erreur inverse estime n'est pas plus grande
que l'incertitude sur la donne, le rsultat calcul sera considr comme aussi bon que l'autorisent le
problme et sa donne. Cette considration est la base de la notion de stabilit inverse d'un algorithme
(voir la dnition 1.8).
Indiquons qu'il n'est, dans certains cas, pas possible de conduire une analyse d'erreur inverse, c'est-65. Plus prcisment, l'erreur inverse associe la solution calcule s est la plus petite perturbation d de la donne d
telle que la valeur (exacte) (d + d) soit gale s.

30

1.5. ANALYSE D'ERREUR ET STABILIT DES MTHODES NUMRIQUES

dire d'tablir une galit de la forme s = (d + d), mais seulement d'obtenir la relation suivante
(1.22)

s + s = (d + d),

connue sous le nom de rsultat d'erreur mixte directe-inverse (mixed forward-backward error en anglais).
ksk
Lorsque les quantits kdk
kdk et ksk sont susamment petites, cette relation indique que la valeur calcule
s dire lgrement de la solution s+ s produite par une donne perturbe d + d, elle-mme lgrement
dirente de la  vraie  donne du problme d. Le diagramme de la gure 1.2 illustre ce principe.

espace des donnes

espace des rsultats

y = (d)

erreur inverse

erreur directe

d + d

s
s + s = (d + d)
Diagramme de reprsentation de l'erreur mixte directe-inverse pour l'valuation de s = (d). Un
trait plein reprsente une valuation exacte, un trait discontinu le rsultat d'un calcul en prcision nie.

Figure 1.2:

Parlons pour nir de l'interprtation de l'erreur inverse comme un rsidu normalis. Le rsidu associ
un rsultat calcul s est la quantit (d) s, qui peut tre valeurs scalaires (c'est le cas pour le problme
de dtermination des racines d'une quation algbrique), vectorielles (on peut par exemple considrer les
problmes de rsolution d'un systme linaire ou de dtermination d'lments propres d'une matrice) ou
matricielles (c'est le cas pour le problme de la dtermination de l'inverse d'une matrice 66 ). Le fait que
le rsidu associ la solution d'un problme soit nul laisse penser qu'un rsidu  petit  en norme
indique que la solution calcule est une  bonne  approximation de la solution. On peut montrer que ceci
est eectivement vrai pour la rsolution de systmes linaires (voir [OP64, RG67]) ou la dtermination
des racines d'une quation algbrique, mais ce n'est pas toujours le cas 67 . Une telle proprit s'avre
essentielle dans la pratique, car elle montre que le rsidu permet, dans certaines situations, d'apprcier,
simplement et moindre cot, la qualit d'une solution calcule.

Quelques exemples (simples) d'analyse d'erreur


Notons pour commencer que la proprit (1.8) du modle d'arithmtique virgule ottante standard
prsent dans la sous-section 1.3.3 fournit un premier exemple remarquable d'analyse d'erreur inverse.
Elle implique en eet que le rsultat fl(x op y), o op dsigne l'une des quatre oprations arithmtiques
de base, correspond au rsultat  exact  de l'opration considre pour les oprandes perturbs x (1 + )
et/ou y (1 + ), avec || u.
Pour tre en mesure de faire l'analyse d'erreur d'oprations comportant plus de deux oprandes, nous
aurons besoin du rsultat suivant.

Lemme 1.7 Soit n un entier naturel non nul tel que nu < 1, le nombre rel u dsignant la prcision
machine. Si |i | u et i = 1, i = 1, . . . , n, alors on a
n
Y

(1 + i )i = 1 + n ,

i=1

66. Dans ce problme, on observe que le rsidu n'est pas dni de manire unique. Le problme s'nonant comme  tant
A d'ordre n, trouver la matrice X vriant AX = XA = In , on voit qu'il existe un rsidu  droite 
In et un rsidu  gauche  AX
In , avec X
la matrice obtenue par calcul numrique de l'inverse.
XA
67. Deux exemples de problmes pour lesquels un  petit  rsidu ne garantit pas une  petite  erreur inverse sont ceux
de dtermination de l'inverse d'une matrice et de la rsolution de l'quation de Sylvester AX XB = C (voir [Hig93]), o
A Mm (R), B Mn (R) et C Mm,n (R) sont des matrices donnes et X Mm,n (R) est dterminer.

donne une matrice

31

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

avec |n | n , o n est dni par (1.10).


Dmonstration.

et alors

Pour dmontrer le rsultat, on raisonne par rcurrence. Au rang un, on a 1 = 1 si 1 = 1,


|1 | u

ou bien 1 =

1
1+1

u
= 1 ,
1u

1 si 1 = 1, auquel cas
|1 |

1 (1 u)
u
1
1=
=
= 1 .
1u
1u
1u

Soit prsent n un entier naturel strictement suprieur 1. Pour n = 1, il vient


n
Y

(1 + i )i = (1 + n1 )(1 + n ) = 1 + n ,

i=1

d'o
n = n + n1 (1 + n )

et

(n 1)u
u(1 (n 1)u) + (1 + u)(n 1)u
nu
(1 + u) =
=
n .
1 (n 1)u
1 (n 1)u
1 (n 1)u
Si n = 1, on trouve de la mme faon que
|n | u +

|n |

nu (n 1)u2
n .
1 nu + (n 1)u2


Considrons maintenant le calcul du produit de n nombres virgule ottante xi , i = 1, . . . , n. En


tenant compte de (1.8), on obtient

fl(x1 x2 . . . xn ) = x1 x2 (1 + 1 )x3 (1 + 2 ) . . . xn (1 + n1 ), |i | u, i = 1, . . . , n 1,
ce qui signie que le produit calcul est gal au produit  exact  des nombres x1 et xi (1+i ), i = 2, . . . , n.
On en dduit, grce au lemme 1.7, la majoration suivante de l'erreur directe

|x1 x2 . . . xn fl(x1 x2 . . . xn )| n1 |x1 x2 . . . xn | .


Envisageons ensuite le cas d'une somme de n nombres virgule ottante xi , i = 1, . . . , n. En sommant
dans l'ordre  naturel  des termes, on trouve

fl((. . . ((x1 + x2 ) + x3 ) + + xn1 ) + xn ) = x1

n1
Y
i=1

(1 + i ) + x2

n1
Y

n1
Y

i=1

i=2

(1 + i ) + x3

(1 + i )

+ + xn1 (1 + n2 )(1 + n1 ) + xn (1 + n1 ),
avec |i | u, i = 1, . . . , n 1. Par une utilisation rpte du lemme 1.7, il vient alors

fl((. . . ((x1 + x2 ) + x3 ) + + xn1 ) + xn ) = (x1 + x2 ) (1 + n1 ) + x3 (1 + n2 ) + + xn (1 + 1 ),


o |i | i , i = 1, . . . , n 1. On observe que la somme calcule est gale la somme  exacte 
des nombres x1 (1 + n1 ) et xi (1 + n+1i ), i = 2, . . . , n. Cette analyse d'erreur inverse conduit aux
majorations suivantes de l'erreur directe

|((. . . ((x1 + x2 ) + x3 ) + + xn1 ) + xn ) fl((. . . ((x1 + x2 ) + x3 ) + + xn1 ) + xn )|


n
n
X
X

n+1i |xi | n1
|xi | , (1.23)
i=1

i=1

la seconde tant indpendante de l'ordre de sommation. On voit cependant que l'on minimise a priori
la premire majoration en sommant les termes dans l'ordre croissant de leur valeur absolue, justiant
ainsi la rgle selon laquelle l'erreur d'arrondi sur une somme a tendance 68 tre minimise lorsque l'on
additionne en premier les termes ayant la plus petite valeur absolue (voir l'exemple ci-dessous).
68. Cette rgle est videmment vraie si les quantits sommer sont toutes de mme signe, mais peut tre contredite
lorsque leur signe est arbitraire.

32

1.5. ANALYSE D'ERREUR ET STABILIT DES MTHODES NUMRIQUES

Exemple du calcul numrique


d'une srie innie. Supposons que l'on souhaite approcher numriP
2

2
, gale 6 = 1, 6449340668482 . . . . Pour cela, on ralise, avec le format
quement la valeur de la srie +
k=1 k
simple prcision de la norme IEEE, la somme de ses 109 premiers termes pour obtenir la valeur 1, 6447253. On
observe alors que seuls quatre chires signicatifs, sur les huit possibles, concident avec ceux de la valeur exacte.
Ce manque de prcision provient du fait que l'on a addition les termes, strictement positifs, de la srie dans
l'ordre dcroissant de leur valeur, les plus petits nombres ne contribuant plus la somme une fois dpass un
certain rang en raison des erreurs d'arrondi. Le remde est d'eectuer la somme dans l'ordre inverse ; avec le mme
nombre de termes, on trouve alors la valeur 1, 6449341, qui est correcte pour la prcision arithmtique considre.

Des rsultats d'analyse inverse pour les oprations couramment employes en algbre linaire peuvent
tre tablis par des raisonnements similaires. Pour le produit scalaire entre deux vecteurs x et y de Rn ,
calcul dans l'ordre  naturel , on a ainsi

fl(xT y) = x1 y1 (1 + 1 ) + x2 y2 (1 + 2 ) + + xn yn (1 + n ),

(1.24)

avec |1 | < n , |i | < n+2i , i = 2, . . . , n. Le produit scalaire calcul est donc gal au produit scalaire
 exact  entre les vecteurs x + x et y , ou encore x et y + y , avec xi = yi = i , i = 1, . . . , n. Comme
prcdemment, ce rsultat dpend de l'ordre dans lequel le produit scalaire est valu. En observant
cependant que chaque perturbation relative est majore en valeur absolue par n , on arrive la majoration
suivante, indpendante de l'ordre de sommation, de l'erreur directe
n
n
X
T
X
T
x y fl(xT y)
n+2i |xi | |yi | n
|xi | |yi | = n |x| |y| ,
i=1

i=1

dans laquelle |x| et |y| dsignent des vecteurs de composantes respectives |xi | et |yi |, i = 1, . . . , n.
Ce rsultat reste valable dans un systme d'arithmtique virgule ottante sans chire de garde et
garantit que
relative sur le rsultat sera petite lorsque,
l'erreur


par Texemple, y = x, car dans ce cas
T
|x| |y| = xT y . On ne peut en revanche rien armer si xT y  |x| |y|.
L'analyse d'erreur du produit scalaire de deux vecteurs permet d'eectuer simplement celle du produit
d'une matrice et d'un vecteur, que l'on peut voir comme une srie de produits scalaires entre des vecteurs
associs aux lignes de cette matrice et le vecteur en question. Soit A une matrice de Mm,n (R) et x un
vecteur de Rn . D'aprs (1.24), on a pour les m produits scalaires entre les vecteurs ai , i = 1, . . . , m, o
ai T dsigne la iime ligne de A, et le vecteur x

fl(ai T x) = (ai + ai )T x, |ai | n |ai | , i = 1, . . . , m,


l'ingalit entre les vecteurs |ai | et |ai | tant entendue composante par composante. On en dduit le
rsultat suivant
fl(Ax) = (A + A)x, |A| n |A| ,
(1.25)
o |A| et |A| dsignent les matrices d'lments respectifs |aij | et |aij |, i = 1, . . . , m, j = 1, . . . , n,
l'ingalit entre matrices tant comprise lment par lment. Ceci fournit la majoration lment par
lment de l'erreur directe suivante

|Ax fl(Ax)| n |A| |x| ,


et, en ayant recours des normes,

kfl(Ax) Axkp n kAkp kxkp , p = 1, ,


ou encore 69

kAx fl(Ax)k2

min(m, n) n kAk2 kxk2 .

69. Pour tablir cette p


dernire ingalit, on se sert du fait que si A et B sont deux matrices de Mm,n (R) telles que
|A| |B|, alors kAk2 rang(B)kBk2 . En eet, l'hypothse implique que |aij | |bij |, i = 1, . . . , m, j = 1, . . . , n, et donc
que kaj k2 kbj k2 , j = 1, . . . , n, o les vecteurs aj et bj sont les colonnes respectives des matrices A et B . On en dduit
trivialement que kAkF kBkF et, en utilisant l'quivalence entre la norme spectrale et celle de Frobenius (voir le tableau
A.1), on obtient que

kAk2 kAkF kBkF

33

p
rang(B)kBk2 .

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Pour traiter le produit de deux matrices A Mm,n (R) et B Mn,p (R), on observe que les mmes
erreurs d'arrondis sont produites quel que soit l'ordre des boucles ncessaires au calcul du produit (voir la
section 1.2) ; il sut donc d'en considrer un. En faisant choix de l'ordre  jik , pour lequel les colonnes
Abj , j = 1, . . . , p, de la matrice AB sont obtenues une une, on obtient alors, en utilisant (1.25),

fl(Abj ) = (A + Aj )bj , |Aj | n |A| , j = 1, . . . , p,


et, en notant |B| la matrice d'lments |bij |, i = 1, . . . , n, j = 1, . . . , p,

|AB fl(AB)| n |A| |B| ,


cette dernire majoration tant entendue lement par lment. Les majorations en norme correspondantes
sont
kAB fl(AB)kp n kAkp kBkp , p = 1, , F,
et, pour p = 2 (sauf si les lments de A et B sont positifs),

kAB fl(AB)k2 nn kAk2 kBk2 .


Terminons par un exemple d'analyse d'erreur mixte concernant la dtermination des solutions relles
r1 et r2 d'une quation algbrique du second degr a x2 + b x + c = 0 par l'algorithme 3. Dans ce cas, il
a t dmontr (voir [Kah72]) que les racines calcules r1 et r2 satisfont

|
ri ri | 5 |
ri | , i = 1, 2,
o l'on a not ri , i = 1, 2, les racines de l'quation perturbe a x2 + b x + c = 0, avec |
c c| 2 |
c|.

1.5.2

Stabilit numrique et prcision d'un algorithme

L'eet des erreurs d'arrondi sur le rsultat d'un algorithme excut en arithmtique en prcision
nie dpend a priori des oprations lmentaires composant ce dernier et de leur enchanement. Ainsi,
deux algorithmes associs la rsolution d'un mme problme, et par consquent mathmatiquement
quivalents, peuvent fournir des rsultats numriquement dirents. La notion de stabilit numrique
que nous allons introduire sert quantier cet eet et comparer entre eux des algorithmes. Comme
pour l'analyse des erreurs d'arrondi, plusieurs dnitions existent. Nous commenons par donner la plus
couramment employe, base sur l'erreur inverse.

Dnition 1.8 (stabilit inverse d'un algorithme) Un algorithme calculant une approximation s de
la solution d'un problme associe une donne d est dit stable au sens inverse en arithmtique en
prcision nie si s
est la solution exacte du problme pour une donne d telle que, pour une norme kk
choisie, on ait

kd dk Cu kdk,
o C est une constante  pas trop grande  et u est la prcision machine.

En d'autres mots, un algorithme est stable au sens inverse (backward stable en anglais) si son erreur
inverse relative est de l'ordre de grandeur de la prcision machine u, ce qui signie encore que le rsultat
qu'il fournit est la solution exacte du problme pour une donne  lgrement  perturbe. De fait, on
considre dans cette dnition qu'un algorithme est stable ds que les erreurs d'arrondi qu'il propage sont
du mme ordre que les incertitudes prsentes sur la donne, ce qui les rend indiscernables avec la prcision
arithmtique disponible 70 . Ceci ne garantit videmment pas que la prcision de la solution calcule est
bonne. Nous reviendrons sur ce point.
70. On comprend ici que la notion de stabilit inverse, tout comme celle de bon ou de mauvais conditionnement, est
la  petitesse  de la constante apparaissant dans la majoration de l'erreur inverse tant en pratique fonction de la
prcision nie du calculateur.
relative,

34

1.5. ANALYSE D'ERREUR ET STABILIT DES MTHODES NUMRIQUES

Exemples d'algorithmes stables au sens inverse. La proprit (1.8) du modle d'arithmtique virgule
ottante standard garantit que les quatre oprations arithmtiques de base sont stables au sens inverse. Il en va
de mme pour le calcul du produit scalaire entre deux vecteurs de Rn , en vertu de l'galit (1.24).

Nous verrons que la plupart des mthodes directes  classiques  de rsolution de systmes linaires
(voir le chapitre 2) ou que l'valuation d'un polynme en un point par la mthode de Horner (voir la
sous-section 5.7.2) sont stables au sens inverse.
Lorsque les donnes sont valeurs vectorielles ou matricielles, on peut galement mener l'tude de
stabilit inverse par composante d'un algorithme en mesurant l'erreur par composante plutt qu'en norme.
Ceci des conditions de stabilit plus restrictives, tout algorithme stable au sens inverse par composante
tant en eet stable au sens inverse par rapport toute norme sans que la rciproque soit forcment
vraie.
La dnition suivante de la stabilit fait usage de l'erreur directe et de ses liens avec l'erreur inverse.

Dnition 1.9 (stabilit directe d'un algorithme) Un algorithme calculant une approximation s de
la solution s = (d) d'un problme associe une donne d est dit stable au sens direct si l'erreur
directe sur son rsultat est d'un ordre de grandeur similaire celle produite par d'un algorithme stable
au sens inverse rsolvant le mme problme.

En vertu de l'analyse de sensibilit ralise dans la sous-section prcdente et de la dnition 1.8, cette
dnition signie que l'erreur directe d'un algorithme stable au sens direct (forward stable en anglais) est
telle qu'on ait 71 , au premier ordre,

k
s sk (, d) Cu kdk,

(1.26)

o (, d) est le conditionnement relatif du problme en la donne d et C est une constante  pas trop
grande . Comme le montre l'exemple ci-dessous, un algorithme stable au sens direct ne l'est pas forcment
au sens inverse. En revanche, la stabilit inverse entrane la stabilit directe par dnition.

Exemple d'algorithme stable au sens direct. Considrons l'usage de la rgle de Cramer 72 (voir la
proposition A.145) pour la rsolution d'un systme linaire Ax = b d'ordre 2. Dans ce cas, la solution x est
donne par
a11 b2 a21 b1
b1 a22 b2 a12
, x2 =
, avec det(A) = a11 a22 a21 a12 .
x1 =
det(A)
det(A)

Supposons que le dterminant de A est valu de manire exacte (ceci ne modiera


 pas de manire substancielle
a22 a12
les majorations que nous allons obtenir). En notant C = (com(A))T = a
la transpose de comatrice de
a
21
11
la solution calcule, on trouve, en utilisant (1.25), que
A et x


1
1
1
= fl
x
Cb =
(C + C)b = x +
Cb, avec |C| 2 |C| .
det(A)
det(A)
det(A)
Il vient alors, en vertu de (A.4),
1

|A | |b|


k
kx x

3
3 |A1 | |A| ,
kxk
kxk

ce qui implique la stabilit directe de la mthode par dnition du conditionnement de BauerSkeel de la matrice
A (voir (1.19)). Par ailleurs, on a
|b A
x| 3 |A| |A1 | |b| ,
d'o



kb A
xk
3 |A| |A1 | .
kbk

71. Lorsque la donne est valeurs vectorielles ou matricielles, on peut galement dnir la stabilit directe par composante. Dans ce cas, c'est le conditionnement par composante c (, d) ou ventuellement mixte m (, d) qui intervient dans
la majoration.
72. Gabriel Cramer (31 juillet 1704 - 4 janvier 1752) tait un mathmaticien suisse. Le travail par lequel il est le mieux
connu est son trait, publi en 1750, d'Introduction l'analyse des lignes courbes algbriques dans lequel il dmontra qu'une
courbe algbrique de degr n est dtermine par n(n+3)
de ses points en position gnrale.
2

35

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Le rsidu normalis dans le membre de gauche de cette dernire ingalit constituant une mesure de l'erreur
inverse (voir [RG67]), on en dduit que la mthode n'est pas stable au sens inverse.

La dnition la plus gnrale de la stabilit d'un algorithme fait appel l'analyse d'erreur mixte
directe-inverse.

Dnition 1.10 (stabilit numrique d'un algorithme) Un algorithme calculant une approximation

s de la solution s = (d) d'un problme associe une donne d est dit numriquement stable si les
quantits d et s dans la relation (1.22) sont telles que
ksk C1 u ksk et kdk C2 u kdk,
o C1 et C2 sont des constantes  pas trop grandes  et u est la prcision machine.

Il dcoule de cette dernire dnition que la stabilit inverse d'un algorithme implique sa stabilit
numrique, la rciproque n'tant pas vraie comme le montre l'exemple ci-aprs.

Exemple d'algorithme numriquement stable. On considre l'valuation du produit tensoriel xyT de

deux vecteurs x et y de Rm et Rn respectivement. Cet algorithme est numriquement stable (par composante),
car on vrie que
fl(xi yj ) = xi yj (1 + ij ), |ij | u, i = 1, . . . , m, j = 1, . . . , n,
en vertu de (1.8), mais il n'est pas stable au sens inverse. En eet, la matrice de Mm,n (R) ayant pour lments
les rels ij , i = 1, . . . , m, j = 1, . . . , n, n'tant, en gnral, pas une matrice de rang 1, le rsultat fl(xy T ) ne peut
s'crire sous la forme d'un produit tensoriel de vecteurs.

Terminons par quelques mots sur la prcision du rsultat calcul par un algorithme. Un algorithme
est considr comme d'autant plus prcis que l'erreur directe, mesure en norme ou par composante, sur
le rsultat qu'il fournit est petite. Cette erreur satisfaisant la majoration (1.26) au premier ordre, on
comprend que la prcision du rsultat dpend a priori la fois de l'erreur inverse de l'algorithme et du
conditionnement du problme que l'on rsoud de la manire (un peu grossire) suivante

prcision . conditionnement du problme erreur inverse de l'algorithme.


Par consquent, pour un problme mal conditionn, l'erreur directe peut tre trs importante mme
si la solution calcule possde une petite erreur inverse, car cette dernire peut se trouver amplie
par un facteur aussi grand que l'est le conditionnement du problme. Cette remarque conduit une
sparation  pratique  entre problmes bien et mal conditionns relativement la prcision nie de
l'arithmtique en virgule ottante employe. On peut ainsi considrer qu'un problme est mal conditionn
si son conditionnement est d'un ordre de grandeur suprieur l'inverse de la prcision machine, c'est--dire

(, d) u & 1.
Par exemple, si l'on cherche rsoudre un problme ayant un conditionnement de l'ordre 1010 par un
algorithme stable au sens inverse excut en arithmtique en double prcision de la norme IEEE 754.
On a u = 21 2531 ' 1, 11 1016 et l'on ne peut donc avoir raisonnablement conance que dans les six
premiers chires de la solution calcule.
On notera cependant que la majoration (1.26) est parfois extrmement pessismiste, comme le montre
l'exemple de la mthode introduite par Bjrk et Pereyra dans [BP70] pour rsoudre ecacement 73 un
systme linaire d'ordre n associ une matrice de Vandermonde. On a vu dans la sous-section 1.4.2 qu'un
tel problme tait gnralement trs mal conditionn. Or, l'analyse directe montre que la majoration de
l'erreur directe, et donc la prcision de la mthode, est, dans ce cas, indpendante du conditionnement
de la matrice de Vandermonde considre (voir le chapitre 22 de [Hig02]).
73. Cette mthode ne requiert en eet que de l'ordre de n2 oprations arithmtiques.

36

1.6. NOTES SUR LE CHAPITRE

1.6

Notes sur le chapitre

Le mot  algorithme  drive du nom du mathmaticien al-Khwarizmi 74 , latinis au Moyen ge en


Algoritmi. Il existe une dnition plus formelle de la notion d'algorithme que celle donne en dbut de
chapitre, base sur les concepts de calculabilit eective et de machine de Turing introduits respectivement
par Church 75 en 1936 et Turing en 1937 pour rpondre ngativement au Entscheidungsproblem formul
par Hilbert et Ackermann 76 en 1928.
Dcouvert en 1987, l'algorithme de Coppersmith 77 Winograd 78 [CW90] permet d'eectuer le produit
de deux matrices carres de manire asymptotiquement plus rapide que l'algorithme de Strassen, sa complexit tant en O(n2,376 ). S'il constitue une brique essentielle dans l'obtention de rsultats thoriques de
complexit pour d'autres algorithmes, il est cependant pratiquement inutilisable en raison de la prsence
d'normes constantes dans les estimations de sa propre complexit.
Dans de nombreux cas, on peut montrer que le conditionnement d'un problme est proportionnel
l'inverse de la distance de ce problme au problme mal pos 79 le plus proche. Ce rsultat est bien connu
pour la rsolution de systmes linaires (voir le thorme A.152), mais il en existe de similaires pour le
calcul d'lments propres d'une matrice ou de racines d'un polynme. Pour plus de dtails sur le sujet,
on pourra consulter l'article [Dem87].
Indiquons que la prcision d'un rsultat calcul peut tre garantie par une approche reposant sur
l'arithmtique d'intervalles [Moo66]. Dans celle-ci, tout nombre se trouve remplac par un intervalle le
contenant et dont les bornes sont reprsentables dans l'arithmtique en prcision nie sous-jacente, ce
qui permet de rendre compte la fois de possibles incertitudes sur une donne et des arrondis ds la
reprsentation des nombres rels en machine. En dnissant les oprations arithmtiques et les fonctions
de base sur des intervalles lmentaires, on peut alors fournir un intervalle encadrant avec certitude le
rsultat de tout calcul eectu.
Il est possible de rduire l'eet des erreurs d'arrondi, sans pour autant avoir augmenter la prcision de
l'arithmtique virgule ottante utilise, en faisant en sorte que celles-ci se compensent. L'exemple le plus
connu d'un tel procd est celui de l'algorithme de somme compense de Kahan (Kahan's compensated
summation algorithm en anglais) [Kah65], propos pour le calcul de la somme de nombres virgule
ottante, qui consiste en l'estimation, chaque addition eectue, de l'erreur d'arrondi suivie d'une
compensation par un terme correctif (voir l'algorithme 4 ci-dessous).
En arithmtique virgule ottante binaire avec chire de garde, on peut prouver (voir [Gol91]) que
la somme de n nombres virgule ottante xi , i = 1, . . . , n, ainsi calcule, ici note s, vrie

s =

n
X


xi (1 + i ), |i | 2u + O nu2 ,

i=1

ce qui est un rsultat d'erreur inverse pratiquement idal. La majoration de l'erreur directe correspondante



j@  K . Yj <@ YJ. K. @ en arabe, v. 780 - v. 850)


74. Abu Abdullah Muhammad ibn Musa al-Khwarizmi ( PP

tait un mathmaticien, astronome et gographe perse, considr comme l'un des fondateurs de l'algbre. Il introduisit dans
son aire culturelle les connaissances mathmatiques indiennes (notamment le systme de numration dcimal) et traita de
manire systmatique la rsolution des quations linaires et quadratiques dans un ouvrage intitul  Abrg du calcul par
 


la restauration et la comparaison  ( J.@ QJ.j
. @ I.k
 QJj@ I.J en arabe).
75. Alonzo Church (14 juin 1903 - 11 aot 1995) tait un mathmaticien amricain, connu pour l'invention du -calcul.
Il t d'importantes contributions la logique mathmatique et aux fondements de l'informatique thorique.
76. Wilhelm Friedrich Ackermann (29 mars 1896 - 24 dcembre 1962) tait un mathmaticien allemand. Il est clbre
pour avoir introduit la fonction d'Ackermann, qui est un exemple simple de fonction rcursive non rcursive primitive en
thorie de la calculabilit.
77. Don Coppersmith est un mathmaticien et cryptologue amricain. Il est l'origine d'algorithmes pour le calcul rapide
de logarithmes discret et pour la cryptanalyse de l'algorithme de Rivest, Shamir et Adleman, ainsi que de mthodes pour
la multiplication matricielle rapide et la factorisation. Il est aussi l'un des concepteurs des systmes de chirement par bloc
Data Encryption Standard (DES ) et MARS.
78. Shmuel Winograd (n le 4 janvier 1936) est un informaticien amricain. Il est connu pour ses travaux thoriques sur
la complexit arithmtique des algorithmes.
79. Par opposition la dnition d'un problme bien pos, un problme mal pos, ou singulier, est un problme possdant
plus d'une ou pas de solution ou bien dont la solution ne dpend pas continment de la donne.
37

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

Algorithme 4 : Algorithme de somme compense de Kahan pour le calcul de s =


Entre(s) : les nombres xi , i = 1, . . . , n.
Sortie(s) : la somme s.

Pn

i=1

xi .

s = x1
c=0
pour i = 2 n faire
y = xi c
t=s+y
c = (t s) y
s=t

n
est

n

n
X

 X


|xi | ,
xi s 2u + O nu2



i=1

i=1

ce dernier rsultat tant indpendant de l'ordre de sommation si nu < 1. On constate une amlioration
signicative par rapport (1.23).
Pour plus de dtails sur la stabilit des mthodes numriques, on pourra consulter le trs complet et
excellent ouvrage de Higham [Hig02] sur le sujet, dont ce chapitre s'inspire en grande partie.

Rfrences
[Bac94]

P. Bachmann. Die analytische Zahlentheorie. Band 2 der Reihe Zahlentheorie. B. G. Teubner, 1894
(siehe Seite 7).

[Bau66]

F. L. Bauer. Genauigkeitsfragen bei der Lsung linearer Gleichungssysteme. Z. Angew. Math. Mech.,
46(7):409421, 1966. doi: 10.1002/zamm.19660460702 (siehe Seite 27).

[Bec00]

B. Beckermann. The condition number of real Vandermonde, Krylov and positive denite Hankel
matrices. Numer. Math., 85(4):553577, 2000. doi: 10.1007/PL00005392 (cited on page 28).

[BP70]

. Bjrk and V. Pereyra. Solution of Vandermonde systems of equations. Math. Comput.,


24(112):893903, 1970. doi: 10.1090/S0025-5718-1970-0290541-1 (cited on page 36).

[BPZ07]

R. Brent, C. Percival, and P. Zimmermann. Error bounds on complex oating-point multiplication. Math. Comput., 76(259):14691481, 2007. doi: 10.1090/S0025-5718-07-01931-X (cited on
page 16).

[CW90]

D. Coppersmith and S. Winograd. Matrix multiplication via arithmetic progressions. J. Symbolic


Comput., 9(3):251280, 1990. doi: 10.1016/S0747-7171(08)80013-2 (cited on page 37).

[Dem87]

J. W.

Demmel.

On condition numbers and the distance to the nearest ill-posed problem. Numer.
doi: 10.1007/BF01400115 (cited on page 37).

Math., 51(3):251289, 1987.

[Ede97]

A. Edelman. The mathematics of the Pentium division bug. SIAM Rev., 39(1):5467, 1997.
10.1137/S0036144595293959 (cited on page 2).

doi:

[Gau73]

W. Gautschi. On the condition of algebraic equations. Numer. Math., 21(5):405424, 1973.


10.1007/BF01436491 (cited on page 25).

doi:

[Gau75]

W. Gautschi. Norm estimates for inverses of Vandermonde matrices. Numer. Math., 23(4):337
347, 1975. doi: 10.1007/BF01438260 (cited on page 28).

[GK93]

I. Gohberg and I. Koltracht. Mixed, componentwise, and structured conditions numbers. SIAM
J. Matrix Anal. Appl., 14(3):688704, 1993. doi: 10.1137/0614049 (cited on page 23).
H. H. Goldstine. A history of numerical analysis from the 16th century through the 19th century.
Volume 2 of Studies in the history of mathematics and physical sciences. Springer-Verlag, 1977. doi:

[Gol77]

10.1007/978-1-4684-9472-3 (cited on page 1).

[Gol91]

D.

Goldberg.

What every computer scientist should know about oating-point arithmetic. ACM
doi: 10.1145/103162.103163 (cited on pages 15, 37).

Comput. Surveys, 23(1):548, 1991.

38

RFRENCES

[Hig02]

J. Hadamard. Sur les problmes aux drives partielles et leur signication physique. Princeton
Univ. Bull., 13 :4952, 1902 (cf. page 20).
N. J. Higham. Accuracy and stability of numerical algorithms. SIAM, second edition, 2002. doi:

[Hig90]

N. J.

Higham.

[Hig93]

N. J.
1993.

doi:

[Had02]

[Hil94]

10.1137/1.9780898718027 (cited on pages 16, 36, 38).

Exploiting fast matrix multiplication within the level 3 BLAS. ACM Trans. Math.
doi: 10.1145/98267.98290 (cited on page 6).

Software, 16(4):352368, 1990.

Perturbation theory and backward error for AX XB = C . BIT, 33(1):124136,


10.1007/BF01990348 (cited on page 31).

Higham.

D. Hilbert. Ein Beitrag zur Theorie des Legendre'schen Polynoms. Acta Math., 18(1):155159, 1894.
10.1007/BF02418278 (siehe Seite 27).

doi:

[HL14]

G. H. Hardy and J. E. Littlewood. Some problems of diophantine approximation. Acta Math.,


37(1):193239, 1914. doi: 10.1007/BF02401834 (cited on page 7).

[Hoa61a]

C. A. R. Hoare. Algorithm 63: partition. Comm. ACM, 4(7):321, 1961.


366642 (cited on page 7).

doi:

10.1145/366622.

[Hoa61b]

C. A. R. Hoare. Algorithm 63: Quicksort. Comm. ACM, 4(7):321, 1961.


366644 (cited on page 7).

doi:

10.1145/366622.

[Hoa62]

C. A. R.
page 7).

[Kah65]

W. Kahan. Pracniques: further remarks on reducing truncation errors. Comm. ACM, 8(1):40,
1965. doi: 10.1145/363707.363723 (cited on page 37).

[Kah72]

Kahan. A survey of error analysis. In Proceedings IFIP Congress, Ljubljana, Information


Processing 1971, 1972, pages 12141239 (cited on page 34).
W. Kahan. Mathematics written in sand  the hp-15C, Intel 8087, etc. In Statistical computing section of the proceedings of the American Statistical Association, 1983, pages 1226 (cited on

[Kah83]

Hoare.

Quicksort. Comput. J., 5(1):1016, 1962.

doi:

10.1093/comjnl/5.1.10 (cited on

W.

page 16).

[Knu76]

D. E. Knuth. Big Omicron and big Omega and big Theta. SIGACT News, 8(2):1824, 1976.
10.1145/1008328.1008329 (cited on page 7).

[Lan09]

E. Landau. Handbuch der Lehre von der Verteilung der Primzahlen. B. G. Teubner, 1909 (siehe
Seite 7).

[LV40]

U. J. J. Le Verrier. Sur les variations sculaires des lments elliptiques des sept plantes principales : Mercure, Vnus, la Terre, Mars, Jupiter, Saturne et Uranus. J. Math. Pures Appl. (1), 5 :220
254, 1840 (cf. page 25).

[Moo66]

R. E.

[OP64]

W. Oettli and W. Prager. Compatibility of approximate solution of linear equation with given
error bounds for coecients and right-hand sides. Numer. Math., 6(1):405409, 1964. doi: 10.
1007/BF01386090 (cited on page 31).

[RG67]

J. L. Rigal and J. Gaches. On the compatibility of a given solution with the data of a linear
system. J. Assoc. Comput. Mach., 14(3):543548, 1967. doi: 10.1145/321406.321416 (cited on
pages 31, 36).

[Ric66]

J. R. Rice. A theory of condition. SIAM J. Numer. Anal., 3(2):287310, 1966.


0703023 (cited on page 21).

[Ske79]

R. D. Skeel. Scaling for numerical stability in gaussian elimination. J. Assoc. Comput. Mach.,
26(3):494526, 1979. doi: 10.1145/322139.322148 (cited on page 27).

Moore.

Interval analysis. Prentice-Hall, 1966 (cited on page 37).

10.1137/

Floating-point computation. Prentice-Hall, 1974 (cited on page 16).

[Ste74]

P. H.

V. Strassen. Gaussian elimination is not optimal. Numer. Math., 13(4):354356, 1969.


10.1007/BF02165411 (cited on page 6).
G.

Sterbenz.

doi:

[Str69]
[Sze36]

Szeg.

doi:

On some hermitian forms associated with two given curves of the complex plane. Trans.
doi: 10.1090/S0002- 9947- 1936- 1501884- 1 (cited on

Amer. Math. Soc., 40(3):450461, 1936.


page 27).

[Tod61]

doi:

J.

Todd.

Computational problems concerning the Hilbert matrix. J. Res. Nat. Bur. Standards
doi: 10.6028/jres.065B.005 (cited on page 27).

Sect. B, 65B(1):1922, 1961.

39

CHAPITRE 1. GNRALITS SUR L'ANALYSE NUMRIQUE ET LE CALCUL SCIENTIFIQUE

[Tre00]

L. N. Trefethen. Spectral methods in


(cited on page 1).

[Tur48]

A. M. Turing. Rounding-o errors in matrix processes. Quart. J. Mech. Appl. Math., 1(1):287
308, 1948. doi: 10.1093/qjmam/1.1.287 (cited on page 2).

[Wil60]

J. H. Wilkinson. Error analysis of oating-point computation. Numer. Math., 2(1):319340, 1960.


doi: 10.1007/BF01386233 (cited on pages 14, 30).

[Wil64]

J. W. J. Williams. Algorithm 232: Heapsort. Comm. ACM, 7(6):347348, 1964.


512274.512284 (cited on page 8).

[Wil94]

J. H.

Wilkinson.

Matlab.

SIAM, 2000.

doi:

10.1137/1.9780898719598

doi:

Rounding errors in algebraic processes. Dover, 1994 (cited on page 2).

40

10.1145/

Premire partie

Algbre linaire numrique

41

L'algbre linaire numrique est une branche des mathmatiques appliques consacre l'tude de
mthodes numriques pour la rsolution de problmes d'algbre linaire l'aide de calculateurs.
Dans la plupart des applications du calcul scientique issues de la physique, de la mcanique, de la
biologie, de la chimie ou encore de la nance (cette liste n'tant videmment pas exhaustive), l'algbre
linaire, et plus particulirement l'analyse matricielle, joue en eet un rle remarquable. Par exemple,
la simulation numrique d'un modle mathmatique se ramene trs souvent faire eectuer par un
calculateur une srie de calculs matriciels.
Si des questions thoriques fondamentales comme celles de l'existence et de l'unicit de la solution
d'un systme linaire ou du fait qu'une matrice soit diagonalisable sont rsolues depuis de nombreuses
annes, le dveloppement de mthodes robustes (au sens de la notion de stabilit numrique introduite
dans le chapitre 1) et ecaces (en termes du cot de calcul et d'occupation de l'espace mmoire requis) est
toujours l'objet de recherches actives. De plus, ces mthodes doivent aussi tre (ou pouvoir tre) adaptes
au caractre spcique du problme traiter. En eet, dans beaucoup d'applications 1 , les matrices qui
interviennent possdent des proprits 2 ou des structures 3 particulires, dont les algorithmes mis en
uvre doivent imprativement tirer prot.
Les trois prochains chapitres constituent une introduction aux techniques les plus couramment utilises
pour le traitement de deux types de problmes apparaissant de manire rcurrente dans le cadre que nous
venons de dnir, qui sont la rsolution de systmes linaires et le calcul des lments propres d'une
matrice.

1. C'est, par exemple, le cas pour les systmes linaires provenant de mthodes de discrtisation utilises pour la rsolution
approches des quations direntielles.
2. On pense ici des matrices hermitiennes ou symtriques, dnies positives, diagonale dominante, etc...
3. On pense ici des matrices tridiagonales (par points ou par blocs), bandes ou, plus gnralement, creuses, c'est--dire
contenant beaucoup d'lments nuls.

43

Chapitre 2

Mthodes directes de rsolution des


systmes linaires
On considre la rsolution du systme linaire

Ax = b,

(2.1)

avec A une matrice d'ordre n coecients rels inversible et b un vecteur de Rn , par des mthodes
dites directes, c'est--dire fournissant, en l'absence d'erreurs d'arrondi, la solution exacte en un nombre
ni 1 d'oprations lmentaires. On verra que ces mthodes consistent en la construction d'une matrice
inversible M telle que M A soit une matrice triangulaire, le systme linaire quivalent (au sens o il
possde la mme solution) obtenu,
M Ax = M b,
tant alors  facile  rsoudre (on verra ce que l'on entend prcisment par l). Une telle ide est par
exemple la base de la clbre mthode d'limination de Gauss 2 , qui permet de ramener la rsolution
d'un systme linaire quelconque celle d'un systme triangulaire suprieur.
Aprs avoir prsent quelques cas pratiques d'application de ces mthodes et donn des lments sur la
rsolution numrique des systmes triangulaires, nous introduisons dans le dtail la mthode d'limination
de Gauss. Ce procd est ensuite rinterprt en termes d'oprations matricielles, donnant lieu une
mthode de factorisation (factorization ou decomposition en anglais) des matrices. Les proprits d'une
telle dcomposition sont explores, notamment dans le cas de matrices particulires. Le chapitre se conclut
sur la prsentation de quelques autres mthodes de factorisation.

2.1

Exemples d'application

Les mthodes de rsolution de systmes linaires occupent une place centrale au sein des mthodes
numriques. videmment, de nombreux problmes de mathmatiques se posent en termes de rsolution
d'un systme d'quations linaires, comme pour la mthode des moindres carrs dans l'exemple qui suit,
et le recours un technique de rsolution numrique est alors naturel. Il faut cependant souligner que
de nombreuses mthodes numriques font intervenir la rsolution de systmes linaires, de taille parfois
consquente, au sein d'tapes intermdiaires. C'est le cas pour les mthodes de rsolution approche des
quations aux drives partielles, dont on donne un premier aperu dans la sous-section 2.1.2 sur lesquelles
nous reviendrons dans les derniers chapitres du cours.
1. On oppose ici ce type de mthodes avec les mthodes dites itratives, qui ncessitent (en thorie) un nombre inni
d'oprations pour obtenir la solution. Celles-ci sont l'objet du chapitre 3.
2. Johann Carl Friedrich Gau (30 avril 1777 - 23 fvrier 1855) tait un mathmaticien, astronome et physicien allemand.
Surnomm par ses pairs  le prince des mathmaticiens , il t des contributions signicatives dans de nombreux domaines
des sciences de son poque, notamment en thorie des nombres, en statistiques, en analyse, en gomtrie direntielle, en
lectrostatique, en astronomie et en optique.

45

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

2.1.1

Estimation d'un modle de rgression linaire en statistique *

Une des plus importantes applications pratiques de la statistique consiste en l'tude de la relation
entre une variable observable, suppose alatoire et dite variable dpendante 3 , et une ou plusieurs autres
variables observables, alatoires ou non et que l'on qualie de variables indpendantes 4 . Dans le cas
de variables statistiques quantitatives et tant donn un chantillon de taille n, le modle de rgression
linaire suppose un lien de la forme

Yi = 0 +

p
X

(2.2)

j Xij + Ui , i = 1, . . . , n,

j=1

entre la variable dpendante Yi et les variables indpendantes Xij , j = 1, . . . , p, i = 1, . . . , n ; on parle


de rgression simple lorsque p = 1, de rgression multiple sinon. Les coecients j , j = 0, . . . , p, sont
les paramtres du modle, et les variables alatoires Ui , i = 1, . . . , n, sont des termes d'erreur rsumant
l'inuence sur les variables dpendantes de facteurs autres que ceux modliss par les variables indpendantes. Ces dernires quantits sont non observables et doivent par consquent tre estimes. Pour cela,
on formule les hypothses de base suivantes :
les variables indpendantes sont exognes, ce qui signie qu'elles ne sont pas corrles aux erreurs,
ce qui se traduit par E(Ui | Xij ) = 0, j = 1, . . . , p, i = 1, . . . , n, si les variables indpendantes
sont alatoires, ou par E(Ui ) = 0, i = 1, . . . , n, si elles sont dterministes, (condition plus faible :
E(Ui ) = 0 et E(Ui Xij ) = 0 dans le cas alatoire)
les erreurs Ui , i = 1, . . . , n, possdent toutes la mme variance, qui est indpendante des valeurs
des variables Xj homoscdasticit (conditionnelle si les Xj sont alatoires)
indpendance/non corrlation des erreurs (conditionnellement aux Xj )
les variables indpendantes (+ constante) ne sont pas colinaires : la matrice des variables indpendantes est de rang p (p + 1) avec probabilit 1.
hypothse de normalit des erreurs, implique les trois premires hypothses. Noter que seule la dernire
de ces hypothses est ncessaire l'estimation des paramtres du modle, les autres permettent d'obtenir
un estimateur non biais et/ou ecace (c'est--dire de variance minimale).
On considre une ralisation des variables observables dont les valeurs sont yi et xij , il dcoule du
modle que
y = X + u
o l'on a introduit y Rn le vecteur de composantes yi , X Mn,k+1 (R) est la matrice

1 x11 x1p
..
..
.. ,
..
.
.
.
.

xn1

xnp

Rk le vecteur de composantes j et u le vecteur des erreurs ui .


La mthode des moindres carrs consiste estimer le vecteur de faon minimiser la somme des
carrs
P des rsidus, qui sont les dirences entre les valeurs yi observes et les valeurs estimes donnes
par j j xij , i.e.
= arg inf ky Xk2 .

Rp

Ce problme admet une unique solution. En eet, en dveloppant la fonctionnelle minimiser de la


manire suivante
ky Xk2 = y T y 2 T X T y + T X T X,
on obtient que l'estimateur recherch doit satisfaire le systme linaire, dit des quations normales

X T X = X T y,
la matrice X T X tant dnie positive par construction et en vertu de l'hypothse ... .
3. On trouve encore, selon la discipline d'application, les noms de variable
4. On trouve aussi les noms de variables prdictrices ou explicatives.

46

rponse

ou

explique.

2.1. EXEMPLES D'APPLICATION

CONCLURE AVEC DES REMARQUES


A SUPPRIMER modle linaire gaussien : on ajoute au modle prcdent une hypothse de normalit
sur les erreurs, l'ide sous-jacente tant qu'il existe un vecteur de vraies valeurs mais que l'estimation
issue d'une srie d'observations dire selon les chantillons obtenus, mais, en vertu du TCL, tend vers
en moyenne. Le vecteur est donc une variable alatoire dont on cherche la distribution. On cherche
alors dterminer des intervalles du type [j j , j + j ] contenant trs probablement j .
ici, on suppose que les composantes e1 , . . . , en de e sont des observations indpendantes d'une variable
alatoires E distribues selon une loi normale centre de variance 2 inconnue (y Nn (X, 2 In ). Cette
hypothse peut se justier d'une part par un argument thorique/de modlisation, les dviations ei tant
interprtes comme des erreurs de mesure, d'autre part par un argument pratique, car elle est facile
vrier a posteriori.

2.1.2

Rsolution d'un problme aux limites par la mthode des dirences


nies *

A REPRENDRE On considre le problme suivant : tant donn deux fonctions c et f continues sur
l'intervalle [0, 1] et deux constantes relles et , trouver une fonction u de classe C 2 sur [0, 1] vriant

u00 (x) + c(x) u(x) = f (x), 0 < x < 1,

(2.3)

u(0) = , u(1) = .

(2.4)

Un tel problme est appel problme aux limites, car la fonction cherche doit satisfaire des conditions
aux limites (2.4) poses aux bornes de l'intervalle ouvert sur lequel l'quation direntielle (2.3) doit

tre vrie. Cette quation intervient dans la modlisation de divers phnomnes physiques (c'est en
particulier une version indpendante du temps des quations linaires de la chaleur ou des ondes en une
dimension d'espace). Sous certaines conditions sur la fonction c, on peut montrer qu'il existe une unique
solution au problme (2.3)-(2.4). Nous supposons que c est positive sur l'intervalle [0, 1], qui est une
hypothse susante, mais pas ncessaire, pour avoir existence et unicit. Sauf dans de rares cas, on ne
connat pas de solution explicite de (2.3)-(2.4) et on doit avoir recours des mthodes d'approximation
numrique de la solution. Nous faisons ici appel l'une des plus simples d'entre elles, la mthode des
dirences nies .
tant donn un entier n 1, on commence par diviser l'intervalle [0, 1] en n + 1 sous-intervalles de
tailles gales, en posant
1
h=
n+1
et en dnissant un maillage uniforme de pas h comme tant l'ensemble des points xi = ih, 0 i
n + 1, appels nuds du maillage. La mthode des dirences nies est alors un moyen d'obtenir une
approximation de la solution de (2.3)-(2.4) aux nuds du maillage. Plus prcisment, on cherche un
vecteur

u1
..
uh = . Rn ,

un
tel que la valeur ui soit  proche  de celle de u(xi ), i = 1, . . . , n, les valeurs de la solution aux points
x0 = 0 et xn+1 = 1 tant dj connues.
Pour calculer le vecteur uh des valeurs approches de la solution u, le principe est de tout d'abord
remplacer l'quation direntielle (2.3) par un systme de n quations algbriques, obtenu en crivant
(2.3) en chaque nud xi , 1 i n, du maillage et en substituant ensuite chaque valeur u00 (xi ) une
combinaison linaire approprie de valeurs de la fonction u en certains points du maillage. En eet, en
supposant que u est quatre fois continment drivable sur l'intervalle [0, 1], on peut crire, par la formule
de TaylorLagrange (voir le thorme B.114), pour tout i = 1, . . . , n,

u(xi+1 ) = u(xi ) + h u0 (xi ) +

h2 00
h3 (3)
h4 (4)
u (xi ) +
u (xi ) +
u (xi i+ h),
2
6
24
47

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

et

h2 00
h3 (3)
h4 (4)
u (xi )
u (xi ) +
u (xi + i h),
2
6
24
avec i+ et i deux rels strictement compris entre 0 et 1. On en dduit, en sommant ces deux galits
et en utilisant le thorme des valeurs intermdiaires (voir le thorme B.87), que
u(xi1 ) = u(xi ) h u0 (xi ) +

u(xi1 ) 2 u(xi ) + u(xi+1 ) h2 (4)


+
u (xi + i h), avec |i | max{i+ , i }, 1 i n.
h2
12
En ngligeant le terme d'ordre deux en h dans cette dernire relation, on obtient une approximation de
la drive seconde de la fonction u au nud xi , 1 i n, du maillage correspondant au schma aux
dirences nies centres suivant
u00 (xi ) =

u(xi1 ) 2 u(xi ) + u(xi+1 )


,
(2.5)
h2
en faisant le raisonnement, heuristique, que l'erreur commise sera d'autant plus  petite  que le pas h
sera petit.
En notant alors ci = c(xi ) et fi = f (xi ), 1 i n, pour allger l'criture, en substituant u00 (xi ),
1 i n, son approximation par le schma aux dirences nies (2.5) puis en remplaant chaque valeur
u(xi ) par son approximation ui , 1 i n, on aboutit un problme discret, associ (2.3)-(2.4) et au
maillage de pas h de l'intervalle [0, 1], qui prend la forme de la rsolution d'un systme linaire : trouver
le vecteur uh de Rn vriant
Ah uh = bh ,
(2.6)
u00 (xi )

avec

f1 + h2

f2
1

.
..
..
.
et
b
=
.

h
.
.
.

fn1
1 2 + cn1 h
1
fn + h2
1
2 + cn h2
La matrice Ah est dite tridiagonale, car elle ne possde des lments non nuls que sur sa diagonale
principale et les sous et sur-diagonales qui lui sont adjacentes. On remarque galement que Ah et bh sont
directement calculables partir des donnes du problme (2.3)-(2.4) que sont les fonctions c et f et les
valeurs et .
On peut montrer que la matrice Ah est inversible (elle est symtrique et dnie positive sous l'hypothse que la fonction c est positive), c'est--dire que le systme linaire (2.6) admet une unique solution
uh , qui fournit de plus une approximation convenable de la solution u au sens o la quantit
2 + c1 h2
1
1

Ah = 2
h

1
2 + c2 h2
..
.

max |u(xi ) ui |

1in

tend vers zro quand l'entier n tend vers l'inni (on dit alors que la mthode des dirences nies applique
au problme (2.3)-(2.4) converge ). Ce dernier rsultat est relativement dlicat tablir et nous renvoyons
au chapitre 3 de [Cia98] (dont on s'est d'ailleurs inspir pour cet exemple) pour une preuve.
On voit donc conrme l'intuition, quelque peu heuristique, qui a conduit l'tablissement du problme discret et voulait que la qualit de l'approximation obtenue soit d'autant meilleure que le pas h
est petit et, par voie de consquence, l'entier n grand. On peut donc tre amen rsoudre des systmes
linaires de taille importante, la mthode des dirences nies pouvant tre applique de nombreuses
autres classes de problmes aux limites en une, deux ou trois 5 dimensions d'espace. Cette rsolution peut
se faire au moyen des mthodes prsentes dans le prsent chapitre ou le suivant.

2.2

Remarques sur la rsolution des systmes triangulaires

Observons tout d'abord que la solution du systme linaire Ax = b, avec A une matrice inversible, ne
s'obtient pas 6 en inversant A, puis en calculant le vecteur A1 b, mais en ralisant plutt des combinaisons
5. Dans ce dernier cas, la taille typique des systmes linaires couramment rsolus est de plusieurs millions.
6. On doit sur ce sujet Forsythe et Moler dans [FM67] la phrase particulirement propos : Almost anything
do with A1 can be done without it. .

48

you can

2.2. REMARQUES SUR LA RSOLUTION DES SYSTMES TRIANGULAIRES

linaires sur les lignes du systme et des substitutions. En eet, on peut facilement voir que le calcul de la
matrice A1 quivaut rsoudre n systmes linaires 7 , ce qui s'avre bien plus coteux que la rsolution
du seul systme dont on cherche la solution.
Considrons prsent un systme linaire (2.1) dont la matrice est triangulaire infrieure, c'est--dire
de la forme
a11 x1
= b1
a21 x1 + a22 x2
= b2
..
..
.. .
..
.
.
.
.

an1 x1

+ an2 x2

+ ...

+ ann xn

bn

Si la matrice A est inversible, ses termes diagonaux aii , i = 1, . . . , n, sont tous non nuls 8 et la rsolution
du systme est alors extrmement simple : on calcule x1 par une division, que l'on substitue ensuite dans
la deuxime quation pour obtenir x2 , et ainsi de suite... Cette mthode, dite de  descente  (forward
subtitution en anglais), s'crit

x1
xi

=
=

b1
a11

i1
X
1
bi
aij xj , i = 2, . . . , n.
aii
j=1

(2.7)

L'algorithme mis en uvre pour cette rsolution eectue 12 n(n1) soustractions, 12 n(n1) multiplications
et n divisions pour calculer la solution, soit un nombre d'oprations global de l'ordre de n2 . On notera que
pour calculer la iime , 2 i n, composante du vecteur solution x, on eectue un produit scalaire entre
le vecteur constitu des i 1 premiers lments de la iime ligne de la matrice A et le vecteur contenant
les i 1 premires composantes de x. L'accs aux lments de A se fait donc ligne par ligne et on parle
pour cette raison d'algorithme est orient ligne (voir l'algorithme 5).

Algorithme 5 : Algorithme de la mthode de descente (version oriente ligne).


Entre(s) : les tableaux contenant la matrice triangulaire infrieure A et le vecteur b.
Sortie(s) : le tableau contenant le vecteur x solution du systme Ax = b.
x(1) = b(1)/a(1, 1)

pour i = 2 n faire
x(i) = b(i)
pour j = 1 i 1 faire
x(i) = x(i) A(i, j) x(j)

n
n

x(i) = x(i)/A(i, i)

On peut obtenir un algorithme orient colonne pour la mthode en tirant parti du fait que la iime
composante du vecteur x, une fois calcule, peut tre limine du systme. L'ordre des boucles d'indices
i et j est alors invers (voir l'algorithme 6, dans lequel la solution x calcule est commodment stocke
dans le tableau contenant initialement le second membre du systme linaire).

Exemple de rsolution d'un systme triangulaire infrieur. Appliquons une approche oriente
colonne pour la rsolution du systme

2
1
7

0
5
9


0
x1
6
0 x2 = 2 .
8
x3
5

7. Ces systmes sont


Axi = ei , 1 i n,

o ei dsigne le iime vecteur de la base canonique de Rn .


8. On a en eet a11 a22 . . . ann = det(A) 6= 0.

49

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

On trouve que x1 = 3 et l'on considre ensuite le systme deux quations et deux inconnues
 
   

1
2
x2
5 0
,
3
=
7
5
x3
9 8
1
pour lequel on trouve x2 = . On a enn
5
8 x3 = 16 +

soit x3 =

9
,
5

71
.
40

Algorithme 6 : Algorithme de la mthode de descente (version oriente colonne).


Entre(s) : les tableaux contenant la matrice triangulaire infrieure A et le vecteur b.
Sortie(s) : le vecteur x solution du systme Ax = b, contenu dans le tableau dans lequel tait
stock le vecteur b en entre.

pour j = 1 n 1 faire

b(j) = b(j)/A(j, j)
pour i = j + 1 n faire
b(i) = b(i) A(i, j) b(j)

n

n

b(n) = b(n)/A(n, n)
Le choix d'une approche oriente ligne ou colonne dans l'criture d'un mme algorithme peut considrablement modier ses performances en fonction de l'architecture du calculateur utilis.
Le cas d'un systme linaire dont la matrice est inversible et triangulaire suprieure se traite de
manire analogue, par la mthode dite de  remonte  (back subtitution en anglais) suivante

xn
xi

=
=

bn
ann

n
X
1
bi
aij xj , i = n 1, . . . , 1,
aii
j=i+1

(2.8)

et dont la complexit est galement de l'ordre de n2 oprations. L encore, on peut produire des algorithmes orients ligne ou colonne pour le codage de la mthode.
Dans la pratique, il est par ailleurs utile de remarquer que seule la partie a priori non nulle de la
matrice ncessite d'tre stocke 9 pour la rsolution d'un systme triangulaire, d'o une conomie de
mmoire consquente dans le cas de grands systmes.

2.3

Mthode d'limination de Gauss

Une technique de choix pour ramener la rsolution d'un systme linaire quelconque celle d'un
systme triangulaire est la mthode d'limination de Gauss. Celle-ci consiste en premier lieu transformer,
par des oprations simples sur les quations, ce systme en un systme quivalent, c'est--dire ayant la
(ou les) mme(s) solution(s), M Ax = M b, dans lequel M A est une matrice triangulaire suprieure 10 (on
dit encore que la matrice du systme est sous forme chelonne ). Cette tape de mise zro d'une partie
des coecients de la matrice est qualie d'limination et utilise de manire essentielle le fait qu'on ne
9. Les lments de la matrice triangulaire sont gnralement stocks dans un tableau une seule entre de dimension
en grant la correspondance entre les indices i et j d'un lment de la matrice et l'indice k(= k(i, j)) de llment
le reprsentant dans le tableau. Par exemple, pour une matrice triangulaire infrieure stocke ligne par ligne, on vrie
facilement que k(i, j) = j + 12 i(i 1).
10. Il faut bien noter qu'on ne calcule en pratique jamais explicitement la matrice d'limination M , mais seulement les
produits M A et M b.
1
(n + 1)n
2

50

2.3. MTHODE D'LIMINATION DE GAUSS

modie pas la solution d'un systme linaire en ajoutant une quation donne une combinaison linaire
des autres quations. Lorsque la matrice du systme est inversible, la solution du systme peut ensuite
tre obtenue par une mthode de remonte, mais le procd d'limination est trs gnral et s'applique
des matrices rectangulaires.

2.3.1

limination sans change

Commenons par dcrire tape par tape la mthode dans sa forme de base, dite sans change, en
considrant le systme linaire (2.1), avec A tant une matrice inversible d'ordre n. Supposons de plus que
le terme a11 de la matrice A est non nul. Nous pouvons alors liminer l'inconnue x1 de la deuxime la
i1
,
nime ligne du systme en leur retranchant respectivement la premire ligne multiplie par le coecient aa11

i = 2, . . . , n. En notant A(1) et b(1) la matrice et le vecteur second membre rsultant de ces oprations 11 ,
on a alors
ai1
ai1
(1)
(1)
aij = aij
a1j et bi = bi
b1 , i = 2, . . . , n, j = 2, . . . , n,
a11
a11

et le systme A(1) x = b(1) est quivalent au systme de dpart. En supposant non nul le coecient
(1)
diagonal a22 de A(1) , on peut ensuite procder l'limination de l'inconnue x2 de la troisime la nime
(k)
ligne de ce nouveau systme, et ainsi de suite. On obtient, sous l'hypothse ak+1 k+1 6= 0, k = 0, . . . , n 2,
une suite nie de matrices A(k) , 1 k n 1, de la forme

A(k)

(k)

a11
0

.
.
.
=
0

..
.
0

(k)

a12
(k)
a22
..
.

...

...

0
..
.

ak+1 k+1
..
.

...

an k+1

..

...

(k)

...

a1n
(k)
a2n
..
.

(k)
ak+1 n

..
.

.
(k)

(k)

...

(k)

...

ann

(k)

et telles que le systme A(n1) x = b(n1) est triangulaire suprieur. Les quantits ak+1 k+1 , k = 0, . . . , n
2, sont appeles les pivots et l'on a suppos qu'elles taient non nulles chaque tape, les formules
permettant de passer du k ime systme linaire au k + 1ime se rsumant
(k)

(k)

(k+1)
aij

(k)
aij

aik+1
(k)
ak+1 k+1

(k)
ak+1 j

et

(k+1)
bi

(k)
bi

aik+1
(k)
ak+1 k+1

(k)

bk+1 , i = k + 2, . . . , n, j = k + 1, . . . , n.

En pratique, pour une rsolution  la main  d'un systme linaire


 Ax = b par cette mthode, il est
commode d'appliquer l'limination la matrice  augmente  A b .

Exemple d'application de la mthode d'limination de Gauss sans change. Considrons la


rsolution par la mthode d'limination

x1

2 x1
3 x1

4 x1

de Gauss sans change du systme linaire suivant


+
+
+
+

2 x2
3 x2
4 x2
x2

+
+
+
+

3 x3
4 x3
x3
2 x3

+
+
+
+

4 x4
x4
2 x4
3 x4

=
=
=
=

11
12
.
13
14

la premire tape, le pivot vaut 1 et on soustrait de la deuxime (resp. troisime (resp. quatrime)) quation la
premire quation multiplie par 2 (resp. 3 (resp. 4)) pour obtenir

x1 + 2 x2 +
3 x3 +
4 x4 =
11

x2
2 x3
7 x4 = 10
.
2 x2
8 x3 10 x4 = 20

7 x2 10 x3 13 x4 =
3
11. On pose A(0) = A et b(0) = b pour tre consistant.

51

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

Le pivot vaut 1 la deuxime tape. On retranche alors


quation multiplie par 2 (resp. 7), d'o le systme

x1 + 2 x2 + 3 x3

x2 2 x3
4 x3

4 x3

la troisime (resp. quatrime) quation la deuxime

la dernire tape, le pivot est gal 4 et on soustrait


1 pour arriver

x1 + 2 x2 + 3 x3

x2 2 x3
4 x3

la dernire quation l'avant-dernire multiplie par

+
+

4 x4
7 x4
4 x4
36 x4

4 x4
7 x4
4 x4
40 x4

=
=
=
=

=
=
=
=

11
10
.
0
40

11
10
.
0
40

Ce systme triangulaire, quivalent au systme d'origine, est enn rsolu par remonte :

x4 = 1

x3 = x4 = 1
.
x2 = 10 2 7 = 1

x1 = 11 2 3 4 = 2

Comme on l'a vu, la mthode d'limination de Gauss, dans sa forme sans change, ne peut s'appliquer
(k)
que si tous les pivots ak+1 k+1 , k = 0, . . . , n2, sont non nuls, ce qui rejette de fait des matrices inversibles
aussi simples que


0 1
A=
.
1 0
De plus, le fait que la matrice soit inversible n'empche aucunement l'apparition d'un pivot nul durant
l'limination, comme le montre l'exemple ci-dessous.

Exemple de mise en chec de la mthode d'limination de Gauss sans change. Considrons

la matrice inversible

1
A = 2
7

On a alors
(1)

1
= 0
0

3
5 = A(0) .
9

2
4
8

2
0
6

3
1 ,
12

et l'limination s'interrompt l'issue de la premire tape, le pivot a(1)


22 tant nul.

Il apparat donc que des conditions plus restrictives que l'inversibilit de la matrice sont ncessaires
pour assurer la bonne excution de cette mthode. Celles-ci sont fournies par le thorme 2.2. Indiquons
qu'il existe des catgories de matrices pour lesquelles la mthode de Gauss sans change peut-tre utilise
sans aucun risque. Parmi celles-ci, on trouve les matrices diagonale dominante par lignes ou par colonnes
(voir ce titre le thorme 2.5) et les matrices symtriques dnies positives (voir le thorme 2.11).

2.3.2

limination de Gauss avec change

Dans sa forme gnrale, la mthode d'limination de Gauss permet de transformer un systme linaire
dont la matrice est carre (inversible ou non) ou mme rectangulaire en un systme chelonn quivalent.
En considrant le cas d'une matrice A carre inversible, nous allons maintenant dcrire les modications
apporter la mthode dj prsente pour mener l'limination son terme. Dans tout ce qui suit, les
notations de la section 2.3.1 sont conserves.
la premire tape, au moins l'un des coecients de la premire colonne de la matrice A(0) (= A)
est non nul, faute de quoi la matrice A ne serait pas inversible. On choisit 12 un de ces lments comme
12. Pour l'instant, on ne s'intresse pas au choix eectif du pivot, qui est cependant d'une importance cruciale pour la
stabilit numrique de la mthode. Ce point est abord dans la section 2.3.4.

52

2.3. MTHODE D'LIMINATION DE GAUSS

premier pivot d'limination et l'on change alors la premire ligne du systme avec celle du pivot avant
de procder l'limination de la premire colonne de la matrice rsultante, c'est--dire l'annulation de
tous les lments de la premire colonne de la matrice (permute) du systme situs sous la diagonale.
On note A(1) et b(1) la matrice et le second membre du systme obtenu et l'on ritre ce procd. Par la
suite, l'tape k + 1, 1 k n 2, la matrice A(k) est inversible 13 , et donc l'un au moins des lments
(k)
aik+1 , k + 1 i n, est dirent de zro. Aprs avoir choisi comme pivot l'un de ces coecients non nuls,
on eectue l'change de la ligne de ce pivot avec la k + 1ime ligne de la matrice A(k) , puis l'limination
conduisant la matrice A(k+1) . Ainsi, on arrive aprs n 1 tapes la matrice A(n1) , dont le coecient
(n1)
ann
est non nul.
En raison de l'change de lignes qui a ventuellement lieu avant chaque tape d'limination, on parle
de mthode d'limination de Gauss avec change.

Exemple d'application de la mthode d'limination de Gauss avec change. Considrons la


rsolution du systme linaire Ax = b, avec

2
3
A=
1
1

4
6
1
1

4
1
2
4


0
1

7
2

et b =
4 ,
3
2
1

par application de la mthode d'limination de Gauss avec change. On trouve successivement


0
2
4
4
1
7
7
0
0
7
2
(1)
(1)

=
A =
,
7 et b
0
3
0
4
2
1
0 1 2
2
2

A(2)

et
A(3)

d'o la solution x = 1 1 0
deuxime et troisime lignes.

T

2
0
=
0
0

4
3
0
0

4
0
7
2

4
3
0
0

4
0
7
0

2
0
=
0
0

7
2
72
5
3

et b(2)

10
3

7
2
72
2
3

0
4

=
7 ,

0
4

=
7 ,

et b(3)

4
3

. On note que l'on a procd au cours de la deuxime tape l'change des


(k)

On pourra remarquer que si la matrice A est non inversible, alors tous les lments aik+1 , k+1 i n,
seront nuls pour au moins une valeur de k entre 0 et n 1. Si cela vient se produire alors que k < n 1,
on n'a pas besoin de raliser l'limination dans la k + 1ime colonne (puisque celle-ci est dj nulle) et
l'on passe simplement l'tape suivante en posant A(k+1) = A(k) et b(k+1) = b(k) . L'limination est donc
bien possible pour une matrice carre non inversible et l'on a dmontr le rsultat suivant.

Thorme 2.1 Soit A une matrice carre, inversible ou non. Il existe au moins une matrice inversible
M telle que la matrice M A soit triangulaire suprieure.

Il reste compter le nombre d'oprations lmentaires que requiert l'application de la mthode d'limination de Gauss pour la rsolution d'un systme linaire de n quations n inconnues. Tout d'abord,
pour passer de la matrice A(k) la matrice A(k+1) , 0 k n 2, on eectue (n k 1)2 soustractions,
(n k 1)2 multiplications et n k 1 divisions, ce qui correspond un total de 61 (2n 1)n(n 1)
soustractions, 16 (2n 1)n(n 1) multiplications et 12 n(n 1) divisions pour l'limination complte. Pour
la mise jour du second membre l'tape k + 1, on a besoin de n k 1 soustractions et autant de
multiplications, soit en tout 21 n(n 1) soustractions et 21 n(n 1) multiplications. Enn, il faut faire
13. On a en eet que det(A(k) ) = det(A), k = 0, . . . , n 1. On renvoie la section 2.4.1 pour une justication de ce
fait.

53

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

1) soustractions, autant de multiplications et n divisions pour rsoudre le systme nal par une
mthode de remonte.
3
En tout, la rsolution du systme par la mthode d'limination de Gauss ncessite donc environ n3
3
2
additions et soustractions, n3 multiplications et n2 divisions. titre de comparaison, le calcul de la solution du systme par la rgle de Cramer (voir la proposition A.145) requiert, en utilisant un dveloppement
 brutal  par ligne ou colonne pour le calcul des dterminants, environ (n+1)! additions et soustractions,
(n + 2)! multiplications et n divisions. Ainsi, pour n = 10 par exemple, on obtient un compte d'approximativement 700 oprations pour la mthode d'limination de Gauss contre prs de 479000000 oprations
pour la rgle de Cramer !
1
2 n(n

2.3.3

Rsolution de systmes rectangulaires par limination

Nous n'avons jusqu' prsent considr que des systmes linaires de n quations n inconnues, mais
la mthode d'limination avec change peut tre utilise pour la rsolution de tout systme m quations
et n inconnues, avec m 6= n. Ce procd ramne en eet toute matrice rectangulaire sous forme chelonne
(voir la dnition A.148), et l'on peut alors rsoudre le systme associ comme expliqu dans la section
A.5. La mthode d'limination de Gauss constitue ce titre un moyen simple de dtermination du rang
d'une matrice quelconque.

2.3.4

Choix du pivot

Revenons prsent sur le choix des pivots lors de l'limination. la k + 1ime tape du procd, si
(k)
l'lment ak+1 k+1 est non nul, il semble naturel de l'utiliser comme pivot (c'est d'ailleurs ce que l'on
fait dans la mthode de Gauss sans change). Cependant, cause de la prsence d'erreurs d'arrondi en
pratique, cette manire de procder est en gnral proscrire, comme l'illustre l'exemple d'instabilit
numrique suivant.

Exemple d'application numrique (tir de [FM67]). Supposons que les calculs soient eectus en
virgule ottante dans le systme dcimal, avec une mantisse trois chires, et considrons le systme
 4
   
10
1
x1
1
=
,
1
1
x2
2

dont la solution est x1 = 1, 0001 et x2 = 0, 9999. En choisissant le nombre 104 comme pivot la premire tape
de l'limination de Gauss, on obtient le systme triangulaire
 4
  

10
1
x1
1
=
,
0
9990
x2
9990
car les nombres 104 + 1 = 9999 et 104 + 2 = 9998 sont tous deux arrondis au mme nombre 9990. La
solution numrique calcule est alors
x1 = 0 et x2 = 1,
et ce qui trs dirent de la vritable solution du systme. Si, par contre, on commence par changer les deux
quations du systme pour utiliser le nombre 1 comme pivot, on trouve

  

1
1
x1
2
=
,
0 0, 999
x2
0, 999
puisque les nombres 104 + 1 = 0, 9999 et 2 104 + 1 = 0, 9998 sont arrondis au mme nombre 0, 999. La
solution calcule vaut
x1 = 1 et x2 = 1,
ce qui est cette fois trs satisfaisant.

En gnral, le changement de pivot n'a pas un eet aussi spectaculaire que dans cet exemple, mais il
n'en demeure pas moins essentiel lorsque les calculs sont eectus en arithmtique virgule ottante. De
fait, pour viter la propagation d'erreurs et obtenir une meilleure stabilit numrique de la mthode, il
faut chercher, mme dans le cas o le pivot  naturel  est non nul, choisir le plus grand pivot en valeur
absolue. On peut pour cela suivre, au dbut de la k + 1ime tape, 0 k n 2, de l'limination,
54

2.3. MTHODE D'LIMINATION DE GAUSS

soit une stratgie de pivot partiel (partial pivoting en anglais) dans laquelle le pivot est l'lment
(k)
ark+1 de la k + 1ime colonne de la matrice A(k) situ sous la diagonale ayant la plus grande valeur
absolue,
(k)
(k)
|ark+1 | = max |aik+1 |,
k+1in

soit une stratgie de pivot total (complete pivoting en anglais), plus coteuse, dans laquelle le pivot
(k)
(k)
est l'lment ars de la sous-matrice (aij )k+1i,jn le plus grand en valeur absolue,
|a(k)
rs | =

max

(k)

k+1i,jn

|aij |,

soit encore une stratgie intermdiaire aux prcdentes, portant en anglais le nom de rook pivoting
(k)
et introduite dans [NP92], qui consiste prendre pour pivot l'lment ars de la sous-matrice
(k)
(aij )k+1i,jn ayant la plus grande valeur absolue dans la colonne et la ligne dans auxquelles il
appartient 14 , c'est--dire
(k)
(k)
|a(k)
max |ais | = max |arj |.
rs | =
k+1in

k+1jn

Dans les deux derniers cas, si le pivot n'est pas dans la k + 1ime colonne, il faut procder un change de
colonnes en plus d'un ventuel change de lignes. L'eet de la stratgie de choix de pivot sur la stabilit
numrique de la factorisation est analys dans la sous-section 2.6.2.
Quelle que soit la stratgie adopte, la recherche des pivots doit galement tre prise en compte
dans l'valuation du cot global de la mthode d'limination de Gauss. Celle-ci demande de l'ordre de
n2 comparaisons au total pour la stratgie de pivot partiel et de l'ordre de n3 comparaisons pour celle
de pivot total, la premire tant privilgie en raison de sa complexit algorithmique moindre et de
performances gnralement 15 trs bonnes. Pour la technique de rook pivoting, cette recherche ncessite
de l'ordre de n3 comparaisons dans le pire des cas, mais une complexit en O(n2 ) est souvent observe en
pratique et dmontre (voir [Fos97]) moyennant une hypothse statistique sur les coecients des matrices
A(k) , k = 0, . . . , n 2.

2.3.5

Mthode d'limination de GaussJordan

Introduite indpendamment 16 par Jordan 17 [Jor88] et Clasen [Cla88], la mthode d'limination de


GaussJordan est une variante de la mthode d'limination de Gauss ramenant toute matrice sous forme
chelonne rduite (voir la dnition A.148). Dans le cas d'une matrice A inversible, cette mthode revient
chercher une matrice M telle que la matrice M A soit non pas triangulaire suprieure mais diagonale.
Pour cela, on procde comme pour l'limination de Gauss, mais en annulant chaque tape tous les
lments de la colonne considre situs au dessous et au dessus de la diagonale.
Si elle est bien moins ecace 18 que la mthode d'limination de Gauss pour la rsolution de systmes
linaires, la mthode d'limination de GaussJordan est utile pour le calcul de l'inverse d'une matrice A
carre d'ordre n. Il sut de rsoudre simultanment les n systmes linaires

Axj = ej , 1 j n,
14. Cette technique de choix de pivot tire son nom du fait que la recherche eective du pivot parmi les lments de la
matrice rappelle les dplacements de la tour (rook en anglais) dans le jeu d'checs.
15. On fait nanmoins appel la recherche d'un pivot total dans quelques situations particulires, comme la rsolution
d'quations de Sylvester, le calcul d'une dcomposition en valeurs singulires ou d'une dcomposition de Schur gnralise.
16. On pourra consulter l'article [AM87] pour des dtails sur l'histoire cette mthode.
17. Wilhelm Jordan (1er mars 1842 - 17 avril 1899) tait un godsiste allemand. Il est connu parmi les mathmaticiens
pour le procd d'limination portant son nom, publi en 1888 dans son Handbuch der Vermessungskunde, qu'il appliqua
la rsolution de problmes aux moindres carrs en godsie.
18. Eectuons un compte des oprations eectues pour la rsolution d'un systme de n quations n inconnues. chaque
tape k + 1, 0 k n 1, il faut faire (n k + 1)(n 1) soustractions, (n k + 1)(n 1) multiplications et (n k + 1)
divisions pour mettre jour la matrice et le second membre du systme. en revanche, la rsolution du systme (diagonal)
nal ne ncessite aucune opration supplmentaire. Une rsolution par la mthode d'limination de GaussJordan ncessite
donc de l'ordre de n3 oprations.

55

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

en appliquant chaque second membre ej les transformations ncessaires l'limination de Gauss


Jordan. D'un point de vue pratique, on a coutume d' augmenter  la matrice A inverser avec la matrice
identit d'ordre n (les n seconds membres
 lmentaires ) et d'appliquer la mthode de GaussJordan

la matrice crite par blocs A In . Au terme du processus d'limination, le premier bloc contient la
matrice identit et, si aucun change de lignes n'a eu lieu, le second l'inverse de A.

Exemple d'application de la
de GaussJordan pour l'inversion d'une

mthode d'limination
0

1
2
1

matrice. Soit la matrice A = 1

0
1. La matrice augmente est alors
2

In

1
2
1

2
= 1
0

1
0
0

0
1
0

0
0 ,
1

1/2
1/2
0

0
1
0

0
0 ,
1

1/3
2/3
2/3

0
0 ,
1

0
1
2

et l'on trouve successivement


k = 0,

k = 1,

1
0
0

1/2
3/2
1

0
1
0

1
0
0

k = 2,

d'o A

2.4

3
1
2
=
4
1

2
4
2

1
0
0

0
1
2

1/3
2/3
4/3

0
1
0

0
0
1

2/3
1/3
1/3
3/4
1/2
1/4

1/2
1
1/2

1/4
1/2 ,
3/4

1
2 .
3

Interprtation matricielle de l'limination de Gauss : la factorisation LU

Nous allons maintenant montrer que la mthode de Gauss dans sa forme sans change est quivalente
la dcomposition de la matrice A sous la forme d'un produit de deux matrices, A = LU , avec L
une matrice triangulaire infrieure (lower triangular en anglais), qui est l'inverse de la matrice M des
transformations successives appliques la matrice A lors de l'limination de Gauss sans change, et
U une matrice triangulaire suprieure (upper triangular en anglais), avec U = A(n1) en reprenant la
notation utilise dans la section 2.3.1.

2.4.1

Formalisme matriciel

Chacune des oprations que nous avons eectues pour transformer le systme linaire lors de l'limination de Gauss, que ce soit l'change de deux lignes ou l'annulation d'une partie des coecients d'une
colonne de la matrice A(k) , 0 k n 2, peut se traduire matriciellement par la multiplication de la
matrice et du second membre du systme linaire courant par une matrice inversible particulire. L'introduction de ces matrices va permettre de traduire le procd d'limination dans un formalisme matriciel
dbouchant sur une factorisation remarquable de la matrice A.

Matrices des transformations lmentaires


Soient (m, n) (N\{0, 1})2 et A = (aij )1im, 1jn Mm,n (R). On appelle oprations lmentaires
sur les lignes de A les transformations suivantes :
 l'change (entre elles) des iime et j ime lignes de A,
56

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

 la multiplication de la iime ligne de A par un scalaire R\{0},


 le remplacement de la iime ligne de A par la somme de cette mme ligne avec la j ime ligne de A
multiplie par un scalaire , o R\{0} .
Explicitons prsent les oprations matricielles correspondant chacunes de ces oprations. Tout
d'abord, changer les iime et j ime lignes, (i, j) {1 . . . , n}2 , de la matrice A revient multiplier
gauche cette matrice par la matrice de permutation

1 0 ... ... ... ... ... ... ... ... 0

..
0 . . . . . .
.

. .
..
.. 1 ...
..
.

.
..
..
..
. 0
0 0
1
.

.
..
..

.
.
0
1
0
.
.
.
..
.
..
.. .. ..

Pij =
.
.
. ..
.
. = In + (Eij + Eji Eii Ejj ) Mn (R).
..
.
..
..

.
. 1
.
0
0
.

..
..
.
1
0 ... 0
0
.

..
..

.
1
.

..
..
.
. 0
0 ... ... ... ... ... ... ... ... 0 1
Cette matrice est orthogonale, de dterminant valant 1.
La multiplication de la iime ligne de la matrice A par un scalaire non nul s'eectue en multipliant
gauche cette matrice par la matrice de dilatation

1 0 ... ... ... ... 0


..

.
.
0 . . . .
.

.. . .
..
.
.
.
.
.
.
1

..
.. = I + ( 1)E M (R).
.
.
..
..
Di () = .
n
ii
n
.

.
.
.
.
. . ..
.. 1
..

.
.
.
.
.
.
.
.
. 0

...

... ...

...

1

Cette matrice est inversible et Di ()1 = Di


Enn, le remplacement de la iime ligne de
multiplie par un scalaire non nul est obtenu
transvection (on suppose ici que j < i)

1 0 ... ...

.
..
0 . .
.

.. . .
.
. 1

..
.. . .
Tij () = .
.
.

.
..

.
..

...

...

...

.
A par la somme de la iime ligne et de la j ime , i 6= j
en multipliant gauche la matrice A par la matrice de

...

...

0
..
.
1
..
.
...

..
..

.
0

0
..
.

..
.

.. = I + E M (R).
n
ij
n
.

..
.

0
1

Cette matrice a pour inverse Tij (). On note que le produit de deux matrices de tranvection Tij () et
Tkl (), avec et deux scalaires non nuls et (i, j) 6= (k, l), est commutatif et vaut

Tij ()Tkl () = In + Eij + Ekl .


57

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

On eectue de manire analogue des oprations lmentaires sur les colonnes de la matrice A en
multipliant droite cette dernire par les matrices d'ordre m correspondantes.

Exemple d'action d'une matrice de permutation.

1
0
0

0
0
1

1
Soit les matrices A = 4
7

2
5
8

3
6 et P23 =
9

0
1. On a
0

1
P23 A = 7
4

2
8
5

1
3
9 et AP23 = 4
7
6

2
5 .
8

3
6
9

Factorisation LU
Si l'limination arrive son terme sans qu'il y ait besoin d'changer des lignes du systme linaire, la
matrice inversible M du thorme 2.1 est unique et gale au produit

M = E (n1) . . . E (2) E (1)


de n 1 matrices d'limination dnies

..
.

.
! ..
n
(k1)

Y
a
.
Tik ik
E (k) =
=
..
(k1)

akk
i=k+1

..
.

..
.

par

0
1
..
.

...
..
.
..
.

...

0
..
.

..
.
..
.

..

...

..

ak+1 k

(k1)

akk

(k1)

...

(k1)

...

ak+2 k

(k1)

akk

..
.

0
..
.

..

..

..

..

..

...

(k1)

...

ank

(k1)

akk

0
..
.

..
.

..
.

..
, 1 k n 1.
.

..
.

(2.9)

Par construction, la matrice M est triangulaire infrieure et son inverse est donc galement une matrice
triangulaire infrieure. Il en rsulte que la matrice A s'crit comme le produit

A = LU,

(2.10)

dans lequel L = M 1 et U = M A = A(n1) est une matrice triangulaire suprieure. Fait remarquable, la
matrice L se calcule de manire immdiate partir des matrices E (k) , 1 k n 1, alors qu'il n'existe
pas d'expression simple pour M . En eet, chacune des matrices d'limination dnies par (2.9) tant
produit de matrices de transvection, il est facile de vrier que son inverse vaut

1 0 ...
...
... ... ... 0
..

..
0 1
.
.

..
.. . .
..
..
.
.
.
.
.

..
..
..

!
.
.
0
1
.
n
(k1)

Y
aik
(k1)
.

.
.
(k) 1
.
a
.
.
.
.
k+1 k
(E ) =
Tik
=
, 1 k n 1,

.
1
.
.
(k1)
(k1)
.

a
a
kk
i=k+1
kk

(k1)
..
..
.
.. ..
ak+2 k
.
.
. ..
.
0
(k1)

akk

..
..
.. . . . .
..

.
.
. 0
.
.
.

(k1)
ank
0 ... 0 1
0 ... 0
(k1)
akk

58

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

et l'on a 19

L = (E (1) )1 (E (2) )1 . . . (E (n1) )1

a(0)
21
a(0)
11
..
.

= ..
.

.
.
.
(0)
an1

(0)

a11

...

...
..
.

..

..

..

..

..

..

(k1)

ak+1 k

(k1)

akk

..
.

(n2)

(k1)

...

ank

(k1)

akk

...

...

an n1
(n2)

an1 n1

0
..
.

..

.
..
.
.

Si des changes de lignes ont eu lieu lors de l'limination, la 20 matrice M s'crit

M = E (n1) P (n1) . . . E (2) P (2) E (1) P (1) ,


o la matrice P (k) , 1 k n 1, est soit la matrice de permutation correspondant l'change de lignes
eectu la k ime tape, soit la matrice identit si le pivot  naturel  est utilis. En crivant que

M = E (n1) (P (n1) E (n2) P (n1) ) . . . (P (n1) . . . P (2) E (1) P (2) . . . P (n1) )(P (n1) . . . P (2) P (1) ),
et en posant P = P (n1) . . . P (2) P (1) , on obtient L = P M 1 et U = (M P 1 )P A, d'o

P A = LU.
Terminons cette section en indiquant que la mthode de factorisation LU fournit une manire rapide
de calculer le dterminant de la matrice A, qui n'est autre, au signe prs, que le produit des pivots,
puisque
!
n
Y
det(P A) = det(LU ) = det(L) det(U ) = det(U ) =
uii ,
i=1

et

det(P A)
det(A) =
=
det(P )

det(P A) si on a eectu un nombre pair d'changes de lignes,


det(P A) si on a eectu un nombre impair d'changes de lignes,

le dterminant d'une matrice de permutation tant gal 1.

2.4.2

Condition d'existence de la factorisation LU

Commenons par donner une condition susante assurant qu'il n'y aura pas d'change de lignes
durant l'limination de Gauss, ce qui conduira bien une factorisation de la forme 2.10 de la matrice.
On va cette occasion aussi tablir que cette dcomposition est unique si l'on impose la valeur 1 aux
lments diagonaux de L (c'est prcisment la valeur obtenue avec la construction par limination de
Gauss).

Thorme 2.2 (condition susante d'existence et d'unicit de la factorisation LU) Soit A une
matrice d'ordre n. La factorisation LU de A, avec lii = 1 pour i = 1, . . . , n, existe et est unique si toutes
les sous-matrices principales

a11
..
Ak = .
ak1

...

...

a1k
.. , 1 k n,
.

akk

extraites de A sont inversibles.


19. La vrication est laisse en exercice.
20. Il n'y a pas forcment unicit de la matrice dans ce cas, en raison de possibles multiples choix de pivots.

59

(2.11)

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES


Dmonstration. Il est possible de montrer l'existence de la factorisation LU de manire constructive, en
utilisant le procd d'limination de Gauss. En supposant que les n sous-matrices principales extraites de A sont
inversibles, on va ici prouver en mme temps l'existence et l'unicit par un raisonnement par rcurrence 21 .
Pour k = 1, on a
A1 = a11 6= 0,

et il sut de poser L1 = 1 et U1 = a11 . Montrons prsent que s'il existe une unique factorisation de la sousmatrice Ak1 , 2 k n, de la forme Ak1 = Lk1 Uk1 , avec (Lk1 )ii = 1, i = 1, . . . , k 1, alors il existe une
unique factorisation de ce type pour Ak . Pour cela, dcomposons Ak en blocs

Ak =

Ak1
cT


b
,
d

avec b et c des vecteurs de Rk1 et d un nombre rel, et cherchons une factorisation de Ak de la forme

Ak1
cT

b
d


=

Lk1
lT


0
Uk1
1
0T

o 0 dsigne le vecteur nul de Rk1 , l et u sont des vecteurs de Rk1 et est un nombre rel. En eectuant le
produit de matrices et en identiant par blocs avec Ak , on obtient
Lk1 Uk1 = Ak1 , Lk1 u = b, lT Uk1 = cT et lT u + = d.

Si la premire de ces galits n'apporte aucune nouvelle information, les trois suivantes permettent de dterminer
les vecteurs l et u et le scalaire . En eet, on a par hypothse 0 6= det(Ak1 ) = det(Lk1 ) det(Uk1 ), les matrices
Lk1 et Uk1 sont donc inversibles. Par consquent, les vecteurs l et u existent et sont uniques et = d lT u.
Ceci achve la preuve par rcurrence.


Dans cette preuve, on utilise de manire fondamentale le fait les termes diagonaux de la matrice L
sont tous gaux 1. On aurait tout aussi bien pu choisir d'imposer d'autres valeurs (non nulles) ou
encore dcider de xer les valeurs des lments diagonaux de la matrice U . Ceci implique que plusieurs
factorisations LU existent, chacune pouvant tre dduite d'une autre par multiplication par une matrice
diagonale convenable (voir la section 2.5.1).
On remarque galement que la condition du thorme n'est que susante. Il n'est en eet pas ncessaire que la matrice A soit inversible pour que sa factorisation LU existe et soit unique (ce cas tant
cependant le seul ayant vraiment un intrt pratique). Nous laissons au lecteur le soin d'adapter et de
complter la dmonstration prcdente pour obtenir le rsultat ci-aprs.

Thorme 2.3 (condition ncessaire et susante d'existence et d'unicit de la factorisation


LU) Soit A une matrice d'ordre n. La factorisation LU de A, avec lii = 1 pour i = 1, . . . , n, existe et

est unique si et seulement si les sous-matrices principales Ak d'ordre k = 1, . . . , n 1 extraites de A sont


inversibles.

La factorisation LU est particulirement avantageuse lorsque l'on doit rsoudre plusieurs systmes
linaires ayant tous A pour matrice, mais des seconds membres dirents. En eet, il sut de conserver
les matrices L et U obtenues l'issue de la factorisation pour ramener ensuite la rsolution de chaque
systme linaire Ax = b celle de deux systmes triangulaires,

Ly = b, puis U x = y,
ce que l'on accomplit chaque fois en eectuant n(n 1) additions, n(n 1) multiplications et 2n
divisions.
21. Notons que ce procd de dmonstration permet aussi de prouver directement (c'est--dire sans faire appel un
rsultat sur la factorisation LU) l'existence et l'unicit de la factorisation de Cholesky d'une matrice symtrique dnie
positive (voir le thorme 2.11).

60

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

Exemple d'application de la factorisation LU pour la rsolution d'un systme linaire. Considrons la matrice

1
A = 2
3

4
5
6

7
8 .
10

En appliquant de l'algorithme de factorisation, on arrive

1 0 0
1
A = LU = 2 1 0 0
3 2 1
0
Si b =

4
3
0

7
6 .
1

1
 1 
1
1 , la solution de Ly = b est y =
et celle de U x = y est x =
1

1
3

 1 
1
0

Pour toute matrice A inversible, il est possible de se ramener la condition susante du thorme 2.2
aprs des changes pralable de lignes de la matrice (comme on l'a vu lors de la traduction matricielle de
l'limination de Gauss avec change). En ce sens, la factorisation LU des matrices inversibles est toujours
possible. Si une stratgie de pivot partiel, de pivot total ou de rook pivoting est applique l'limination
de Gauss, on a plus prcisment le rsultat suivant.

Thorme 2.4 Soit A une matrice d'ordre n inversible. Alors, il existe une matrice P (resp. des matrices
P et Q) tenant compte d'une stratgie de pivot partiel (resp. de pivot total ou de rook pivoting), une
matrice triangulaire infrieure L, dont les lments sont infrieurs ou gaux 1 en valeur absolue, et une
matrice triangulaire suprieure U telles que
P A = LU

(resp. P AQ = LU ).

Exemple d'application de la factorisation P A = LU . Revenons l'exemple de mise en chec de la


mthode d'limination de Gauss, pour lequel le pivot  naturel  est nul la seconde tape. La recherche d'un
pivot partiel conduit l'change de la deuxime ligne avec la troisime et l'on arrive

1
2
3
(2)
A = 0 6 12 = U.
0
0
1
Les matrices d'limination aux deux tapes eectues sont respectivement

1
0 0
1 0
E (1) = 2 1 0 et E (2) = 0 1
7 0 1
0 0
d'o

1
L = 2
7

et les matrices d'change sont respectivement

1 0
P (1) = 0 1
0 0

0
1
0

0
0 ,
1

0
0 .
1

1
0
0 et P (2) = 0
1
0

0
0
1

0
1 ,
0

d'o la matrice de permutation

1
P = 0
0

0
0
1

0
1 .
0

Dans le cas d'une factorisation de type P A = LU (resp. P AQ = LU ), la rsolution du systme linaire


(2.1) aprs factorisation s'eectue en appliquant tout d'abord la matrice de permutation P au vecteur
b pour obtenir le second membre P b et en rsolvant ensuite le systme Ly = P b par une mthode de
descente, puis le systme U x = y (resp. U Qx = y ) par une mthode de remonte.
61

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

2.4.3

Mise en uvre

La matrice L tant triangulaire infrieure diagonale ne contenant que des 1 et la matrice U triangulaire suprieure, celles-ci peuvent tre commodment stockes dans le tableau contenant initialement A,
les lments non triviaux de la matrice U tant stocks dans la partie triangulaire suprieure et ceux de L
occupant la partie triangulaire infrieure stricte (puisque sa diagonale est connue a priori ). L'algorithme
7, crit en pseudo-code, prsente une premire version de la factorisation LU.

Algorithme 7 : Algorithme de factorisation LU (version  kji ).


Entre(s) : le tableau contenant la matrice A.
Sortie(s) : la partie triangulaire infrieure stricte de la matrice L et la partie triangulaire

suprieure de la matrice U , stockes dans le tableau contenant la matrice A en entre.

pour k = 1 n 1 faire
si A(k, k) 6= 0 alors
pour i = k + 1 n faire

A(i, k) = A(i, k)/A(k, k)

n
pour j = k + 1 n faire
pour i = k + 1 n faire
n
sinon
n

n

n

A(i, j) = A(i, j) A(i, k) A(k, j)

arrt

Cet algorithme contient trois boucles imbriques, portant respectivement sur les indices k , j et i. Il
peut tre rcrit de six manires distinctes en modiant l'ordre des boucles et la nature des oprations
sous-jacentes. Lorsque la boucle sur l'indice i prcde celle sur j , on dit que l'algorithme est orient ligne ; il
est dit orient colonne lorsque c'est l'inverse. Dans LAPACK [And+99], une bibliothque de programmes
mettant en uvre un grand nombre d'algorithmes pour la rsolution numrique de problmes d'algbre
linaire, on dit que la version  kji , oriente colonne, de l'algorithme de factorisation fait appel des
oprations saxpy (acronyme pour scalar a x plus y  ), car l'opration de base de l'algorithme consiste
eectuer le produit d'un scalaire par un vecteur puis additionnner le rsultat avec un vecteur. La
version  jki , galement oriente colonne, de l'algorithme 8 utilise des oprations gaxpy (acronyme pour
generalized saxpy ), l'opration de base tant cette fois-ci le produit d'une matrice par un vecteur, suivi
de l'addition du rsultat avec un vecteur.
Terminons cette sous-section sur une variante de l'algorithme d'limination ncessitant moins de
rsultats intermdiaires (et donc d'critures en mmoire 22 ) que la mthode de Gauss  classique  pour
produire la factorisation LU d'une matrice. Il s'agit de la mthode de Doolittle 23 (la mthode de Crout 24
[Cro41], galement remarquable, ne dire de cette dernire que par le choix d'avoir les lments diagonaux
de U , et non de L, tous gaux 1). On l'obtient en remarquant que, si aucun change de lignes n'est
requis, la factorisation LU de la matrice A est formellement quivalente la rsolution du systme linaire
de n2 quations suivant
min(i,j)
X
aij =
lir urj ,
r=1

22. Ceci tait particulirement avantageux l'poque de l'usage de calculateurs mcaniques possdant un registre ddi
l'accumulation des rsultats d'oprations lmentaires.
23. Myrick Hascall Doolittle (17 mars 1830 - 27 juin 1913) tait un mathmaticien amricain qui travailla pour la United
States coast and geodetic survey. Il proposa en 1878 une modication de la mthode d'limination de Gauss pour la rsolution
d'quations normales provenant de problmes de triangulation.
24. Prescott Durand Crout (28 juillet 1907 - 25 septembre 1984) tait un mathmaticien amricain. Il inventa une version
du procd d'limination de Gauss dans laquelle une rorganisation de l'ordre des oprations arithmtiques lmentaires en
permet une implmentation ecace sur un calculateur mcanique.

62

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

Algorithme 8 : Algorithme de factorisation LU (version  jki ).


Entre(s) : le tableau contenant la matrice A.
Sortie(s) : la partie triangulaire infrieure stricte de la matrice L et la partie triangulaire

suprieure de la matrice U , stockes dans le tableau contenant la matrice A en entre.

pour j = 1 n faire
pour k = 1 j 1 faire
pour i = k + 1 n faire
n

A(i, j) = A(i, j) A(i, k) A(k, j)

n
si A(j, j) 6= 0 alors
pour i = j + 1 n faire
n
sinon
n

n

A(i, j) = A(i, j)/A(j, j)

arrt

les inconnues tant les n2 + n coecients des matrices L et U . tant donn que les termes diagonaux
de L sont xs et gaux 1 et en supposant les k 1, 2 k n, colonnes de L et U sont connues, la
relation ci-dessus conduit

ukj = akj

k1
X

lkr urj ,

j = k, . . . , n,

r=1

lik

1
=
ukk

aik

k1
X

!
lir urj

i = k + 1, . . . , n,

r=1

ce qui permet de calculer les coecients de manire squentielle. Cette faon de procder correspond
la version  ijk  de l'algorithme de factorisation. On peut remarquer que l'opration principale est
prsent un produit scalaire. Une mise en uvre de la mthode de Doolittle est propose ci-aprs avec
l'algorithme 9.
Les algorithmes 10 12 proposent des mises en uvre de la version  kji  de la factorisation LU
utilisant respectivement une stratgie de pivot partiel, de pivot total et de rook pivoting.
Indiquons que le choix d'un ordonnancement de boucles particulier n'aecte pas la stabilit numrique
de la mthode. En revanche, l'ordre et la mise en uvre de la stratgie de pivot employer prfrentiellement dpendent de manire cruciale de l'architecture du calculateur utilis et de son ecacit eectuer
des oprations algbriques sur des tableaux une ou plusieurs dimensions, ainsi que de la faon dont ces
tableaux sont stocks en mmoire. Cette problmatique est aborde dans de nombreuses publications,
comme l'article [GPS90].

2.4.4

Factorisation LU de matrices particulires

Nous examinons dans cette section l'application de la factorisation LU plusieurs types de matrices frquemment rencontres en pratique. Exploiter la structure spcique d'une matrice peut en eet
conduire un renforcement des rsultats thoriques tablis dans le cas gnral et/ou une rduction
considrable du cot des algorithmes utiliss. ces premiers cas particuliers, il faut ajouter ceux des matrices symtriques et symtriques dnies positives, abords respectivement dans les sous-sections 2.5.1
et 2.5.2.
63

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

Algorithme 9 : Algorithme de factorisation LU (version  ijk , dite mthode de Doolittle).


Entre(s) : le tableau contenant la matrice A.
Sortie(s) : la partie triangulaire infrieure stricte de la matrice L et la partie triangulaire

suprieure de la matrice U , stockes dans le tableau contenant la matrice A en entre.

pour i = 1 n faire
pour j = 2 i faire
si A(j 1, j 1) 6= 0 alors

A(i, j 1) = A(i, j 1)/A(j 1, j 1)

sinon

arrt

n
pour k = 1 j 1 faire
n

A(i, j) = A(i, j) A(i, k) A(k, j)

n
pour j = i + 1 n faire
pour k = 1 i 1 faire

n

n

n

A(i, j) = A(i, j) A(i, k) A(k, j)

Algorithme 10 : Algorithme de factorisation LU avec une stratgie de pivot partiel.


Entre(s) : le tableau contenant la matrice A.
Sortie(s) : le tableau P contenant les changes de lignes, la partie triangulaire infrieure stricte de
la matrice L et la partie triangulaire suprieure de la matrice U telles que P A = LU ,
stockes dans le tableau contenant la matrice A en entre.
pour k = 1 n 1 faire
trouver un entier r tel que k r n et |A(r, k)| |A(i, k)|, i {k, . . . , n}
P (k) = r
pour j = 1 n faire
changer A(k, j) et A(r, j)

n
si A(k, k) 6= 0 alors
pour i = k + 1 n faire

A(i, k) = A(i, k)/A(k, k)

n
pour j = k + 1 n faire
pour i = k + 1 n faire
n
sinon
n

n

n

A(i, j) = A(i, j) A(i, k) A(k, j)

arrt

64

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

Algorithme 11 : Algorithme de factorisation LU avec une stratgie de pivot total.


Entre(s) : le tableau contenant la matrice A.
Sortie(s) : les tableaux P et Q contenant respectivement les changes de lignes et de colonnes, la

partie triangulaire infrieure stricte de la matrice L et la partie triangulaire suprieure


de la matrice U telles que P AQ = LU , stockes dans le tableau contenant la matrice A
en entre.
pour k = 1 n 1 faire
trouver des entiers r et s tels que k r n, k s n et |A(r, s)| |A(i, j)|,
(i, j) {k, . . . , n}2
P (k) = r
Q(k) = s
pour j = 1 n faire
changer A(k, j) et A(r, j)

n
pour i = 1 n faire

changer A(i, k) et A(i, s)

n
si A(k, k) 6= 0 alors
pour i = k + 1 n faire

A(i, k) = A(i, k)/A(k, k)

n
pour j = k + 1 n faire
pour i = k + 1 n faire
n
sinon
n

n

n

A(i, j) = A(i, j) A(i, k) A(k, j)

arrt

65

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

Algorithme 12 : Algorithme de factorisation LU avec une stratgie de rook pivoting.


Entre(s) : le tableau contenant la matrice A.
Sortie(s) : les tableaux P et Q contenant respectivement les changes de lignes et de colonnes, la

partie triangulaire infrieure stricte de la matrice L et la partie triangulaire suprieure


de la matrice U telles que P AQ = LU , stockes dans le tableau contenant la matrice A
en entre.
pour k = 1 n 1 faire

rpter

trouver
trouver
trouver
trouver

un
un
un
un

entier r tel que k r n et |A(r, k)| |A(i, k)|, i {k, . . . , n}


entier s tel que k s n et |A(r, s)| |A(r, j)|, j {k, . . . , n}
entier r tel que k r n et |A(r, s)| |A(i, s)|, i {k, . . . , n}
entier s tel que k s n et |A(r, s)| |A(r, j)|, j {k, . . . , n}
jusqu' ce que r et s ne soient plus modis ;
P (k) = r
Q(k) = s
pour j = 1 n faire
changer A(k, j) et A(r, j)

n
pour i = 1 n faire

changer A(i, k) et A(i, s)

n
si A(k, k) 6= 0 alors
pour i = k + 1 n faire

A(i, k) = A(i, k)/A(k, k)

n
pour j = k + 1 n faire
pour i = k + 1 n faire
n
sinon
n

n

n

A(i, j) = A(i, j) A(i, k) A(k, j)

arrt

66

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

Cas des matrices diagonale strictement dominante


Certaines matrices, comme celles produites par des mthodes de discrtisation des quations aux drives partielles, possdent la particularit d'tre diagonale dominante (voir la dnition A.105). Le
rsultat suivant montre qu'une matrice diagonale strictement dominante admet toujours une factorisation LU.

Thorme 2.5 Si A est une matrice d'ordre n diagonale strictement dominante (par lignes ou par
colonnes) alors elle admet une unique factorisation LU. En particulier, si A est une matrice d'ordre n
diagonale strictement dominante par colonnes, on a

|lij | 1, 1 i, j n.
Dmonstration. Nous reprenons un argument provenant de [Wil61]. Supposons que A est une matrice
diagonale strictement dominante par colonnes. Posons A(0) = A. On sait par hypothse que

n



(0) X (0)
a11 >
aj1 ,
j=2

et a(0)
11 est donc non nul. L'application du procd d'limination sans change donne
(0)

(1)

(0)

aij = aij

aij

(0)

(0)

a11

a1j , 2 i, j n,

d'o, j {2, . . . , n},


n

X
(1)
aij



!
n

(0)

X
(0) aij (0)
aij + (0) a1j
a
i=2
11


n

n (0)
X
(0) (0) X aij
+
aij a1j
(0)
a

i=2

i=2

i=2

11

n

X
(0)
aij .

<

i=1

De plus, on a que


(1)
aii





(0)
(0) ai1 (0)
aii (0) a1i
a
11

>

n
X


(0)
aji

j=1
j6=i

n
X
j=2
j6=i


!
n (0)

X
aj1 (0)
1
(0) a1i


j=2 a11
j6=i



!

(0)

(0) aj1 (0)
aji + (0) a1i
a
11

n

X
(1)
aji ,
j=1
j6=i

et A(1) est donc une matrice diagonale strictement dominante par colonnes. Par un calcul analogue, on montre
que si la matrice A(k) , 1 k n 2, est diagonale strictement dominante par colonnes, alors A(k+1) l'est aussi,
ce qui permet de prouver le rsultat par rcurrence sur k.
Dans le cas d'une matrice A diagonale strictement dominante par lignes, on utilise que sa transpose AT est
diagonale strictement dominante par colonnes et admet donc une factorisation LU. On conclut alors en utilisant
la proposition 2.10.


67

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

Cas des matrices bandes


Les matrices bandes (voir la dnition A.104) interviennent aussi trs couramment dans la rsolution
de problmes par des mthodes de dirences nies ou d'lments nis et il convient donc de tirer parti
de la structure de ces matrices.
En particulier, le stockage d'une matrice bande A d'ordre n et de largeur de bande valant p + q + 1
peut se faire dans un tableau de taille (p + q + 1)n, les lments de A tant stocks soit ligne par ligne, soit
colonne par colonne. Dans le premier cas, si l'on cherche dterminer l'indice k de l'lement du tableau
contenant l'lment aij de la matrice A, on se sert du fait que le premier coecient de la iime ligne de
A, c'est--dire aiip , est stock dans le tableau la (p + q + 1)(i 1) + 1ime position et on en dduit que
k = (p + q + 1)(i 1) + j i + p + 1. On notera que certains des lments du tableau de stockage ne sont
pas aects, mais leur nombre, gal 21 (p(p 1) + q(q 1)), reste ngligeable.
Il est remarquable que les matrices L et U issues de la factorisation LU d'une matrice bande A sont
elles-mmes des matrices bandes, de largeurs de bande (respectivement infrieure pour L et suprieure
pour U ) identiques celles de A. La zone d'espace mmoire alloue par le mode de stockage dcrit cidessus an de contenir une matrice bande est par consquent de taille susante pour qu'on puisse y
stocker sa factorisation.

Proposition 2.6 La factorisation LU conserve la structure des matrices bandes.


Dmonstration. Soit A matrice bande A d'ordre n et de largeur de bande valant p + q + 1 admettant une
factorisation LU telle que
min(i,j)
X
aij =
lir urj , 1 i, j n.

r=1

Pour prouver l'assertion, on raisonne par rcurrence sur l'indice k = min(i, j). Pour k = 1, on obtient d'une part
a1j = l11 u1j = u1j , 1 j n,

d'o u1j = 0 si j > q + 1, et d'autre part


ai1 = li1 u11 , 1 i n.

En particulier, on a a11 = l11 u11 = u11 et donc u11 6= 0. Par consquent, on trouve que
li1 =

ai1
, 1 i n,
u11

d'o li1 = 0 si i > p + 1.


Supposons prsent que, pour tout k = 1, . . . , K 1 avec 2 K n, on ait
ukj = 0 si j > q + k et lik = 0 si i > p + k.

Soit j > q + K . Pour tout r = 1, . . . , K 1, on a dans ce cas j > q + K q + r + 1 > q + r et, par hypothse de
rcurrence, le coecient urj . Ceci implique alors
0 = aKj =

K
X

lir urj = lKK uKj +

r=1

K1
X

lKr urj = uKj , j > q + K.

r=1

De la mme manire, on prouve que


0 = aiK = liK uKK +

K1
X

lir urK = liK uKK , i > p + K,

r=1

et on conclut en utilisant que uKK est non nul, ce qui achve la dmonstration par rcurrence.

Cas des matrices tridiagonales


On considre dans cette section un cas particulier de matrice bandes : les matrices tridiagonales , dont
seules la diagonale principale et les deux diagonales qui lui sont adjacentes possdent des lments non
nuls.
68

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

Dnition 2.7 (matrice tridiagonale) Soit n un entier suprieur ou gal 3. On dit qu'une matrice
A de Mn (R) est tridiagonale si
aij = 0 si |i j| > 1, 1 i, j n.
Supposons que la matrice tridiagonale relle d'ordre

a1 c1
0

.
.
d2 . . . .

A = 0 ... ...

. .
.. ...
..
0 ... 0

n
...
..
.
..
.
..
.
dn

0
..
.

.
0

cn1
an

soit inversible et admette, sans qu'il y ait besoin d'change de lignes, une factorisation LU (c'est le cas
par exemple si elle est diagonale strictement dominante, i.e., |a1 | > |c1 |, |ai | > |di | + |ci |, 2 i n 1,
et |an | > |dn |). Dans ce cas, les matrices L et U sont de la forme

u1 v1 0 . . .
0
1 0 ... ... 0

..
..
0 ... ... ...
l2 . . . . . .
.
.

,
L = 0 . . . . . . . . . 0 , U = ... . . . . . . . . .
0

.
. .
.
.
.
.
.. .. v
. . . . . . 0

..
..
n1

...

ln

...

...

un

et une identication terme terme entre A et le produit LU conduit aux relations suivantes

vi = ci , i = 1, . . . , n 1, u1 = a1 , lj =

dj
, uj = aj lj cj1 , j = 2, . . . , n.
uj1

Cette mthode spcique de factorisation LU d'une matrice tridiagonale est connue sous le nom d'algorithme de Thomas 25 [Tho49] et constitue un cas particulier de factorisation de Doolittle sans changement
de pivot. Elle requiert n 1 soustractions et autant de multiplications et de divisions pour factoriser une
matrice d'ordre n.
Si l'on souhaite rsoudre le systme linaire Ax = b, avec b un vecteur de Rn , dans lequel A est une
matrice tridiagonale factorisable, on doit de plus, une fois la matrice factorise, rsoudre les systmes
Ly = b et U x = y . Les mthodes de descente et de remonte se rsument alors aux formules

y1 = b1 , yi = bi li yi1 , i = 2, . . . , n,
et

xn =

yn
1
, xj =
(yj vj xj+1 ) , j = n 1, . . . , 1,
un
uj

ce qui revient eectuer 2(n 1) soustractions, 2(n 1) multiplications et n divisions. La rsolution d'un
systme linaire tridiagonal ncessite donc un total de 8n 7 oprations, soit une importante diminution
par rapport au cas gnral.

Cas des matrices de Toeplitz


Les matrices de Toeplitz jouent un rle prpondrant dans de nombreuses applications en physique
mathmatique, en statistique ou en algbre, pour des problmes de convolution, d'quations intgrales,
d'approximation au sens des moindres carrs par des polynmes ou de sries temporelles stationnaires.
25. Llewellyn Hilleth Thomas (21 octobre 1903 - 20 avril 1992) tait un physicien et mathmaticien britannique. Il est
connu pour ses contributions en physique atomique, et plus particulirement la prcession de Thomas (une correction
relativiste qui s'applique au spin d'une particule possdant une trajectoire acclre) et le modle de ThomasFermi (un
modle statistique d'approximation de la distribution des lectrons dans un atome l'origine de la thorie de la fonctionnelle
de densit).

69

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

Dnition 2.8 (matrice de Toeplitz) Soit n un entier naturel non nul. Une matrice carre A d'ordre
n est dite de Toeplitz 26 s'il existe au plus 2n 1 scalaires distincts an+1 , . . . , a0 , . . . , an1 tels que

aij = aji , 1 i, j n, c'est--dire

a0
a1
..
.

A=

an+2
an+1

a1
a0
..
.

a2
a1
..
.

...
...
..
.

...
...

a1
a2

a0
a1

an1
an2

.. .
.

a1
a0

Toute matrice de Toeplitz A est dite persymtrique, c'est--dire que ses coecients sont symtriques
par rapport l'antidiagonale et qu'elle vrie par consquent l'galit

A = Jn AT Jn ,
o Jn est la matrice de permutation d'ordre n telle que

0
..
.
Jn =

0
1

...
.
..
.
..
0

0
.
..

.. .
.

.
..
...

La mthode de Bareiss [Bar69] permet la rsolution 27 d'un systme linaire dont la matrice est de
Toeplitz en la ramenant, la manire du procd d'limination de Gauss, celle d'un systme triangulaire
quivalent. Pour une matrice de Toeplitz A d'ordre n, elle construit, partir de A(0) = A, deux familles de
matrices (A(k) )0kn1 et (A(k) )0kn1 , telles que la matrice A(k) (resp. A(k) ), 1 k n1, possde
des lments nuls sur les k premires diagonales situes au-dessous (resp. au-dessus) de la diagonale
principale, les dernires (resp. premires) n k lignes de cette matrice formant une matrice rectangulaire
ayant encore une structure de Toeplitz. Plus explicitement, on a

A(k)

(0)

a0

.
..

.
..

(k)
ak1

..
.
(k)
an+1

(0)

a1

...

...

...

...

...

(1)

a0
..

..

..

(k+1)

a0

..
..

..

...

..

(k+1)

a1

(k)

a0
..

(k)
ak1

...

...

...

(k)

...
..
.
..
.

a1
..

..

...

(0)

an1
..
.
..
.

(k+1)
ank+1
,
(k)
ank

..

(k)

a1
(k)

a0

26. Otto Toeplitz (1er aot 1881 - 15 fvrier 1940) tait un mathmaticien allemand, principalement connu pour ses
travaux en analyse fonctionnelle.
27. D'autres mthodes directes, d'ecacit comparable, existent, comme celles de Levinson [Lev47] pour la rsolution
d'un systme linaire de Toeplitz Ax = b gnral, de Durbin [Dur60] pour la rsolution d'un systme Ax = (a1 . . . an )T
d'quations de YuleWalker d'ordre n ou de Trench [Tre64, Zoh69] pour le calcul de l'inverse d'une matrice de Toeplitz A,
qui possdent toutes, lorsque la matrice A est de plus symtrique ou hermitienne, un lien fort avec la thorie, formule par
Szeg [Sze39], des polynmes orthogonaux relativement une mesure sur le cercle unit.

70

2.4. INTERPRTATION MATRICIELLE DE L'LIMINATION DE GAUSS : LA FACTORISATION LU

et

A(k)

(0)

a0

0
..
.

a(k)
1

..

(k)
an+k
=
(k1)
an+k1

..

..

.
(0)
an+1

ak+1
..
.

(k)

...
..
.
..
.

(0)
a0

0
(0)
a0

...
..
.
..
.
..
.

...

(k1)
a1

...

a1

...

...
..
.
..
.

...

(k)
a1

...

..

...

..

..

...

...

...

...

..

..

(0)

(k)
an+1
..
.

(k)
ak+1

0
..
.
.

..
.

0
(0)
a0

Pour obtenir la matrice A(k) (resp. A(k) ), 1 k n 1, on modie les lignes k + 1 n (resp.
1 n k ) de la matrice A(k+1) (resp. A(k1) ), ce que l'on peut rsumer 28 dans les algorithmes de
transformation suivants
(0)
ai = ai , i = n + 1, . . . , n 1,
(k+1)

(k)

ai

(k+1)

= ai

(k1)

m(k) ai+k , m(k) =

ak

(k1)

, i = n + 1, . . . , k 1, 0, . . . , n 1 k,

a0

k = 1, . . . , n 1, (2.12)

(k1)

(k)

ai

(k1)

= ai

(k)

m(k) aik , m(k) =

ak

(k)

, i = n + 1 + k, . . . , 1, k + 1, . . . , n 1,

a0

k = 1, . . . , n 1. (2.13)
Les relations (2.12) demandent d'eectuer, pour chaque valeur considre de l'entier k , 2 n 2 k 1
soustractions, 2 n 2 k 1 multiplications et une division, tandis que les relations (2.13) ncessitent
2(n k 1) soustractions, 2(n k 1) multiplications et une division. L'application de la mthode
entrane donc un cot de 2 n2 5 n 3 soustractions, autant de multiplications et 2(n 1) divisions au
total.
Interprtes matriciellement, les relations (2.12) et (2.13) sur les coecients s'crivent comme

A(k) = A(k+1) m(k) Z (k) A(k1) , A(k) = A(k1) m(k) Z (k) A(k) , k = 1, . . . , n 1,

(2.14)

o l'on a introduit les matrices d'ordre n Z (k) , dnies 29 par zij


= ik,j , 1 i, j n. En posant
alors
A(k) = M (k) A, k = 1, . . . , n 1,
(2.15)
(k)

avec M (0) = In . Si le procd arrive son terme, ce qui est le cas si la matrice A vrie l'hypothse 30
du thorme 2.2, on montre en utilisant les relations de rcurrence, dduites de (2.14), satisfaites par les
matrices M (k) , k = 1, . . . , n 1 que la matrice M (n+1) est triangulaire infrieure et que ses lments
28. On observera avec ces formules que la mise en uvre de la mthode demande un eort particulier, en raison de
la structure de stockage spcique utilise pour les matrices de Toeplitz et du fait que les matrices A(k) et A(k) , k =
1, . . . , n 1, ne sont a priori pas des matrices de Toeplitz.
29. On remarquera que la multiplication par la gauche par Z (k) (resp. Z (k) ), 1 k n 1, d'une matrice d'ordre n
dcale les lignes de cette matrice de k positions vers le haut (resp. le bas).
30. On peut en eet montrer (voir [Bar69]) que le mineur principal d'ordre k, k = 1, . . . , n, de la matrice A vaut

a0

..
.

ak+1

...
..
.
...


ak1
.. = a a(1) . . . a(k+1) .
0 0
0
.
a0

71

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

diagonaux sont tous gaux 1. La matrice A(n+1) tant triangulaire suprieure, il dcoule de l'unicit
de la factorisation LU et de la dnition (2.15) que


1
L = M (n+1)
et U = A(n+1) .
et L
, on obtient, par des observations
D'autre part, en considrant la factorisation UL de A de matrices U
et un raisonnement similaires ceux faits prcdemment, que
1

= a0 1 A(n1) .
= a0 M (n1)
et L
U
En se servant de la proprit de persymtrie de la matrice A, il vient alors que

L = a0 1 Jn A(n1) Jn .
La mthode de Bareiss fournit par consquent la factorisation LU eective d'une matrice de Toeplitz, en
un nombre d'oprations arithmtiques bien infrieur celui de l'limination de Gauss.

Phnomne de remplissage des matrices creuses


On parle de matrice creuse (sparse matrix en anglais) lorsque le nombre de coecients non nuls
est petit devant le nombre total de coecients qu'elle contient (typiquement de l'ordre de n pour une
matrice carre d'ordre n, avec n grand). Par exemple, une matrice tridiagonale est une matrice creuse et
les grandes matrices bandes produites par les mthodes de rsolution approche d'quations aux drives
partielles sont, en gnral, creuses. Ce type de matrice apparat aussi dans de nombreuses applications
en analyse combinatoire, et plus particulirement en thorie des rseaux et en recherche oprationnelle
(il semble d'ailleurs que l'appellation soit due Markowitz 31 ).
On tire parti de faon avantageuse de la structure des matrices creuses en ne stockant que leurs
lments non nuls, ce qui constitue un gain substantiel de place en espace mmoire par rapport un
stockage classique ds que l'on travaille avec des matrices de grande taille. Dirents formats de stockage
existent et conduisent l'emploi d'algorithmes spcialiss, conus pour un choix de structure de donnes
particulier et dont la complexit est rduite par rapport aux algorithmes classiques, pour manipuler et
eectuer des oprations sur les matrices creuses.
Un des inconvnients de la factorisation LU appliques aux matrices creuses est qu'elle entrane
l'apparition de termes non nuls dans les matrices L et U des endroits o les lments de la matrice
initiale sont nuls. Ce phnomne, connu sous le nom de remplissage (ll-in en anglais), pose problme,
puisque le stockage utilis pour la matrice factoriser ne peut alors pas contenir sa factorisation. On
peut nanmoins anticiper ce remplissage en ralisant pralablement une factorisation symbolique de la
matrice, qui consiste dterminer le nombre et la position des nouveaux coecients crs au cours de
la factorisation eective. Une renumrotation des inconnues et quations du systme linaire associ
une matrice creuse, en utilisant par exemple l'algorithme de CuthillMcKee dans le cas d'une matrice
symtrique [CM69], peut aussi contribuer limiter le remplissage en diminuant la largeur de bande de
cette matrice (on pourra consulter l'article [GPS76] sur ce sujet). En ce sens, on voit que l'utilisation
d'une stratgie de pivot au cours de la factorisation aura toutes les chances d'avoir une inuence sur le
remplissage. On est dans ce cas conduit faire un compromis entre la stabilit numrique, apporte par la
slection de pivot, et la prservation du caractre creux (voir par exemple [DR79]).
AJOUTER un paragraphe sur la stratgie de choix de pivot labore par Markowitz pour rduire
localement le remplissage [Mar57]
algorithme simple et heuristique, stratgie locale au sens o elle minimise le remplissage chaque
tape sans prendre en compte le remplissage eectif globale (aprs n 1 tapes.
l'tape k , on considre la sous-matrice ... d'ordre n k et on note respectivement (VOIR NOTATION) r et c les vecteurs dont les lments composent (aprs permutation) la ligne et la colonne de
31. Harry Max Markowitz (n le 24 aot 1927) est un conomiste amricain, laurat du prix de la Banque de Sude en
sciences conomiques en mmoire d'Alfred Nobel en 1990. Il est un des pionniers de la thorie moderne du portefeuille, ayant
tudi dans sa thse, soutenue en 1952, comment la diversication permettait d'amliorer le rendement d'un portefeuille
d'actifs nanciers tout en en rduisant le risque.

72

2.5. AUTRES MTHODES DE FACTORISATION

cette matrice dans lesquelles se trouvent le pivot choisi (FAIRE UN DESSIN ?). L'limination revient
soustraire (VERIFIER la taille du bloc) la matrice cr T de la sous-matrice ...
Soit nz(v) le nombre de coecients non nuls du vecteur v . La stratgie de Markowitz consiste choisir
comme pivot chaque tape un lment non nul de la sous-matrice ... pour lequel le produit nz(c)nz(r)
est minimal. La valeur de ce produit correspondant au nombre de coecients non nuls de la matrice cr T
cette stratgie tend bien minimiser localement le remplissage.
On peut htivement penser que le produit sera minimal lorsque chacun des facteurs du produit est
minimal et qu'il n'y a donc choisir comme ligne et colonne de la sous-matrice celles qui contiennent le
moins d'lments. Cependant, et ceci est d'autant plus vrai si la matrice est trs creuse, l'lment ainsi
slectionn a toutes les chances d'tre nul et ne pourra donc servir de pivot.
Si la stabilit numrique est prise en compte, on doit rejeter, en plus des lments nuls, les lments
trop petits en valeurs absolue.

2.5

Autres mthodes de factorisation

Nous prsentons dans cette dernire section d'autres types de factorisation, adapts des matrices
particulires. Il s'agit de la factorisation LDMT d'une matrice carre, qui devient la factorisation LDLT
lorsque cette matrice est symtrique, de la factorisation de Cholesky 32 , pour une matrice symtrique
dnie positive, et de la factorisation QR, que l'on peut gnraliser aux matrices rectangulaires (dans
le cadre de la rsolution d'un problme aux moindres carrs par exemple) ou bien carres, mais non
inversibles.

2.5.1

Factorisation LDMT

Cette mthode considre une dcomposition sous la forme d'un produit d'une matrice triangulaire
infrieure, d'une matrice diagonale et d'une matrice triangulaire suprieure. Une fois obtenue la factorisation de la matrice A (d'un cot identique celui de la factorisation LU), la rsolution du systme linaire
(2.1) fait intervenir la rsolution d'un systme triangulaire infrieur (par une mthode de descente), puis
celle (triviale) d'un systme diagonal et enn la rsolution d'un systme triangulaire suprieur (par une
mthode de remonte), ce qui reprsente un cot de n2 + n oprations.

Proposition 2.9 Sous les hypothses du thorme 2.2, il existe une unique matrice triangulaire infrieure

L, une unique matrice diagonale D et une unique matrice triangulaire suprieure M T , les lments
diagonaux de L et M tant tous gaux 1, telles que
A = LDM T .
Dmonstration. Les hypothses du thorme 2.2 tant satisfaites, on sait qu'il existe une unique factorisation
LU de la matrice A. En choisissant les lments diagonaux de la matrice D gaux uii , 1 i n, (tous non nuls
puisque la matrice U est inversible), on a

A = LU = LDD1 U.

Il sut alors de poser M T = D1 U pour obtenir l'existence de la factorisation. Son unicit est une consquence
de l'unicit de la factorisation LU.


Si la matrice A considre est inversible, la factorisation LDMT permet galement de dmontrer


simplement le rsultat suivant, sans qu'il y ait besoin d'avoir recours au thorme 2.2.

Proposition 2.10 Soit A une matrice carre d'ordre n inversible admettant une factorisation LU. Alors,
sa transpose AT admet une factorisation LU.
32. Andr-Louis Cholesky (15 octobre 1875 - 31 aot 1918) tait un mathmaticien et ocier franais. Il inventa, alors
qu'il eectuait une carrire dans les services gographiques et topographiques de l'arme, une mthode pour la rsolution
des systmes d'quations linaires dont la matrice est symtrique dnie positive.

73

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

Dmonstration.

Puisque A admet une factorisation LU, elle admet aussi une factorisation LDMT et l'on a
AT = (LDM T )T = (M T )T DT LT = M DLT .

La matrice AT admet donc elle aussi une factorisation LDMT et, par suite, une factorisation LU.

LDMT

L'intrt de la factorisation
devient clair lorsque la matrice A est symtrique, puisque M = L
dans ce cas. La factorisation rsultante peut alors tre calcule avec un cot et un stockage environ
deux fois moindres que ceux d'une factorisation LU classique. Cependant, comme pour cette dernire
mthode, il n'est pas conseill 33 , pour des questions de stabilit numrique, d'utiliser cette factorisation
si la matrice A n'est pas symtrique dnie positive ou diagonale dominante. De manire gnrale, tout
systme linaire pouvant tre rsolu au moyen de la factorisation de Cholesky (introduite dans la section
2.5.2 ci-aprs) peut galement l'tre par la factorisation LDLT et, lorsque la matrice de ce systme est une
matrice bande (par exemple tridiagonale), il s'avre plus avantageux de prfrer la seconde mthode, les
extractions de racines carres requises par la premire reprsentant, dans ce cas particulier, une fraction
importante du nombre d'oprations arithmtiques eectues.

2.5.2

Factorisation de Cholesky

Une matrice symtrique dnie positive vriant les hypothses du thorme 2.2 en vertu du critre
de Sylvester (voir le thorme A.133), elle admet une factorisation LDLT , dont la matrice diagonale
D est de plus termes strictement positifs. Cette observation conduit une factorisation ne faisant
intervenir qu'une seule matrice triangulaire infrieure, appele factorisation de Cholesky [Cho, Ben24].
Plus prcisment, on a le rsultat suivant.

Thorme 2.11 ( factorisation de Cholesky ) Soit A une matrice symtrique dnie positive.

Alors, il existe une unique matrice triangulaire infrieure B , dont les lments diagonaux sont strictement
positifs, telle que

A = BB T .

Dmonstration. Supposons que la matrice A est d'ordre n. On sait, par le thorme A.133, que les dterminants des sous-matrices principales extraites Ak , 1 k n, de A (dnies par (2.11)), sont strictement positifs et
les conditions du thorme 2.2 sont vries. La matrice A admet donc une unique factorisation LU. Les lments
diagonaux de la matrice U sont de plus strictement positifs, car on a

k
Y

uii = det(Ak ) > 0, 1 k n.

i=1

En introduisant la matrice diagonale dnie par ()ii =

uii , 1 i n, la factorisation se rcrit

A = L1 U.

En posant B = L et C = 1 U , la symtrie de A entrane que BC = C T B T , d'o C(B T )1 = B 1 C T = In


(une matrice tant triangulaire suprieure, l'autre triangulaire infrieure et toutes deux coecients diagonaux
gaux 1) et donc C = B T . On a donc montr l'existence d'au moins une factorisation de Cholesky. Pour montrer
l'unicit de cette dcomposition, on suppose qu'il existe deux matrices triangulaires infrieures B1 et B2 telles
que
A = B1 B1 T = B2 B2 T ,
1
T
T 1
d'o B2 B1 = B2 (B1 ) . Il existe donc une matrice diagonale D telle que B2 1 B1 = D et, par consquent,
B1 = B2 D. Finalement, on a
B2 B2 T = B1 B1 T = B2 DDT B2 T ,
et donc D2 = In . Les coecients diagonaux d'une matrice de factorisation de Cholesky tant par hypothse
positifs, on a ncessairement D = In et donc B1 = B2 .


Pour la mise en uvre de cette factorisation, on procde de la manire suivante. On pose B =


(bij )1i,jn avec bij = 0 si i < j et l'on dduit alors de l'galit A = BB T que

aij =

n
X
k=1

min(i,j)

bik bjk =

bik bjk , 1 i, j n.

k=1

33. Dans les autres situations, on se doit de faire appel des stratgies de choix de pivot conservant le caractre symtrique
de la matrice factoriser, c'est--dire trouver une matrice de permutation P telle que la factorisation LDLT de P AP T soit
stable. Nous renvoyons aux notes de n de chapitre pour plus de dtails sur les approches possibles.

74

2.5. AUTRES MTHODES DE FACTORISATION

La matrice A tant symtrique, il sut, par exemple, que les relations ci-dessus soient vries pour j i
et l'on construit alors les colonnes de la matrice B partir de celles de A. En xant l'indice j 1 et en
faisant varier l'indice i de 1 n, on trouve

a11

(b11 )2 ,

d'o

b11

a21

= b11 b21 ,

d'o

b21

a21
,
b11

an1
,
b11

..
.
an1

..
.
= b11 bn1 , d'o

bn1

a11 ,

ce qui permet la dtermination de la premire colonne de B . Les coecients de la j ime colonne de B ,


2 j n, s'obtiennent en utilisant les relations
q
Pj1
ajj k=1 (bjk )2 ,
ajj
= (bj1 )2 + (bj2 )2 + + (bjj )2 ,
d'o
bjj
=
Pj1
aj+1j k=1 bjk bj+1k
aj+1j = bj1 bj+1 1 + bj2 bj+1 2 + + bjj bj+1 j , d'o bj+1j =
,
bjj
..
..
.
.
Pj1
anj k=1 bjk bnk
anj
= bj1 bn1 + bj2 bn2 + + bjj bnj ,
d'o bnj
=
,
bjj
aprs avoir pralablement dtermin les j 1 premires colonnes, le thorme 2.11 assurant que les
quantits sous les racines carres sont strictement positives. En pratique, on ne vrie d'ailleurs pas que
la matrice A est dnie positive, mais simplement qu'elle est symtrique, avant de dbuter la factorisation.
En eet, si la valeur trouve la k ime tape, 1 k n, pour la quantit (bkk )2 est ngative ou nulle,
c'est que A n'est pas dnie positive. Au contraire, si l'algorithme de factorisation arrive son terme,
cela prouve que A est dnie positive, car, pour toute matrice inversible B et tout vecteur v non nul,
on a

BB T v, v = kB T vk2 > 0.
Il est noter que le calcul du dterminant d'une matrice dont on connat la factorisation de Cholesky
est immdiat, puisque
!2
n
Y
bii .
det(A) = det(BB T ) = (det(B))2 =
i=1

Le nombre d'oprations ncessaires pour eectuer la factorisation de Cholesky d'une matrice A symtrique dnie positive d'ordre n par les formules ci-dessus est de 61 (n2 1)n additions et soustractions,
1
1
2
6 (n 1)n multiplications, 2 n(n 1) divisions et n extractions de racines carres, soit une complexit
favorable par rapport la factorisation LU de la mme matrice. Si l'on souhaite rsoudre un systme
linaire Ax = b associ, il faut ajouter n(n 1) additions et soustractions, n(n 1) multiplications et 2n
divisions pour la rsolution des systmes triangulaires By = b et B T x = y .

Exemple d'application de la factorisation de Cholesky. Considrons la matrice symtrique dnie


positive

1
A = 2
3

2
5
10

3
10 .
26

En appliquant de l'algorithme de factorisation de Cholesky, on obtient

1 0 0
1 2 3
T
A = BB = 2 1 0 0 1 4 .
3 4 1
0 0 1

75

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

2.5.3

Factorisation QR

Le principe de cette mthode n'est plus d'crire la matrice A comme le produit de deux matrices
triangulaires, mais comme le produit d'une matrice orthogonale (unitaire dans le cas complexe) Q, qu'il
est facile d'inverser puisque Q1 = QT , et d'une matrice triangulaire suprieure R. Pour rsoudre le
systme linaire (2.1), on eectue donc tout d'abord la factorisation de la matrice A, on procde ensuite
au calcul du second membre du systme Rx = QT b, qui est enn rsolu par une mthode de remonte.
Commenons par donner un rsultat d'existence et d'unicit de cette factorisation lorsque que la
matrice A est carre et inversible, dont la preuve s'appuie sur le fameux procd d'orthonormalisation de
GramSchmidt 34 .

Thorme 2.12 (factorisation QR) Soit A une matrice relle d'ordre n inversible. Alors il existe une

matrice orthogonale Q et une matrice triangulaire suprieure R, dont les lments diagonaux sont positifs,
telles que

A = QR.
Cette factorisation est unique.

La matrice A tant inversible, ses colonnes, notes a1 , . . . , an forment une base de Rn .


On peut alors obtenir une base orthonorme {q j }1jn de Rn partir de la famille {aj }1jn en appliquant le
procd d'orthonormalisation de GramSchmidt, i.e.
Dmonstration.

q1 =

ej+1 = aj+1
q

j
X

a1
,
ka1 k2

(q k , aj+1 ) q k , q j+1 =

k=1

ej+1
q
, j = 1, . . . , n 1.
ke
q j+1 k2

On en dduit alors que


aj =

j
X

rij q i ,

i=1

P
avec rjj = kaj j1
k=1 (q k , aj ) q k k2 > 0, rij = (q i , aj ) pour 1 i j 1, et rij = 0 pour j < i n, 1 j n.
En notant R la matrice triangulaire suprieure (inversible) de coecients rij , 1 i, j n, et Q la matrice
orthogonale dont les colonnes sont les vecteurs q j , 1 j n, on vient d'tablir que A = QR.
Pour montrer l'unicit de la factorisation, on suppose que
A = Q1 R1 = Q2 R2 ,

d'o

QT2 Q1 = R2 R1 1 .

En posant T = R2 R1 1 , on a T T T = QT2 Q1 (QT2 Q1 )T = In , qui est une factorisation de Cholesky de la matrice


identit. Ceci entrane que T = In , par unicit de cette dernire factorisation (tablie dans le thorme 2.11). 

Le caractre constructif de la dmonstration ci-dessus fournit directement une mthode de calcul de


la factorisation QR utilisant le procd de GramSchmidt. L'algorithme 13 propose une mise en uvre de
cette mthode pour le calcul de la factorisation QR d'une matrice A d'ordre n inversible. Cette approche
ncessite d'eectuer n2 (n 1) additions et soustractions, n3 multiplications, n2 divisions et n extractions
de racines carres pour le calcul de la matrice Q, soit de l'ordre de n3 oprations.
En pratique cependant, et plus particulirement pour les problmes de grande taille, la propagation
des erreurs d'arrondi entrane une perte d'orthogonalit entre les les vecteurs qi calculs, ce qui fait que
la matrice Q obtenue n'est pas exactement orthogonale. Ces instabilits numriques sont dues au fait que
la procdure d'orthonormalisation produit des valeurs trs petites, ce qui pose problme en arithmtique
en prcision nie [Ric66]. Il convient alors de recourir une version plus stable de l'algorithme, appele
procd de GramSchmidt modi (voir l'algorithme 14).
Cette modication consiste en un rordonnancement des calculs de faon ce que, ds qu'un vecteur
de la base orthonorme est obtenu, tous les vecteurs restants orthonormaliser lui soient rendus orthogonaux. Une dirence majeure concerne alors le calcul des coecients rij , puisque la mthode  originale 
34. Erhard Schmidt (13 janvier 1876 - 6 dcembre 1959) tait un mathmaticien allemand. Il est considr comme l'un
des fondateurs de l'analyse fonctionnelle abstraite moderne.

76

2.5. AUTRES MTHODES DE FACTORISATION

Algorithme 13 : Algorithme de factorisation QR d'une matrice inversible par le procd d'orthonormalisation de GramSchmidt.
Entre(s) : le tableau contenant la matrice A.
Sortie(s) : les tableaux contenant la matrice orthogonale Q et la matrice triangulaire suprieure
R.
pour j = 1 n faire
Q(1 : n, j) = A(1 : n, j)
pour i = 1 j 1 faire
R(i, j) = Q(1 : n, i)T Q(1 : n, j)
Q(1 : n, j) = Q(1 : n, j) R(i, j) Q(1 : n, i)
n

n

R(j, j) = kQ(1 : n, j)k2


Q(1 : n, j) = Q(1 : n, j)/R(j, j)

fait intervenir une colonne aj de la matrice factoriser alors que sa variante utilise un vecteur dj partiellement orthogonalis. Pour cette raison, et malgr l'quivalence mathmatique entre les deux versions
du procd, la seconde est prfrable la premire lorsque les calculs sont eectus en arithmtique
virgule ottante. Celle-ci requiert 12 (2n + 1)n(n 1) additions et soustractions, n3 multiplications, n2
divisions et n extractions de racines carres pour la factorisation d'une matrice inversible d'ordre n, soit
encore de l'ordre de n3 oprations au total.

Algorithme 14 : Algorithme de factorisation QR d'une matrice inversible par le procd d'orthonormalisation de GramSchmidt modi.
Entre(s) : le tableau contenant la matrice A.
Sortie(s) : les tableaux contenant la matrice orthogonale Q et la matrice triangulaire suprieure
R.
pour j = 1 n faire
Q(1 : n, j) = A(1 : n, j)
n
pour i = 1 n faire

R(i, i) = kQ(1 : n, i)k2


Q(1 : n, i) = Q(1 : n, i)/R(i, i)
pour j = i + 1 n faire
R(i, j) = Q(1 : n, i)T Q(1 : n, j)
Q(1 : n, j) = Q(1 : n, j) R(i, j) Q(1 : n, i)

n

n

Indiquons prsent comment raliser la factorisation QR d'une matrice non inversible ou rectangulaire.
Supposons pour commencer que la matrice A est d'ordre n et non inversible. L'ensemble {a1 , . . . , an }
des colonnes de A forment alors une famille lie de vecteurs de Rn et il existe un entier k , 1 < k n,
tel que la famille {a1 , . . . , ak } est libre et engendre ak+1 . Le procd de GramSchmidt utilis pour la
factorisation de cette matrice va donc s'arrter l'tape k + 1, puisque l'on aura

kak+1

k
X

(q l , ak+1 ) q l k2 = 0.

l=1

On commence donc par changer les colonnes de A pour amener les colonnes libres aux premires positions.
Ceci revient multiplier A par une matrice de permutation P telle que les rang(A) premires colonnes de
A = AP sont libres, les n rang(A) colonnes restantes tant engendres par les rang(A) premires (cette
permutation peut d'ailleurs se faire au fur et mesure du procd d'orthornormalisation, en eectuant une
77

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

permutation circulaire de la k ime la nime colonne ds que l'on trouve une norme nulle). On applique
alors le procd de GramSchmidt jusqu' l'tape rang(A) pour construire une famille orthonorme
{q 1 , . . . , q rang(A) } que l'on complte ensuite par des vecteurs q rang(A)+1 , . . . , q n pour obtenir une base
de orthonorme de Rn . On note Q la matrice carre d'ordre n ayant ces vecteurs pour colonnes. On en
dduit qu'il existe des scalaires rij tels que

i =
a

Pi
j=1 rij q j

si 1 i rang(A),

Prang(A)

si rang(A) + 1 i n,

j=1

rij q j

avec rii > 0, 1 i rang(A), et on note R la matrice carre d'ordre n telle que

r11

..
.
R=
.
..

.
..
0

...
..
.
..
.

...

...

rrang(A) rang(A)

...

...

...

...

...

r1n
..
.

rrang(A) n
.

..

.
0

Considrons ensuite une matrice A rectangulaire de taille m n et supposons que m < n. Dans ce
cas, on a toujours ker(A) 6= {0} et tout systme linaire associ A admet une innit de solutions.
On suppose de plus que A est de rang maximal, sinon il faut lgrement modier l'argumentaire qui
suit. Puisque les colonnes de A sont des vecteurs de Rm et que rang(A) = m, les m premires colonnes
de A sont, d'ventuelles permutations de colonnes prs, libres. On peut donc construire une matrice
orthogonale Q d'ordre m partir de {a1 , . . . , am } par le procd de GramSchmidt. D'autre part, les
colonnes am+1 , . . . , an de A sont engendres par les colonnes de Q et il existe donc des coecients rij
tels que
Pi
j=1 rij q j si 1 i m,
ai = P
m
si m + 1 i n,
j=1 rij q j
avec rii > 0, 1 i m. On note alors R la matrice de taille m n dnie par

R=

r11
0
..
.
0

... ... ...


..
.
..
.
. ..
. . . 0 rmm

...

...

r1n
..
.

.. .
.
rmn

Faisons maintenant l'hypothse que m > n, qui est le cas le plus rpandu en pratique. Pour simplier,
on va supposer que ker(A) = {0}, c'est--dire que rang(A) = n (si ce n'est pas le cas, il faut procder
comme dans le cas d'une matrice carre non inversible). On commence par appliquer le procd de Gram
Schmidt aux colonnes a1 , . . . , an de la matrice A pour obtenir la famille de vecteurs q 1 , . . . , q n , que l'on
complte par des vecteurs q n+1 , . . . , q m pour arriver une base orthonorme de Rm . On note alors Q la
matrice carre d'ordre m ayant pour colonnes les vecteurs qj , j = 1, . . . , m. On a par ailleurs

aj =

j
X

rij q j , 1 j n,

i=1

78

2.5. AUTRES MTHODES DE FACTORISATION

avec rii > 0, 1 i n. On pose alors

r11

..
.
R=
.
..

.
..
0

...
..
.
..
.

...

r1n
..
.

rnn
,

..
.
0

qui est une matrice de taille m n.


Malgr l'amlioration apporte par le procd de GramSchmidt modi, cette mthode reste relativement peu utilise en pratique pour le calcul d'une factorisation QR, car on lui prfre la mthode
de Householder 35 [Hou58], dont le principe est de multiplier la matrice A par une suite de matrices de
transformation trs simples, dites de Householder, pour l'amener progressivement sous forme triangulaire
suprieure.

Dnition 2.13 (matrice de Householder) Soit v une vecteur non nul de Rn . On appelle matrice
de Householder associe au vecteur de Householder v , et on note H(v), la matrice dnie par
H(v) = In 2

vv T
.
vT v

(2.16)

On pose de plus H(0) = In , ce qui permet de considrer la matrice identit comme une matrice de
Householder.

Les matrices de Householder possdent des proprits intressantes, que l'on rsume dans le rsultat
suivant.

Lemme 2.14 Soit v un vecteur non nul de Rn et H(v) la matrice de Householder qui lui est associe.
Alors, H(v) est symtrique et orthogonale. De plus, si x est un vecteur de Rn et e est un vecteur unitaire
tels que x 6= kxk2 e, on a

H (x kxk2 e) x = kxk2 e.
Dmonstration.

Il est facile de voir que H(v) = H(v)T . Par ailleurs, on vrie que

H(v)2 = In 4

kvk2 2 vv T
vv T
vv T vv T
vv T
= In 4
= In .
2 +4
4
2 +4
kvk2
kvk2
kvk2
kvk2 4

Sans perte de gnralit, on peut ensuite supposer que e est le premier vecteur de la base canonique {ei }1in
de Rn et l'on a
H (x kxk2 e1 ) x

x2

(x kxk2 e1 ) (x kxk2 e1 )T
x
(x kxk2 e1 )T (x kxk2 e1 )
(x kxk2 e1 ) kxk2 2 kxk2 x1

x2

kxk2 e1 .

2 kxk2 2 2 kxk2 x1

La matrice de Householder H(v) est la matrice de la symtrie orthogonale par rapport l'hyperplan
orthogonal v (voir la gure 2.1). Les matrices de Householder peuvent par consquent tre utilises
pour annuler certaines composantes d'un vecteur x de Rn donn, comme le montre l'exemple suivant.

35. Alston Scott Householder (5 mai 1904 - 4 juillet 1993) tait un mathmaticien amricain. Il s'intressa aux applications
des mathmatiques, notamment en biomathmatiques et en analyse numrique.

79

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

H(v)x

x = v + w,
w Vect{v}

Figure 2.1:

Transformation d'un vecteur x de l'espace par la matrice de Householder H(v).

Exemple de transformation
d'un vecteur par une matrice de Householder. Considrons le

vecteur x = 1

et choisissons e = e3 . On a kxk2 = 2, d'o



5
1 3 1
0
1
0
1
1
1
5
3 1

et H(v)x =
.
v = x + kxk2 e3 = , H(v) =
2
3
6 3 3 3 3
1 1 3
5
0
1
1

Dcrivons prsent la mthode de Householder pour la factorisation d'une matrice relle A d'ordre n
(on peut l'tendre sans grande dicult aux matrices complexes). Dans ce cas, celle-ci revient trouver
n 1 matrices H (k) , 1 k n 1, d'ordre n telles que H (n1) . . . H (2) H (1) A soit triangulaire suprieure.
On procde pour cela de la manire suivante. On commence par poser A(1) = A. la k ime tape,
1 k n 2, de la mthode, la rpartition des zros dans la matrice A(k) est identique celle obtenue
au mme stade de l'limination de Gauss avec change. On doit donc mettre zro des coecients
sous-diagonaux de la k ime colonne de A(k) .


P
(k)
(k)
(k) le vecteur de Rnk+1 contenant les lments aik , k i n, de A(k) . Si ni=k+1 aik = 0,
Soit a


Pn
(k)
alors A(k) est dj de la  forme  de A(k+1) et on pose H (k) = In . Si i=k+1 aik > 0, alors il existe,

(k) de Rnk+1 , donn par


en vertu du lemme 2.14, un vecteur v
(nk+1)

(k) = a
(k) k
1
v
a(k) k2 e

(2.17)

(nk+1)

1
o e
dsigne le premier vecteur de la base canonique de Rnk+1 , tel que le vecteur H(
v (k) )
a(k)
ait toutes ses composantes nulles l'exception de la premire. On pose alors

0


..
Ik1
0
.
(k)
(k)
H (k) =
=
H(v
),
avec
v
=
(2.18)

Rn .
0
H(
v (k) )
0
(k)
v
On ritre ces oprations jusqu' obtenir la matrice triangulaire suprieure

A(n) = H (n1) . . . H (1) A(1) ,


T
et alors A(n) = R et Q = H (n1) . . . H (1)
= H (1) . . . H (n1) . Notons au passage que nous n'avons
suppos A inversible et qu'aucun n'change de colonne n'a t ncessaire comme avec le procd d'orthonormalisation de GramSchmidt.
Revenons sur le choix du signe dans (2.17) lors de la construction du vecteur de Householder la
k ime tape. Dans le cas rel, il est commode de choisir le vecteur de telle manire ce que le coecient
80

2.5. AUTRES MTHODES DE FACTORISATION


(k+1)

(k)
akk
soit positif. Ceci peut nanmoins conduire d'importantes erreurs d'annulation si le vecteur a
(nk+1)
1
est  proche  d'un multiple positif de e
, mais ceci peut s'viter en ayant recours la formule
(k)
suivante dans le calcul de v
Pn
(k) 2
(k) 2
i=k+1 aik
a
1
k
a(k) k22
(k)
v1 =
=
.
(k)
(k)
a
1 + k
a(k) k2
a
1 + k
a(k) k2
Cette mthode s'applique de la mme manire aux matrices rectangulaires, quelques modications
videntes prs. Par exemple, dans le cas d'une matrice de taille m n avec m > n, la mthode construit
n matrices H (k) , 1 k n, d'ordre m telles que la matrice A(n+1) est de la forme

A(n+1)

(n+1)
a11

.
..
=
.
..

.
..
0

(n+1)

...
..
.
..
.

a1n
..
.

...

(n+1)
ann
.
0

..
.

Une des raisons du succs de la mthode de Householder est sa grande stabilit numrique. Elle ne
modie en eet pas le conditionnement du problme, puisque

cond2 (A(n) ) = cond2 (A), A Mn (R),


en vertu de la proposition A.138. De plus, la base contenue dans la matrice Q est numriquement orthonormale et ne dpend pas du degr d'indpendance des colonnes de la matrice A, comme ceci etait le
cas pour le procd de GramSchmidt. Ces avantages sont cependant temprs par un cot sensiblement
suprieur.
Abordons pour nir quelques aspects de la mise en uvre de la mthode de Householder. Dans cette
dernire, il faut absolument tenir compte de la structure particulire des matrices H (k) , 1 k n 1
intervenant dans la factorisation. En particulier, il s'avre qu'il n'est pas ncessaire d'assembler une
matrice de Householder pour en eectuer le produit avec une autre matrice. Prenons en eet l'exemple
d'une matrice M d'ordre m quelconque que l'on veut multiplier par la matrice H(v) avec v un vecteur
de Rm . En utilisant (2.16), on obtient que 36

H(v)M = M

2
v(M T v)T .
kvk22

Ainsi, calculer le produit H(v)M se ramne grosso modo eectuer un produit scalaire (le coecient
2
T
= kvk
2 ), un produit matrice-vecteur (le produit w = M v ), un produit tensoriel de deux vecteurs (la
2

matrice v( w)T ), suivis de la dirence de deux matrices, ce qui ncessite au total 2m2 1 additions et
soustractions, 2(m + 1)m multiplications et une division. Ce rsultat est comparer aux 2m 1 additions
et soustractions, m(m + 2) multiplications et une division requises pour la contruction de H(v), ajoutes
aux m2 (m 1) additions et soustractions et m3 multiplications ncessaires au produit de deux matrices
quelconques.
Une consquence de cette remarque est que l'on n'a, a priori, pas stocker, ni mme calculer, la
matrice Q lors de la rsolution d'un systme linaire via une factorisation QR, puisque l'on a seulement
besoin chaque tape k , k = 1, . . . , n dans le cas d'une matrice A d'ordre n, d'eectuer le produit de la
matrice H (k) avec A(k) et de mettre jour le second membre du systme considr. Le cot total de ces
36. Par des considrations analogues, on trouve que
M H(v) = M

2
(M v)v T .
kvk22

81

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

oprations est de 13 (2n2 + 7n + 3)(n + 1) additions et soustractions, 23 (n + 3)(n + 2)(n + 1) multiplications


et n + 1 divisions, soit environ le double de celui de l'limination de Gauss.
Si l'on a besoin de connatre explicitement la matrice Q, il est possible de l'obtenir par un procd
consistant, partir de la matrice Q(1) = In , utiliser soit la formule de rcurrence

Q(k+1) = Q(k) H (k) , k = 1, . . . , n 1,


et l'on parle alors d'accumulation directe, soit la formule

Q(k+1) = H (nk) Q(k) , k = 1, . . . , n 1,


correspondant une accumulation rtrograde. En se rappelant qu'une sous-matrice principale d'ordre
k 1 correspond l'identit dans chaque matrice H (k) (voir (2.18)), 1 k n 1, on constate que les
matrices Q(k) se  remplissent  graduellement au cours des itrations de l'accumulation rtrograde, ce
qui peut tre exploit pour diminuer le nombre d'oprations requises pour eectuer le calcul, alors que la
matrice Q(2) est, au contraire, pleine l'issue de la premire tape de l'accumulation directe. Pour cette
raison, la version rtrograde du procd d'accumulation est la solution la moins onreuse et donc celle
privilgier pour le calcul eectif de Q.
Notons qu'on peut encore parvenir la factorisation QR d'une matrice en utilisant les matrices de
rotation de Givens 37 [Giv58] pour annuler les coecients sous-diagonaux de la matrice factoriser, en la
parcourant ligne par ligne ou colonne par colonne. Ces matrices orthogonales particulires interviennent
dans la mthode de Jacobi 38 pour le calcul des valeurs propres d'une matrice symtrique, prsente dans
le chapitre 4.

2.6

Stabilit numrique des mthodes directes *

ECRIRE INTRO, explications sur les notations (n ) et le sens des ingalits entre matrices

2.6.1

Rsolution des systmes triangulaires *

l'analyse d'erreur est trs simple et l'on conclut que les algorithmes de substitution sont extrmement
stables
en pratique, l'erreur directe est souvent bien plus petite que ne le laissent esprer les majorations
faisant intervenir le conditionnement
sources d'explications :
- la prcision du rsultat dpend fortement du second membre du systme rsoudre
- une matrice triangulaire peut-tre beaucoup mieux ou beaucoup moins bien conditionne que sa
transpose
- l'utilisation d'un choix de pivot pour lors de la factorisation LU, de Cholesky ou QR d'une matrice
peut fortement amliorer le conditionnement des systmes triangulaires rsultants
On donne un rsultat pour la mthode de remonte seulement, analogue pour la mthode de descente.

, calcule par l'algorithme implmentant les formules 2.8 excute en


Thorme 2.15 La solution x
arithmtique en prcision nie, d'un systme linaire triangulaire suprieur U x = b satisfait

(
(U + U )
x = b, avec |uij |

ni+1 |uij |
|ij| |uij |

si i = j
si i 6= j

, 1 i j n.

Thorme 2.16 Soit le systme linaire T x = b, avec T une matrice trinagulaire d'ordre n inversible,
vrie
que l'on rsoud par une mthode de substitution. La solution calcule x
(T + T )
x = b, |T | n |T | .
37. James Wallace Givens, Jr. (14 dcembre 1910 - 5 mars 1993) tait un mathmaticien amricain et l'un des pionnier
de l'informatique et du calcul scientiques. Il reste connu pour les matrices de rotation portant son nom.
38. Carl Gustav Jacob Jacobi (10 dcembre 1804 - 18 fvrier 1851) tait un mathmaticien allemand. Ses travaux portrent
essentiellement sur l'tude des fonctions elliptiques, les quations direntielles et aux drives partielles, les systmes
d'quations linaires et la thorie des dterminants. Un grand nombre de rsultats d'algbre et d'analyse portent ou utilisent
son nom.

82

2.6. STABILIT NUMRIQUE DES MTHODES DIRECTES *

2.6.2

limination de Gauss et factorisation LU *

REPRENDRE l'analyse d'erreur de l'limination de Gauss combine celles des calculs de produits
scalaires et des mthodes de substitution pour la rsolution des systmes triangulaires.
Toutes les variantes de la mthode conduisent aux mmes bornes d'erreur, on ralise celle de la
mthode de Doolittle sans choix de pivot (car ceci revient appliquer l'limination sur une matrice dans
laquelle des lignes et/ou des colonnes ont t permutes)
b et U
b calcules satisfont (lii = 1)
Les matrices L



k1
k


X
X


lkr |
lkr u
rj u
kj k
urj | , j = k, . . . , n,
akj


r=1

r=1



k1
k


X
X



lir u
lir |
rj k
urj | , i = k + 1, . . . , n.
aik


r=1

r=1

On dduit des ces ingalits le rsultat d'analyse inverse suivant pour la factorisation LU.

Thorme 2.17 Soit A une matrice d'ordre n pour laquelle le procd d'limination de Gauss peut tre
b et U
b de la factorisation obtenues vrient
men son terme. Alors les matrices L

b .
bU
b = A + A, |A| n b
L U
L
Avec quelques eorts supplmentaires, on arrive au rsultat suivant pour l'erreur inverse sur la solution
de Ax = b.

Thorme 2.18 Soit A une matrice d'ordre n pour laquelle le procd d'limination de Gauss conduit
b et U
b . La solution calcule x
b est telle que
une factorisation LU avec les matrices L

b
(A + A)b
x = b, |A| 2n b
L U
A VOIR : dans [Hig02], th. 9.3 p 193, on a 3n en place de 2 n .
Dmonstration.

A ECRIRE

INTERPRETATION DU RESULTAT : on voudrait |A| u |A|, mais comme les lments de la


matrice subissent jusqu' n oprations arithmtiques, on ne peut esprer mieux qu'une estimation de la
b
b
forme |A| cn u |A|
cn une constante dpendant de n. Une telle borne est obtenue si L et U sont
, avec
b car alors
b = b
LU
L U
telles que b



b = b
b = |A + A| |A| + n b
b ,
b
L U
LU
L U

b
d'o b
L U

1
1n

|A| et donc
|A|

2 n
|A| .
1 n

Une classe de matrices pour lesquelles ceci est vri est celle des matrices totalement positives (matrices
dont tous les mineurs sont (strictement ?) positifs 39 ). Si A est totalement positive, on peut montrer
b et de U
b sont positifs si u est susamment petit.
[BP76] que les coecients de L

b . Sans
La stabilit de l'limination est donc dtermine par la taille des lments de la matrice b
L U

b k/kAk peut devenir arbitrairement grand.
choix de pivot durant l'limination, le rapport k b
L U

A.

Avec une stratgie de pivot partiel, on peut montrer que L est petite et U est borne relativement

39. VERIFIER la ref : Si A est une matrice totalement positive dont les mineurs principaux sont tous strictement positifs,
alors on montre facilement (voir [Cry73]) qu'elle admet une factorisation LU avec L 0 et U 0.

83

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

On souhaiterait par consquent obtenir un contrle de la quantit |A| en fonction de |A|. Ce type
d'analyse d'erreur fait traditionnellement intervenir le facteur de croissance de la mthode, qui est la
quantit
(k)
max aij
1i,j,kn
n =
.
(2.19)
max |aij |
1i,jn

En utilisant la majoration

(i)
|uij | = aij n max |aij | ,
i,j

on obtient le rsultat classique, d Wilkinson [Wil61] (A VOIR car pas trouv dans l'article), suivant.

Thorme 2.19 Soit A une matrice d'ordre n pour laquelle on suppose que l'limination de Gauss avec
de la solution du problme Ax = b. Alors on a
une stratgie de pivot partiel calcule une approximation x
(A + A)
x = b, kAk 2n2 n n kAk .
A VOIR : dans [Hig02], th. 9.5 p 194, on a 3n en place de 2 n .

Ajouter des remarques/rsultats sur les classes de matrices pour lesquelles il n'est pas utile de chercher
un pivot (le facteur de croissance de la mthode d'limination sans change est un O(1)) : symtriques
dnies positives, diagonale dominante (par lignes ou colonnes), totalement positives [BP76]
On peut par ailleurs montrer que l'on a n 2n1 pour la stratgie de pivot partiel 40 (malgr ce rsul1
1
1
tat, on constate en pratique que le facteur de croissance est gnralement petit), n n 2 (2 3 2 . . . n n1
1
1
3
c n 4 log n+ 2 pour celle de pivot total (majorant pas atteignable, voir Wilkinson), n 12 n 4 log n pour le
rook pivoting [Fos97].

2.6.3

Factorisation de Cholesky *

REPRENDRE L'analyse d'erreur pour cette factorisation est similaire celle pour la factorisation
LU. En utilisant le lemme 8.4 dans [Hig02], on obtient


i
i


X
X


bik bjk ,
bik bjk i
aij


k=1

k=1

et, par une modication,



i
i


X
X

b2 i+1
b2 .
aii
ik
ik


k=1

k=1

On a alors les rsultats de stabilit inverse suivants, analogues aux thormes ref et ref :
eectivement calcule est telle que B
T B
= A + A, avec |A| n+1 B
b B
bT
- la matrice B
T
b
b
b calcule est telle que (A + A)b
- la solution x
x = b, avec |A| 3n+1 B B
Ces rsultats impliquent la parfaite stabilit inverse en norme de la factorisation de Cholesky. On a
en eet (A VOIR)

2
2
k|B| B T k2 = k|B|k2 n kBk2 = n kAk2 ,

b est
dont l'analogue pour B
T
b B
b k 2
k B

n
kAk2 ,
1 nn+1

40. Cette borne est atteinte pour les matrices de la forme ...

.
..
1

84

0
..
.
..

...

...
..
.
..
.
..
.
...

0
..
.
0
..
.
1

1
..
.

.. .
.

..
.
1

2.7. NOTES SUR LE CHAPITRE

et donc

kAk2 8n(n + 1)u kAk2 ou bien 4n(3n + 1)u kAk2


(la premire en supposant que 2n(n + 1)u 1 (n + 1)u, voir Wilkinson 1968)
Note : la dernire matrice A n'est gnralement pas symtrique, car les matrices de l'analyse d'erreur
inverse pour la rsolution des deux systmes triangulaires ne sont pas les transposes l'une de l'autre.

2.6.4

Factorisation QR **

stabilit inverse avec une meilleure erreur inverse que celle de la factorisation LU (REF ?)
Remarque sur la stabilit du procd d'orthogonalisation de GramSchmidt : analyse des direntes
versions du procd dans [Bj94]

2.7

Notes sur le chapitre

Si la mthode d'limination est attribue Gauss qui l'utilisa en 1809 dans son ouvrage Theoria
motus corporum coelestium in sectionibus conicis solem ambientium pour la rsolution de problmes aux

moindres carrs, celle-ci apparat dj dans le huitime chapitre d'un livre anonyme chinois de mathmatiques intitul  Les neuf chapitres sur l'art mathmatique  ( en sinogrammes traditionnels,
Ji
uzh
ang Sunsh en pinyin) et compil entre le deuxime et le premier sicle avant J.-C., avec un exemple
de rsolution d'un systme de cinq quations cinq inconnues. On doit Turing son interprtation comme
un procd de factorisation de matrice [Tur48]. Pour de plus amples et nombreux dtails historiques, on
pourra consulter la rfrence [Grc11a].
Cette mthode fut par ailleurs le premier algorithme sujet l'analyse de sa sensibilit aux erreurs
d'arrondi. Aprs une tentative initiale concluant de manire pessimiste l'instabilit du procd [Hot43],
plusieurs articles [NG47, FHW48, Tur48], considrs comme l'origine de l'analyse numrique  moderne  (voir [Grc11b]), apportrent des preuves thoriques et empiriques de son bon comportement dans
la plupart des cas. L'analyse d'erreur inverse de la mthode telle qu'on la connat aujourd'hui est l'uvre
de Wilkinson [Wil61].
Enn, si des stratgies de choix de pivot taient dj couramment utilises dans les annes quarante
(voir par exemple [NG47]), les dnominations de  pivot total  et  pivot partiel  semblent dues
Wilkinson [Wil61].
Applique une matrice symtrique dnie positive, la mthode de Bareiss est un avatar d'un algorithme dvelopp par Schur 41 [Sch17], motiv par des travaux de Toeplitz et Carathodory 42 sur le
problme des moments trigonomtriques, pour vrier qu'une fonction dnie par une srie entire est
analytique et borne sur le disque unit (voir [KS95] pour beaucoup plus de dtails).
Il existe principalement deux approches pour obtenir une factorisation symtrique numriquement
stable d'une matrice symtrique quelconque. L'une, due Parlett et Reid [PR70], conduit une dcomposition de la forme
P AP T = LT LT ,
o L est une matrice triangulaire infrieure, dont les lments vrient lii = 1 et |lij | 1, j < i, et T
est une matrice tridiagonale. Une version amliore de l'algorithme de factorisation initialement propos,
3
introduite par Aasen [Aas71], requiert environ n6 additions et multiplications pour y parvenir. Une fois
la matrice symtrique A factorise, la solution du systme linaire Ax = b est obtenue en rsolvant
successivement
Lz = P b, T y = z, LT w = y, x = P w,
41. Issai Schur (Is&ai
@ Xur en russe, 10 janvier 1875  10 janvier 1941) tait un mathmaticien russe qui travailla surtout
en Allemagne. Il s'intressa la combinatoire et la reprsentation des groupes et a donn son nom dirents concepts
et rsultats mathmatiques.
42. Constantin Carathodory ( en grec, 13 septembre 1873 - 2 fvrier 1950) tait un mathmaticien grec. Il apporta des contributions signicatives la thorie des fonctions d'une variable relle, au calcul des variations
et la thorie de la mesure. Il t aussi uvre de pionnier en dveloppant la formulation axiomatique de la thermodynamique
selon une approche purement gomtrique.

85

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

pour un cot d'environ 2 n2 oprations 43 . Une autre manire de procder consiste en la construction, par
une stratgie de pivot diagonal total [BP71], d'une matrice de permutation P telle que

P AP T = LDLT ,
o D est une matrice diagonale par blocs 44 . L'analyse de cette dernire mthode de factorisation (voir
3
[Bun71]) montre que sa stabilit est trs satisfaisante, mais qu'elle ncessite d'eectuer jusqu' n6 comparaisons pour le choix des pivots, ce qui la rend coteuse. Se basant sur un principe analogue la
stratgie de pivot partiel pour la factorisation LU, Bunch et Kaufman [BK77] inventrent un algorithme
permettant d'arriver une telle factorisation de manire stable en ralisant seulement de l'ordre de n2
comparaisons.
Schmidt introduisit en 1907, dans un article sur les quations intgrales [Sch07], le procd aujourd'hui
dit de GramSchmidt pour construire, de manire thorique, une famille orthonorme de fonctions
partir d'une famille libre innie. Faisant explicitement rfrence des travaux de Gram [Gra83] sur le
dveloppement en srie de fonctions par des mthodes de moindres carrs, il lui en attribua l'ide 45 . Il
apparat cependant que cette mthode est bien plus ancienne. Laplace 46 se servit en eet ds 1812 d'une
version oriente ligne du procd de GramSchmidt modi, sans faire de lien avec l'orthogonalisation,
pour calculer les masses des plantes Jupiter et Saturne partir d'un systme d'quations normales issu
de donnes fournies par Bouvard 47 et estimer l'cart type de la distribution de l'erreur sur la solution en
supposant que le bruit sur les observations astronomiques suit une loi normale (voir  Sur l'application du
calcul des probabilits la philosophie naturelle  dans [Lap20], premier supplment). On le retrouve par
la suite dans un compte-rendu de Bienaym 48 [Bie53], dans lequel une technique propose par Cauchy 49
pour interpoler des sries convergentes [Cau37] est interprte comme une mthode d'limination de Gauss
pour la rsolution de systmes linaires de la forme Z T Ax = Z T b, avec A et Z des matrices de Mm,n (R),
x et b des vecteurs de Rn et Rm respectivement, et ensuite amliore au moyen d'un ajustement par la
mthode des moindres carrs.

Rfrences
[Aas71]
[AM87]
[And+99]

[Bar69]

J. O. Aasenn. On the reduction of a symmetric matrix to tridiagonal form. BIT, 11(3):233242,


1971. doi: 10.1007/BF01931804 (cited on page 85).
S. C.

Althoen

and R.

E.

GaussJordan reduction: a brief history. Amer. Math.


10.2307/2322413 (cited on page 55).

McLaughlin.

Monthly, 94(2):130142, 1987.

doi:

Anderson,

Z. Bai, C. Bischof, S. Blackford, J. Demmel, J. Dongarra, J. Du Croz, A.


S. Hammarling, A. McKenney, and D. Sorensen. LAPACK users' guide. SIAM,
third edition, 1999. doi: 10.1137/1.9780898719604 (cited on page 62).
Greenbaum,

E. H.

Bareiss.

Numerical solution of linear equations with Toeplitz and vector Toeplitz matrices.
doi: 10.1007/BF02163269 (cited on pages 70, 71).

Numer. Math., 13(5):204224, 1969.

43. Rappelons qu'un systme linaire dont la matrice est tridiagonale se rsoud de manire trs ecace (en O(n) oprations) par l'algorithme de Thomas prsent dans la sous-section 2.4.4.
44. Dans ce cas, la rsolution du systme linaire Dy = z se ramne celle d'un ensemble de systmes linaires carrs
d'ordre 1 ou 2.
45. Dans l'article en question, c'est le procd de GramSchmidt modi qu'utilise Gram.
46. Pierre-Simon Laplace (23 mars 1749 - 5 mars 1827) tait un mathmaticien, astronome et physicien franais. Son
uvre la plus importante concerne le calcul des probabilits et la mcanique cleste.
47. Alexis Bouvard (27 juin 1767 - 7 juin 1843) tait un astronome franais. Parmi ses travaux les plus signicatifs gurent
la dcouverte de huit comtes et la compilation de tables astronomiques pour les plantes Jupiter, Saturne et Uranus.
48. Irne-Jules Bienaym (28 aot 1796 - 19 octobre 1878) tait un mathmaticien franais. Il gnralisa la mthode des
moindres carrs introduite par Laplace et contribua la thorie des probabilits, au dveloppement des statistiques ainsi
qu' leur application la nance, la dmographie et aux sciences sociales.
49. Augustin-Louis Cauchy (21 aot 1789  23 mai 1857) tait un mathmaticien franais. Trs prolique, ses recherches
couvrent l'ensemble des domaines mathmatiques de son poque. On lui doit notamment en analyse l'introduction des
fonctions holomorphes et des critres de convergence des sries. Ses travaux sur les permutations furent prcurseurs de la
thorie des groupes. Il t aussi d'importantes contributions l'tude de la propagation des ondes en optique et en mcanique.

86

RFRENCES

[Ben24]

Commandant Benot. Note sur une mthode de rsolution des quations normales provenant de
l'application de la mthode des moindres carrs un systme d'quations linaires en nombre infrieur
celui des inconnues.  Application de la mthode la rsolution d'un systme dni d'quations
linaires (procd du Commandant Cholesky). Bull. Godsique, 2(1) :6777, 1924. doi : 10.1007/
BF03031308 (cf. page 74).

[Bie53]

J. Bienaym. Remarques sur les dirences qui distinguent l'interpolation de M. Cauchy de la mthode des moindres carrs, et qui assurent la supriorit de cette mthode. C. R. Acad. Sci. Paris,
37 :513, 1853 (cf. page 86).

[Bj94]

Bjrck. Numerics of Gram-Schmidt orthogonalization. Linear Algebra and Appl., 197-198:297


316, 1994. doi: 10.1016/0024-3795(94)90493-6 (cited on page 85).

[BK77]

J. R. Bunch and L. Kaufman. Some stable methods for calculating inertia and solving symmetric
linear systems. Math. Comput., 31(137):163179, 1977. doi: 10.1090/S0025-5718-1977-0428694-0
(cited on page 86).

[BP71]

J. R. Bunch and B. N. Parlett. Direct methods for solving symmetric indenite systems of linear
equations. SIAM J. Numer. Anal., 8(4):639655, 1971. doi: 10.1137/0708060 (cited on page 86).

[BP76]

C. de

[Bun71]

J. R. Bunch. Analysis of the diagonal pivoting method. SIAM J. Numer. Anal., 8(4):656680,
1971. doi: 10.1137/0708061 (cited on page 86).

[Cau37]

A.

[Cho]

A.-L. Cholesky. Sur la rsolution numrique des systmes d'quations linaires. Manuscrit dat du
2 dcembre 1910 (cf. page 74).

[Cia98]

P. G. Ciarlet. Introduction l'analyse numrique matricielle et l'optimisation  cours et exercices


corrigs. De Mathmatiques appliques pour la matrise. Dunod, 1998 (cf. page 48).

[Cla88]

B.-I. Clasen. Sur une nouvelle mthode de rsolution des quations linaires et sur l'application
de cette mthode au calcul des dterminants. Ann. Soc. Sci. Bruxelles, 12(2) :251281, 1888 (cf.
page 55).

[CM69]

E.

Boor

and A.

Pinkus.

Backward error analysis for totally positive linear systems. Numer.


doi: 10.1007/BF01399609 (cited on pages 83, 84).

Math., 27(4):485490, 1976/1977.

Cauchy.

Cuthill

Mmoire sur l'interpolation. J. Math. Pures Appl. (1), 2 :193205, 1837 (cf. page 86).

and J.

McKee.

Reducing the bandwidth of sparse symmetric matrices. In Proceedings


doi: 10.1145/800195.805928 (cited on

of the 24th ACM national conference, 1969, pages 157172.


page 72).

[Cro41]

P. D. Crout. A short method for evaluating determinants and solving systems of linear equations
with real or complex coecients. Trans. Amer. Inst. Elec. Eng., 60(12):12351241, 1941. doi:
10.1109/T-AIEE.1941.5058258 (cited on page 62).

[Cry73]

C. W. Cryer. The LU -factorization of totally positive matrices. Linear Algebra and Appl., 7(1):83
92, 1973. doi: 10.1016/0024-3795(73)90039-6 (cited on page 83).

[DR79]

I. S.

Duff

and J. K.

Reid.

Software, 5(1):1835, 1979.

Some design features of a sparse matrix code. ACM Trans. Math.


10.1145/355815.355817 (cited on page 72).

doi:

[Dur60]

J. Durbin. The tting of time-series models. Rev. Inst. Internat. Statist., 28(3):233244, 1960
(cited on page 70).

[FHW48]

L. Fox, H. D. Huskey, and J. H. Wilkinson. Notes on the solution of algebraic linear simultaneous
equations. Quart. J. Mech. Appl. Math., 1(1):149173, 1948. doi: 10.1093/qjmam/1.1.149 (cited
on page 85).

[FM67]

G. E. Forsythe and C. B. Moler. Computer solution of linear systems. Of Series in automatic


computation. Prentice-Hall, 1967 (cited on pages 48, 54).
L. V. Foster. The growth factor and eciency of Gaussian elimination with rook pivoting. J.
Comput. Appl. Math., 86(1):177194, 1997. Corrigendum in J. Comput. Appl. Math., 98(1):177,

[Fos97]

1998.

doi:

10.1016/S0377-0427(97)00154-4 (cited on pages 55, 84).

[Giv58]

W. Givens. Computation of plane unitary rotations transforming a general matrix to triangular


form. J. Soc. Ind. Appl. Math., 6(1):2650, 1958. doi: 10.1137/0106004 (cited on page 82).

[GPS76]

N. E. Gibbs, W. G. Poole, Jr., and P. K. Stockmeyer. A comparison of several bandwidth


and prole reduction algorithms. ACM Trans. Math. Software, 2(4):322330, 1976. doi: 10.1145/
355705.355707 (cited on page 72).

87

CHAPITRE 2. MTHODES DIRECTES DE RSOLUTION DES SYSTMES LINAIRES

[GPS90]

K. A. Gallivan, R. J. Plemmons, and A. H.


computations. SIAM Rev., 32(1):54135, 1990.

[Gra83]

J. P. Gram. Ueber die Entwicklung reeller Functionen in Reihen mittelst der Methode der kleinsten
Quadrate. J. Reine Angew. Math., 1883(94):4173, 1883. doi: 10.1515/crll.1883.94.41 (siehe
Seite 86).

[Grc11a]

J. F. Grcar. How ordinary elimination became Gaussian elimination. Historia Math., 38(2):163
218, 2011. doi: 10.1016/j.hm.2010.06.003 (cited on page 85).

[Grc11b]

J. F. Grcar. John von Neumann's Analysis of Gaussian elimination and the origins of modern
numerical analysis. SIAM Rev., 53(4):607682, 2011. doi: 10.1137/080734716 (cited on page 85).

[Hig02]

N. J. Higham. Accuracy and stability of numerical algorithms. SIAM, second edition, 2002.
10.1137/1.9780898718027 (cited on pages 83, 84).

[Hot43]

H.

[Hou58]

A. S. Householder. Unitary triangularization of a nonsymmetric matrix. J. Assoc. Comput.


Mach., 5(4):339342, 1958. doi: 10.1145/320941.320947 (cited on page 79).
W. Jordan. Handbuch der Vermessungskunde, Erster Band. Metzler, dritte verbesserte Auflage,

[Jor88]

Sameh.
doi:

Parallel algorithms for dense linear algebra


10.1137/1032002 (cited on page 63).

doi:

Some new methods in matrix calculation. Ann. Math. Statist., 14(1):134, 1943.
10.1214/aoms/1177731489 (cited on page 85).

Hotelling.

doi:

1888 (siehe Seite 55).

[KS95]

T. Kailath and A. H. Sayed. Displacement structure: theory and applications. SIAM Rev.,
37(3):297386, 1995. doi: 10.1137/1037082 (cited on page 85).

[Lap20]

P.-S.

[Lev47]
[Mar57]

N.

Laplace.

Levinson.

Thorie analytique des probabilits. Courcier, troisime dition, 1820 (cf. page 86).

The Wiener RMS (root mean square) error criterion in lter design and prediction.

J. Math. Phys., 25(4):261278, 1947 (cited on page 70).


H. M.

Markowitz.

The elimination form of the inverse and its application to linear programming.
doi: 10.1287/mnsc.3.3.255 (cited on page 72).

Management Sci., 3(3):255269, 1957.

[NG47]

J. von Neumann and H. H. Goldstine. Numerical inverting of matrices of high order. Bull. Amer.
Math. Soc., 53(11):10211099, 1947. doi: 10.1090/S0002-9904-1947-08909-6 (cited on page 85).

[NP92]

L. Neal and G. Poole. A geometric analysis of Gaussian elimination. II. Linear Algebra and Appl.,
173:239264, 1992. doi: 10.1016/0024-3795(92)90432-A (cited on page 55).

[PR70]

B. N. Parlett and J. K. Reid. On the solution of a system of linear equations whose matrix is
symmetric but not denite. BIT, 10(3):386397, 1970. doi: 10.1007/BF01934207 (cited on page 85).

[Ric66]

J. R. Rice. Experiments on Gram-Schmidt orthogonalization. Math. Comput., 20(94):325328,


1966. doi: 10.1090/S0025-5718-1966-0192673-4 (cited on page 76).

[Sch07]

E. Schmidt. Zur Theorie der linearen und nichtlinearen Integralgleichungen. I. Teil: Entwicklung
willkrlicher Funktionen nach Systemen vorgeschriebener. Math. Ann., 63(4):433476, 1907. doi:
10.1007/BF01449770 (siehe Seite 86).

[Sch17]

J. Schur. ber Potenzreihen, die im Innern des Einheitskreises beschrnkt sind. J. Reine Angew.
Math., 1917(147):205232, 1917. doi: 10.1515/crll.1917.147.205 (siehe Seite 85).
G. Szeg. Orthogonal polynomials. Volume 23 of Colloquium publications. American Mathematical

[Sze39]

Society, 1939 (cited on page 70).

[Tho49]

L. H. Thomas. Elliptic problems in linear dierence equations over a network. Technical report.
Columbia University, New York: Watson Scientic Computing Laboratory, 1949 (cited on page 69).

[Tre64]

W. F. Trench. An algorithm for the inversion of nite Toeplitz matrices. J. Soc. Indust. Appl.
Math., 12(3):515522, 1964. doi: 10.1137/0112045 (cited on page 70).

[Tur48]

A. M. Turing. Rounding-o errors in matrix processes. Quart. J. Mech. Appl. Math., 1(1):287
308, 1948. doi: 10.1093/qjmam/1.1.287 (cited on page 85).

[Wil61]

J. H. Wilkinson. Error analysis of direct methods of matrix inversion. J. Assoc. Comput. Mach.,
8(3):281330, 1961. doi: 10.1145/321075.321076 (cited on pages 67, 84, 85).

[Zoh69]

S. Zohar. Toeplitz matrix inversion: the algorithm of W. F. Trench. J. Assoc. Comput. Mach.,
16(4):592601, 1969. doi: 10.1145/321541.321549 (cited on page 70).

88

Chapitre 3

Mthodes itratives de rsolution des


systmes linaires
L'ide des mthodes itratives (iterative
 methods en anglais) de rsolution des systmes linaires est
de construire une suite convergente x(k) kN de vecteurs vriant

lim x(k) = x,

k+

(3.1)

o x est la solution du systme (2.1). Dans ce chapitre, on va prsenter des mthodes itratives parmi
les plus simples mettre en uvre, savoir les mthodes de Jacobi, de GaussSeidel 1 et leurs variantes.
Dans ces mthodes, qualifes de mthodes itratives linaires stationnaires
du premier ordre (stationary

linear iterative methods of rst order en anglais), la suite x(k) kN est obtenue, partir d'un vecteur
initial arbitraire x(0) , par une relation de rcurrence de la forme

x(k+1) = Bx(k) + c, k 0,

(3.2)

o la matrice carre B , appele matrice d'itration (iteration matrix en anglais) de la mthode, et le


vecteur c dpendent de la matrice A et du second membre b du systme rsoudre.
Pour une matrice d'ordre n pleine, le cot de calcul de ces mthodes est de l'ordre de n2 oprations
chaque itration. On a vu au chapitre 2 que le cot total d'une mthode directe pour la rsolution d'un
systme linaire n quations et n inconnues est de l'ordre de 32 n3 oprations. Ainsi, une mthode itrative
ne sera comptitive que si elle est en mesure de fournir une solution approche 2 susamment prcise
en un nombre d'itrations indpendant de, ou bien croissant de manire sous-linaire avec, l'entier n.
Les mthodes directes pouvant cependant s'avrer coteuses, notamment en termes d'allocation d'espace
mmoire, dans certains cas particuliers (un exemple est celui des grandes matrices creuses 3 , en raison
du phnomne de remplissage voqu dans le prcdent chapitre), les mthodes itratives constituent
souvent une alternative intressante pour la rsolution des systmes linaires.
Avant d'aborder leur description, on va donner quelques rsultats gnraux de convergence et de
stabilit, ainsi que des principes de comparaison (en terme de  vitesse  de convergence ), d'une classe
de mthodes itratives de la forme (3.2). Des rsultats plus prcis pour les mthodes prsentes, mais
s'appuyant sur des cas particuliers, comme celui de systmes dont la matrice A est symtrique dnie
positive, sont tablis en n de chapitre.
1. Philipp Ludwig von Seidel (24 octobre 1821 - 13 aot 1896) tait un mathmaticien, physicien de l'optique et astronome
allemand. Il a tudi l'aberration optique en astronomie en la dcomposant en cinq phnomnes constitutifs, appels  les
cinq aberrations de Seidel , et reste aussi connu pour la mthode de rsolution numrique de systmes linaires portant
son nom.
2. On comprend en eet que, la dirence d'une mthode directe, une mthode itrative ne conduit la solution exacte
du problme qu'aprs avoir, en thorie, eectu un nombre inni d'oprations.
3. Il existe nanmoins des solveurs ecaces bass sur des mthodes directes pour ces cas particuliers (voir par exemple
[DER86]).

89

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

3.1

Gnralits

Dans cette section, nous abordons quelques aspects gnraux des mthodes itratives de rsolution de
systmes linaires de la forme (3.2). Dans toute la suite, nous nous plaons dans le cas de matrices et de
vecteurs complexes, mais les rsultats restent valables dans le cas rel.
Commenons par une dnition naturelle.

Dnition 3.1 On dit que la mthode itrative est convergente (convergent en anglais) si l'on a (3.1)
pour tout initialisation x(0) dans Cn .

Nous introduisons ensuite une condition qu'une mthode itrative de la forme (3.2) doit ncessairement
satisfaire pour qu'elle puisse converger vers la solution de (2.1).

Dnition 3.2 Une mthode itrative de la forme (3.2) est dite consistante (consistent en anglais)

avec (2.1) si B et c sont tels que l'on a x = Bx + c, le vecteur x tant la solution de (2.1), ou, de
manire quivalente, c = (In B)A1 b.

Dnitions 3.3 On appelle erreur l'itration k, k N, d'une mthode itrative de la forme (3.2)
le vecteur e(k) = x(k) x, o x = A1 b est la solution de (2.1). Le rsidu (residual en anglais)
l'itration k de cette mme mthode est le vecteur r (k) = b Ax(k) .

On dduit de ces dnitions qu'une mthode itrative consistante de la forme (3.2) converge si et
seulement si lim e(k) = 0 (soit encore si lim r (k) = lim Ae(k) = 0).
k+

k+

k+

La seule proprit de consistance ne susant pas assurer que la mthode considre converge, nous
donnons dans le rsultat suivant un critre fondamental de convergence.

Thorme 3.4 Si une mthode de la forme (3.2) est consistante, celle-ci est convergente si et seulement
si (B) < 1, o (B) dsigne le rayon spectral de la matrice d'itration de la mthode.
Dmonstration.

relation

La mthode tant suppose consistante, l'erreur la k + 1ime itration, k N, vrie la


e(k+1) = x(k+1) x = Bx(k) c (Bx c) = B x(k) x = Be(k) .

On dduit alors le rsultat du thorme A.141.

En pratique, le rayon spectral d'une matrice peut tre dicile calculer, mais on dduit du thorme
A.139 que le rayon spectral d'une matrice B est strictement infrieur 1 s'il existe au moins une norme
matricielle pour laquelle kBk < 1. L'tude de convergence des mthodes itratives de rsolution de
systmes linaires de la forme (3.2) repose donc sur la dtermination de (B) ou, de manire quivalente,
la recherche d'une norme matricielle telle que kBk < 1.
Une autre question laquelle on se trouve confront lorsque l'on est en prsence de deux mthodes
itratives convergentes est de savoir laquelle des deux converge le plus rapidement. Une rponse est fournie
par le rsultat suivant : la mthode la plus  rapide  est celle dont la matrice a le plus petit rayon spectral.

Thorme 3.5 Soit kk une norme vectorielle quelconque. On considre deux mthodes itratives consistantes avec (2.1),
x
(k+1) = B
(k) + c
, k 0,
x(k+1) = Bx(k) + c et x
. Alors, pour tout rel strictement positif , il existe un entier N tel que
(0) et (B) < (B)
avec x(0) = x
kN

sup
kx(0) xk=1

k
x(k) xk
kx(k) xk

!1/k

(B)
,
(B) +

o x dsigne la solution de (2.1).


Dmonstration. D'aprs la formule de Gelfand (voir le thorme A.143), tant donn > 0, il existe un
entier N , dpendant de , tel que

kN

sup kB k e(0) k1/k ((B) + ).


ke(0) k=1

90

3.1. GNRALITS

Par ailleurs, pour tout entier k N , il existe un vecteur e(0) , dpendant de k, tel que
k e(0) k1/k = kB
k k1/k (B),

ke(0) k = 1 et kB

en vertu du thorme A.139 et en notant kk la norme matricielle subordonne la norme vectorielle considre.
Ceci achve de dmontrer l'assertion.


On mesure la vitesse de convergence d'une mthode itrative convergente de matrice d'itration B


en introduisant le taux asymptotique de convergence (asymptotic rate of convergence en anglais) [You54],
dni par
R (B) = ln((B)).
Un autre taux utilis est le taux moyen de convergence aprs k itrations (average rate of convergence
after k iterations en anglais), qui, pour tout entier k strictement positif, est gal



ln(kB k k)
,
Rk (B) = ln kB k k1/k =
k
o kk dsigne une norme de matrice compatible avec la norme vectorielle dans laquelle on mesure l'erreur
de la mthode itrative. Pour toute mthode convergente, on peut facilement montrer que, pour tout entier
k strictement positif tel que kB k k < 1, on a

Rk (B) R (B)
et, en utilisant la formule de Gelfand (voir le thorme A.143),

lim Rk (B) = R (B),

k+

justiant ainsi le qualicatif d' asymptotique  pour R (B).


Si le taux asymptotique de convergence est de loin le plus commode 4 l'emploi, il fournit parfois une
estimation trop optimiste du taux moyen de convergence (qui est celui rellement observ en pratique),
la convergence de la suite (kB k k)kN n'tant pas ncessairement monotone (voir [Axe94, example 5.2]).
Parlons prsent de l'utilisation d'une mthode itrative pour le calcul d'une solution approche de
(2.1). En pratique, il conviendrait de mettre n aux calculs la premire itration pour laquelle l'erreur
est  susamment petite , c'est--dire le premier entier naturel k tel que

ke(k) k = kx(k) xk ,
o est une tolrance xe et kk est une norme vectorielle donne. Cependant, on ne sait gnralement
pas valuer l'erreur, puisque la solution x n'est pas connue, et il faut donc avoir recours un autre critre
d'arrt. Deux choix naturels s'imposent alors.
Tout d'abord, les rsidus r (k) = b Ax(k) tant trs faciles calculer, on peut tester si kr (k) k ,
avec une tolrance xe. Puisque l'on a

ke(k) k = kx(k) xk = kx(k) A1 bk = kA1 r (k) k kA1 k kr (k) k,


on doit choisir tel que kA1 k . Ce critre peut par consquent tre trompeur si la norme de A1 est
grande et qu'on ne dispose pas d'une bonne estimation de cette dernire. Il est en gnral plus judicieux
de considrer dans le test d'arrt un rsidu normalis,

kr (k) k
kr (k) k

,
ou
encore
,
kbk
kr (0) k
la seconde possibilit correspondant au choix de l'initialisation x(0) = 0. Dans ce dernier cas, on obtient
le contrle suivant de l'erreur relative

ke(k) k
kr (k) k
kA1 k
cond(A) ,
kxk
kxk
4. L'utilisation du taux moyen de convergence implique en eet l'valuation de puissances de la matrice d'itration, ce
qui est en gnral coteux, voire impossible si la matrice d'itration n'est pas explicitement disponible (comme dans le cas
de certaines mthodes itratives dnies par (3.4)).

91

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

o cond(A) est le conditionnement de la matrice A relativement la norme subordonne kk considre


(voir la sous-section A.5.4 de l'annexe A).
Un autre critre parfois utilis dans la pratique est bas sur l'incrment x(k+1) x(k) , k N. L'erreur
d'une mthode itrative de la forme (3.2) vriant la relation de rcurrence e(k+1) = Be(k) , k N, on
obtient, par utilisation de l'ingalit triangulaire,


ke(k+1) k kBk ke(k) k kBk ke(k+1) k + kx(k+1) x(k) k , k N,
d'o

ke(k+1) k

kBk
kx(k+1) x(k) k, k N.
1 kBk

On peut voir la mthode itrative (3.2) comme une gnralisation des mthodes de point xe introduites dans le chapitre 5 pour la rsolution d'quations non linaires (comparer ce titre les relations
(3.2) et (5.9)). Il a en eet t remarqu (voir [Wit36] pour l'une des plus anciennes rfrences) que
les mthodes itratives inventes avant les annes 1950 appartenaient une mme famille, obtenue en
considrant une  dcomposition  (on parle en anglais de splitting ) de la matrice du systme rsoudre
de la forme
A = M N,
(3.3)
avec M une matrice inversible, appele dans certains contextes le prconditionneur (preconditioner en
anglais) de la mthode, et en posant

M x(k+1) = N x(k) + b, k 0.

(3.4)

Pour que la dernire formule soit utilisable en pratique, il faut tout systme linaire ayant M pour matrice puisse tre rsolu simplement et faible cot. Les mthodes de Jacobi et de GaussSeidel prsentes
ci-aprs sont bases sur la dcomposition (3.3) et correspondent au choix d'une matrice M respectivement diagonale et triangulaire infrieure. Par ailleurs pour qu'une mthode consistante dnie par (3.4)
converge, il faut, en vertu du thorme 3.4, que la valeur du rayon spectral de sa matrice d'itration
M 1 N soit strictement infrieure 1 et mme, compte tenu du rsultat du thorme 3.5, qu'elle soit la
plus petite possible. Plusieurs rsultats de convergence, propres aux mthodes de Jacobi et de Gauss
Seidel (ainsi que leurs variantes relaxes), sont donns dans la section 3.4. De manire plus gnrale, le
rsultat ci-aprs fournit une condition ncessaire et susante de convergence d'une mthode itrative
associe un choix de dcomposition (3.3) d'une matrice A hermitienne 5 dnie positive.

Thorme 3.6 ( thorme de HouseholderJohn  6 ) Soit A une matrice hermitienne inversible,

dont la dcomposition sous la forme (3.3), avec M une matrice inversible, est telle que la matrice hermitienne M + N est dnie positive. On a alors (M 1 N ) < 1 si et seulement si A est dnie positive.

La matrice A (que l'on suppose d'ordre n) tant hermitienne, la matrice M + N est


eectivement hermitienne puisque
Dmonstration.

M + N = M + M A = M + M A = M + N .

Supposons la matrice A dnie positive. L'application kk de Cn dans R dnie par


kvk = (v Av)

1/2

est alors une norme vectorielle. On dsigne par kk la norme matricielle qui lui est subordonne.
Nous allons tablir que kM 1 N k < 1. Par dnition, on a
kM 1 N k = kIn M 1 Ak = sup kv M 1 Avk.
vCn
kvk=1

5. Comme on l'a dj mentionn, tous les rsultats noncs le sont dans le cas complexe, mais restent vrais dans le cas
rel en remplaant le mot  hermitien  par  symtrique .
6. La preuve de susance de la condition est attribue John [Joh66], celle de sa ncessit Householder [Hou58] (ce
dernier crditant Reich [Rei49]).

92

3.1. GNRALITS

D'autre part, pour tout vecteur v de Cn tel que kvk = 1, on vrie que
kv M 1 Avk2

(v M 1 Av) A(v M 1 Av)

v Av v A(M 1 Av) (M 1 Av) Av + (M 1 Av) A(M 1 Av)

kvk2 (M 1 Av) M (M 1 Av) (M 1 Av) M (M 1 Av) + (M 1 Av) A(M 1 Av)

1 (M 1 Av) (M + N )(M 1 Av) < 1,

puisque la matrice M +N est dnie positive par hypothse. La fontion de Cn dans R qui v associe kvM 1 Avk
tant continue sur le compact {v Cn | kvk = 1}, elle y atteint sa borne suprieure en vertu d'une gnralisation
du thorme B.86. Ceci achve la premire partie de la dmonstration.
Supposons prsent que (M 1 N ) < 1. En vertu du thorme 3.4, la suite (x(k) )kN dnie par x(k+1) =
M 1 N x(k) , k 0, converge vers 0 pour toute initialisation x(0) .
Raisonnons par l'absurde et faisons l'hypothse que la matrice A n'est pas dnie positive. Il existe alors un
vecteur x(0) non nul tel que (x(0) ) Ax(0) 0. Le vecteur M 1 Ax(0) tant non nul, on dduit des calculs eectus
plus haut et de l'hypothse sur M + N que
(x(0) ) (A (M 1 N ) A(M 1 N ))x(0) = (M 1 Ax(0) ) (M + N )(M 1 Ax(0) ) > 0.

La matrice A (M 1 N ) A(M 1 N ) tant dnie positive (elle est en eet congruente M + N qui est dnie
positive), on a par ailleurs
0 (x(k) ) (A (M 1 N ) A(M 1 N ))x(k) = (x(k) ) Ax(k) (x(k+1) ) Ax(k+1) , k 0,

l'ingalit tant stricte pour k = 0, d'o


(x(k+1) ) Ax(k+1) (x(k) ) Ax(k) (x(1) ) Ax(1) < (x(0) ) Ax(0) 0, k 1.

Ceci contredit le fait que x(k) tend vers 0 lorsque k tend vers l'inni ; la matrice A est donc dnie positive.

Terminons cette section en abordant la question de la stabilit numrique des mthodes itratives de
la forme (3.4). Celles-ci sont en eet destines tre mises en uvre sur des calculateurs pour lesquels
le rsultat de toute opration arithmtique peut tre aect par une erreur d'arrondi. Il convient donc
de s'assurer que la convergence des mthodes ne se trouve pas altre en pratique. Le rsultat suivant
montre qu'il n'en est rien.

Thorme 3.7 Soit A une matrice inversible d'ordre n, dcompose sous la forme (3.3), avec M une
matrice inversible et (M 1 N ) < 1, b un vecteur de Cn et x l'unique solution de (2.1). On suppose de
plus qu' chaque tape la mthode itrative est aecte d'une erreur, au sens o le vecteur x(k+1) , k N,
est donn par
x(k+1) = M 1 N x(k) + M 1 b + (k)

(3.5)

avec 
C , et qu'il existe une norme vectorielle kk et une constante positive  telles que, pour tout
entier naturel k ,
(k)

k(k) k .

Alors, il existe une constante positive K , ne dpendant que de M 1 N telle que

lim sup kx(k) xk K .


k+
Dmonstration.

Compte tenu de (3.5), l'erreur l'tape k + 1 vrie la relation de rcurrence


e(k+1) = M 1 N e(k) + (k) , k 0,

dont on dduit que


e(k) = (M 1 N )k e(0) +

k1
X

(M 1 N )i (ki1) , k 0.

i=0

Puisque (M 1 N ) < 1, il existe, par application du thorme (A.139), une norme matricielle subordonne kks
telle que kM 1 N k < 1 ; on note galement kks la norme vectorielle qui lui est associe. Les normes vectorielles
sur Cn tant quivalentes, il existe une constante C , strictement plus grande que 1 et ne dpendant que de M 1 N ,
telle que
C 1 kvk kvks C kvk, v Cn .

93

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

Par majoration, il vient alors


k

ke(k) ks kM 1 N ks ke(0) ks + C 

k1
X

kM 1 N ks kM 1 N ks ke(0) ks +

i=0

d'o on tire le rsultat en posant K =

3.2

C
, k 0,
1 + kM 1 N ks

C2
.
1 + kM 1 N ks

Mthodes de Jacobi et de sur-relaxation

Observons que, si les coecients diagonaux de la matrice A sont non nuls, il est possible d'isoler la
iime inconnue dans la iime quation du systme linaire (2.1), 1 i n et l'on obtient alors le systme
quivalent

xi =

n
X

1
bi
aij xj

, i = 1, . . . , n.
aii
j=1
j6=i

La mthode de Jacobi [Jac45] se base sur ces relations pour construire, partir d'un vecteur initial x(0)
donn, une suite x(k) kN par rcurrence

(k+1)

xi

n
X
1
(k)
bi
aij xj
, i = 1, . . . , n, k N,

aii
j=1

(3.6)

j6=i

ce qui implique que M = D et N = E + F dans la dcomposition (3.3) de la matrice A, o D est


la matrice diagonale contenant la diagonale de A, dij = aij ij , E est la matrice triangulaire infrieure
de coecients eij = aij si i > j et 0 autrement, et F est la matrice triangulaire suprieure telle que
fij = aij si i < j et 0 autrement, avec 1 i, j n. On a ainsi

A = D (E + F )

(3.7)

et la matrice d'itration de la mthode est donne par

BJ = D1 (E + F ).
On note que la matrice diagonale D doit tre inversible. Cette condition n'est cependant pas trs restrictive
dans la mesure o l'ordre des quations et des inconnues peut tre modi. On observe par ailleurs que
le calcul des composantes de la nouvelle approximation de la solution chaque itration peut se faire
de manire concomitante (on parle de calculs pouvant tre eectus en parallle ). Pour cette raison, la
mthode est aussi connue sous le nom de mthode des dplacements simultans (method of simultaneous
displacements en anglais).
Une gnralisation de la mthode de Jacobi est la mthode de sur-relaxation de Jacobi (Jacobi overrelaxation (JOR ) en anglais), dans laquelle un paramtre de relaxation rel, not , est introduit. Dans
ce cas, les relations de rcurrence deviennent

(k+1)

xi

n
X

(k)
(k)
bi
aij xj
+ (1 ) xi , i = 1, . . . , n, k N,
aii
i=1
j6=i

correspondant la matrice d'itration

BJOR () = D1 (E + F ) + (1 ) In .

(3.8)

Cette mthode est consistante pour toute valeur non nulle de et concide avec la mthode de Jacobi
pour = 1. L'ide de relaxer la mthode repose sur le fait que, si l'ecacit de la mthode se mesure par
94

3.3. MTHODES DE GAUSSSEIDEL ET DE SUR-RELAXATION SUCCESSIVE

la valeur du rayon spectral de la matrice d'itration, alors, puisque (BJOR ()) est une fonction continue
de , on peut trouver une valeur de pour laquelle ce rayon spectral est le plus petit possible, donnant
ainsi une mthode itrative plus ecace que la mthode de Jacobi. Ce type de raisonnement s'applique
galement la mthode de GaussSeidel (voir la prochaine section).
L'tude des mthodes de relaxation pour un type de matrices donn consiste en gnral dterminer,
s'ils existent, un intervalle I de R ne contenant pas l'origine tel que, pour tout choisi dans I , la mthode
converge, et une valeur optimale 0 , appartenant I , du paramtre de relaxation telle que (dans le cas
prsent)
(BJOR (0 )) = inf (BJOR ()).
I

3.3

Mthodes de GaussSeidel et de sur-relaxation successive

Remarquons prsent que, lors d'un calcul squentiel des composantes du vecteur x(k+1) par les
formules de rcurrence (3.6), les premires i 1imes composantes sont connues au moment de la dtermination de iime , 2 i n. La mthode de GaussSeidel, parfois appele 7 mthode des dplacements
successifs (method of successive displacements en anglais), utilise ce fait, en se servant des composantes
du vecteur x(k+1) dj obtenues pour le calcul des suivantes. Ceci conduit aux relations

n
i1
X
X
1
(k)
(k+1)
(k+1)
aij xj
, i = 1, . . . , n, k N,
(3.9)
aij xj

bi
xi
=
aii
j=i+1
j=1
ce qui quivaut, en utilisant la dcomposition (3.7), poser M = D E et N = F dans (3.3), la matrice
d'itration associe la mthode tant alors

BGS = (D E)1 F.
Pour que cette seconde mthode soit bien dnie, il faut que la matrice D E soit inversible, ce qui
quivaut une nouvelle fois ce que D soit inversible. Comme on l'a vu prcdemment, une condition de
ce type n'est pas trs restrictive en pratique. Par rapport la mthode de Jacobi, la mthode de Gauss
Seidel prsente l'avantage de ne pas ncessiter le stockage simultan de deux approximations successives
de la solution.
Comme pour la mthode de Jacobi, on peut utiliser une version relaxe de cette mthode. On parle
alors de mthode de sur-relaxation successive (successive over-relaxation (SOR ) en anglais) [Fra50, You54],
dnie par 8

i1
n
X
X

(k+1)
(k)
(k)
(k+1)
bi
xi
=
aij xj

aij xj + (1 ) xi , i = 1, . . . , n, k N,
aii
j=i+1
j=1
et dont la matrice d'itration est


BSOR () = (D E)1 ((1 ) D + F ) = (In D1 E)1 (1 ) In + D1 F .
7. On trouve encore dans la littrature (voir [Fra50]) le nom de mthode de Liebmann [Lie18] lorsque la mthode est
applique la rsolution d'un systme linaire issu de la discrtisation par dirences nies d'une quation de Laplace.
8. Du fait du caractre ncessairement squentiel de la mthode de GaussSeidel, la relaxation doit s'interprter dans le
1
sens suivant : en introduisant un vecteur auxiliaire x(k+ 2 ) dont les composantes sont dnies par
(k+ 1
)
2

aii xi

= bi

i1
X

(k+1)

aij xj

j=1

n
X

(k)

aij xj , i = 1, . . . , n,

j=i+1

on voit que les composantes de l'approximation x(k+1) de la mthode SOR sont donnes par les moyennes pondres
(k+1)

xi

(k+ 1
)
2

= xi

(k)

+ (1 ) xi , i = 1, . . . , n.

95

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

Cette dernire mthode est consistante pour toute valeur de non nulle et concide avec la mthode de
GaussSeidel pour = 1. Si > 1, on parle de sur-relaxation et de sous-relaxation si < 1. Il s'avre
que la valeur du paramtre optimal est, en gneral, plus grande que 1, d'o le nom de la mthode.
A REPRENDRE avec une introduction : la vitesse de convergence de la mthode est parfois aecte
par l'ordre de numrotation des inconnues (A VOIR).
On peut  symtriser  la relation de rcurrence de la mthode de sur-relaxation en combinant chaque
tape une itration de cette mthode dans laquelle les inconnues sont parcourues dans le sens naturel
avec une itration dans le sens contraire (on eectue une remonte en place d'une descente) :
1

(D E) x(k+ 2 ) = ( F + (1 ) D) x(k) + b, (D F ) x(k+1) = ( E + (1 ) D) x(k+ 2 ) + b, (3.10)


conduisant la mthode dite de sur-relaxation successive symtrique (symmetric successive over-relaxation (SSOR) method en anglais), introduite pour la rsolution de problmes elliptiques discrtiss par
dirences nies [She55], de matrice d'itration gale

BSSOR () = (D F )1 ( E + (1 ) D)(D E)1 ( F + (1 ) D)


alors que c = (2 )(D F )1 D(D E)1 b en remarquant que ( E + (1 ) D)(D E)1 =
((D E) + (2 ) D)(D E)1 = In + (2 ) D(D E)1 ...

3.4

Convergence des mthodes de GaussSeidel et de Jacobi

Dans toute la suite, nous faisons l'hypothse que les coecients diagonaux de la matrice A sont non
nuls. Avant de considrer la rsolution de systmes linaires dont les matrices possdent des proprits particulires, nous commenons par donner un rsultat gnral pour la mthode de sur-relaxation
successive.

Thorme 3.8 (condition ncessaire de convergence pour la mthode SOR [Kah58]) Le rayon
spectral de la matrice de la mthode de sur-relaxation successive vrie toujours l'ingalit

(BSOR ()) | 1| , > 0.


Cette mthode ne peut donc converger que si ]0, 2[.
Dmonstration.

On remarque que le dterminant de la matrice BSOR () vaut



D+F
det 1


= (1 )n ,
det(BSOR ()) =

E
det D

compte tenu des structures, respectivement diagonale et triangulaires, des matrices D, E et F de la dcomposition
(3.7). En notant i , i = 1, . . . , n, les valeurs propres de cette matrice, on en dduit alors que
(BSOR ())n

n
Y

|i | = |det(BSOR ())| = |1 |n ,

i=1

l'galit n'ayant lieu que lorsque toutes les valeurs propres de BSOR () sont de module gal |1 |.


Nous mentionnons enn le rsultat suivant concernant la mthode de sur-relaxation de Jacobi.

Thorme 3.9 Si la mthode de Jacobi converge, alors la mthode de sur-relaxation de Jacobi converge
pour 0 < 1.

Dmonstration.

D'aprs l'identit (3.8), les valeur propres de la matrice BJOR () sont


i = i + 1 , i = 1, . . . , n,

o les nombres i , i = 1, . . . , n, sont les valeurs propres de la matrice BJ . En posant i = i eii , on a alors
|i | = 2 i 2 + 2i cos(i )(1 ) + (1 )2 (i + 1 )2 , i = 1, . . . , n,

qui est strictement infrieur 1 si 0 < 1.

96

3.4. CONVERGENCE DES MTHODES DE GAUSSSEIDEL ET DE JACOBI

3.4.1

Cas des matrices diagonale strictement dominante

Nous avons dj abord le cas particulier des matrices diagonale strictement dominante dans le
cadre de leur factorisation au chapitre prcdent. Dans le contexte des mthodes itratives, on est en
mesure d'tablir des rsultats de convergence a priori pour de telles matrices.

Thorme 3.10 Si A est une matrice diagonale strictement dominante par lignes, alors les mthodes
de Jacobi et de GaussSeidel sont convergentes.
Dmonstration. Soit A
Pn
i=1 |aij | pour i =
j6=i

que |aii | >

une matrice d'ordre n diagonale strictement dominante par lignes, c'est--dire


1, . . . , n. En posant

n
X
aij


r = max
aii ,
1in
j=1
j6=i

et en observant alors que kBJ k = r < 1, on en dduit que la mthode de Jacobi est convergente.
On considre prsent l'erreur l'itration k + 1, k N, de la mthode de GaussSeidel qui vrie
(k+1)

ei

i1
n
X
X
aij (k+1)
aij (k)
ej

e , 1 i n.
a
aii j
ii
j=1
j=i+1

On va tablir que
ke(k+1) k r ke(k) k , k N,

en raisonnant par rcurrence sur l'indice i, 1 i n, des composantes du vecteur. Pour i = 1, on a


(k+1)

e1

n
X
a1j (k)
(k+1)
ej , d'o |e1
| r ke(k) k .
a
11
j=2

Supposons que |ej(k+1) | r ke(k) k pour j = 1, . . . , i 1. On a alors


(k+1)

|ei




i1
n
X
X
aij (k)
aij (k+1)
(k)


|e

|
+
aii |ej | ke k
aii j
j=i+1
j=1



!

i1
n
n
X
X
X
aij
aij
aij



+
< ke(k) k

aii
aii
aii ,
j=1
j=i+1
i=1
j6=i

d'o |e(k+1)
| r ke(k) k , ce qui achve la preuve par rcurrence. On a par consquent
i
ke(k) k r ke(k) k rk ke(0) k ,

et, par suite,


lim ke(k) k = 0,

k+

ce qui prouve la convergence de la mthode de GaussSeidel.

3.4.2

Cas des matrices hermitiennes dnies positives

Dans le cas de matrices hermitiennes dnies positives, on peut tablir que la condition ncessaire de
convergence de la mthode de sur-relaxation successive du thorme 3.8 est susante.

Thorme 3.11 ( thorme d'Ostrowski 9 Reich  10 ) Si la matrice A est hermitienne coecients diagonaux strictement positifs, alors la mthode de sur-relaxation successive converge pour tout
appartenant ]0, 2[ si et seulement si A est dnie positive.

9. Alexander Markowich Ostrowski (Aleksandr Markoviq Ostrovski@


i en russe, 25 septembre 1893 - 20 novembre
1986) tait un mathmaticien suisse d'origine russe. Ses contributions, extrmement varies, portent sur divers domaines
des mathmatiques, au nombre desquels l'analyse numrique.
10. Ce rsultat a t tabli par Reich [Rei49] pour la mthode de GaussSeidel ( = 1) et par Ostrowski [Ost54] dans le
cas gnral (0 < < 2).

97

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES


Dmonstration. On peut voir ce rsultat comme un corollaire du thorme de HouseholderJohn. En eet,
la matrice A tant hermitienne, on a, partir de (3.7), D E F = D E F , et donc D = D et F = E ,
compte tenu de la dnition de ces matrices. Le paramtre tant un rel non nul, il vient alors

M + N =

D
1
2
E +
D+F =
D.

La matrice D tant dnie positive par hypothse, la matrice M + N est dnie positive pour 0 < < 2 et il
sut alors d'appliquer le thorme 3.6 pour conclure.


On a le rsultat suivant pour la mthode de sur-relaxation de Jacobi.

Thorme 3.12 (condition susante de convergence de la mthode JOR) Si la matrice


A est
i
h

hermitienne dnie positive, alors la mthode de sur-relaxation de Jacobi converge si 0,

2
(D 1 A)

avec D la matrice diagonale ayant pour lments les coecients diagonaux de A.


Dmonstration. Puisque la matrice A est hermitienne, on peut utiliser le thorme 3.6 pour conclure,
condition que la matrice hermitienne 2 DA soit dnie positive. Ses valeurs propres tant donnes par 2 aii i ,
i = 1, . . . , n, o les rels i sont les valeurs propres de la matrice A, ceci implique que

0<<

2 aii
, i = 1, . . . , n,
i

d'o le rsultat.

3.4.3

Cas des matrices tridiagonales

On peut comparer la convergence des mthodes de Jacobi, de GaussSeidel et de sur-relaxation successive dans le cas particulier des matrices tridiagonales.

Thorme 3.13 Si A est une matrice tridiagonale, alors les rayons spectraux des matrices d'itration
des mthodes de Jacobi et de GaussSeidel sont lis par la relation

(BGS ) = (BJ )2
de sorte que les deux mthodes convergent ou divergent simultanment. En cas de convergence, la mthode
de GaussSeidel converge plus rapidement que celle de Jacobi.

Pour dmontrer ce rsultat, on a besoin d'un lemme technique.

Lemme 3.14 Pour tout scalaire non nul , on dnit la matrice tridiagonale A() d'ordre n par

a1

b2

A() = 0

.
..
0

1 c1
..
.

0
..
.

..

..

..

.
...

..

.
0

...
..
.
..
.
..
.
bn

0
..
.

.
0

1
cn1
an

(3.11)

Le dterminant de cette matrice ne dpend pas de . En particulier, on a det(A()) = det(A(1)).


Dmonstration. Les matrices A() et A(1) sont semblables, car si l'on introduit la matrice diagonale d'ordre
n inversible ( tant non nul)

Q() =
,
.
..

on a A() = Q()A(1)Q()1 , d'o le rsultat.

Dmonstration du thorme 3.13. Les valeurs propres de


BJ = D1 (E + F ) sont les racines du polynme caractristique

la matrice d'itration de la mthode de Jacobi

pBJ () = det(BJ In ) = det(D1 ) det( D E F ).

98

3.4. CONVERGENCE DES MTHODES DE GAUSSSEIDEL ET DE JACOBI

les matrices D, E et F tant celles de la dcomposition (3.7). De mme, les valeurs propres de la matrice d'itration
de la mthode de GaussSeidel BGS = (D E)1 F sont les zros du polynme
pBGS () = det(BGS In ) = det((E D)1 ) det( D E F ).

Compte tenu de la structure tridiagonale de A, la matrice A() = 2 D 2 E 1 F est bien de la forme (3.11)
et l'application du lemme 3.14 avec le choix = 1 montre que
det(2 D 2 E F ) = det(2 D E F ) = n det( D E F ),

d'o
pBGS (2 ) =

det(D)
n pJ () = n pJ ().
det(E D)

De cette dernire relation, on dduit que, pour tout non nul,


2 (BGS ) (BJ ),

et donc (BGS ) = (BJ )2 .

On remarque que, dans la dmonstration ci-dessus, on a tabli une bijection entre les valeurs propres
non nulles de la matrice BGS et les paires de valeurs propres opposes non nulles de matrice BJ .
Si la matrice tridiagonale est de plus hermitienne dnie positive, le thorme 3.11 assure que la mthode de sur-relaxation successive converge pour 0 < < 2. La mthode de GaussSeidel (qui correspond
au choix = 1) est par consquent convergente, ainsi que la mthode de Jacobi en vertu du thorme
3.13. De plus, on est en mesure de dterminer une valeur explicite du paramtre de relaxation optimal
de la mthode de sur-relaxation successive. Ceci est l'objet du rsultat suivant.

Thorme 3.15 Si A est une matrice tridiagonale hermitienne dnie positive, alors la mthode de
sur-relaxation successive converge pour 0 < < 2 et il existe un unique paramtre optimal,

0 =

2
p
,
1 + 1 (BJ )2

minimisant le rayon spectral de la matrice d'itration de cette mthode.


Dmonstration. La matrice A tant hermitienne dnie positive, on sait en vertu du thorme 3.11 que la
mthode de sur-relaxation successive est convergente si et seulement si 0 < < 2. Il nous reste donc dterminer
la valeur du paramtre optimal 0 .
Pour cela, on commence par dnir, pour tout scalaire non nul, la matrice

A() =

1
2 + 1
D 2 E F,

les matrices D, E et F tant issues de la dcomposition (3.7) de A. Par une application du lemme 3.14, on obtient
que
 2

 2

+1
+1
det
D E F = det(A(1 )) = det(A(1)) = det
D 2 E F .

En remarquant alors que



1 !
 2

D
+1
det
pBSOR () ( ) = det
E
D 2 E F ,

il vient


 2

det E D
+1

pBSOR () ( ) =
n p BJ
.
det (D)

On dduit que, pour tout non nul,


2 (BSOR ())

99

2 + 1
(BJ ).

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

Ainsi, pour toute valeur propre de la matrice BJ , le nombre est aussi une valeur propre et les carrs des
deux racines
p
2 2 4( 1)
(, ) =
2
de l'quation du second degr (en )
2 + 1
= ,

sont des valeurs propres de la matrice BSOR (). Par consquent, on a la caractrisation suivante



(BSOR ()) = max max + (, )2 , (, )2 .
(BJ )

On va maintenant montrer que les valeurs propres de la matrice BJ sont relles. On a


BJ v = v (E + F )v = Dv Av = (1 )v (Av, v) = (1 )(Dv, v)

et donc (1 ) R+ , puisque les matrices A et D sont dnies positives. Pour dterminer le rayon spectral
(BSOR ()), il sut alors d'tudier la fonction
m :

[0, 1[]0, 2[
(, )

R 


max + (, )2 , (, )2 .

En eet, on a || < 1 et il est donc inutile de considrer cette fonction pour des
pvaleurs strictement ngatives de
, puisque (, )2 = (, )2 (car (, )2 = 21 (2 2 2( 1))
2 2 4( 1)). D'autre part,
2
on sait que la mthode ne peut converger si 6]0, 2[.
Pour = 0, on vrie que
m(0, ) = | 1| .
Pour 0 < < 1, le trinme 2 2 4( 1) possde deux racines relles () vriant
1 < + () =

Si

2
1+

12

2
2

< 2 < () =
.
1 2
1 1 2

< < 2, alors les nombres complexes + (, )2 et (, )2 sont conjugus et un calcul simple

montre que
Si 0 < <

1+




m(, ) = + (, )2 = (, )2 = 1.
2
1+

12

, on voit facilement que


m(, ) = + (, )2 .

On a ainsi, pour 0 < < 1 et 0 < <

2
1+

12

m
+
2
(, ) = 2 + (, )
(, ) = + (, ) + p
2
2

4( 1)

et donc, x,

!
> 0,




max + (, )2 = + ((BJ ), )2 .

(BJ )

On va enn pouvoir minimiser le rayon spectral (BSOR ()) par rapport . Pour 0 < <

1+

2
,
1(Bj )2

il vient


(BJ ) 2

+
+ ((BJ ), )2 = 2 + ((BJ ), )
((BJ ), ) = + ((BJ ), ) (BJ ) + p

2 (BJ )2 2 4( 1)

(BJ )+ ((BJ ), ) 1
= 2 + ((BJ ), ) p
.
(BJ )2 2 4( 1)




2
2

est atteint en
Sachant que 0 < (BJ ) < 1, on trouve que le minimum de + ((BJ ), ) sur 0,
1+ 1(Bj )2


2
2
. D'autre part, le minimum de la fonction 1 sur
, 2 est galement atteint en ce
2
2
1+

1(Bj )

1+

1(Bj )

point. On en dduit que, lorsque varie dans l'intervalle ]0, 2[, le minimum de (BSOR ()) est atteint en
0 =

1+

2
p
,
1 (Bj )2

et l'on a alors (BSOR (0 )) = 0 1 (voir la gure 3.1).

100

3.5. REMARQUES SUR LA MISE EN UVRE DES MTHODES ITRATIVES

(BSOR ())
1
(BGS ) = (BJ )2

0 1

Valeur du rayon spectral de la matrice d'itration BSOR () en fonction du paramtre de relaxation


dans le cas d'une matrice A tridiagonale hermitienne dnie positive.

Figure 3.1:

3.5

Remarques sur la mise en uvre des mthodes itratives

Parlons prsent de la mise en uvre des mthodes de Jacobi et de GaussSeidel, et de leurs variantes,
en supposant que l'on utilise un test d'arrt bas sur le rsidu. Dans ce cas, il convient tout d'abord de
remarquer que les mthodes itratives dnies par (3.4) peuvent galement s'crire

x(k+1) = x(k) + M 1 r (k) , k 0,

(3.12)

o le vecteur r (k) = b Ax(k) est le rsidu l'tape k . C'est sur cette dernire forme que reposeront les
algorithmes proposs pour les direntes mthodes.
Pour l'initialisation de la mthode, on choisit habituellement, sauf si l'on possde a priori des informations sur la solution, le vecteur nul, c'est--dire x(0) = 0. Ensuite, chaque tape de la boucle de
l'algorithme, on devra raliser les oprations suivantes :

le calcul du rsidu,
la rsolution du systme linaire ayant M pour matrice et le rsidu comme second membre,
la mise jour de l'approximation de la solution,
jusqu' ce que la norme du rsidu soit plus petite qu'une tolrance prescrite. Dans la pratique, il est aussi
ncessaire de limiter le nombre d'itrations, an d'liminer les problmes lis la non-convergence d'une
mthode.
Le nombre d'oprations lmentaires requises chaque itration pour un systme linaire coecients
rels d'ordre n se dcompose en n2 additions et soustractions et n2 multiplications pour le calcul du rsidu,
additions et soustractions, n(n1)
multiplications et n
n divisions (pour la mthode de Jacobi) ou n(n1)
2
2
divisions (pour la mthode de GaussSeidel) pour la rsolution du systme linaire associ la matrice
M , n additions pour la mise jour de la solution approche, n 1 additions, n multiplications et une
extraction de racine carre pour le calcul de la norme euclidienne du rsidu servant au critre d'arrt (on
peut galement raliser le test directement sur la norme du rsidu au carr, ce qui vite d'extraire une
racine carre). Ce compte d'oprations, de l'ordre de 21 n2 additions et soustractions, 32 n2 multiplications
et n divisions, montre que l'utilisation d'une mthode itrative s'avre trs favorable par rapport celle
d'une des mthodes directes du chapitre 2 si le nombre d'itrations eectuer reste petit devant n.
Terminons en rptant que, dans la mthode de Jacobi (ou JOR), chaque composante de l'approximation de la solution peut tre calcule indpendamment des autres. Cette mthode est donc facilement
paralllisable. Au contraire, pour la mthode de GaussSeidel (ou SOR), ce calcul ne peut se faire que
squentiellement, mais sans qu'on ait toutefois besoin de stocker l'approximation de la solution l'tape
prcdente, d'o un gain au niveau de l'espace mmoire allou.
101

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

3.6

Notes sur le chapitre

Les mthodes itratives de rsolution des systmes linaires trouvent leur origine dans une lettre
de Gauss adresse en 1823 son ancien lve Gerling 11 [Gau23]. Gauss y dcrit par l'exemple une
nouvelle mthode, permettant le calcul prcis d'angles intervenant dans un problme de godsie, qui
l'enthousiasme au point qu'il indique son correspondant que cette  procdure indirecte 12 peut tre
eectue alors qu'on est moiti endormi, ou en train de penser d'autres choses  13 . Bien que la
notation matricielle n'existt pas l'poque et que l'ordre dans lequel Gauss eectuait ses calculs ft
dtermin par le choix chaque tape de l'inconnue permettant la plus grande rduction du rsidu, on
reconnait l'algorithme de la mthode dveloppe par la suite par Seidel [Sei74] et qui, sous sa forme
moderne (dans laquelle les inconnues sont traites de manire cyclique et non dans un ordre visant la
meilleure rduction du rsidu chaque tape, qui tait la faon naturelle de procder pour Gauss), est
connue sous le nom de  mthode de GaussSeidel .
Les plus anciens rsultats de convergence de la mthode de GaussSeidel utilise pour la rsolution
d'quations normales (c'est--dire de systmes linaires dont les matrices sont symtriques dnies positives) apparaissent indpendamment dans les travaux de Nekrasov [Nek85] et de Pizzetti [Piz87], qui
tablissent tous deux des conditions en termes du rayon spectral de la matrice d'itration de la mthode.
Le premier traitement systmatique et rigoureux de l'tude de convergence des mthodes de GaussSeidel
et de Jacobi semble d von Mises 14 et Geiringer 15 dans [MPG29].
Un autre rsultat remarquable de comparaison de la convergence des mthodes de Jacobi et de Gauss
Seidel, dmontr l'aide de la thorie de Perron 16 Frobenius 17 , s'nonce ainsi.

Thorme 3.16 ( thorme de SteinRosenberg  [SR48]) Si la matrice A est telle que la matrice

d'itration de la mthode de Jacobi associe BJ a tous ses lments positifs, alors seule l'une des assertions
suivantes est vraie :
(i) (BJ ) = (BGS ) = 0,
(ii) 0 < (BGS ) < (BJ ) < 1,
(iii) (BJ ) = (BGS ) = 1,
(iv) 1 < (BJ ) < (BGS ),
o BGS dsigne la matrice d'itration de la mthode de GaussSeidel associe.

La gnralisation de la relation de rcurrence (3.12), par l'introduction d'un paramtre de relaxation


ou d'acclration , conduit la large classe des mthodes de Richardson 18 stationnaires [Ric11]

x(k+1) = x(k) + M 1 r (k) , k 0.

(3.13)

Si le paramtre dpend de l'itration, c'est--dire

x(k+1) = x(k) + (k) M 1 r (k) , k 0,


11. Christian Ludwig Gerling (10 juillet 1788 - 15 janvier 1864) tait un astronome, mathmaticien et physicien allemand.
Il est connu pour ses travaux en godsie et pour l'importante correspondance qu'il eut avec son directeur de thse, Carl
Friedrich Gauss, sur le sujet.
12. Gauss compare ici sa nouvelle mthode avec le procd d'limination qui porte aujourd'hui son nom (voir le prcdent
chapitre), qu'il qualie de mthode  directe .
13. Le lecteur non germanophone intress pourra prendre connaissance de l'intgralit du contenu de cette lettre via la
traduction anglaise propose par Forsythe [For51].
14. Richard Edler von Mises (19 avril 1883 - 14 juillet 1953) tait un scientique amricain d'origine autrichienne. Ses
contributions couvrent des disciplines aussi varies que la mcanique des solides et des uides, l'arodynamique et l'aronautique, la gomtrie de construction, la statistique, la thorie des probabilits ou encore la philosophie des sciences.
15. Hilda Geiringer (aussi connue sous le nom de Hilda von Mises, 28 septembre 1893 - 22 mars 1973) tait une mathmaticienne autrichienne qui travailla dans les domaines des statistiques, des probabilits et de la thorie mathmatique de
la plasticit.
16. Oskar Perron (7 mai 1880 - 22 fvrier 1975) tait un mathmaticien allemand qui l'on doit notamment des contributions concernant les quations aux drives partielles.
17. Ferdinand Georg Frobenius (26 octobre 1849 - 3 aot 1917) tait un mathmaticien allemand. Il s'intressa principalement la thorie des groupes et l'algbre linaire, mais travailla galement en analyse et en thorie des nombres.
18. Lewis Fry Richardson (11 octobre 1881 - 30 septembre 1953) tait un mathmaticien, mtorologiste et psychologue
britannique. Il imagina de prvoir le temps partir des quations primitives atmosphriques, les lois de la mcanique des
uides qui rgissent les mouvements de l'air.

102

RFRENCES

on parle de mthode de Richardson instationnaire. Dans ce cadre, les mthodes de Jacobi et de Gauss
Seidel (resp. JOR et SOR) peuvent tre vues comme des mthodes de Richardson avec = 1 (resp.
= ) et respectivement M = D et M = D E . De nombreux autres choix ont t proposs pour le
prconditionneur (la matrice M 1 ) et le paramtre d'acclration de la mthode. Nous renvoyons la
littrature spcialise, et notamment au livre de Saad [Saa03], pour plus de dtails.
D'un point de vue pratique, les mthodes itratives prsentes dans ce chapitre ont t supplantes
par la mthode du gradient conjugu [HS52] et ses gnralisations. Celle-ci fait partie des mthodes dites
direction de descente [Tem39], dont le point de dpart est la minimisation de la fonction

J(x) =

1
x Ax x b, x Cn ,
2

avec A une matrice d'ordre n hermitienne dnie positive et b un vecteur de Cn . Dans ce cas, J atteint
son minimum en x = A1 b et la rsolution du systme Ax = b quivaut bien celle du problme de
minimisation. Pour la rsolution numrique de ce problme par une mthode itrative, l'ide est de se
servir d'une suite minimisante de la forme

x(k+1) = x(k) + (k) p(k) , k 0,


o le vecteur p(k) et le scalaire (k) sont respectivement la direction de descente et le pas de descente
l'tape k , partir d'une initialisation x(0) donne. On remarque que le choix du rsidu r (k) comme
direction de descente, comme propos par Cauchy [Cau47], ainsi que d'un pas susamment petit et
indpendant de l'itration conduit une mthode de Richardson stationnaire (il sut en eet de choisir
M = In dans (3.13)), appele mthode du gradient pas xe. La mthode du gradient pas optimal
est obtenue en dterminant le pas de descente (k) , k 0, chaque tape (c'est une mthode de
Richardson instationnaire) de manire minimiser la norme de l'erreur ke(k+1) k, avec kk une norme
vectorielle adapte. Dans la mthode du gradient conjugu, la direction de descente fait intervenir le
rsidu l'tape courante, mais galement la direction de descente l'tape prcdente (de manire
 garder une mmoire  des itrations prcdentes et d'viter ainsi des phnomnes d'oscillations) et un
pas optimal est utilis.
Cette dernire mthode est en fait une mthode directe employe comme une mthode itrative,
puisque l'on peut montrer qu'elle converge en au plus n itrations. C'est une mthode de Krylov 19 ,
une proprit fondamentale tant que le vecteur x(k) , k 0, minimise la fonction J sur l'espace ane
x(0) + Kk , avec Kk = Vect{r (0) , Ar (0) , . . . , Ak1 r (0) } est le sous-espace de Krylov d'ordre k gnr par la
matrice A et le vecteur r (0) .
Si la matrice A n'est pas hermitienne dnie positive, on ne peut plus appliquer la mthode du gradient
conjugu car A ne permet pas de dnir un produit scalaire (hermitien) sur Cn , ce point intervenant de
manire critique dans les proprits de la fonction J . Cependant, le cadre des sous-espaces de Krylov
est propice la construction de mthodes itratives consistant minimiser la norme euclidienne du
rsidu. Parmi les mthodes existantes, on peut citer la mthode du gradient biconjugu (biconjugate
gradient method (BiCG ) en anglais) [Fle76], la mthode orthomin [Vin76] ou la mthode du rsidu minimal
gnralise (generalized minimal residual method (GMRES ) en anglais) [SS86].
On trouvera de nombreuses rfrences ainsi que divers aspects historiques sur les mthodes itratives
dans l'article [SV00], qui relate leur important dveloppement avec l'essor des calculateurs automatiques
au cours du vingtime sicle.

Rfrences
[Axe94]

O. Axelsson. Iterative solution methods. Cambridge University Press, 1994.


CBO9780511624100 (cited on page 91).

doi:

10 . 1017 /

19. Alexei Nikolaevich Krylov (Aleks&ei


@ Nikol&aeviq Kryl&ov en russe, 15 aot 1863 - 26 octobre 1945) tait un ingnieur
naval, mathmaticien et mmorialiste russe. Il est clbre pour ses travaux en mathmatiques appliques, et plus particulirement un article consacr aux problmes aux valeurs propres paru en 1931, dans lequel il introduisit ce que l'on appelle
aujourd'hui les sous-espaces de Krylov.

103

CHAPITRE 3. MTHODES ITRATIVES DE RSOLUTION DES SYSTMES LINAIRES

[Cau47]
[DER86]
[Fle76]

Cauchy. Mthode gnrale pour la rsolution des systmes d'quations simultanes. C. R. Acad.
Sci. Paris, 25 :536538, 1847 (cf. page 103).
I. Duff, A. Erisman, and J. Reid. Direct methods for sparse matrices. Oxford University Press,

A.

1986 (cited on page 89).


R.

Fletcher.

Conjugate gradient methods for indenite systems. In G. A.

in Lecture Notes in Mathematics, pages 7389. Springer, 1976.


page 103).
[For51]
[Fra50]

Watson,

editor,

Numerical analysis - proceedings of the Dundee conference on numerical analysis, 1975. Volume 506,
doi:

10.1007/BFb0080116 (cited on

G. E. Forsythe. Gauss to Gerling on relaxation. Math. Tables Aids Comput., 5(36):255258, 1951.
10.1090/S0025-5718-51-99414-8 (cited on page 102).

doi:

S. P.

Frankel.

Convergence rates of iterative treatments of partial dierential equations. Math.


doi: 10.1090/S0025- 5718- 1950- 0046149- 3 (cited on

Tables Aids Comput., 4(30):6575, 1950.


page 95).

[Gau23]

C. F.

[Hou58]

A. S. Householder. The approximate solution of matrix problems. J. Assoc. Comput. Mach.,


5(3):205243, 1958. doi: 10.1145/320932.320933 (cited on page 92).

[HS52]

Gauss.

M. R.

Lettre du 26 dcembre adresse Christian Ludwig Gerling. 1823 (siehe Seite 102).

Hestenes

and E.

Stiefel.

Methods of conjugate gradients for solving linear systems. J.


doi: 10.6028/jres.049.044 (cited on page 103).

Res. Nat. Bur. Standards, 49(6):409436, 1952.

[Jac45]

C. G. J. Jacobi. Ueber eine neue Ausungsart der bei der Methode der kleinsten Quadrate vorkommenden lineren Gleichungen. Astronom. Nachr., 22(20):297306, 1845. doi: 10 . 1002 / asna .
18450222002 (siehe Seite 94).

[Joh66]

F.

[Kah58]

W. Kahan. Gauss-Seidel methods of solving large systems of linear equations. PhD thesis. university
of Toronto, 1958 (cited on page 96).

[Lie18]

H. Liebmann. Die angenherte Ermittelung harmonischer Funktionen und konformer Abbildungen


(nach Ideen von Boltzmann und Jacobi). Bayer. Akad. Wiss. Math.-Phys. Kl. Sitzungsber.:385416,
1918 (siehe Seite 95).

[MPG29]

John.

R. von

Lectures on advanced numerical analysis. Gordon and Breach, 1966 (cited on page 92).

Mises

und H.

Pollaczek-Geiringer.

Praktische Verfahren der Gleichungsausung. Z.

Angew. Math. Mech., 9(1):5877, 1929. doi: 10.1002/zamm.19290090105 (siehe Seite 102).

[Nek85]

P. A. Nekrasov. Dtermination des inconnues par la mthode de moindres carrs dans le cas o le
nombre d'inconnues est considrable (russe). Rec. Math. [Mat. Sbornik] N.S., 12(1) :189204, 1885
(cf. page 102).

[Ost54]

A. M. Ostrowski. On the linear iteration procedures for symmetric matrices. Rend. Mat. Appl.
(5), 14:140163, 1954 (cited on page 97).

[Piz87]

P. Pizzetti. Sulla compensazione delle osservazioni secondo il metodo dei minimi quadrati, nota 1,
nota 2. Atti Accad. Lincei Rend. (4), 3(2):230235, 288293, 1887 (citato a pagina 102).

[Rei49]

E. Reich. On the convergence of the classical iterative method of solving linear simultaneous equations. Ann. Math. Statist., 20(3):448451, 1949. doi: 10.1214/aoms/1177729998 (cited on pages 92,
97).

[Ric11]

L. F. Richardson. The approximate arithmetical solution by nite dierences of physical problems


involving dierential equations, with an application to the stresses in a masonry dam. Philos. Trans.
Roy. Soc. London Ser. A, 210(459-470):307357, 1911. doi: 10.1098/rsta.1911.0009 (cited on
page 102).

[Saa03]

Y. Saad. Iterative methods for sparse linear systems. SIAM, second edition, 2003.
1.9780898718003 (cited on page 103).

[Sei74]

P. L. von Seidel. ber ein Verfahren die Gleichungen, auf welche die Methode der kleinsten Quadrate
fhrt, sowie lineare Gleichungen berhaupt, durch successive Annherung aufzulsen. Abh. Kgl. Bayer
Akad. Wiss. Math. Phys. Kl., 11(3):81108, 1874 (siehe Seite 102).

[She55]

J. W.

[SR48]

P.

Sheldon.

doi:

10.1137/

On the numerical solution of elliptic dierence equations. Math. Tables Aids


doi: 10.1090/S0025-5718-1955-0074929-1 (cited on page 96).

Comput., 9(51):101112, 1955.


Stein

and R. L.

Rosenberg.

On the solution of linear simultaneous equations by iteration. J.


doi: 10.1112/jlms/s1-23.2.111 (cited on page 102).

London Math. Soc. (1), 23(2):111118, 1948.

104

RFRENCES

[SS86]

[SV00]

Y. Saad and M. H. Schultz. GMRES: a generalized minimal residual algorithm for solving
nonsymmetric linear systems. SIAM J. Sci. Statist. Comput., 7(3):856869, 1986. doi: 10.1137/
0907058 (cited on page 103).
Y.

Saad

and H. A. van der

Vorst.

page 103).
[Tem39]

Iterative solution of linear systems in the 20th century. J.


doi: 10 . 1016 / S0377 - 0427(00 ) 00412 - X (cited on

Comput. Appl. Math., 123(1-2):133, 2000.


G.

Temple.

The general theory of relaxation methods applied to linear systems. Proc. Roy. Soc.
doi: 10.1098/rspa.1939.0012 (cited on page 103).

London Ser. A, 169(939):476500, 1939.

[Vin76]

P. K. W. Vinsome. Orthomin, an iterative method for solving sparse sets of simultaneous linear
equations. In Proceedings of the fourth symposium on numerical simulation of reservoir performance.
Society of Petroleum Engineers of AIME, 1976, pages 4959. doi: 10 . 2118 / 5729 - MS (cited on
page 103).

[Wit36]

H. Wittmeyer. ber die Lsung von linearen Gleichungssystemen durch Iteration. Z. Angew. Math.
Mech., 16(5):301310, 1936. doi: 10.1002/zamm.19360160505 (siehe Seite 92).

[You54]

D.

Young.

Iterative methods for solving partial dierence equations of elliptic type. Trans. Amer.
doi: 10.1090/S0002- 9947- 1954- 0059635- 7 (cited on pages 91,

Math. Soc., 76(1):92111, 1954.


95).

105

Chapitre 4

Calcul de valeurs et de vecteurs propres


Nous abordons dans ce chapitre le problme du calcul de valeurs propres et, ventuellement, de
vecteurs propres d'une matrice d'ordre n diagonalisable. C'est un problme beaucoup plus dicile que
celui de la rsolution d'un systme linaire. En eet, les valeurs propres d'une matrice tant les racines de
son polynme caractristique 1 , on pourrait navement penser qu'il sut de factoriser ce dernier pour les
obtenir. On sait cependant (par le thorme d'Abel 2 Runi 3 ) qu'il n'est pas toujours possible d'exprimer
les racines d'un polynme de degr suprieur ou gal cinq partir des coecients du polynme et
d'oprations lmentaires (addition, soustraction, multiplication, division et extraction de racines). Par
consquent, il ne peut exister de mthode directe, c'est--dire fournissant le rsultat en un nombre ni
d'oprations, de calcul de valeurs propres d'une matrice et on a recours des mthodes itratives 4 .
Parmi ces mthodes, il convient distinguer celles qui permettent le calcul d'une valeur propre (en
gnral celle de plus grand ou de plus petit module, mais pas seulement) de celles qui conduisent une
approximation de l'ensemble du spectre d'une matrice. D'autre part, certaines mthodes permettent le
calcul de vecteurs propres associs aux valeurs propres obtenues, alors que d'autres non. C'est le cas par
exemple de la mthode de la puissance, qui fournit une approximation d'un couple particulier de valeur
et vecteur propres. Dans le cas de la dtermination du spectre d'une matrice relle symtrique A, nous
1. Rciproquement, on peut vrier que les racines de tout polynme pn (x) =
les valeurs propres de la matrice compagnon (companion matrix en anglais) de pn ,

Pn

C(pn ) =
0
.
.
.
0

...
..
.
..
.
..
.

...

...

..

..

0
..
.
..
.
0
1

aa0

i=0

ai xi de degr n, avec an 6= 0, sont

aa1
n
..
.

an2
a

n
an1
an

2. Niels Henrik Abel (5 aot 1802 - 6 avril 1829) tait un mathmaticien norvgien. Il est connu pour ses travaux
en analyse, notamment sur la semi-convergence des sries numriques, des suites et sries de fonctions, les critres de
convergence des intgrales gnralises et sur les intgrales et fonctions elliptiques, et en algbre, sur la rsolution des
quations algbriques par radicaux.
3. Paolo Runi (22 septembre 1765 - 10 mai 1822) tait un mdecin et mathmaticien italien. Son nom est associ la
dmonstration partielle de l'irrsolubilit algbrique des quations de degr strictement suprieur quatre, la thorie des
groupes et une rgle de division rapide des polynmes.
4. On peut encore indiquer, pour bien comprendre l'intrt des techniques introduites dans ce chapitre, que la dtermination des valeurs propres d'une matrice par la recherche des racines de son polynme caractristique par les mthodes
prsentes dans la section 5.7 peut s'avrer catastrophique en raison de problmes de stabilit numrique lorsque les calculs sont mens dans une arithmtique en prcision nie (voir [Wil59]) et est en gnral viter. S'inspirant de l'exemple
du polynme de Wilkinson (voir la sous-section 1.4.2 du chapitre 1), on peut considrer le calcul du spectre de la matrice diagonale d'ordre 25 dont les coecients (et donc les valeurs propres) sont 1, 2, . . . , 25. Le calcul des racines de
son polynme caractristique par
donne (en arrondissant les rsultats la sixime dcimale) : 1, 000000,
2, 000000, 3, 000000, 4, 000000, 5, 000001, 6, 000010, 6, 999577, 8, 006626, 10, 301341 0, 376460i, 10, 301341 + 0, 376460i,
12, 321818 1, 167572i, 12, 321818 + 1, 167572i, 8, 947606, 14, 726960 2, 158742i, 14, 726960 + 2, 158742i, 13, 353560,
17, 180134 2, 770557i, 17, 180134 + 2, 770557i, 19, 771925 2, 804114i, 19, 771925 + 2, 804114i, 22, 239768 2, 194079i,
22, 239768 + 2, 194079i, 24, 202610 1, 056807i, 24, 202610 + 1, 056807i et 25, 203509. On constate que quatorze des valeurs
propres obtenues ont une partie imaginaire non ngligeable, alors que les valeurs propres recherches sont toutes relles !

GNU Octave

107

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

prsentons ensuite une technique de construction d'une suite de matrices, orthogonalement semblables
A, convergeant vers une matrice diagonale dont les coecients sont les valeurs propres de A, la mthode
de Jacobi.

4.1

Exemples d'application **

ECRIRE UNE INTRODUCTION

4.1.1

Dtermination des modes propres de vibration d'une plaque *

MIEUX : REMPLACER le cas trait (corde) par celui d'une plaque (voir [GK12])
On considre une corde homogne sans raideur, de section constante et de longueur `, tendue entre
deux extrmits xes places le long d'un axe, l'une l'origine et l'autre au point d'abscisse `. On
s'intresse aux petits mouvements transversaux de cette corde dans le plan vertical, c'est--dire que l'on
cherche une fonction u(t, x), 0 x `, t 0, reprsentant l'instant t la dformation verticale de la
corde au point d'abscisse x. On montre par des considrations physiques que la fonction u doit satisfaire,
en l'absence de force extrieure, l'quation aux drives partielles, appele quation des ondes en une
dimension d'espace, et les conditions aux limites homognes, indiquant que la corde est attache en ses
extrmits, suivantes
2u
2u
(t, x) c2 2 (t, x) = 0, 0 < x < `, t > 0,
(4.1)
2
t
x

u(t, 0) = u(t, `) = 0, t 0,
avec c =

(4.2)

o et sont respectivement la tension et la masse linique de la corde, que l'on complte

par des conditions initiales donnant la dformation u(0, x) et la vitesse de dformation u


t (0, x), 0 x `
de la corde l'instant  initial  t = 0.
Les modes propres de vibration de la corde sont des fonctions non triviales vriant (4.1)-(4.2), priodiques en temps de la forme
u(t, x) = v(x) ei t ,
o dsigne la pulsation du mode de vibration considr. Un calcul simple montre alors que la recherche
de ces modes conduit la dtermination de rels et de fonctions v non identiquement nulles solutions
du problme aux valeurs propres suivant

v 00 (x) = v(x), 0 < x < `,

(4.3)

v(0) = v(`) = 0,

(4.4)

les pulsations des modes tant alors donnes par

= c .
Dans le cas simple d'une corde homogne, on tablit facilement que le problme (4.3)-(4.4) a pour
seules solutions


k2 2
k
k = 2 , vk = ck sin
x , k N\{0},
`
`
o ck dsigne une constante arbitraire non nulle, mais si la masse linique varie avec l'abscisse x ou si l'on
a aaire aux modes de vibration d'une membrane de forme quelconque, c'est--dire un problme pos en
dimension deux d'espace, il n'y a plus, en gnral, de forme explicite pour les solutions du problme aux
limites correspondant. Il faut alors calculer numriquement ces solutions, ce que l'on peut faire en les
approchant par la mthode des dirences nies dj employe dans la sous-section 2.1.2 du prcdent
chapitre. Pour le problme (4.3)-(4.4), ceci revient, en posant

h=

`
,
n+1

108

4.1. EXEMPLES D'APPLICATION **

avec n un entier suprieur ou gal 1, la discrtisation du problme conduit au systme matriciel


(4.5)

Bh v h = h v h ,
avec

2
1
1

Bh = 2
h

1
2
..
.

1
..
.

Mn (R),

1
2

..

.
2
1

et o v h dsigne le vecteur de Rn ayant pour composante les valeurs approches vi , 1 i n, de la


fonction v aux nuds du maillage xi , 1 i n. En d'autres termes, on approche un couple (, v) solution
de (4.3)-(4.4) par un couple de valeur et vecteur propres (h , v h ) solution de (4.5). Ce dernier problme
admet n couples de solutions, la matrice tridiagonale Bh tant relle symtrique. videmment, on est ici
en mesure calculer de manire exacte les valeurs et vecteurs propres de la matrice Bh , mais on devra, en
gnral, recourir des mthodes de calcul approch pour les obtenir.

4.1.2

valuation numrique des nuds et poids des formules de quadrature


de Gauss **

Le calcul numrique eectif des nuds et poids des formules de quadrature de Gauss peut se faire
avec une complexit de l'ordre de O(n2 ) oprations, en rsolvant un problme aux valeurs propres faisant
intervenir une matrice tridiagonale.
- EXPLIQUER RAPIDEMENT LA PROBLEMATIQUE en renvoyant la section 7.6
- introduire la relation de rcurrence trois termes pour les polynmes orthogonaux (par rapport au
produit scalaire pour la mesure de Lebesgue)
- matrice de Jacobi
- thorme de caractrisation
- algorithme de Golub et Welsch [GW69]
REPRENDRE : On introduit pour cela la matrice symtrique, dnie positive et d'ordre inni suivante, appele matrice de Jacobi,

0
1

1
2

2
2
..
.

3
..
.

..

dans laquelle les coecients k et k , k 0, sont ceux donns par des formules de rcurrence trois
termes (A DONNER). On a le rsultat suivant pour la matrice Jn , n 1, associe au mineur principal
d'ordre n de J . (voir [Gau96], theorem 3.1, p. 153)

Thorme 4.1 Soit k , k = 1, . . . , n, les valeurs propres de la matrices Jn et {uk }k=1,...,n un ensemble
de vecteurs propres normaliss associs, c'est--dire que

Jn uk = k uk , uk T uk = 1, 1 k n.
Alors les nuds et poids de la formule de Gauss n points sont donns par
2

xk = k et k = 0 (uk )1 , 1 k n,
o (uk )1 dsigne la premire composante du vecteur uk et 0 = 2.

109

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

4.1.3

PageRank

Lorsqu'un internaute formule une requte sur le site d'un moteur de recherche, ce dernier interroge
la base de donnes dont il dispose pour y rpondre. Cette base est construite par une indexation des
ressources collectes par des robots qui explorent systmatiquement la  Toile  (World Wide Web en
anglais) en suivant rcursivement tous les hyperliens qu'ils trouvent. Le traitement de la requte consiste
alors en l'application d'un algorithme identiant (via l'index) les documents qui correspondent le mieux
aux mots apparaissant dans la requte, an de prsenter les rsultats de recherche par ordre de pertinence
suppose.
De nombreux procds existent pour amliorer la qualit des rponses fournies par un moteur de
recherche. Le plus connu d'entre eux est certainement la technique PageRankTM [BP98] employe par
Google, qui est une mthode de calcul d'un indice de notorit, associ chaque page de la  Toile  et
servant aner le classement pralablement obtenu. Celle-ci est base sur l'ide simple que plus une page
d'un ensemble est la cible d'hyperliens, plus elle est susceptible de possder un contenu pertinent. Le but
de cette sous-section est de donner les grandes lignes de la modlisation et de la thorie mathmatiques
sur lesquelles s'appuie PageRank 5 et leur lien avec une des mthodes de calcul numrique de valeurs et
vecteurs propres prsentes dans ce chapitre, le lecteur intress pouvant trouver de trs nombreux dtails
et rfrences bibliographiques sur le sujet dans l'article [LM04].
On peut considrer la  Toile  comme un ensemble de n pages (avec n un entier naturel aujourd'hui
extrmement grand) relies entre elles par des hyperliens, reprsentable par un graphe orient dont les
nuds symbolisent les pages et les arcs les hyperliens. La gure 4.1 prsente un minuscule chantillon
d'un tel graphe.

4
3

Figure 4.1:

Graphe orient reprsentant un chantillon de  toile  constitu de six pages.

ce graphe orient, on associe une matrice d'adjacence, dnie comme la matrice C d'ordre n dont
le coecient cij , 1 i, j n, est gal un s'il existe un hyperlien sur la j me page pointant vers la ime
page et vaut zro sinon (on ignore les hyperliens  internes , c'est--dire ceux pointant d'une page vers
elle-mme, de sorte que l'on a cii = 0, i = 1, . . . , n). Pour l'exemple de graphe de la gure 4.1, la matrice
d'adjacence est

0 1 1 0 0 0
0 0 0 0 0 0

1 1 0 1 0 0

.
C=

0 0 0 0 1 1
0 0 0 1 0 1
0 0 0 0 1 0
Pour toute page qui en contient, on suppose que chacun des hyperliens possde la mme 6 chance d'tre
suivi.En pondrant les coecients de la matrice d'adjacence du graphe orient pour tenir compte de ce
5. On notera que, en plus d'tre form des mots anglais page, qui signie page, et rank, qui signie rang, ce nom est
aussi li celui de l'un des inventeurs de cette mthode, Larry Page.
6. On peut en fait utiliser n'importe quelle autre distribution de probabilit que la distribution uniforme, obtenue par
exemple en se basant sur des statistiques disponibles pour les pages concernes.

110

4.1. EXEMPLES D'APPLICATION **

d'ordre n qui, pour l'exemple introduit plus haut est gale


fait, on obtient une matrice Q

0
0

Q = 3
0

0
0

1
2

1
2

0
0
0
0
0

1
3

0
0
0

0
0
1
3

0
1
2

0
0
0
1
2

0
1

0
0

1 .
2
1

2
0

Cette modication de la matrice d'adjacence fait apparatre des similitudes avec la matrice de transition
d'une chane 7 de Markov 8 temps discret et n tats, qui est une matrice stochastique 9 . Cependant,
la structure de la matrice construite partir des seuls liens existant laisse entrevoir un obstacle une
telle identication. En eet, lorsqu'une page ne possde aucun hyperlien (en anglais, on nomme dangling
est nulle et
node le nud du graphe correspondant), la ligne qui lui est associe dans la matrice Q
10
cette dernire ne peut dans ce cas tre stochastique. Un remde est de remplacer toutes les lignes en
question par n1 eT , avec e le vecteur de Rn dont les coecients sont tous gaux un, conduisant la
matrice (stochastique) Q. Pour l'exemple de la gure 4.1, on obtient ainsi

1
6
1

Q = 3
0

0
0

1
2
1
6
1
3

0
0
0

1
2
1
6

0
0
0
0

1
6
1
3

1
6

1
6

0
1
2

0
1
2

0
1

1 .
2
1

2
0

On dnit alors l'indice de notorit d'une page comme la fraction de temps pass sur cette page lorsque
le temps tend vers l'inni, correspondant encore la probabilit fournie par la distribution stationnaire
(ou invariante ) de la chane de Markov considre, donne par un vecteur propre gauche, dont les
composantes sont positives et de somme gale un, associ la valeur propre (dominante) gale 1 de
la matrice de transition de cette chane. Si le thorme de PerronFrobenius [Per07, Fro12] assure qu'un
tel vecteur existe toujours pour une matrice stochastique, il faut pour garantir son unicit (ce qui revient
demander que la valeur propre 1 soit de multiplicit simple) que la chane de Markov en question soit
irrductible 11 . Pour ce soit le cas, on suppose qu'un internaute peut passer de la page sur laquelle il se
trouve
l'une des pages vers lesquelles mnent les hyperliens qu'elle contient avec une probabilit de valeur
> 0, que l'on appelle le facteur d'amortissement (damping factor en anglais),
toute page de la  Toile  avec une probabilit uniforme, valant 1
n .
12
Cette dernire hypothse conduit considrer gale la matrice stochastique irrductible

A = Q +

1 T
ee ,
n

7. Une chane de Markov est un processus stochastique vriant une proprit de Markov caractrisant une  absence
de mmoire . De manire simplie, la meilleure prvision que l'on puisse faire, connaissant le pass et le prsent, du futur
d'un tel processus est identique la meilleure prvision qu'on puisse faire du futur connaissant uniquement le prsent.
8. Andrei Andreevich Markov (Andr&ei
@ Andr&eeviq M&arkov en russe, 2 juin 1856 - 20 juillet 1922) tait un mathmaticien
russe. Il est connu pour ses travaux sur les processus stochastiques en temps discret.
9. Une matrice stochastique est une matrice carre dont tous les lments sont des rels positifs compris entre 0 et 1 et
dont la somme des lments d'une mme ligne (ou d'une mme colonne) est gale 1. Le spectre d'une matrice stochastique
est contenu dans le disque unit.
10. L encore, on peut utiliser n'importe quelle distribution de probabilit autre que la distribution uniforme. Une des
premires modications
Pn suggres du modle de base a t l'utilisation d'un vecteur  personnalis  v , tel que vi 0,
i {1, . . . , n}, et
i=1 vi = 1, direnciant les internautes en fonction de leurs habitudes ou de leurs gots, pour
ventuellement proposer des classements adapts l'utilisateur qui formule la requte.
11. Une chane de Markov est dite irrductible si tout tat est accessible partir de n'importe quel autre tat.
12. Dans le cas, voqu plus haut, d'une personnalisation de la recherche par l'utilisation d'un vecteur v , on aura A =
Q + (1 ) ev T .

111

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

pour laquelle il existe un unique vecteur de Rn tel que

A = , i 0, i {1, . . . , n}, et
T

n
X

i = 1.

i=1

L'indice de notorit de la ime page est ainsi donn par la valeur i . Le vecteur tant aussi un vecteur
propre ( droite) associ la valeur propre dominante de la matrice AT , Google a recours la mthode
de la puissance (voir la section 4.4), qui ne ncessite que d'eectuer des produits entre la matrice AT et
des vecteurs donns. Cependant, la taille du World Wide Web est si gigantesque qu'il est impossible de
stocker la matrice AT ou d'eectuer de manire conventionnelle son produit avec un vecteur. Pour rendre
la mthode applicable, il faut observer que la matrice Q est trs creuse 13 et tirer parti de cette structure
particulire en ne stockant que ses lments non nuls, tout en adaptant les algorithmes de multiplication
matricielle. Mme en ralisant ces optimisations, la puissance de calcul requise reste considrable et
ncessite des serveurs informatiques adapts cette tche, que Google eectuerait apparemment chaque
mois.
Parlons pour nir de la valeur du facteur d'amortissement . On peut montrer (voir [LM04]) que
n'est pas irrductible,
la valeur propre sous-dominante de la matrice A est gale si la matrice Q
14
strictement infrieure sinon . La vitesse de convergence de la mthode de la puissance se trouve par
consquent directement aecte par le choix de cette valeur. Il y a alors un compromis dlicat trouver
entre une convergence rapide de la mthode (c'est--dire choisi proche de 0) et un modle rendant
assez dlement compte de la structure de la  Toile  et du comportement des internautes (c'est--dire
choisi proche de 1). La valeur utilise par les fondateurs de Google est = 0, 85.

4.2

Localisation des valeurs propres

Certaines mthodes permettant d'approcher une valeur propre spcique d'une matrice, il peut tre
utile d'avoir une ide de la localisation du spectre dans le plan complexe. Dans ce domaine, une premire
estimation est donne par le thorme A.139, dont on dduit que, pour toute matrice carre A et pour
toute norme matricielle kk, on a
|| kAk, (A).
Cette ingalit, bien que souvent trop grossire, montre que toutes les valeurs propres de A sont contenues
dans un disque centr en l'origine et de rayon kAk. Une autre estimation de localisation a priori des valeurs
propres, plus prcise mais nanmoins trs simple, est fournie par le thorme 4.3.

Dnition 4.2 ( disques de Gershgorin 15 ) Soit A une matrice de Mn (C). Les disques de Gershgorin Di , i = 1, . . . , n, sont les rgions du plan complexe dnies par
Di = {z C | |z aii | Ri } , avec Ri =

n
X

|aij | .

(4.6)

j=1
j6=i

Thorme 4.3 ( thorme des disques de Gershgorin  [Ger31]) Si A est une matrice d'ordre

n, alors

(A)

n
[

Di ,

i=1

o les Di sont les disques de Gershgorin dnis par (4.6).


13. Typiquement, on a seulement de trois dix termes non nuls sur chacune des lignes de cette matrice.
14. Ce rsultat reste vrai en cas d'utilisation d'un vecteur de personnalisation v .
15. Semyon Aranovich Gershgorin (Semn Aranoviq Gerxgorin en russe, 24 aot 1901 - 30 mai 1933) tait un mathmaticien russe, dont les travaux concernrent l'algbre, la thorie des fonctions d'une variable complexe et les mthodes
numriques pour la rsolution d'quations direntielles.

112

4.2. LOCALISATION DES VALEURS PROPRES


Dmonstration. Supposons que C soit une valeur propre de A. Il existe alors un vecteur non nul v de
Cn tel que Av = v , c'est--dire
n
X
aij vj = vi , i = 1, . . . , n.

j=1

Soit vk , k {1, . . . , n}, la composante de v ayant le plus grand module (ou l'une des composantes de plus grand
module s'il y en a plusieurs). On a d'une part vk 6= 0, puisque v est non nul par hypothse, et d'autre part






n
n
X
X



| akk | |vk | = |vk akk vk | =
akj vj akk vk = akj vj |vk | Rk ,



j=1
j6j=1

=k
ce qui prouve, aprs division par |vk |, que la valeur propre est contenue dans le disque de Gershgorin Dk , d'o
le rsultat.


Ce thorme assure que toute valeur propre de la matrice A se trouve dans la runion des disques de
Gershgorin de A (voir la gure 4.2). La transpose AT de A possdant le mme spectre que A, on obtient
de manire immdiate une premire amlioration du rsultat.

Figure 4.2:

Reprsentation dans le
plan complexe des
valeurs propres (en rouge) et des disques de Gershgorin
3i
3
3+i 2

(en bleu) de la matrice complexe A = 2

4 3+i 2i

2
2i 2+3i 0
i
1
i
4i

Proposition 4.4 Si A est une matrice d'ordre n, alors


(A)

n
[

!
Di

i=1

n
[

Dj0 ,

j=1

o les ensembles Dj0 , j = 1, . . . , n, sont tels que

Dj0 = {z C | |z ajj | Cj } , avec Cj =

n
X

|aij | ,

i=1
i6=j

et les Di sont dnis par (4.6)

La version suivante du thorme permet d'tre encore plus prcis sur la localisation des valeurs propres
quand la runion des disques de Gershgorin d'une matrice possde des parties connexes.
113

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

Thorme 4.5 ( second thorme de Gershgorin ) Soit A une matrice d'ordre n, avec n 2. On
suppose qu'il existe un entier p compris entre 1 et n 1 tel que l'on puisse diviser la runion des disques
de Gershgorin en deux sous-ensembles disjoints de p et n p disques. Alors, le premier sous-ensemble
contient exactement p valeurs propres, chacune tant compte avec sa multiplicit algbrique, les valeurs
propres restantes tant dans le second sous-ensemble.
Dmonstration. La preuve est base sur un argument d'homotopie, une notion de topologie algbrique
formalisant la notion de dformation continue d'un objet un autre. On commence par noter D(p) l'union des
p disques de l'nonc, D(q) celle des q = n p disques restants, et, pour 0 1, on dnit la matrice
B() = (bij ())1i,jn de Mn (C), telle que
(
aii
si i = j,
bij () =
aij si i 6= j.

On a alors B(1) = A, et B(0) est une matrice diagonale dont les lments diagonaux concident avec ceux de
A. Chacune des valeurs propres de B(0) est donc le centre d'un des disques de Gershgorin de A et l'on sait
qu'exactement p de ces valeurs propres se trouvent dans l'union de disques D(p) . Les valeurs propres de B()
tant les racines de son polynme caractristique, dont les coecients sont des fonctions continues de , elles sont
des fonctions continues de . Par consquent, lorsque parcourt l'intervalle [0, 1], les valeurs propres de la matrice
B() le long de chemins continus du plan complexe et les rayons de ses disques de Gershgorin varient de 0 ceux
des disques de Gershgorin de A. Puisque p valeurs propres sont contenues dans l'union D(p) lorsque = 0, et que
les disques de cette union sont disjoints de ceux de D(q) , ces p valeurs propres doivent encore se trouver dans D(p)
lorsque = 1.


Ce dernier rsultat se gnralise un nombre de sous-ensembles disjoints de disques de Gershgorin


suprieur deux.

4.3

Conditionnement d'un problme aux valeurs propres

Comme pour la rsolution d'un systme linaire, le calcul numrique de valeurs et de vecteurs propres
est aect par des erreurs d'arrondis. Si le conditionnement d'un problme aux valeurs propres fait lui
aussi intervenir le conditionnement d'une matrice (voir la section A.5.4), il ne s'agit pas (comme dans le
cas des systmes linaires, voir la section 1.4.2) de celui de la matrice dont on cherche les valeurs propres,
mais des matrices de passage une matrice diagonale, comme le montre le rsultat suivant.

Thorme 4.6 ( thorme de BauerFike  [BF60]) Soit A une matrice diagonalisable de Mn (C),

P une matrice de vecteurs propres de A telle que A = P 1 DP , avec D une matrice diagonale ayant pour
coecients les valeurs propres {i }i=1,...,n de A, et A une matrice de Mn (C). Si est une valeur propre
de A + A, alors
min | | condp (P ) kAkp ,
(A)

avec kkp une norme matricielle subordonne une norme p quelconque.


Dmonstration. Si est une valeur propre de A alors l'ingalit du thorme est trivialement vrie. On
suppose prsent que n'est pas une valeur propre de A. Par dnition d'une valeur propre, on a det(A + A
In ) = 0, d'o

0 = det(P 1 ) det(D+P 1 AP In ) det(P ) = det(D+P 1 AP In ) = det(D In ) det(In +(D In )1 P 1 AP ),

ce qui implique que 1 est une valeur propre de la matrice (D In )1 P 1 AP . On a donc, en vertu du thorme
A.139,
1 k(D In )1 P 1 AP kp k(D In )1 kp kAkp kP kp kP 1 kp ,
soit encore

1
condp (P )kAkp ,
k(D In )1 kp
dont dcoule l'ingalit, puisque, la matrice D In tant diagonale,
k(D In )1 kp = sup
vCn
v6=0

k(D In )1 vk
1
1
= max
=
.
(A) | |
kvk
min | |
(A)

114

4.4. MTHODE DE LA PUISSANCE

Il rsulte de ce thorme que les matrices normales (c'est--dire symtriques ou hermitiennes) sont
trs bien conditionnes pour le problme aux valeurs propres puisqu'elles sont diagonalisables par des
matrices unitaires, dont le conditionnement relativement la norme kk2 vaut 1 (voir le thorme A.150).

4.4

Mthode de la puissance

La mthode de la puissance (power (iteration) method en anglais) est certainement la mthode la


plus simple fournissant une approximation de la valeur propre de plus grand module d'une matrice
et d'un vecteur propre associ. Aprs l'avoir prsente et avoir analys sa convergence, nous verrons
comment, par des modications adquates, elle peut tre utilise pour calculer quelques autres couples
de valeur et vecteur propres de la mme matrice. Dans toute la suite, on considre une matrice A de
Mn (C) diagonalisable et on note j , j = 1, . . . , n, ses valeurs propres (comptes avec leurs multiplicits
algbriques respectives) et V une matrice de vecteurs propres v j , j = 1, . . . , n, associs. On suppose de
plus que les valeurs propres de A sont ordonnes de la manire suivante
(4.7)

|1 | |2 | |n | .

4.4.1

Approximation de la valeur propre de plus grand module

Faisons l'hypothse que la valeur propre n est de multiplicit algbrique gale 1 et que la dernire
des ingalits de (4.7) est une ingalit stricte. On dit alors que n est la valeur propre dominante de
A. Pour l'approcher, on peut considrer la mthode itrative suivante, appele mthode de la puissance :
tant donn un vecteur initial arbitraire q (0) de Cn normalis, calculer, pour k 1,

z (k) = Aq (k1) ,
z (k)
q (k) = (k) ,
kz k2
(k) = (q (k) ) Aq (k) .

(4.8)

Analysons ses proprits la suite (q (k) )kN . Par une simple rcurrence sur l'indice k , on vrie que

q (k) =

Ak q (0)
, k 1,
kAk q (0) k2

(4.9)

et l'on voit alors plus clairement le rle jou par les puissances de la matrice A, qui donnent son nom la
mthode. En eet, l'ensemble {v j }j=1,...,n des vecteurs propres de A formant une base de Cn , le vecteur
q (0) peut se dcomposer de la manire suivante

q (0) =

n
X

j v j ,

j=1

et l'on a alors, en supposant le coecient n non nul,

Ak q (0) =

n
X

j (Ak v j ) =

j=1

n
X

j j k v j = n n k v n +

j=1

n1
X
j=1

j
n

j
n

k

v j , k 1.

(4.10)



Comme nj < 1 pour 1 j n1, la composante le long de v n du vecteur q (k) augmente par consquent
en module avec l'entier k , tandis que les composantes suivant les autres directions v j , j = 1, . . . , n 1,
diminuent. En supposant que les vecteurs de la base {v j }j=1,...,n sont de norme euclidienne gale 1, il
vient

1/2





n1

1/2

 
n1
X j 2 j 2k
X j 2
X j j k
n1 k n1
n1 k











,

vj

=C
n n


n

n
n
j=1 n n

j=1
j=1
2

115

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

et l'on dduit alors de (4.9), (4.10) et cette dernire ingalit que

q (k) =

n n k (v n + w(k) )
, k 1,
kn n k (v n + w(k) )k2

o la suite de vecteurs (w(k) )k1 a pour limite le vecteur nul. Le vecteur q (k) devient donc peu peu
colinaire avec le vecteur propre v n associ la
propre dominante n quand k tend vers l'inni
valeur


et ce d'autant plus rapidement que le rapport n1
est petit, ce qui correspond des valeurs propres
n
dominante et sous-dominante bien spares. La suite des quotients de Rayleigh 16

(q (k) ) Aq (k) = (k) , k 1,


converge donc vers la valeur propre n , et on a dmontr le rsultat suivant.

Thorme 4.7 Soit A une matrice diagonalisable d'ordre n, dont les valeurs propres satisfont
|1 | |2 | < |n | .
On suppose que le vecteur initial q (0) de la mthode de la puissance (4.8) n'est pas strictement contenu
dans le sous-espace engendr par les vecteurs propres associs aux valeurs propres autres que la valeur
dominante n . Alors, la mthode converge 17 et sa vitesse de convergence est d'autant plus rapide que le
module du rapport entre n1 et n est petit.

Si A est une matrice relle symtrique, l'nonc du thorme prcdent se simplie lgrement puisque
A est diagonalisable en vertu du thorme A.116 et que la condition sur le vecteur d'initialisation revient
demander qu'il ne soit pas orthogonal au vecteur propre v n . On montre de plus que la convergence de
la mthode est plus rapide que dans le cas gnral.

Thorme 4.8 Soit A une matrice symtrique d'ordre n, dont les valeurs propres satisfont
|1 | |2 | < |n | .
On suppose que le vecteur initial q (0) de la mthode de la puissance (4.8) n'est pas orthogonal au sousespace propre associ la valeur propre dominante n . Alors, la mthode converge de manire quadratique,
c'est--dire que


2k
(k)



n |1 n | tan((0) )2 n1 , k 1,
n

avec cos( (0) ) = v n T q (0) 6= 0.


Dmonstration. Par dnition de la mthode, on a, pour k 0 et en utilisant la dcomposition du vecteur
q (0) dans la base orthonorme {v j }j=1,...,n ,
Pn
2
2k+1
(q (0) )T A2k+1 q (0)
j=1 j j
(k) = (q (k) )T Aq (k) =
=
,
P
n
2k
2
(q (0) )T A2k q (0)
j=1 j j

et donc

P

Pn1 2 2k
(k)
n1 2 2k (j n )
j=1 j j
n = j=1P j j
.
|1 n | Pn
n
2k
2k
2
2


j=1 j j
j=1 j j

16. John William Strutt, troisime baron Rayleigh, (12 novembre 1842 - 30 juin 1919) tait un physicien anglais. Il est
l'origine de nombreuses dcouvertes scientiques. Il expliqua pour la premire fois de manire correcte la couleur du ciel en
la reliant la diusion de la lumire par les molcules d'air, thorisa l'existence des ondes de surface ou encore dcouvrit,
en collaboration avec William Ramsay, l'lment chimique argon, ce qui lui valut de recevoir le prix Nobel de physique en
1904.
17. Pour une valeur propre dominante n relle, la convergence a lieu au sens o l'on a
lim (k) = n et

k+

lim q (k) = v n si n > 0 ou

k+

le vecteur v n tant un vecteur propre normalis associ n .

116

lim (1)k q (k) = v n si n < 0,

k+

4.4. MTHODE DE LA PUISSANCE

Or, il vient
Pn1
j=1
Pn
j=1

j 2 j 2k
j 2 j 2k

Pn1

j=1

j 2 j 2k

n 2 2k
n

n 2

n1
X
j=1

!

n1
n

2k
=

1 n 2
n 2

n1
n

2k

= tan((0) )2

d'o l'ingalit annonce.

n1
n

2k
,


Bien qu'elle soit dicile vrier quand on ne dispose d'aucune information a priori sur le sousespace propre associ n , on remarquera que l'hypothse faite sur le vecteur initial q (0) n'est pas
trs contraignante en pratique, car, mme si celui-ci est bel et bien contenu dans Vect{v 1 , . . . , v n1 },
il est probable que, du fait des erreurs d'arrondi, l'un des vecteurs q (k) , k 1, aura une  petite 
composante dans la direction de v n et l'on aura alors convergence de la mthode. Par ailleurs, on voit
d'aprs l'expression (4.10) que la suite de vecteurs (Ak q (0) )kN n'est, en gnral, pas convergente. C'est
la raison pour laquelle on choisit de normaliser les vecteurs de la suite (q (k) )kN .
Si la valeur propre n n'est pas de multiplicit simple tout en tant nanmoins la seule valeur propre de
plus grand module de A, on a encore convergence de la suite ( (k) )kN vers n , alors que la suite (q (k) )kN
converge vers un lment du sous-espace propre associ. En revanche, s'il existe plusieurs valeurs propres
de plus grand module, la mthode de la puissance ne converge gnralement pas. Dans le cas de deux
valeurs propres dominantes complexes conjugues, i.e., n1 = n , la suite (q (k) )kN prsente notamment
un comportement oscillatoire non amorti. Indiquons que supposer l'existence d'une unique valeur propre
dominante n'est en principe pas une hypothse restrictive, puisque l'on peut montrer qu'une matrice
possde des valeurs propres de modules distincts de manire gnrique 18 .
Indiquons enn que la mise en uvre de la mthode de la puissance ne ncessite que de calculer
des produits scalaires entre dirents vecteurs, ainsi que des produits entre la matrice A et les vecteurs
de la suites (q (k) )kN . Il n'est en particulier pas obligatoire de stocker la matrice A sous la forme d'un
tableau, ce qui peut tre particulirement intressant lorsque celle-ci est creuse et de grande taille (voir la
sous-section 4.1.3 pour un exemple). Dans le cas d'une matrice quelconque, le cot d'une itration de la
mthode sera de n2 multiplications et n(n 1) additions pour eectuer le produit matrice-vecteur, n2 + n
multiplications, n 1 additions, une division et une extraction de racine carre pour la normalisation du
vecteur courant, n2 multiplications et n 1 additions pour le calcul du quotient de Rayleigh.

4.4.2

Dation

Pour approcher d'autres valeurs propres que celle de plus grand module, on peut utiliser une technique,
nomme dation, consistant en la construction, partir d'une matrice donne, d'une matrice possdant
le mme spectre, l'exception d'une valeur propre choisie qui se trouve remplace par 0. Il devient alors
possible, en appliquant la mthode de la puissance la matrice rsultant de la dation par la valeur
propre dominante n dj trouve, d'obtenir une suite convergeant vers la valeur propre ayant le deuxime
plus grand module, et ainsi de suite...
Le procd de dation le plus simple, dit de Hotelling 19 [Hot33], demande, dans le cas d'une matrice
A gnrale, de connatre une valeur propre j , j {1, . . . , n}, et un vecteur v j associ, issu d'une
base {v i }i=1,...,n forme de vecteurs propres, ainsi que le vecteur uj correspondant de la base duale de
{v i }i=1,...,n , c'est--dire le vecteur vriant 20

(uj ) v i = ij , i {1, . . . , n}.


18. En topologie, une proprit est dite gnrique si elle est vraie sur un ensemble ouvert dense ou, plus gnralement,
sur un ensemble rsiduel (c'est--dire un ensemble contenant une intersection dnombrable d'ouverts denses).
19. Harold Hotelling (29 septembre 1895 - 26 dcembre 1973) tait un statisticien et conomiste amricain. En statistique,
il est connu pour l'introduction de mthodes d'analyse en composantes principales et son utilisation de la loi de Student
pour la validation d'hypothses et la dtermination d'intervalles de conance.
20. Le spectre de la matrice adjointe de A tant constitu des conjugus des valeurs propres de A, on voit que le vecteur
uj est un vecteur propre de A , associ la valeur propre j et normalis de manire convenable. On a en eet
j (uj ) v i = (j uj ) v i (A uj ) v i = (uj ) Av i = (uj ) (Av i ) = i (uj ) v i , i {1, . . . , n}.

117

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

En considrant la perturbation de rang un suivante de la matrice A,

Aj = A j v j (uj ) ,
il vient

Aj v i = Av i j v j (uj ) v i = i v i j v j ij , i {1, . . . , n},

ce qui correspond bien la modication annonce du spectre, les vecteurs propres associs restant inchangs. Lorsque la matrice A est symtrique ou hermitienne, on notera que l'on a seulement besoin que
de connatre la valeur propre j et un vecteur propre v j associ, puisque l'on peut dans ce cas dnir la
matrice Aj par
v j (v j )T
Aj = A j
(v j )T v j
en vertu de la proprit d'orthogonalit des vecteurs propres.
Plus gnrale, la mthode due Wielandt 21 [Wie44b], repose sur la perturbation

Aj = A v j (wj ) ,
avec wj un vecteur tel que (wj ) v j = j . Cette transformation a le mme eet sur le spectre, mais les
vecteurs propres correspondant aux valeurs propres i , i 6= j , sont gnralement modis 22 (le vecteur
associ la valeur propre rendue nulle restant cependant v j ). On notera que le choix wj = j uj conduit
la dation de Hotelling.
Utilises en conjonction avec la mthode de la puissance, ces techniques permettent en thorie d'approcher l'ensemble du spectre d'une matrice donne. Cependant, les valeurs et vecteurs obtenus successivement n'tant en pratique que des approximations des vritables valeurs et vecteurs propres, l'accumulation
des erreurs et la mauvaise stabilit numrique de ces deux types de dation les rendent dicilement utilisables pour le calcul de plus de deux ou trois valeurs propres. On pourra consulter le chapitre neuf du
livre [Wil65] pour une prsentation d'approches plus stables de ce procd, reposant sur des similitudes
ou des transformations unitaires.

4.4.3

Mthode de la puissance inverse

On peut facilement adapter la mthode de la puissance pour le calcul de la valeur propre de plus
petit module 1 d'une matrice A inversible : il sut de l'appliquer l'inverse de A, dont 1 1 est la plus
grande valeur propre en module. On parle dans ce cas de mthode de la puissance inverse (inverse power
method en anglais).
De manire plus gnrale, cette variante permet d'approcher la valeur propre de la matrice A la plus
proche d'un nombre donn n'appartenant pas son spectre. Considrons en eet la matrice (A In )1
dont les valeurs propres sont (i )1 , i = 1, . . . , n, et supposons qu'il existe un entier m tel que

|m | < |i | , i {1, . . . , n} \ {m},


ce qui revient supposer que la valeur propre m qui est la plus proche de a une multiplicit algbrique
gale 1 (en particulier, si = 0, m sera la valeur propre de A ayant le plus petit module). L'application
de la mthode de la puissance inverse pour le calcul de m se rsume alors la construction, tant donn un
vecteur initial arbitraire q (0) de Cn normalis, des suites dnies par les relations de rcurrence suivantes
pour k 1
(A In )z (k) = q (k1) ,
z (k)
q (k) = (k) ,
(4.11)
kz k2
(k) = (q (k) ) Aq (k) .
21. Helmut Wielandt (19 dcembre 1910 - 14 fvrier 2001) tait un mathmaticien allemand. Il est connu pour ses travaux
en thorie des groupes, notamment sur les groupes nis et les groupes de permutations, et en thorie des matrices.
22. On a en eet, en supposant tacitement que la valeur prorpe i , i {1, . . . , n}\{j}, est non nulle,
Aj (v i i v j ) = Av i i Av j v j (wj ) v i + i v j (wj ) v j = i v i v j (wj ) v i = i

La matrice Aj admet donc i pour valeur propre si i =

(wj ) v i
.
i

118


vi

(wj ) v i
vj
i


.

4.5. MTHODE DE JACOBI POUR LES MATRICES SYMTRIQUES

Les vecteurs propres de la matrice A In tant ceux de la matrice A, le quotient de Rayleigh cidessus fait simplement intervenir A et non A In . Le nombre peut tre vu comme un paramtre
permettant de  dcaler  (on parle en anglais de shift ) le spectre de la matrice A de manire pouvoir
approcher toute valeur propre de A dont on possde une estimation a priori. De ce point de vue, la
mthode de la puissance inverse se prte donc particulirement bien au ranement d'une approximation
grossire d'une valeur propre obtenue par les techniques de la section 4.2. Par rapport la mthode de
la puissance (4.8), il faut cependant rsoudre, chaque itration k de la mthode, un systme linaire
(ayant pour matrice A In ) pour obtenir le vecteur z (k) . En pratique, on ralise une fois pour toutes la
factorisation LU (voir la section 2.4) de cette matrice au dbut du calcul de manire n'eectuer par la
suite que la rsolution de deux systmes linaires triangulaires, pour un cot de l'ordre de n2 oprations,
chaque tape.
S'il est souhaitable que la valeur du paramtre soit aussi voisine que possible de la valeur propre
m pour que la convergence soit rapide, il faut nanmoins qu'il n'en soit pas proche au point de rendre la
matrice A In numriquement singulire (cette dernire notion, lie la prsence d'erreurs d'arrondi,
tant essentiellement empirique).

4.4.4

Mthode de Lanczos **

La mthode de Lanczos 23 [Lan50] est une adaptation de la mthode de la puissance au calcul simultan
de plusieurs valeurs et vecteurs propres d'une matrice carre (ou encore la dcomposition en valeurs
singulires d'une matrice rectangulaire). Elle est particulirement employe dans le cas de trs grandes
matrices creuses.
A COMPLETER
AJOUTER que la mthode peut aussi servir pour la rsolution de systmes linaires [Lan52].

4.5

Mthode de Jacobi pour les matrices symtriques

La mthode de Jacobi se sert de la structure particulire d'une matrice symtrique (donc diagonalisable) pour construire une suite de matrices symtriques convergeant vers la dcomposition de Schur (voir
le thorme A.111), diagonale et orthogonalement semblable, de cette matrice. L'ide est se  rapprocher  en un nombre inni d'tapes, d'une forme diagonale de la matrice en liminant successivement des
couples de coecients hors diagonaux en position symtrique par utilisation des transformations induites
par les matrices de Givens.

4.5.1

Matrices de rotation de Givens

Les matrices de Givens sont des matrices orthogonales qui permettent, tout comme les matrices de
Householder prsentes dans la section 2.5.3, d'annuler certains coecients d'un vecteur ou d'une matrice.
Pour un couple d'indices p et q vriant 1 p < q n, et un nombre rel donns, on dnit la matrice

23. Cornelius Lanczos (Lnczos Kornl en hongrois, n Lwy Kornl, 2 fvrier 1893 - 25 juin 1974) tait un mathmaticien
et physicien hongrois. Il dveloppa plusieurs mthodes numriques, pour la recherche de valeurs propres, la rsolution de
systmes linaires, l'approximation de la fonction gamma ou encore le r-chantillonage de signaux numriques.

119

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

de Givens comme

G(p, q, )

.
..

.
..

.
.
.
.
.
.
.
.
.

..
.

..
.

..
.
0

...

...

...

...

...

...

...

1
..

.
cos()

sin()
1
..

.
1

sin()

cos()
1

...

...

...

...

...

...

...

...

... 0
..
.

..
.

..
.

..

.
..

.
..

..
.

..
.

..
. 0
0 1

(4.12)

In (1 cos())(Epp + Eqq ) + sin()(Epq Eqp ).

Cette matrice reprsente la rotation d'angle (dans le sens trigonomtrique) dans le plan engendr
par les pime et q ime vecteurs de la base canonique de Rn , ce qui constitue une manire de voir qu'elle
est orthogonale. D'autres proprits des matrices de Givens sont rsumes dans le rsultat suivant.

Thorme 4.9 Soit p et q deux entiers vriant 1 p < q n et un nombre rel auxquels on associe
la matrice dnie par (4.12).

1. Si A est une matrice symtrique, alors la matrice

(4.13)

B = G(p, q, )T AG(p, q, ),
galement symtrique, vrie
n
n X
X

b2ij =

i=1 j=1

n X
n
X

a2ij .

i=1 j=1

i
4

h i

2. Si apq 6= 0, alors il existe une unique valeur du nombre dans l'ensemble , 0 0,

i
telle que
4

bpq = 0,
donne par la seule solution, dans le mme ensemble, de l'quation

cotan(2) =
On a alors

n
X
i=1

b2ii =

n
X

aqq app
.
2 apq

a2ii + 2 a2pq .

i=1

Dmonstration.

P
P
1. On remarque que ni=1 nj=1 b2ij = kBk2F = tr(BB T ), o kkF dsigne la norme de Frobenius (dnie par
(A.7)). On vrie alors que
tr(G(p, q, )T AG(p, q, )(G(p, q, )T AG(p, q, ))T ) = tr(G(p, q, )T AG(p, q, )) = tr(A),

d'o l'galit recherche.

120

4.5. MTHODE DE JACOBI POUR LES MATRICES SYMTRIQUES

2. Il sut de remarquer que la transformation portant sur les lments d'indices (p, p), (p, q), (q, p) et (q, q)
s'crit sous la forme

 



bpp bpq
cos() sin()
app apq
cos()
sin()
=
,
bqp bqq
sin()
cos()
aqp aqq
sin() cos()
et le mme raisonnement qu'en 1. montre que
b2pp + b2qq + 2 b2pq = a2pp + a2qq + 2 a2pq ,

pour toute valeur de . On a par ailleurs


bpq = bqp = apq (cos()2 sin()2 ) + (app aqq ) cos() sin() = apq cos(2) +

app aqq
sin(2).
2

Le coecient bpq est donc nul si et seulement si l'angle vrie la relation de l'nonc, ce qui est toujours
possible puisque la fonction cotan(2 ) est surjective sur R. On en dduit que
b2pp + b2qq = a2pp + a2qq + 2 a2pq .

Comme tous les autres coecients diagonaux de la matrice B sont identiques ceux de la matrice A, on a
tabli l'galit dsire.


pimes

q imes

On remarque que seules les


et
lignes et colonnes de la matrice A sont modies par la
transformation fournissant la matrice B = G(p, q, )T AG(p, q, ). Plus prcisment, on a

bij = aij si i 6= p, q et j 6= p, q,

bpj = cos() apj sin() aqj si j 6= p, q,

bqj = sin() apj + cos() aqj si j 6= p, q,


bpp = cos()2 app 2 cos() sin() apq + sin()2 aqq ,
(4.14)

2
2
bqq = sin() app + 2 cos() sin() apq + cos() aqq ,

bpq = cos()2 sin()2 apq + cos() sin() (app aqq ),

bqp = bpq .
En posant alors c = cos() et s = sin(), on dduit des galits ci-dessus que les coecients de la matrice
B telle que bpq = 0 peuvent tre obtenus, de faon stable, partir de ceux de A par des identits
algbriques ne ncessitant pas la dtermination de l'angle . En eet, si apq = 0, on prend c = 1 et s = 0,
sinon on pose t = s/c et l'on voit que t doit tre la racine de plus petit module du trinme

t2 + 2 t 1 = 0, avec =
c'est--dire t = +

2 + 1 si 0 et t =

aqq app
,
2 apq

2 + 1 sinon, soit encore


(
1
si > 0
sign( )

t=
, si 6= 0, avec sign( ) =
, t = 1 sinon.
2
1 sinon
| | + + 1

On a alors

c=

4.5.2

1
t
et s = ct =
.
2
1+t
1 + t2

(4.15)

Mthode de Jacobi

Dcrivons prsent la mthode de Jacobi, qui consiste en la construction, aprs avoir pos A(0) = A,
d'une suite de matrices symtriques (A(k) )kN par la relation de rcurrence

A(k+1) = (G(k) )T A(k) G(k) , k 0,


121

(4.16)

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

o G(k) = G(p(k) , q (k) , (k) ) est une matrice de Givens de la forme (4.12), dont les entiersip(k) ethq (k)
i , 1i

(k)
(k)
(k)
(k)
p < q n, dpendent de la matrice A selon une stratgie choisie et le rel , 0 0,
4
4
est dtermin de manire avoir
(k+1)
ap(k) q(k) = 0,
ce choix particulier portant le nom de rotation de Jacobi. Il faut ici remarquer que les coecients horsdiagonaux annuls une tape donne peuvent par la suite tre remplacs par des lments non nuls,
puisque l'on arriverait autrement une matrice diagonale en un nombre ni d'itrations, ce qui est
impossible. Cependant, en procdant ainsi, on diminue, de faon systmatique et chaque tape, la
quantit
v
uX
n X
n
u
(k) 2
off(A(k) ) = u
aij ,
t
i=1 j=1
j6=i

puisque, en vertu du thorme 4.9, on a, pour tout k 0,

off(A(k+1) )2 = kA(k+1) k2F

n
X

(k+1)

aij

= kA(k) k2F

i=1

n
X

(k)

off(A(k) )2 .
= off(A(k) )2 2 a(k)
aij 2 a(k)
pq
pq

i=1

(4.17)
C'est ce dernier fait qui rend la convergence de la mthode possible. En eet, la norme de Frobenius de
chacune des matrices de la suite (A(k) )kN est la mme, alors que, chaque tape, la somme des carrs
des lments hors-diagonaux est diminue de la somme des carrs des deux lments qui viennent d'tre
annuls. On peut donc esprer que cette suite va converger vers une matrice diagonale, qui sera gale,
des permutations prs, la matrice

1 0 . . . 0

.
0 . . . . . . ..
,

. .

.
.
.
.
.
. 0
.
0 . . . 0 n
o les rels i , 1 i n, sont les valeurs propres de la matrice A, ordonnes de manire arbitraire.
Avant d'noncer un rsultat de convergence, il faut dcider d'une manire de raliser un choix eectif
des indices p(k) et q (k) chaque tape. Si l'on vise maximiser la rduction de la quantit off(A(k) ),
k 0, il convient de choisir le couple (p(k) , q (k) ) comme l'un des couples (p, q) pour lesquels

(k)
apq =

(k)
max aij .

1i<jn

Cette stratgie est la base de la mthode de Jacobi sous sa forme classique. D'autres faons de procder
seront prsentes dans la section suivante.
Nous allons prsent prouver que cette mthode est convergente. An d'viter les situations triviales
pour lesquelles on peut avoir convergence en
un nombre ni d'tapes de la mthode, nous supposerons
(k)

implicitement dans ce qui suit que max aij 6= 0, k 0.
1i<jn

Thorme 4.10 (convergence vers les valeurs propres pour la mthode de Jacobi) La suite de
matrices (A(k) )kN construite par la mthode de Jacobi est convergente et

lim A(k)

k+

(1)

0
=
.
..
0

0
..
.
..

.
...

...
..
.
..
.
0

0
..
.
,

0
(n)

pour une permutation convenable de Sn , o Sn dsigne le groupe des permutations de l'ensemble


{1, . . . , n}.

122

4.5. MTHODE DE JACOBI POUR LES MATRICES SYMTRIQUES

Pour dmontrer ce thorme, on a besoin du lemme technique suivant.

Lemme 4.11 Soit X un espace vectoriel norm de dimension nie et (x(k) )kN une suite borne dans X ,

admettant un nombre ni de valeurs d'adhrence et telle que

lim kx(k+1) x(k) k = 0. Alors, la suite

k+

(x(k) )kN est convergente.


On note ai , 1 i I , les valeurs d'adhrence de la suite (x(k) )kN . Pour tout > 0, il
existe un entier k() tel que
I
[
k k() x(k)
B(ai , ),
Dmonstration.

i=1

o B(ai , ) est la boule ferme de centre ai et de rayon . En eet, si cela


S n'tait pas le cas, il existerait une suite
extraite (x((k)) )kN qui convergerait vers un point x0 tel que x0
/ Ii=1 B(ai , ). Le point x0 serait alors une
valeur d'adhrence de la suite (x(k) )kN , distincte des points ai , 1 i I , ce qui vient contredire l'hypothse.
On fait alors le choix particulier
1
0 =
min kai aj k > 0,
3 1i<jI
ce qui conduit l'existence d'un entier k(0 ) tel que
k k(0 ) x(k)

I
[

B(ai , 0 ) et kx(k+1) x(k) k 0 .

i=1

Ainsi, on a que x(k) B(ai , 0 ) implique que x(k+1) B(ai , 0 ) pour tout k k(0 ) et le rsultat est dmontr.

Dmonstration du thorme 4.10.

On a dj tabli en (4.17) que


2

off(A(k+1) )2 = off(A(k) )2 2 a(k)


pq , k 0.

D'autre part, en tenant compte de la stratgie adopte par la mthode pour le choix du couple (p(k) , q (k) ) une
itration k donne, la majoration
2

off(A(k) )2 n(n 1) a(k)


pq , k 0,

puisqu'il y a n(n 1) lments hors-diagonaux. En combinant ces relations, on obtient




2
(k+1) 2
off(A(k) )2 , k 0,
off(A
) 1
n(n 1)
ce qui montre que

lim off(A(k) ) = 0.

k+

(4.18)

(4.19)

Dsignons prsent par D(k) , k 0, la matrice diagonale ayant pour coecients les coecients diagonaux
de la matrice A(k) et montrons que la suite (D(k) )kN n'a qu'un nombre ni de valeurs d'adhrence, qui seront
ncessairement de la forme

(1)
0 ...
0

..
..
..
0
.
.
.

,
(4.20)

.
.
.
..
..
..
0
0
. . . 0 (n)
avec une permutation de Sn . Soit (D((k)) )kN une sous-suite extraite de (D(k) )kN convergeant vers une matrice
D. On alors, en vertu de (4.19),
lim A((k)) = D,
k+

et donc

det(D In ) = lim det(A((k)) In ), C.


k+

Les matrices A et A((k)) , k 0, tant orthogonalement semblables, on a galement


det(A((k)) In ) = det(A In ), C, k 0,

123

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

et on en dduit que les matrices A et D ont les mmes polynmes caractristiques et donc les mmes valeurs
propres, comptes avec leurs multiplicits. Comme D est une matrice diagonale, il existe bien une permutation
telle que D est de la forme (4.20).
On vrie ensuite que

si i 6= p(k) , q (k) ,

0
(k)
(k)
(k)
(k+1)
(k)
aii
aii = tan( ) ap(k) q(k) si i = p ,
, k 0.

(k)
(k)
tan( ) a
si
i
=
q,
(k) (k)
p



Or, comme (k)



(k)

et ap(k)
), on en conclut, en utilisant une nouvelle fois (4.19), que
(k) q (k) off(A
lim (D(k+1) D(k) ) = 0.

k+

Enn, la suite (D(k) )kN est borne puisque


kD(k) kF kA(k) kF = kAkF , k 0.

La suite (D(k) )kN , satisfaisant toutes les hypothses du lemme 4.11, converge donc vers une de ses valeurs
d'adhrence, qui est de la forme (4.20). Le rsultat est alors dmontr, puisqu'on a
lim A(k) = lim D(k) ,

k+

k+

par (4.19).

Donnons maintenant un rsultat sur la convergence des vecteurs propres.

Thorme 4.12 (convergence vers les vecteurs propres pour la mthode de Jacobi) On suppose
que toutes les valeurs propres de la matrice A sont distinctes. Alors, la suite (O (k) )kN , avec O (k) =
G(0) G(1) . . . G(k) , k 0, de matrices orthogonales construites par la mthode de Jacobi converge vers une
matrice orthogonale dont les colonnes constituent un ensemble de vecteurs propres orthonormaux de A.
Soit (O((k)) )kN une sous-suite de (O(k) )kN convergeant vers une matrice orthogonale
O . D'aprs le thorme prcdent, il existe une permutation de Sn telle que

(1)
0 ...
0

..
..
..
0
.
.
.
= lim (O((k)) )T AO((k)) = (O0 )T AO0 ,

k+
.
.
.
.
.
.
.
.
.
0
0
. . . 0 (n)
Dmonstration.


et les valeurs d'adhrence de la suite (O(k) )kN sont donc de la forme v (1) . . . v (n) , o les vecteurs v i ,
1 i n, sont les colonnes de la matrice orthogonale O intervenant dans la relation

1
0 ... 0

.
..
0 ... ...

,
O AO = .

.
.
..
.. 0
..
0 . . . 0 n

et sont en nombre ni car les valeurs propres


de la matrice A sont simples.

Par construction, le rel (k) vrie (k) 4 et
(k)

tan(2

(k)

)=

2 ap(k) q(k)
(k)

(k)

aq(k) q(k) ap(k) p(k)

En utilisant le thorme prcdent et le fait que les valeurs propres de A sont toutes distinctes, on obtient, pour
k assez grand, que
(k)

a (k) (k) a(k)
1 min |i j | > 0.
q
q
p(k) p(k)
2 1i<jn

124

4.5. MTHODE DE JACOBI POUR LES MATRICES SYMTRIQUES

Comme on sait que lim ap(k)


lim (k) = 0 et par consquent
(k) q (k) = 0, on a tabli que
k+

k+

lim G(k) = lim G(p(k) , q (k) , (k) ) = In .

k+

On a alors

k+

lim (O(k+1) O(k) ) = lim O(k) (G(k) In ) = 0,

k+

la suite (O
4.11.

(k)

)kN tant borne (kO

k+

(k)

kF

= n, k 0). On termine la dmonstration en appliquant le lemme




Pour une preuve de la convergence de la mthode dans le cas o des valeurs propres possdent une
multiplicit plus grande que un, on consultera [Kem66a].
L'ingalit (4.18) montre que la convergence de la mthode de Jacobi est linaire (voir le section 5.2),
mais en pratique, le taux de convergence asymptotique de la mthode est bien meilleur. On peut en fait
montrer (voir par exemple [Hen58]) que, pour k assez grand, il existe une constante C > 0 telle que

off(A(k+n(n1)/2) ) C off(A(k) )2 .
annulations successives eectues
On a coutume de donner le nom de balayage (sweep en anglais) n(n1)
2
par des rotations de Jacobi. La dernire ingalit traduit alors le fait que la convergence de la mthode,
observe aprs chaque balayage et un nombre susant d'itrations, est (asymptotiquement) quadratique.
Abordons prsent la question du cot de la mthode. chaque itration, il faut tout d'abord
dterminer un lment hors-diagonal de plus grande valeur absolue, ce qui requiert de comparer entre
eux n(n1)
nombres rels. Une fois le couple d'entier (p(k) , q (k) ) obtenu, on procde l'valuation des
2
quantits cos((k) ) et sin((k) ) au moyen des formules (4.15), ce qui ncessite au plus quatre additions et
soustractions, quatre multiplications, trois divisions et deux extractions de racines carres. Les valeurs de
ces coecients tant connues, il est ensuite inutile d'assembler une matrice de Givens pour l'application
de la relation de rcurrence (4.16). Les formules (4.14) montrent en eet que, pour arriver A(k+1) en
modiant quatre lignes et colonnes de la matrice A(k) , on a besoin d'environ 4n multiplications et 2n
additions et soustractions, soit O(n) oprations (il en va de mme pour le calcul de la matrice O(k+1) ,
qui implique la modication de deux lignes de la matrice O(k) ).
Il ressort de ce compte d'oprations que la recherche d'un lment hors-diagonal liminer s'avre a
2
priori tre la partie la plus coteuse chaque tape, car elle ncessite de l'ordre de n2 comparaisons.
Une suggestion d'implmentation 24 , due Corbat 25 [Cor63], permet nanmoins d'eectuer cette tche
avec un cot dpendant linairement de l'entier n, moyennant le stockage d'un tableau auxiliaire une
dimension et un eort de programmation supplmentaire (le nombre d'instructions faisant plus que doubler). En procdant de cette manire, chaque balayage demande au total O(n3 ) oprations lmentaires,
la convergence de la mthode ( une tolrance xe prs) tant typiquement observe aprs quelques
balayages.

4.5.3

Mthode de Jacobi cyclique

On peut se passer de la recherche systmatique d'un lment hors-diagonal ayant la plus grande valeur
propre en procdant directement l'annulation de tous les coecients d'une ligne (resp. d'une colonne),
puis en passant l'annulation de ceux de la suivante, etc... en ralisant toujours dans le mme ordre les
balayages successifs. On parle alors de mthode de Jacobi cyclique par lignes (resp. par colonnes ). Si, au
cours d'un balayage, l'un des coecients s'avre tre dj nul, on passe simplement au suivant (ce qui
24. Celle-ci consiste en l'introduction chaque tape d'un tableau d'entiers, not j (k) , de taille n 1, dont le iime
lment j (k) (i) contient le numro de la colonne dans laquelle se trouve l'lment hors-diagonal possdant la plus grande
valeur absolue dans la iime ligne de la matrice A(k) . Connaissant ce tableau, il est facile de trouver l'lment annuler, en
ralisant seulement n 2 comparaisons. S'il cote O(n2 ) comparaisons pour construire j (0) la premire itration, la mise
jour de ce tableau ne requiert ensuite plus que O(n) comparaisons (on doit en eet parcourir les deux lignes modies,
d'indices respectifs p(k) et q (k) , ainsi que, pour tenir compte des colonnes modies, toute ligne dont l'indice i est tel que
j (k) (i) {p(k) , q (k) }, cas dont on peut raisonnablement esprer que l'occurrence est rare).
25. Fernando Jos Corbat (n le 1er juillet 1926) est un informaticien amricain, connu pour ses dveloppements dans
le domaine des systmes d'exploitation temps partag.

125

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

quivaut faire le choix (k) = 0). La convergence de la mthode de Jacobi cyclique reste quadratique
au sens donn plus haut (voir [Hen58, Sch61, Wil62, Kem66b]).
Une variante de cette mthode, propose dans l'article [PT57] et ncessitant moins d'oprations arithmtiques, consiste omettre d'annuler tout coecient dont la valeur absolue est infrieure un certain
seuil (threshold en anglais), x chaque balayage et qui va en diminuant ; il semble en eet superu
d'annuler des lments dj  petits  en valeur absolue alors que d'autres sont d'un ordre de grandeur
bien plus lev.

4.6

Notes sur le chapitre

Il est encore possible d'obtenir des rsultats de convergence pour la mthode de la puissance lorsque
la matrice A n'est pas diagonalisable (voir [PP73]).
Il semble que la premire utilisation de la mthode de la puissance, pour le calcul de la plus grande
valeur propre d'une matrice symtrique dnie positive, soit due Mntz 26 [Mn13], mais cette mthode
est gnralement attribue von Mises [MPG29]. La mthode de la puissance inverse fut introduite
par Wielandt en 1944 pour la dtermination numrique des vitesses d'coulement causant l'entre en
rsonance d'une aile d'avion [Wie44a].
AJOUTER un paragraphe sur la mthode d'Arnoldi 27 [Arn51]
La mthode de Jacobi, dcrite pour la premire fois dans [Jac46] o elle est utilise pour diagonaliser
une matrice relle symtrique d'ordre sept, est certainement la plus ancienne mthode de calcul de
l'ensemble des valeurs et vecteurs propres d'une matrice. Elle possde la plupart des caractristiques,
en particulier l'utilisation de transformations orthogonales, des mthodes plus sophistiques introduites
par la suite. Quelque peu nglige durant une centaine d'annes, elle connut un regain d'intrt avec
l'apparition d'ordinateurs permettant son implmentation [Gre53] et ft ensuite l'objet de recherches
actives (notamment en termes de l'tude de sa vitesse de convergence, de sa gnralisation d'autres
types de matrices que les matrices symtriques, etc...) des annes 1950 jusqu'au dbut des annes 1990.
Bien que convergeant moins rapidement que d'autres mthodes, elle reste d'intrt en raison du fait qu'elle
peut tre implmente ecacement sur un calculateur parallle. Le lecteur intress par ces dirents
aspects pourra consulter, en plus de celles dj cites, les rfrences de la section 8.4 de [GVL96].
La mthode de GivensHouseholder est une autre mthode de dtermination de valeurs propres rserve aux matrices symtriques, et plus particulirement adapte l'approximation de valeurs propres
contenues dans un intervalle dtermin a priori (par l'un des rsultats de la section 4.2 par exemple).
Elle consiste ramener dans un premier temps la matrice du problme aux valeurs propres sous la forme
d'une matrice (orthogonalement semblable) tridiagonale via l'application de transformations de Householder (voir la section 2.5.3). La mthode de Givens consiste ensuite en la construction d'une suite de
n polynmes caractristiques, associs aux sous-matrices principales extraites de la matrice tridiagonale
obtenue, possdant la particularit d'tre une suite de Sturm 28 dont les proprits permettent de calculer
le nombre de racines du polynme caractristique de A (et donc de valeurs propres) appartenant un
intervalle donn. On est alors en mesure d'encadrer, avec une prcision thoriquement arbitraire, ces
valeurs propres par la mthode de dichotomie (voir la sous-section 5.3.1).
La mthode QR [Fra61, Fra62, Kub62], base sur la factorisation du mme nom (introduite dans la
sous-section 2.5.3), est une des mthodes de rfrence pour le calcul de toutes les valeurs propres d'une
matrice. Elle reprend le principe de transformer la matrice dont on cherche les valeurs propres en une
matrice orthogonalement (dans le cas rel, unitairement sinon) semblable, de faon construire une suite
convergeant, moyennant certaines hypothses, vers la dcomposition de Schur de cette matrice. tant
26. (Chaim) Herman Mntz (28 aot 1884 - 17 avril 1956) tait un mathmaticien allemand, connu pour ses travaux en
thorie de l'approximation et en gomtrie projective.
27. Walter Edwin Arnoldi (14 dcembre 1917 - 5 octobre 1995) tait un ingnieur amricain. Il s'intressa l'arodynamique, l'acoustique et la modlisation des vibrations des hlices d'aronefs.
28. Jacques Charles Franois Sturm (29 septembre 1803 - 15 dcembre 1855) tait un mathmaticien franais d'origine
allemande. Il est connu pour le thorme portant son nom, permettant de dterminer le nombre de racines relles d'un
polynme contenues dans un intervalle donn, et la thorie de SturmLiouville, qui concerne les quations direntielles
linaires scalaires du second ordre d'un type particulier. Il s'intressa galement la compressibilit des liquides et ralisa,
avec Jean-Daniel Colladon, la premire mesure exprimentale directe de la vitesse du son dans l'eau.

126

RFRENCES

donn une matrice A carre quelconque, l'algorithme de la mthode est le suivant : on pose tout d'abord
A(0) = A puis, pour k 1 (et jusqu' convergence), on ralise la factorisation QR de la matrice A(k1) ,

A(k1) = Q(k1) R(k1) ,


et on pose

(4.21)

A(k) = R(k1) Q(k1) ,

fabriquant ainsi une suite de matrices, orthogonalement ou unitairement selon les cas, semblables A
et ayant le cas chant pour limite une matrice triangulaire suprieure. La factorisation QR ayant lieu
chaque tape requiert O(n3 ) oprations (pour une matrice d'ordre n) et rend la mthode prohibitive, mais
ce cot peut tre abaiss en eectuant une rduction prliminaire de la matrice A(0) sous la forme d'une
(0)
matrice de Hessenberg 29 suprieure , c'est--dire telle que aij = 0 si i > j + 1, 1 j n 1. On montre
alors que (4.21) ne requiert plus que O(n2 ) oprations. Un des avantages notables de cette mthode est
celui de sa stabilit numrique, hrite de la similitude orthogonale (ou unitaire) des matrices de la suite
construite : le conditionnement du problme aux valeurs propres pour A(k) , k 0, est au moins aussi
bon que celui pour A. De nombreuses amliorations et variations de cette mthode existent, notamment
la mthode QR avec translations, et nous renvoyons le lecteur intress la littrature spcialise.
l'origine de la mthode QR, on trouve la mthode LR [Rut58], qui utilise des transformations non
orthogonales. Dans cette mthode, le fonctionnement de l'algorithme est identique, mais on eectue
chaque tape une factorisation LU (voir une nouvelle fois le chapitre 2, section 2.4) de la matrice courante,
i.e.

A(k1) = L(k1) U (k1) , k 1,

et on pose ensuite

A(k) = U (k1) L(k1) .

Comme pour la mthode QR, on peut montrer que, sous certaines conditions, la suite de matrices
(A(k) )kN converge vers la dcomposition de Schur de la matrice A. Cette mthode est aujourd'hui
rarement employe, cause de dicults lies la factorisation LU, qui peuvent se rsoudre simplement
en faisant appel la factorisation P A = LU , et surtout de problmes d'instabilit numrique.
L'article [GV00] propose un tat de l'art des techniques modernes de calcul de valeurs propres, doubl
d'une mise en perspective historique et d'une bibliographie exhaustive.

Rfrences
[Arn51]
[BF60]
[BP98]

W. E. Arnoldi. The principle of minimized iterations in the solution of the matrix eigenvalue
problem. Quart. Appl. Math., 9(1):1729, 1951 (cited on page 126).
F. L. Bauer and C. T. Fike. Norms and exclusion theorems. Numer. Math., 2(1):137141, 1960.
10.1007/BF01386217 (cited on page 114).

doi:

S.

Brin

and L.

Page.

page 110).

[Cor63]

[Fra61]
[Fra62]
[Fro12]

The anatomy of a large-scale hypertextual Web search engine. Comput.


doi: 10.1016/S0169-7552(98)00110-X (cited on

Networks ISDN Systems, 30(1-7):107117, 1998.

F. J. Corbat. On the coding of Jacobi's method for computing eigenvalues and eigenvectors of
real symmetric matrices. J. ACM, 10(2):123125, 1963. doi: 10.1145/321160.321161 (cited on
page 125).
J. G. F.

Francis.

The QR transformation: a unitary analogue to the LR transformation  Part 1.


doi: 10.1093/comjnl/4.3.265 (cited on page 126).

Comput. J., 4(3):265271, 1961.

J. G. F. Francis. The QR transformation  Part 2. Comput. J., 4(4):332345, 1962.


10.1093/comjnl/4.4.332 (cited on page 126).

doi:

G. Frobenius. BER MATRIZEN AUS NICHT NEGATIVEN ELEMENTEN. Sitzungsber. Knigl.

Preuss. Akad. Wiss. Berlin :456477, 1912 (siehe Seite 111).

29. Karl Adolf Hessenberg (8 septembre 1904 - 22 fvrier 1959) tait un mathmaticien et ingnieur allemand. Il s'intressa
la rsolution de problmes aux valeurs propres et introduisit cette occasion les matrices particulires portant aujourd'hui
son nom.

127

CHAPITRE 4. CALCUL DE VALEURS ET DE VECTEURS PROPRES

[Gau96]
[Ger31]
[GK12]

[Gre53]

W. Gautschi. Orthogonal polynomials: applications and computation. Acta Numerica, 5:45119,


1996. doi: 10.1017/S0962492900002622 (cited on page 109).
S.

Gerschgorin.

ber die Abgrenzung der Eigenwerte einer Matrix. Izv. Akad. Nauk SSSR Ser.

Mat., 1(6):749754, 1931 (siehe Seite 112).

M. J. Gander and F. Kwok. Chladni gures and the Tacoma bridge: motivating PDE eigenvalue
problems via vibrating plates. SIAM Rev., 54(3):573596, 2012. doi: 10.1137/10081931X (cited on
page 108).
R. T.

Gregory.

[GV00]

G. H.

Golub

[GVL96]

G. H. Golub and C. F. Van Loan. Matrix computations. Johns Hopkins University Press,
third edition, 1996 (cited on page 126).

[GW69]

G. H. Golub and J. H. Welsch. Calculation of Gauss quadrature rules. Math. Comput.,


23(106):221230, 1969. doi: 10.1090/S0025-5718-69-99647-1 (cited on page 109).

[Hen58]

P. Henrici. On the speed of convergence of cyclic and quasicyclic Jacobi methods for computing the
eigenvalues of hermitian matrices. SIAM J. Appl. Math., 6(2):144162, 1958. doi: 10.1137/0106008
(cited on pages 125, 126).

[Hot33]

H.

[Jac46]

C. G. J. Jacobi. ber ein leichtes Verfahren die in der Theorie der Scularstrungen vorkommenden
Gleichungen numerisch aufzulsen. J. Reine Angew. Math., 1846(30):5194, 1846. doi: 10 . 1515 /
crll.1846.30.51 (siehe Seite 126).

[Kem66a]

H. P. M. van Kempen. On the convergence of the classical Jacobi method for real symmetric
matrices with non-distinct eigenvalues. Numer. Math., 9(1):1118, 1966. doi: 10.1007/BF02165224
(cited on page 125).

[Kem66b]

Computing eigenvalues and eigenvectors of a symmetric matrix on the ILLIAC.


doi: 10.1090/S0025- 5718- 1953- 0057643- 6
(cited on page 126).

Math. Tables Aids Comput., 7(44):215220, 1953.


and H. A. van der

Hotelling.

Eigenvalue computation in the 20th century. J. Comput.


10.1016/S0377-0427(00)00413-1 (cited on page 127).

Vorst.

Appl. Math., 123(1-2):3565, 2000.

doi:

Analysis of a complex of statistical variables into principal components. J. Educ.


doi: 10.1037/h0071325 (cited on page 117).

Psychol., 24(3):417441, 498520, 1933.

H. P. M. van

Kempen.

Math., 9(1):1922, 1966.

On the quadratic convergence of the special cyclic Jacobi method. Numer.


doi: 10.1007/BF02165225 (cited on page 126).

[Kub62]

V. N.

[Lan50]

C. Lanczos. An iteration method for the solution of the eigenvalue problem of linear dierential and
integral operators. J. Res. Nat. Bur. Standards, 45(4):255282, 1950. doi: 10.6028/jres.045.026
(cited on page 119).

[Lan52]

C.

[LM04]

A. N. Langville and C. D. Meyer. Deeper inside PageRank. Internet Math., 1(3):335380, 2004.
doi: 10.1080/15427951.2004.10129091 (cited on pages 110, 112).

[MPG29]
[Mn13]
[Per07]
[PP73]
[PT57]

[Rut58]

Kublanovskaya.

On some algorithms for the solution of the complete eigenvalue problem.


doi: 10.1016/0041- 5553(63)
90168-X (cited on page 126).

U.S.S.R. Comput. Math. and Math. Phys., 1(3):637657, 1962.

Lanczos.

Solution of systems of linear equations by minimized iterations. J. Res. Nat. Bur.


doi: 10.6028/jres.049.006 (cited on page 119).

Standards, 49(1):3353, 1952.

R. von

Mises

und H.

Pollaczek-Geiringer.

Praktische Verfahren der Gleichungsausung. Z.

Angew. Math. Mech., 9(1):5877, 1929. doi: 10.1002/zamm.19290090105 (siehe Seite 126).

C. Mntz. Solution directe de l'quation sculaire et de quelques problmes analogues transcendants.

C. R. Acad. Sci. Paris, 156 :4346, 1913 (cf. page 126).


O. Perron. Zur Theorie der Matrices. Math. Ann., 64(2):248263, 1907. doi: 10.1007/BF01449896
(siehe Seite 111).
B. N.

Parlett

and W. G.

Poole, Jr.

A geometric theory for the QR, LU and power iterations.


doi: 10.1137/0710035 (cited on page 126).

SIAM J. Numer. Anal., 10(2):389412, 1973.

D. A. Pope and C. Tompkins. Maximizing functions of rotations - experiments concerning speed


of diagonalization of symmetric matrices using Jacobi's method. J. ACM, 4(4):459466, 1957. doi:
10.1145/320893.320901 (cited on page 126).
H. Rutishauser. Solution of eigenvalue problems with the LR transformation. Nat. Bur. Standards

Appl. Math. Ser., 49:4781, 1958 (cited on page 127).


128

RFRENCES

[Sch61]

A. Schnhage. Zur Konvergenz des Jacobi-Verfahrens. Numer. Math., 3(1):374380, 1961.


10.1007/BF01386036 (siehe Seite 126).

[Wie44a]

H. Wielandt. Beitrge zur mathematischen Behandlung komplexer Eigenwertprobleme. Teil V:


Bestimmung hherer Eigenwerte durch gebrochene Iteration. Technischer Bericht (B 44/J/37). Aerodynamische Versuchsanstalt Gttingen, 1944 (siehe Seite 126).

[Wie44b]

H.

Wielandt.

doi:

Das Iterationsverfahren bei nicht selbstadjungierten linearen Eigenwertaufgaben.

Math. Z., 50(1):93143, 1944. doi: 10.1007/BF01312438 (siehe Seite 118).

[Wil59]

J. H. Wilkinson. The evaluation of the zeros of ill-conditioned polynomials. Part I. Numer. Math.,
1(1):150166, 1959. doi: 10.1007/BF01386381 (cited on page 107).

[Wil62]

J. H. Wilkinson. Note on the quadratic convergence of the cyclic Jacobi process. Numer. Math.,
4(1):296300, 1962. doi: 10.1007/BF01386321 (cited on page 126).

[Wil65]

J. H.

Wilkinson. The algebraic eigenvalue problem. Of Numerical mathematics and scientic


computation. Oxford University Press, 1965 (cited on page 118).

129

Deuxime partie

Traitement numrique des fonctions

131

INTRODUIRE CETTE PARTIE

133

Chapitre 5

Rsolution numrique des quations


non linaires
Nous nous intressons dans ce chapitre l'approximation de zros (ou de racines, dans le cas d'un
polynme 1 ) d'une fonction relle d'une variable relle, c'est--dire, tant donn un intervalle I R et
une application f dnie sur I et valeurs relles, la rsolution approche du problme : trouver un rel
tel que

f () = 0.
Ce problme intervient notamment dans l'tude gnrale d'une fonction d'une variable relle, qu'elle soit
motive ou non par des applications, pour laquelle des solutions exactes de ce type d'quation ne sont
pas explicitement connues 2 .
Toutes les mthodes que nous allons prsenter sont itratives et consistent donc en la construction
d'une suite de rels (x(k) )kN qui, on l'espre, sera telle que

lim x(k) = .

k+

En eet, la dirence du cas des systmes linaires, la convergence de ces mthodes itratives dpend
en gnral du choix de la donne initiale x(0) . On verra ainsi qu'on ne sait souvent qu'tablir des rsultats
de convergence locale, valables lorsque x(0) appartient un certain voisinage du zro .
Aprs avoir caractris la convergence de suites engendres par les mthodes itratives prsentes dans
ce chapitre, en introduisant notamment la notion d'ordre de convergence, nous introduisons plusieurs
mthodes parmi les plus connues et les plus utilises : tout d'abord les mthodes de dichotomie et de la
fausse position qui sont toutes deux des mthodes dites d'encadrement, puis les mthodes de la corde,
de Newton 3 Raphson 4 ou encore de Steensen 5 , qui font partie des mthodes de point xe, et enn la
mthode de la scante. Dans chaque cas, un ou plusieurs rsultats de convergence ad hoc sont noncs. Des
mthodes adaptes au cas particulier des quations algbriques (c'est--dire polynomiales) sont abordes
brivement en n de chapitre.
1. On commettra parfois dans la suite un abus de langage en appelant  polynme  toute fonction polynomiale, c'est-dire toute application associe un polynme coecients dans un anneau commutatif (le corps R dans notre cas). Dans
ce cas particulier, tout zro de la fonction est une racine du polynme qui lui est sous-jacent.
2. Mme dans le cas d'une quation algbrique, on rappelle qu'il n'existe pas de mthode de rsolution gnrale partir
du degr cinq.
3. Sir Isaac Newton (4 janvier 1643 - 31 mars 1727) tait un philosophe, mathmaticien, physicien et astronome anglais.
Figure emblmatique des sciences, il est surtout reconnu pour sa thorie de la gravitation universelle et l'invention du calcul
innitsimal.
4. Joseph Raphson (v. 1648 - v. 1715) tait un mathmaticien anglais. Son travail le plus notable est son ouvrage Analysis
aequationum universalis, publi en 1690 et contenant une mthode pour l'approximation d'un zro d'une fonction d'une
variable relle valeurs relles.
5. Johan Frederik Steensen (28 fvrier 1873 - 20 dcembre 1961) tait un mathmaticien, statisticien et actuaire danois,
dont les travaux furent principalement consacrs au calcul par dirences nies et l'interpolation.

135

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

5.1

Exemples d'applications **

INTRO autres exemples : utilisation dans les mthodes de tir (voir la section 8.8)
Essayons nanmoins de donner deux exemples, l'un issu de la physique, l'autre de l'conomie.

5.1.1

quation de Kepler

L'quation de Kepler 6 , dveloppe dans les deux premires dcennies du dix-septime sicle, est une
quation non linaire dont la rsolution permet celle d'un problme de mcanique cleste.
En analysant les relevs de position de la plante Mars autour du Soleil eectus par Tycho Brahe,
l'astronome Johannes Kepler dtermina que la trajectoire d'un satellite, c'est--dire un corps en orbite
autour d'un autre corps plus massif sous l'eet de l'attraction gravitationnelle, avait la forme d'une ellipse
dont l'un des foyers est occup par le corps massif. En supposant que l'instant de passage au priapside
(le point de l'orbite o la distance par rapport au foyer est minimale) est le temps t0 , la question se pose
de connatre la position du satellite au temps t > t0 . Pour cela, on peut chercher rsoudre le systme
d'quations direntielles caractrisant le mouvement des deux corps (voir la sous-section 8.2.1), mais
dans ce cadre simple, il est possible de procder de manire plus directe et de se passer de l'intgration
d'quations direntielles.
En eet, la trajectoire ayant lieu dans un plan, on peut reprer la position du satellite par l'angle
ralis par le vecteur position du satellite, nul au priapside (une valeur gale 2 correspondant un
retour au priapside aprs une orbite complte). En notant T la priode orbitale, e, l'excentricit orbitale,
0 e < 1, et en introduisant l'anomalie moyenne M , dnie par

M=

2(t t0 )
,
T

qui exprime en radians la fraction de priode coule depuis le dernier passage au priapside, Kepler
obtint par la loi des aires 7 la formule
 
  r
1+e
E

tan
tan
=
,
2
1e
2
liant l'angle l'anomalie excentrique E , 0 E < 2 , solution de l'quation de Kepler

M = E e sin(E).

(5.1)

This innocuous formula that has received tremendous study. Despite this scrutiny, it turns out that
Kepler's Equation is perfectly suited to the algorithms we study here, and is routinely solved in a few
milliseconds. To determine the value of E , simply nd the zero of f (E) = M E +e sin(E) for E [0; 2).
On la gnralisa ensuite d'autres formes d'orbites l'aide des principes de la mcanique newtonienne.

5.1.2

quation d'tat de van der Waals pour un gaz

Propose en 1873 [Waa73], l'quation d'tat de van der Waals 8 est l'une des premires tentatives de
prise en compte dans une loi de comportement des interactions qui existent entre les molcules composant
un gaz rel.
Alors que l'quation d'tat (c'est--dire l'quation liant les variables d'tat que sont le nombre de
molcules n, la temprature T , la pression p et le volume V ) d'un gaz parfait considre un gaz constitu
6. Johannes Kepler (27 dcembre 1571 - 15 novembre 1630) tait un astronome allemand. Il est clbre pour avoir tudi
l'hypothse hliocentrique de Copernic et dcouvert que les plantes ne tournaient pas en cercle parfait autour du Soleil,
mais en suivant des trajectoires elliptiques.
7. explications
8. Johannes Diderik van der Waals (23 novembre 1837 - 8 mars 1923) tait un physicien nerlandais. Ses travaux sur la
continuit des tats uides, pour lesquels il est laurat du prix Nobel de physique de 1910, lui ont permis de dcouvrir les
forces de cohsion courte distance et de dcrire le comportement des gaz diverses tempratures au travers de l'quation
d'tat portant aujourd'hui son nom.

136

5.2. ORDRE DE CONVERGENCE D'UNE MTHODE ITRATIVE

de particule ponctuelle qui n'interagissent les unes avec les autres que par des chocs lastiques, l'quation
de van der Waals, qui s'crit

 n 2 
(V nb) = nkB T,
p+a
V
o les coecients a (la pression de cohsion) et b (le covolume) dpendent de la nature du gaz considr
et kB dsigne la constante de Boltzmann.
amen rsoudre une quation non linaire d'inconnue V et de fonction f (V ) =
 On est donc

2
p + a Vn
(V nb) nkB T .

5.1.3

Calcul du rendement moyen d'un fonds de placement

Admettons que l'on souhaite calculer le taux de rendement annuel moyen R d'un fonds de placement,
en supposant que l'on a investi chaque anne une somme xe de V euros dans le fonds et que l'on se
retrouve aprs n annes avec un capital d'un montant de M euros. La relation liant M , n, R et V est

M =V

n
X

(1 + R)k = V

k=1

1+R
((1 + R)n 1) ,
R

n
et on doit alors trouver R tel que f (R) = M V 1+R
R ((1 + R) 1) = 0.
POUR LA SECTION SUIVANTE : Comme on l'a dit ( ?), les mthodes de rsolution que nous allons
prsenter sont de type itratif, c'est--dire qu'elle fournissent a priori la solution aprs un nombre inni
d'tapes.

5.2

Ordre de convergence d'une mthode itrative

An de pouvoir valuer quelle  vitesse  la suite construite par une mthode itrative converge
vers sa limite (ce sera souvent l'un des critres discriminants pour le choix d'une mthode), il nous faut
introduire quelques dnitions.

Dnition 5.1 (ordre de convergence d'une suite) Soit une suite (x(k) )kN de rels convergeant
vers une limite . On dit que cette suite convergente d'ordre r 1, s'il existe deux constantes 0 <
C1 C2 < + telles que


(k+1)
x

C2 , k k0 ,
C1
x(k) r

(5.2)

o k0 appartient N.

Par extension, une mthode itrative produisant une suite convergente vriant les relations (5.2)
sera galement dite d'ordre r. On notera que, dans plusieurs ouvrages, on trouve l'ordre d'une
suite dni

uniquement par le fait qu'il existe une constante C 0 telle que, pour tout k k0 0, x(k+1)
(k)
r
C x . Il faut cependant observer 9 que cette dnition n'assure pas l'unicit de r, l'ordre de
convergence pouvant ventuellement tre plus grand que r. On prfrera donc dire dans ce cas que la
suite est d'ordre r au moins. On remarquera aussi que, si r est gal 1, on a ncessairement C2 < 1 dans
(5.2), faute de quoi la suite ne pourrait converger.
 (k+1) 
|
|x
La dnition 5.1 est trs gnrale et n'exige pas que la suite
admette une limite
r
|x(k) | kN
quand k tend vers l'inni. Lorsque c'est le cas, on a coutume de se servir de la dnition suivante.

Dnition 5.2 Soit une suite (x(k) )kN de rels convergeant vers une limite . On dit que cette suite est
convergente d'ordre r, avec r > 1, vers s'il existe un rel > 0, appel constante asymptotique
d'erreur, tel que


x(k+1)

r = .
k+ x(k)

(5.3)

lim

9. On pourra considrer l'exemple de la suite positive dnie par x(k) = , k N, avec 0 < < 1 et > 1. Cette

suite est d'ordre d'aprs la dnition 5.1, alors que x(k+1) = x(k) x(k) , k N, pour 1 < < .

137

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

Dans le cas particulier o r = 1, on dit que la suite

converge linairement

si

(k+1)

x



= , avec ]0, 1[,
lim
k+ x(k)
et

super-linairement

= 1).

(resp.

sous-linairement)

si l'galit ci-dessus est vrie avec = 0 (resp.

Ajoutons que la convergence d'ordre deux est dite quadratique, celle d'ordre trois cubique.
Si la dernire caractrisation est particulirement adapte l'tude pratique de la plupart des mthodes
itratives que nous allons prsenter dans ce chapitre, elle a comme inconvnient de ne pouvoir permettre
de fournir l'ordre d'une suite dont la  vitesse de convergence  est variable, ce qui se traduit par le fait
que la limite (5.3) n'existe pas. On a alors recours une dnition  tendue .

Dnition 5.3 On dit qu'une suite (x(k) )kN de rels converge avec un ordre au moins gal r,
avec r 1, vers une limite s'il existe une suite positive ((k) )kN tendant vers 0 vriant


(k)
x (k) , k N,

(5.4)

et un rel > 0 (0 < < 1 si r = 1) tel que

(k+1)
r = .
k+ (k)
lim

On remarquera l'ajout du qualicatif  au moins  dans la dnition 5.3, qui provient du fait que
l'on a d procder une majoration par une suite convergeant vers zro avec un ordre r au sens de la
dnition 5.2. Bien videmment, on retrouve la dnition 5.2 si l'on a galit dans (5.4), mais ceci est
souvent impossible tablir en pratique.
Finissons en indiquant que les notions d'ordre et de constante asymptotique d'erreur ne sont pas
purement thoriques, mais en relation
avec le nombre de chires exacts obtenus dans l'approximation de

. Posons en eet (k) = log10 ( x(k) ) ; (k) est alors le nombre de chires signicatifs dcimaux
exacts de x(k) . Pour k susamment grand, on a

(k+1) r (k) log10 ().


On voit donc que si r est gal un, on ajoute environ log10 () chires signicatifs chaque itration.
Par exemple, si = 0, 999 alors log10 () 4, 34 104 et il faudra prs de 2500 itrations pour gagner
une seule dcimale. Par contre, si r est strictement plus grand que un, on multiplie environ par r le
nombre de chires signicatifs chaque itration. Ceci montre clairement l'intrt des mthodes d'ordre
plus grand que un.

5.3

Mthodes d'encadrement

Cette premire classe de mthodes repose sur la proprit fondamentale suivante, relative l'existence
d'un zro pour une application d'une variable relle valeurs relles.

Thorme 5.4 (existence d'un zro d'une fonction valeurs relles continue) Soit [a, b] un

intervalle non vide de R et f une application continue de [a, b] dans R vriant f (a)f (b) < 0. Alors il
existe ]a, b[ tel que f () = 0.
Dmonstration. Si f (a) < 0, on a 0 ]f (a), f (b)[, sinon f (a) > 0 et alors 0 ]f (b), f (a)[. Dans ces deux
cas, le rsultat est une consquence du thorme des valeurs intermdiaires (voir le thorme B.87).


138

5.3. MTHODES D'ENCADREMENT

5.3.1

Mthode de dichotomie

La mthode de dichotomie, ou mthode de la bissection (bisection method en anglais), suppose que


la fonction f est continue sur un intervalle [a, b], vrie f (a)f (b) < 0 et n'admet qu'un seul zro dans
]a, b[.
Son principe est le suivant. On pose a(0) = a, b(0) = b, on note x(0) = 21 (a(0) + b(0) ) le milieu de
l'intervalle de dpart et on value la fonction f en ce point. Si f (x(0) ) = 0, le point x(0) est le zro de f et
le problme est rsolu. Sinon, si f (a(0) )f (x(0) ) < 0, alors le zro est contenu dans l'intervalle ]a(0) , x(0) [,
alors qu'il appartient ]x(0) , b(0) [ si f (x(0) )f (b(0) ) < 0. On ritre ensuite ce processus sur l'intervalle
[a(1) , b(1) ], avec a(1) = a(0) et b(1) = x(0) dans le premier cas, ou a(1) = x(0) et b(1) = b(0) dans le second,
et ainsi de suite...
De cette manire, on construit de manire rcurrente trois suites (a(k) )kN , (b(k) )kN et (x(k) )kN
telles que a(0) = a, b(0) = b et vriant, pour tout entier naturel k ,
a(k) + b(k)
,
x(k) =
2

a(k+1) = a(k) et b(k+1) = x(k) si f (a(k) )f (x(k) ) < 0,


a(k+1) = x(k) et b(k+1) = b(k) si f (x(k) )f (b(k) ) < 0.

x(0) x(2)
x(3)x(1)

Figure 5.1:

Construction des premiers itrs de la mthode de dichotomie.

La gure 5.1 illustre la construction des approximations du zro produites par cette mthode.

Exemple d'application de la mthode de dichotomie. On utilise la mthode de dichotomie pour


approcher la racine du polynme f (x) = x3 + 2x2 3x 1 contenue dans l'intervalle [1, 2] (on a en eet f (1) = 1
et f (2) = 9), avec une prcision gale 104 . Le tableau 5.1 donne les valeurs respectives des bornes a(k) et
b(k) de l'intervalle d'encadrement, de l'approximation x(k) de la racine et de f (x(k) ) en fonction du numro k de
l'itration.

Concernant la convergence de la mthode de dichotomie, on a le rsultat suivant, dont la preuve est


laisse en exercice.

Proposition 5.5 Soit [a, b] un intervalle non vide de R et f une fonction relle continue sur [a, b],
(k)
vriant f (a)f (b) < 0 et possdant un unique zro dans ]a, b[. Alors, la suite x
la mthode de dichotomie converge vers et on a l'estimation

(k)

x b a , k N.
2k+1

kN

construite par

(5.5)

Il ressort de cette proposition que la mthode de dichotomie converge de manire certaine : c'est une
mthode globalement convergente. L'estimation d'erreur (5.5) fournit par ailleurs directement un critre
139

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

k
0
1
2
3
4
5
6
7
8
9
10
11
12
13

a(k)

b(k)

1
1
1
1,125
1,1875
1,1875
1,1875
1,195312
1,195312
1,197266
1,198242
1,198242
1,198486
1,198608

2
1,5
1,25
1,25
1,25
1,21875
1,203125
1,203125
1,199219
1,199219
1,199219
1,19873
1,19873
1,19873

x(k)
1,5
1,25
1,125
1,1875
1,21875
1,203125
1,195312
1,199219
1,197266
1,198242
1,19873
1,198486
1,198608
1,198669

f (x(k) )
2,375
0,328125
0,419922
0,067627
0,124725
0,02718
0,020564
0,003222
0,008692
0,00274
0,000239
0,001251
0,000506
0,000133

Tableau rcapitulatif du droulement de la mthode de dichotomie pour l'approximation (avec une


prcision gale 104 ) de la racine du polynme x3 + 2x2 3x 1 contenue dans l'intervalle [1, 2].

Table 5.1:

d'arrt pour la mthode, puisque, prcision donne, cette dernire permet d'approcher en un nombre
prvisible d'itrations. On voit en eet que, pour avoir |x(k) | , il faut que

ln ba
ba

k
1.
(5.6)
2k+1
ln(2)
Ainsi, pour amliorer
la
de l'approximation
du zro d'un ordre de grandeur, c'est--dire trouver

prcision


1 (j)
x , on doit eectuer k j = ln(10)
k > j tel que x(k) = 10
ln(2) ' 3, 32 itrations.
On peut par ailleurs remarquer que, sous la seule hypothse que f (a)f (b) < 0, le thorme 5.4 garantit
l'existence d'au moins un zro de la fonction f dans l'intervalle ]a, b[ et il se peut donc que ce dernier en
contienne plusieurs. Dans ce cas, la mthode converge vers l'un d'entre eux.
Comme on le constate sur la gure 5.2, la mthode de dichotomie ne garantit pas une rduction
monotone de l'erreur absolue d'une itration l'autre. Ce n'est donc pas une mthode d'ordre un au sens
de la dnition 5.1, mais sa convergence est nanmoins linaire au sens de la dnition 5.3.
On gardera donc l'esprit que la mthode de dichotomie est une mthode robuste. Si sa convergence
est lente, on peut l'utiliser pour obtenir une approximation grossire (mais raisonnable) du zro recherch
servant d'initialisation une mthode d'ordre plus lev dont la convergence n'est que locale, comme la
mthode de NewtonRaphson (voir la section 5.4.4). On peut voir cette approche comme une stratgie
de  globalisation  de mthodes localement convergentes.

5.3.2

Mthode de la fausse position

La mthode de la fausse position (false-position method en anglais), encore appele mthode regula
falsi, est une mthode d'encadrement combinant les possibilits de la mthode de dichotomie avec celles

de la mthode de la scante, qui sera introduite dans la section 5.5. L'ide est d'utiliser l'information
fournie par les valeurs de la fonction f aux extrmits de l'intervalle d'encadrement pour amliorer la
vitesse de convergence de la mthode de dichotomie (cette dernire ne tenant compte que du signe de la
fonction).
Comme prcdemment, cette mthode suppose connus deux points a et b vriant f (a)f (b) < 0 et
servant d'initialisation la suite d'intervalles [a(k) , b(k) ], k 0, contenant un zro de la fonction f . Le
procd de construction des intervalles embots est alors le mme pour la mthode de dichotomie,
10. Adrien-Marie Legendre (18 septembre 1752 - 9 janvier 1833) tait un mathmaticien franais. On lui doit d'importantes
contributions en thorie des nombres, en statistiques, en algbre et en analyse, ainsi qu'en mcanique. Il est aussi clbre
pour tre l'auteur des lments de gomtrie, un trait publi pour la premire fois en 1794 reprenant et modernisant les
lments d'Euclide.

140

5.3. MTHODES D'ENCADREMENT

100

102

104

106

108

1010

1012
0

10

15

20

25

30



Historique de la convergence, c'est--dire le trac de l'erreur absolue x(k) en fonction k, de
la mthode de dichotomie pour l'approximation de la racine = 0, 9061798459... du polynme de Legendre 10
de degr 5, P5 (x) = 81 x (63x4 70 x2 + 15), dont les racines se situent dans l'intervalle ] 1, 1[. On a choisi les
bornes a = 0, 6 et b = 1 pour l'intervalle d'encadrement initial et une prcision de 1010 pour le test d'arrt, qui
est atteinte aprs 31 itrations ( comparer la valeur 30, 89735... fournie par l'estimation (5.6)). On observe que
l'erreur a un comportement oscillant, mais diminue en moyenne de manire linaire.
Figure 5.2:

l'exception du choix de x(k) , qui est prsent donn par l'abscisse du point d'intersection de la droite
passant par les points (a(k) , f (a(k) )) et (b(k) , f (b(k) )) avec l'axe des abscisses, c'est--dire

x(k) = a(k)

a(k) b(k)
b(k) a(k)
f (a(k) )b(k) f (b(k) )a(k)
(k)
(k)
(k)
f
(a
)
=
b

f
(b
)
=
. (5.7)
f (a(k) ) f (b(k) )
f (b(k) ) f (a(k) )
f (a(k) ) f (b(k) )

La dtermination de l'approximation du zro chaque tape repose donc sur un procd d'interpolation
linaire de la fonction f entre les bornes de l'intervalle d'encadrement. Par consquent, le zro est obtenu
aprs une seule itration si f est une fonction ane, contre a priori une innit pour la mthode de
dichotomie.
On a reprsent sur la gure 5.3 la construction des premires approximations x(k) ainsi trouves.
Cette mthode apparat comme plus  exible  que la mthode de dichotomie, le point x(k) construit
tant plus proche de l'extrmit de l'intervalle [a(k) , b(k) ] en laquelle la valeur de la fonction |f | est la plus
petite.
Indiquons que si la mesure de l'intervalle d'encadrement [a(k) , b(k) ] ainsi obtenu dcrot bien lorsque
k tend vers l'inni, elle ne tend pas ncessairement vers zro 11 , comme c'est le cas pour la mthode
de dichotomie. En eet, pour une fonction convexe ou concave dans un voisinage du zro recherch, il
apparat que la mthode conduit invitablement, partir d'un certain rang, l'une des congurations
prsentes sur la gure 5.4, pour chacune desquelles l'une des bornes de l'intervalle d'encadrement n'est
plus jamais modie tandis que l'autre converge de manire monotone vers le zro. On a alors aaire
une mthode de point xe (voir la section 5.4, en comparant en particulier les relations de rcurrence
(5.8) et (5.9)).
L'analyse de la mthode de la fausse position est bien moins triviale que celle de la mthode de
dichotomie. On peut cependant tablir le rsultat de convergence linaire suivant moyennant quelques
hypothses sur la fonction f .

Thorme 5.6 Soit [a, b] un intervalle non vide de R et f une fonction relle continue sur [a, b], vriant
f (a)f (b) < 0 et possdant un unique zro dans ]a, b[. Supposons de plus que f est continment drivable
11. Pour cette raison, le critre d'arrt des itrations de la mthode doit tre bas soit sur la longueur l'tape k du plus
petit des intervalles [a(k) , x(k) ] et [x(k) , b(k) ], k 0, soit sur la valeur du rsidu f (x(k) ) (voir la section 5.6 pour plus de
dtails).

141

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

x(0)

x(1) x(2)
x(3)

Figure 5.3:

Construction des premiers itrs de la mthode de la fausse position.

sur ]a, b[ et convexe ou concave dans un voisinage de . Alors, la suite x(k)


de la fausse position converge au moins linairement vers .


kN

construite par la mthode

Dmonstration. Compte tenu des hypothses, l'une des congurations illustres la gure 5.4 est obligatoirement atteinte par la mthode de la fausse position partir d'un certain rang et l'on peut se ramener sans
perte de gnralit au cas o l'une des bornes de l'intervalle de dpart reste xe tout au long du processus itratif.
On peut ainsi considrer le cas d'une fonction f convexe sur l'intervalle [a, b] et telle que f (a) < 0 et f (b) > 0 (ce
qui correspond la premire conguration dcrite sur la gure 5.4). Dans ces conditions, on montre, en utilisant
(5.7) et la convexit de f , que f (x(k) ) 0, k 0. Par dnition de la mthode, on a a(k+1) = x(k) et b(k+1) = b,
k 0, si f (x(k) ) < 0, le point x(k+1) tant alors donn par la formule

x(k+1) = x(k)

b x(k)
f (x(k) ), k 0,
f (b) f (x(k) )

(5.8)

ou bien x(k+1) = x(k) = si f (x(k) ) = 0, ce cas mettant n aux itrations.


Supposons prsent que f (x(k) ) 6= 0, k 0. Il dcoule de la relation (5.8) que la suite (x(k) )kN est croissante
et elle est par ailleurs majore par b ; elle converge donc vers une limite `, qui vrie
(b `) f (`) = 0.

Puisque x(k) < , k N, on a ` < b et, par voie de consquence, f (`) = 0, d'o ` = , par unicit du zro .
Il reste prouver que la convergence de la mthode est au moins linaire. En se servant une nouvelle fois de
(5.8) et en faisant tendre k vers l'inni, on trouve que
x(k+1)
b
f 0 ().
=1
k+ x(k)
f (b) f ()
lim

La fonction f tant suppose convexe sur [a, b], on a f (x) f () + (x )f 0 (), x [a, b] ; en choisissant x = a
()
et x = b dans cette dernire ingalit, on obtient respectivement que f 0 () > 0 et f 0 () f (b)f
, d'o la
b
conclusion.
La mme technique de dmonstration s'adapte pour traiter les trois cas possibles restants, ce qui achve la
preuve.


Exemple d'application de la mthode de la fausse position. Reprenons l'exemple d'application de

la section prcdente, dans lequel on utilisait la mthode de dichotomie pour approcher la racine du polynme
f (x) = x3 + 2x2 3x 1. Le tableau 5.2 prsente donne les valeurs respectives des bornes a(k) et b(k) de l'intervalle
d'encadrement, de l'approximation x(k) de la racine et de f (x(k) ) en fonction du numro k de l'itration obtenue
avec la mthode de la fausse position (avec une tolrance gale 104 pour le test d'arrt). On observe que la
borne de droite de l'intervalle d'encadrement initial est conserve tout au long du calcul.

Dans de nombreuses situations, comme pour la rsolution approche de l'quation de Kepler dans
le cas d'une orbite elliptique prsente sur la gure 5.5, la mthode de la fausse position converge plus
142

5.4. MTHODES DE POINT FIXE

a(k+1) = x(k)
b(k) xe

a(k)

a(k)

a(k+1) = x(k)
b(k) xe

b(k)

a(k)

b(k)

a(k) xe
b(k+1) = x(k)

(k)

b(k)

a(k) xe
b(k+1) = x(k)

a(k)

Direntes congurations atteintes par la mthode de la fausse position partir d'un certain rang
pour une fonction f suppose convexe ou concave dans un voisinage du zro .
Figure 5.4:

k
0
1
2
3
4
5
6
7
8
9
10

a(k)
1
1,1
1,151744
1,176841
1,188628
1,194079
1,196582
1,197728
1,198251
1,19849
1,1986

b(k)
2
2
2
2
2
2
2
2
2
2
2

x(k)
1,1
1,151744
1,176841
1,188628
1,194079
1,196582
1,197728
1,198251
1,19849
1,1986
1,198649

f (x(k) )
0,549
0,274401
0,130742
0,060876
0,028041
0,012852
0,005877
0,002685
0,001226
0,00056
0,000255

Tableau rcapitulatif du droulement de la mthode de la fausse position pour l'approximation (avec


une prcision gale 104 ) de la racine du polynme x3 + 2x2 3x 1 contenue dans l'intervalle [1, 2].

Table 5.2:

rapidement que la mthode de dichotomie. Ceci n'est cependant pas une rgle gnrale et l'on peut
construire des exemples pour lesquels il en va tout autrement (voir la gure 5.6).

5.4

Mthodes de point xe

Toutes les mthodes d'approximation de zros introduites dans la suite de ce chapitre se passent
de l'hypothse de changement de signe de f en et ne consistent pas en la construction d'une suite
d'intervalles contenant le zro de la fonction ; bien qu'tant aussi des mthodes itratives, ce ne sont pas
des mthodes d'encadrement. Rien ne garantit d'ailleurs qu'une suite (x(k) )kN produite par l'un des
algorithmes prsents prendra ses valeurs dans un intervalle x a priori.
Au sein de cette catgorie de mthodes itratives, les mthodes de point xe sont bases sur le fait que
tout problme de recherche de zros d'une fonction peut se ramener un problme de recherche de points
xes d'une autre fonction. Aprs avoir rappel le principe de ces mthodes et tudi leurs proprits, nous
nous penchons sur les cas particuliers des mthodes de la corde et de NewtonRaphson. Cette dernire
mthode illustre de manire exemplaire le fait, dj observ avec la mthode de la fausse position, que la
143

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

100
102
104
106
108
1010
1012
1014
1016
0

10

20

30

40

50

Tracs, en fonction du nombre d'itrations, des erreurs absolues de la mthode de dichotomie (en
bleu) et de la mthode de la fausse position (en vert) utilises pour rsoudre de manire approche l'quation
(5.1), avec e = 0, 8 et M = 4
, de solution E = 3, 7388733587..., partir de l'intervalle d'encadrement initial
3
[0, 2].
Figure 5.5:

prise en compte dans la mthode d'informations fournies par les valeurs de f et, lorsque cette fonction
est direntiable, celles de sa drive peut conduire une vitesse de convergence amliore 12 .

5.4.1

Principe

La famille de mthodes que nous allons maintenant introduire utilise le fait que le problme f (x) = 0
peut toujours ramener au problme quivalent g(x) x = 0, pour lequel on a le rsultat suivant.

Thorme 5.7 ( thorme du point xe de Brouwer 13 ) Soit [a, b] un intervalle non vide de R
et g une application continue de [a, b] dans lui-mme. Alors, il existe un point de [a, b], appel point
xe de la fonction g , vriant g() = .
Dmonstration. Posons f (x) = g(x) x. On a alors f (a) = g(a) a 0 et f (b) = g(b) b 0, puisque
g(x) [a, b] pour tout x [a, b]. Par consquent, la fonction f , continue sur [a, b], est telle que f (a)f (b) 0. Le
thorme 5.4 assure alors l'existence d'un point dans [a, b] tel que 0 = f () = g() .


Bien entendu, toute quation de la forme f (x) = 0 peut s'crire sous la forme x = g(x) en posant
g(x) = x + f (x), mais ceci ne garantit en rien que la fonction auxiliaire g ainsi dnie satisfait les
hypothses du thorme 5.7. Il existe cependant de nombreuses faons de construire g partir de f ,
comme le montre l'exemple ci-aprs, et il sut donc de trouver une transformation adapte.

Exemple. Considrons la fonction f (x) = ex 2x 1 sur l'intervalle [1, 2]. Nous avons f (1) < 0 et f (2) > 0, f
possde donc bien un zro sur l'intervalle [1, 2]. Soit g(x) = 12 (ex 1). L'quation x = g(x) est bien quivalente
f (x) = 0, mais g , bien que continue, n'est pas valeurs de [1, 2] dans lui-mme. Posons prsent g(x) = ln(2x+1).
Cette dernire fonction est continue et croissante sur l'intervalle [1, 2], valeurs dans lui-mme et satisfait donc
aux hypothses du thorme 5.7.
Nous venons de montrer que, sous certaines conditions, approcher les zros d'une fonction f revient
approcher les points xes d'une fonction g , sans que l'on sache pour autant traiter ce nouveau problme. Une mthode courante pour la dtermination de point xe se rsume la construction d'une suite
12. Ceci est galement vri pour la mthode de la scante (voir la section 5.5).
13. Luitzen Egbertus Jan Brouwer (27 fvrier 1881 - 2 dcembre 1966) tait un mathmaticien et philosophe nerlandais.
Ses apports concernrent principalement la topologie et la logique formelle.

144

5.4. MTHODES DE POINT FIXE

100
102
104
106
108
1010
1012
1014
1016
0

50

100

150

200

250

300

350

Figure 5.6: Tracs, en fonction du nombre d'itrations, des erreurs absolues de la mthode de dichotomie
(en bleu) et de la mthode de la fausse position (en vert)
pour la rsolution approche de l'quation

 utilises
x10 1 = 0 partir de l'intervalle d'encadrement initial 0, 32 . Malgr l'acclration observe de la convergence
de la mthode de la fausse position durant les premires itrations, la vitesse de cette dernire reste largement
infrieure celle de la mthode de dichotomie.

(x(k) )kN par le procd itratif suivant : tant donne une valeur initiale x(0) (appartenant [a, b]), on
pose
x(k+1) = g(x(k) ), k 0.
(5.9)
On dit que la relation (5.9) est une itration de point xe (xed-point iteration en anglais). La mthode
d'approximation rsultante est appele mthode de point xe ou bien encore mthode des approximations
successives. Si la suite (x(k) )kN dnie par (5.9) converge, cela ne peut tre que vers un point xe de g .
En eet, en posant lim x(k) = , nous avons
k+

= lim x(k+1) = lim g(x(k) ) = g


k+

k+

lim x(k)

k+


= g(),

la deuxime galit provenant de la dnition (5.9) de la suite rcurrente et la troisime tant une
consquence de la continuit de g .

5.4.2

Quelques rsultats de convergence

Le choix de la fonction g pour mettre en uvre cette mthode n'tant pas unique, celui-ci est alors
motiv par les exigences du thorme 5.9, qui donne des conditions susantes sur g pour avoir convergence
de la mthode de point xe dnie par (5.9). Avant de l'noncer, rappelons tout d'abord la notion
d'application contractante.

Dnition 5.8 (application contractante) Soit [a, b] un intervalle non vide de R et g une application
de [a, b] dans R. On dit que g est une application contractante si et seulement si il existe une constante
K telle que 0 < K < 1 vriant

|g(x) g(y)| K |x y| , x [a, b], y [a, b].

(5.10)

On notera que la constante de Lipschitz de g n'est autre que la plus petite constante K vriant la
condition (5.10).
145

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

Le rsultat suivant est une application dans le cas rel du thorme du point xe de Banach 14 (galement attribu Picard 15 ), dont l'nonc gnral vaut pour toute application contractante dnie sur un
espace mtrique complet.

Thorme 5.9 Soit [a, b] un intervalle non vide de R et g une application contractante sur [a, b]. Alors,
la fonction g possde un unique point xe dans [a, b]. De plus, la suite (x(k) )kN dnie par la relation
(5.9) converge, pour toute initialisation x(0) dans [a, b], vers ce point xe et l'on a les estimations suivantes



(k)
x K k x(0) , k 0,
(k)



x K x(k) x(k1) , k 1.
1K

(5.11)
(5.12)

On commence par montrer que la suite (x(k) )kN est une suite de Cauchy. En eet, pour
tout entier k non nul, on a
(k+1)




x
x(k) = g(x(k) ) g(x(k1) ) K x(k) x(k1) ,
Dmonstration.

par hypothse, et on obtient par rcurrence que


(k+1)



x
x(k) K k x(1) x(0) , k N.
On en dduit, par une application rpte de l'ingalit triangulaire, que, k N, p > 2,
(k+p)






x
x(k) x(k+p) x(k+p1) + x(k+p1) x(k+p2) + + x(k+1) x(k)



K p1 + K p2 + + 1 x(k+1) x(k)


1 K p k (1)
K x x(0) ,
1K

le dernier membre tendant vers zro lorsque k tend vers l'inni. La suite relle (x(k) )kN converge donc vers une
limite dans [a, b]. L'application g tant continue 16 , on dduit alors par un passage la limite dans (5.9) que
= g(). Supposons prsent que g possde deux points xes et dans l'intervalle [a, b]. On a alors
0 | | = |g() g()| K | | ,

d'o = puisque K < 1.


La premire estimation se prouve alors par rcurrence sur k en crivant que
(k)




x = g(x(k1) ) g() K x(k1) , k 1,
et la seconde est obtenue en utilisant que
(k+p)



1 K p (k+1)
1 K p (k)
x
x(k)
x
x(k)
K x x(k1) , k 1, p 1,
1K
1K

et en faisant tendre p vers l'inni.

Sous les hypothses du thorme 5.9, la convergence des itrations de point xe est assure quel que
soit le choix de la valeur intiale x(0) dans l'intervalle [a, b] : c'est donc un nouvel exemple de convergence
globale. Par ailleurs, un des intrts de ce rsultat est de donner une estimation de la vitesse de convergence
de la suite vers sa limite, la premire ingalit montrant en eet que la convergence est gomtrique. La
seconde ingalit s'avre particulirement utile d'un point de vue pratique, car elle fournit chaque tape
un majorant de la distance la limite (sans pour autant la connatre) en fonction d'une quantit connue.
Il est alors possible de majorer le nombre d'itrations que l'on doit eectuer pour approcher le point xe
avec une prcision donne.
14. Stefan Banach (30 mars 1892 - 31 aot 1945) tait un mathmaticien polonais. Il est l'un des fondateurs de l'analyse
fonctionnelle moderne et introduisit notamment des espaces vectoriels norms complets, aujourd'hui appels espaces de
Banach, lors de son tude des espaces vectoriels topologiques. Plusieurs importants thormes et un clbre paradoxe sont
associs son nom.
15. Charles mile Picard (24 juillet 1856 - 11 dcembre 1941) tait un mathmaticien franais, galement philosophe
et historien des sciences. Il est l'auteur de deux diciles thormes en analyse complexe et fut le premier utiliser le
thorme du point xe de Banach dans une mthode d'approximations successives de solutions d'quations direntielles
ou d'quations aux drives partielles.
16. C'est par hypothse une application K -lipschitzienne.

146

5.4. MTHODES DE POINT FIXE

Corollaire 5.10 Considrons la mthode de point xe dnie par la relation (5.9), la fonction g vriant les hypothses du thorme 5.9. tant donnes une prcision > 0 et une initialisation x(0) dans
l'intervalle [a, b], soit k0 () le plus petit entier tel que

|x(k) | , k k0 ().
On a alors la majoration

$
k0 ()


%
ln() + ln(1 K) ln x(1) x(0)
+ 1,
ln(K)

o, pour tout rel x, bxc dsigne la partie entire par dfaut de x.


Dmonstration.

En utilisant l'ingalit triangulaire et l'ingalit (5.12) pour k = 1, on trouve que


(0)






x x(0) x(1) + x(1) x(0) x(1) + K x(0) ,

d'o


K (0)
x x(1) .
1K
En substituant cette expression dans (5.12), on obtient que
(0)

x

(k)

x


K k (0)
x x(1) ,
1K

et on aura en particulier |x(k) | si k est tel que



K k (0)
x x(1) .
1K

En prenant le logarithme nprien de chacun des membres de cette dernire ingalit, on arrive


ln() + ln(1 K) ln x(1) x(0)
k
,
ln(K)
dont on dduit le rsultat.

Dans la pratique, vrier que l'application g est K -lipschitzienne n'est pas toujours ais. Lorsque g
est une fonction de classe C 1 sur l'intervalle [a, b], il est cependant possible d'utiliser la caractrisation
suivante.

Proposition 5.11 Soit [a, b] un intervalle non vide de R et g une fonction de classe C 1 , dnie de [a, b]
dans lui-mme, vriant

|g 0 (x)| K < 1, x [a, b].

Alors, g est une application contractante sur [a, b].


Dmonstration. D'aprs le thorme des accroissements nis (voir le thorme B.111), pour tous x et y
contenus dans l'intervalle [a, b] et distincts, on sait qu'il existe un rel c strictement compris entre x et y tel que


|g(x) g(y)| = g 0 (c) |x y| ,

d'o le rsultat.

La dernire proposition permet alors d'aner le rsultat de convergence globale prcdent dans ce cas
particulier.

Thorme 5.12 Soit [a, b] un intervalle non vide de R et g une application satisfaisant les hypothses
de la proposition 5.11. Alors, la fonction g possde un unique point xe dans [a, b] et la suite (x(k) )kN
dnie par (5.9) converge, pour toute initialisation x(0) dans [a, b], vers ce point xe. De plus, on a
x(k+1)
= g 0 (),
k+ x(k)
lim

la convergence est donc au moins linaire.

147

(5.13)

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES


Dmonstration. La proposition 5.11 tablissant que g est une application contractante sur [a, b], les conclusions du thorme 5.9 sont valides et il ne reste qu' prouver l'galit (5.13). En vertu du thorme des accroissements nis (voir le thorme B.111), il existe, pour tout k 0, rel (k) strictement compris entre x(k) et tel
que
x(k+1) = g(x(k) ) g() = g 0 ( (k) )(x(k) ).

La suite (x(k) )kN convergeant vers , cette galit implique que


x(k+1)
= lim g 0 ( (k) ) = g 0 ().
k+ x(k)
k+
lim

On notera que ce thorme assure une convergence au moins linaire de la mthode de point xe.
La quantit |g 0 ()| est appele, par comparaison avec la constante C apparaissant dans (5.2), facteur de
convergence asymptotique de la mthode.
En pratique, il est souvent dicile de dterminer a priori un intervalle [a, b] sur lequel les hypothses
de la proposition 5.11 sont satisfaites. Il est nanmoins possible de se contenter d'hypothses plus faibles,
au prix d'un rsultat moindre de convergence seulement locale.

Thorme 5.13 Soit [a, b] un intervalle non vide de R, g une fonction continue de [a, b] dans lui-mme

et un point xe de g dans [a, b]. On suppose de plus que g admet une drive continue dans un voisinage
de , avec |g 0 ()| < 1. Alors, la suite (x(k) )kN dnie par (5.9) converge vers , pour toute initialisation
x(0) choisie susamment proche de .

Par hypothses sur la fonction g , il existe un rel h > 0 tel que g 0 est continue sur l'intervalle
[ h, + h]. Puisque |g 0 ()| < 1, on peut alors trouver un intervalle I = [ , + ], avec 0 < h, tel que
|g 0 (x)| L, avec L < 1, pour tout x appartenant I . Pour cela, il sut de poser L = 12 (1 + |g 0 ()|) et d'utiliser
la continuit de g 0 pour choisir h de manire ce que
Dmonstration.

0



g (x) g 0 () 1 1 g 0 () , x I .
2

On en dduit alors que


0 0





g (x) g (x) g 0 () + g 0 () 1 1 g 0 () + g 0 () = L, x I .
2

Supposons prsent que, pour un entier k donn, le terme x(k) de la suite dnie par la relation de rcurrence
(5.9) appartienne I . On a alors, en vertu du thorme des accroissements nis (voir le thorme B.111),
x(k+1) = g(x(k) ) = g(x(k) ) g() = g 0 ( (k) )(x(k) ),

avec (k) compris entre x(k) et , d'o

(k+1)



x
L x(k) ,

et x(k+1) appartient donc lui aussi I . On montre alors par rcurrence que, si x(0) appartient I , alors x(k)
galement, k 0, et que
(k)



x Lk x(0) ,
ce qui implique que la suite (x(k) )kN converge vers .

0 (k)
0
(k)
g (x ) > 1,
On peut observer que,
si
|g
()|
>
1
et
si
x
est
susamment
proche
de

pour
avoir
(k)

(k+1)
(k)




on obtient x
> x et la convergence ne peut alors avoir lieu (sauf si x = ). Dans le
cas o |g 0 ()| = 1, il peut y avoir convergence ou divergence selon les cas considrs. Cette remarque et
le prcdent thorme conduisent l'introduction des notions suivantes.

Dnitions 5.14 Soit [a, b] un intervalle non vide de R, une fonction g continue de [a, b] dans luimme et un point xe de g dans [a, b]. On dit que est un point xe attractif si la suite (x(k) )kN

dnie par l'itration de point xe (5.9) converge pour toute initialisation x(0) susamment proche de .
Rciproquement, si cette suite ne converge pour aucune initialisation x(0) dans un voisinage de , excepte
x(0) = , le point xe est dit rpulsif.

148

5.4. MTHODES DE POINT FIXE

Exemple. Soit la fonction dnie par g(x) =

avec c un rel x. Les points xes de g sont les racines

de l'quation du second degr x 2 x + c = 0, c'est--dire 1 1 c. Si c > 1, la fonction n'a donc pas de points
xes rels. Si c = 1, elle a un unique point xe dans R et deux si c < 1. Supposons que l'on soit dans ce dernier

cas et posons 1 = 1 1 c, 2 = 1 + 1 c, de manire ce que 1 < 1 < 2 . Puisque g 0 (x) = x, on voit que
le point xe 2 est rpulsif, mais que le point 1 est attractif si 3 < c < 1 (on peut d'ailleurs facilement montrer
qu'une mthode de point xe approchera 1 pour toute initialisation x(0) comprise entre 2 et 2 ).
2

1
(x2 + c),
2

Au regard de ces dnitions, certains point xes peuvent n'tre ni attractif, ni rpulsif. Le thorme
5.13 montre que si la fonction g 0 est continue dans un voisinage de , alors la condition |g 0 ()| < 1 sut
pour assurer que est un point xe attractif. Si |g 0 ()| > 1, la convergence n'a en gnral pas lieu, sauf si
x(0) = . En eet, en reprenant la preuve du prcdent thorme, on montre qu'il existe un voisinage de
dans lequel |g 0 (x)| L > 1, ce qui implique que, si le point x(k) , k 0, appartient ce voisinage, alors
il existe un entier k0 k + 1 telle que x(k0 ) se trouve en dehors de celui-ci, ce qui rend la convergence
impossible. Enn, dans le cas o |g 0 ()| = 1, on ne peut en gnral tirer de conclusion : selon le problme
considr, on peut avoir soit convergence, soit divergence de la suite (x(k) )kN .

Exemple. Soit la fonction dnie par g(x) = x x3 admettant 0 pour point xe. Bien que g0 (0) = 1, si x(0)

appartient [1, 1] alors la suite (x(k) )kN dnie par (5.9) converge vers 0 (pour x = 1, on a mme x(k) = 0
pour k 1). Par contre, pour la fonction g(x) = x + x3 , qui vrie g(0) = 0 et g 0 (0) = 1, la suite (x(k) )kN diverge
pour toute initialisation x(0) dirente de 0.

Terminons cette section par un rsultat sur l'ordre de convergence des mthodes de point xe.

Proposition 5.15 Soit [a, b] un intervalle non vide de R, g une fonction continue de [a, b] dans lui-mme
et un point xe de g dans [a, b]. Si g est de classe C p+1 , avec p un entier suprieur ou gal 1, dans un
voisinage de et si g (i) () = 0 pour i = 1, . . . , p et g (p+1) () 6= 0, alors toute suite convergente (x(k) )kN
dnie par la mthode de point xe (5.9) converge avec un ordre gal p + 1 et l'on a
g (p+1) ()
x(k+1)
=
.
k+ (x(k) )p+1
(p + 1)!
lim

Dmonstration.

, on obtient

En eectuant un dveloppement de TaylorLagrange l'ordre p de la fonction g au point

x(k+1) =

p
X
g (p+1) ( (k) ) (k)
g (i) () (k)
(x )i +
(x )p+1 g(),
i!
(p + 1)!
i=0

avec (k) compris entre x(k) et . Il vient alors


g (p+1) ( (k) )
g (p+1) ()
x(k+1)
= lim
=
,
(k)
p+1
k+
k+ (x
(p + 1)!
(p + 1)!
)
lim

par convergence de la suite (x(k) )kN et continuit de la fonction g (p+1) .

5.4.3

Mthode de relaxation ou de la corde

Nous avons vu dans la section 5.4.1 que l'on pouvait obtenir de diverses manires une fonction auxiliaire
g dont les points xes sont les zros de la fonction f . Beaucoup de mthodes de point xe courantes font
cependant le choix de la forme suivante

g(x) = x (x)f (x),

(5.14)

avec une fonction satisfaisant 0 < |(x)| < + sur le domaine de dnition (ou plus gnralement sur
un intervalle contenant un zro) de f . Sous cette hypothse, on vrie facilement que tout zro de f est
point xe de g , et vice versa.
Le choix le plus simple pour la fonction est alors celui d'une fonction constante, ce qui conduit la
mthode de relaxation 17 . Cette dernire consiste en la construction d'une suite (x(k) )kN satisfaisant la
relation de rcurrence
x(k+1) = x(k) f (x(k) ), k 0,
(5.15)
17. On comprendrendra mieux l'origine de ce nom en essayant de faire le lien entre les relations de rcurrence (5.15)
et (3.13).

149

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

avec un rel x, la valeur de x(0) tant donne.


En supposant que est un zro simple de la fonction f , c'est--dire que f () = 0 et f 0 () 6= 0, et
que f est continment direntiable dans un voisinage de , on voit qu'on peut facilement assurer la
convergence locale de cette mthode si est tel que 0 < f 0 () < 2. Ceci est rigoureusement tabli dans
le thorme suivant.

Thorme 5.16 (convergence locale de la mthode de relaxation) Soit f une fonction relle de

classe C 1 dans un voisinage d'un zro simple . Alors, il existe un ensemble de rels tel que la suite
(x(k) )kN dnie par (5.15) converge au moins linairement vers , pour toute initialisation x(0) choisie
susamment proche de .

Supposons que f 0 () > 0, la preuve tant identique, aux changements de signe prs, si
f () < 0. La fonction f tant continue dans un voisinage de , on peut trouver un rel > 0 tel que f 0 (x) 21 f 0 ()
dans l'intervalle I = [ , + ]. Posons alors M = maxf 0 (x). On a alors
Dmonstration.

xI

1 M 1 f 0 (x) 1

0
f (), x I .
2

On choisit alors de faon ce que M 1 = 1 2 f 0 (), c'est--dire


=

4
.
2M + f 0 ()

En posant g(x) = x f (x), on obtient que


g 0 (x)

2M f 0 ()
< 1, x I ,
2M + f 0 ()

et la convergence se dduit alors du thorme 5.12.

D'un point de vue gomtrique, le point x


dans la relation de rcurrence (5.15) est, chaque
itration, le point d'intersection entre la droite de pente 1/ passant par le point (x(k) , f (x(k) )) et l'axe
des abscisses. Cette technique d'approximation est pour cette raison aussi appele mthode de la corde,
le nouvel itr de la suite tant dtermin par la corde de pente constante joignant un point de la courbe
de la fonction f l'axe des abscisses (voir la gure 5.7). Connaissant un intervalle d'encadrement [a, b]
de , on a coutume de dnir la mthode en eectuant un choix particulier pour le rel conduisant la
relation
ba
x(k+1) = x(k)
f (x(k) ), k 0,
(5.16)
f (b) f (a)
(k+1)

avec x(0) donn dans [a, b]. Sous les hypothses du thorme 5.16, la mthode converge si l'intervalle [a, b]
est tel que
f (b) f (a)
ba<2
.
f 0 ()
On remarque que la mthode de la corde converge en une itration si f est ane.

5.4.4

Mthode de NewtonRaphson

En supposant la fonction f est de classe C 1 et que le zro est simple, la mthode de NewtonRaphson
fait le choix
1
(x) = 0
f (x)
dans (5.14). La relation de rcurrence dnissant cette mthode est alors

x(k+1) = x(k)

f (x(k) )
, k 0,
f 0 (x(k) )

(5.17)

l'initialisation x(0) tant donne.


Dans cette mthode, toute nouvelle approximation du zro est construite au moyen d'une linarisation
de l'quation f (x) = 0 autour de l'approximation prcdente. En eet, si l'on remplace f (x) au voisinage
150

5.4. MTHODES DE POINT FIXE

x(0) x(1)x(2)x(3)

Figure 5.7:

Construction des premiers itrs de la mthode de la corde.

du point x(k) par l'approximation ane obtenue en tronquant au premier ordre le dveloppement de
Taylor de f en x(k) et qu'on rsoud l'quation linaire rsultante

f (x(k) ) + (x x(k) )f 0 (x(k) ) = 0,


en notant sa solution x(k+1) , on retrouve l'galit (5.17). Il en rsulte que, gomtriquement parlant, le
point x(k+1) est l'abcisse du point d'intersection entre la tangente la courbe de f au point (x(k) , f (x(k) ))
et l'axe des abscisses (voir la gure 5.8).

x(3)

x(0)

x(2)

Figure 5.8:

x(1)

Construction des premiers itrs de la mthode de NewtonRaphson.

Par rapport toutes les mthodes introduites jusqu' prsent, on pourra remarquer que la mthode
de Newton ncessite chaque itration l'valuation des deux fonctions f et f 0 au point courant x(k) . Cet
eort est compens par une vitesse de convergence accrue, puisque cette mthode est d'ordre deux.

Thorme 5.17 (convergence locale de la mthode de NewtonRaphson) Soit f une fonction

relle de classe C 2 dans un voisinage d'un zro simple . Alors, la suite (x(k) )kN dnie par (5.17)
converge au moins quadratiquement vers , pour toute initialisation x(0) choisie susamment proche de
ce zro.
Dmonstration. Nous allons tout d'abord prouver la convergence locale de la mthode et ensuite obtenir
son ordre de convergence. cette n, introduisons, pour > 0, l'ensemble I = {x R | |x | } et supposons

151

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

que f est classe C 2 dans ce voisinage de . Dnissons alors, pour susamment petit, la quantit
00

f (s)
M () = max 0 ,
sI 2f (t)
tI

et supposons que soit tel que 18

(5.18)

2M () < 1.

Montrons prsent que le rel est l'unique zro de f contenu dans I . En appliquant la formule de Taylor
Lagrange (voir le thorme B.114) l'ordre deux f au point , on trouve que
f (x) = f () + (x )f 0 () +

1
(x )2 f 00 (),
2

avec compris entre x et . Si x I , on a galement I et on obtient




f 00 ()
0
f (x) = (x )f () 1 + (x ) 0
.
2f ()
Si x I 00et x 6= , les trois facteurs dans le membre de droite sont tous dirents de zro (le dernier parce que

f ()
(x ) 2f 0 () M () < 12 ) et la fonction f ne s'annule donc qu'en sur l'intervalle I . Prouvons d'autre part

que la fonction f 0 ne s'annule pas sur I . On a en eet

f 0 (x) = f 0 () + (x )f 00 (),

avec compris entre x et . Comme prcdemment, si x I , alors I , d'o


0 0




f (x) f () (x )f 00 () f 0 () (1 M ()) > 1 f 0 () > 0, x I ,
2

ce qui assure que la mthode de Newton donne par (5.17) est bien dnie quel que soit x(k) dans l'intervalle I .
Montrons prsent que, pour tout choix de x(0) dans I , la suite (x(k) )kN construite par la mthode de
Newton est contenue dans l'intervalle I et converge vers . Tout d'abord, si x(k) appartient I , k 0, il dcoule
de (5.17) et de la formule de TaylorLagrange que
x(k+1) = (x(k) )2

f 00 ( (k) )
,
2f 0 (x(k) )

(5.19)

avec (k) compris entre x(k) et , d'o


(k+1)


1

x
< x(k) .
2
2

On en conclut que tous les termes de la suite (x(k) )kN sont contenus dans I en raisonnant par rcurrence sur
l'indice k. On obtient galement l'estimation suivante
(k)



x 1 x(0) , k 0,
2k
2k

ce qui implique la convergence de la mthode.


Pour tablir le fait que la suite converge quadratiquement, on se sert de (5.19) pour trouver
(k+1)


00 (k) 00
x
f ( ) f ()

=


lim
=
lim
2f 0 () ,
k+ |x(k) |2
k+ 2f 0 (x(k) )
en vertu de la convergence de la suite (x(k) )kN et de la continuit de f 0 et f 00 sur l'intervalle I .

On notera que ce thorme ne garantit la convergence de la mthode de NewtonRaphson que si l'initialisation x(0) est  susamment proche  du zro recherch. L'exemple suivant montre que la mthode
peut en eet diverger lorsque ce n'est pas le cas.

00

f ()
18. Notons que lim M () = 2f
0 () < +, puisqu'on a fait l'hypothse que est un zro simple de f . On peut donc bien
0

satisfaire la condition (5.18) pour assez petit.

152

5.4. MTHODES DE POINT FIXE

Exemple de divergence de la mthode de NewtonRaphson. Considrons la fonction

f (x) =
arctan(x) dnie sur R et ayant pour zro = 0. La relation de rcurrence dnissant la mthode de Newton
Raphson pour la rsolution de f (x) = 0 est dans ce cas


x(k+1) = x(k) 1 + (x(k) )2 arctan(x(k) ), k 0.

Il est possible de montrer que, si la valeur de l'initialisation x(0) de la mthode est telle que


(0) 
2 x(0)


arctan x
>
,
1 + (x(0) )2


alors la suite x(k)
est divergente (voir la gure 5.9).

(5.20)

kN

3
x(3)

x(0)

1
0

x(1)

x(2)
2

Figure 5.9: Premiers itrs de la mthode de NewtonRaphson pour la rsolution de l'quation arctan(x) = 0
avec une initialisation x(0) vriant la condition (5.20).

Il est galement important d'ajouter que, bien que la mthode de NewtonRaphson converge quadratiquement vers un zro simple, la notion d'ordre de convergence est asymptotique (voir la section
5.2). De fait, on constate souvent que cette mthode converge tout d'abord linairement pour ensuite,
une fois susamment proche du zro, atteindre une convergence quadratique. La gure 5.10 illustre ce
phnomne.
On peut aussi montrer un rsultat de convergence globale pour cette mthode, condition que la fonction f soit strictement croissante (ou dcroissante) et strictement convexe (ou concave) sur un intervalle
contenant le zro recherch.

Thorme 5.18 (convergence globale de la mthode de NewtonRaphson) Soit [a, b] un intervalle non vide de R et f une fonction de classe C 2 de [a, b] dans R, changeant de signe sur [a, b] et telle
que f 0 (x) 6= 0 et f 00 (x) 6= 0 pour tout x appartenant [a, b]. Alors, pour toute initialisation x(0) dans
[a, b] vriant f (x(0) )f 00 (x(0) ) 0 la suite (x(k) )kN dnie par (5.17) converge vers l'unique zro de f
dans [a, b].

Dmonstration. Tout d'abord, les hypothses de changement de signe de la fonction continue f et de signe
constant de sa drive f 0 , galement continue, sur [a, b] impliquent qu'il existe un unique zro appartenant [a, b].
Par consquent, si f (x(0) )f 00 (x(0) ) = 0, on a directement x(0) = et la mthode est (trivialement) convergente. On
suppose donc que f (x(0) )f 00 (x(0) ) > 0. Puisque f 00 garde un signe constant sur l'intervalle [a, b], on doit distinguer
deux cas.
Soit f 00 (x) > 0, x [a, b], et alors f (x(0) ) > 0. Si f 0 (x) > 0, x [a, b], on a f (x) < 0, x [a, [, et f (x) > 0,
x ], b], et donc x(0) ], b]. De plus, on vrie que

g 0 (x) =

f (x)f 00 (x)
> 0, x ], b],
(f 0 (x))2

la fonction g dnissant la mthode est donc strictement croissante sur ], b]. On en dduit d'une part que
= g() g(x(0) ) = x(1) ,

153

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

105

100

105

1010

1015

1020

10

12

14

Figure 5.10: Trac de l'erreur absolue en fonction du nombre d'itrations de la mthode de NewtonRaphson
utilise pour la dtermination de la racine positive de l'quation x2 2 = 0. On a choisi x(0) = 1000, ce qui
constitue videmment une trs mauvaise estimation initiale, mais permet de mettre en vidence une priode
transitoire durant laquelle la convergence de la mthode est seulement linaire.

et d'autre part que


x(1) = g(x(0) ) = x(0)

f (x(0) )
< x(0) ,
f 0 (x(0) )

d'o x(1) < x(0) . Par rcurrence, on obtient que la suite (x(k) )kN dnie par (5.17) est strictement dcroissante
et minore par . Elle est donc convergente et a pour limite l'unique point xe de la fonction g , . Si f 0 (x) < 0,
x [a, b], un raisonnement identique conduit au fait que la (x(k) )kN dnie par (5.17) est strictement croissante
et majore par . De nouveau, cette suite est convergente et a pour limite .
Si f 00 (x) < 0, x [a, b], et alors f (x(0) ) < 0, il sut de reprendre la preuve ci-dessus en remplaant f par f
pour tablir la convergence de la suite (x(k) )kN .


Exemple de convergence globale


de la mthode de NewtonRaphson. On cherche obtenir une

approximation de la racine carre a d'un rel strictement positif a en utilisant la mthode de NewtonRaphson
pour rsoudre l'quation f (x) = 0, avecf (x) = x2 a = 0. Ceci se traduit par la relation de rcurrence suivante
pour les approximations successives de a
x(k+1) =

1  (k)
a 
x + (k) , k 0,
2
x

parfois appele mthode de Hron (voir [Hea21]). La fonction


g(x) =

1
a
x+
2
x

tant strictement convexe sur ]0, +[, la suite (x(k) )kN contruite par la mthode de Hron est bien dnie et

converge, en dcroissant strictement (sauf lors de la premire itration si 0 < x(0) < a, ou bien si x(0) = a,
auquel cas la suite est constante), vers la racine carre positive de a pour tout choix d'initialisation x(0) strictement
positive.

Dans les deux prcdents thormes, nous avons suppos que tait un zro simple de la fonction f ,
c'est--dire tel que f () = 0 et f 0 () 6= 0. Si la multiplicit de ce zro est m, avec m > 1, la convergence
de la mthode de Newton n'est plus du second ordre. En eet, en supposant que f est de classe C m+1
dans un voisinage de , on dduit de la formule de TaylorYoung (voir le thorme B.115) que, dans ce
154

5.4. MTHODES DE POINT FIXE


(m)

voisinage, f (x) = (x )m h(x), o h est une fonction continue telle que h() = f m!() 6= 0. On peut
montrer que h est drivable en tout point de l'intervalle sur lequel elle est dnie except au point et
que lim (x ) h0 (x) = 0. En cas de convergence de la mthode, on obtient alors facilement que
x

1
x(k+1)
= g 0 () = 1
6= 0,
(k)
k+ x
m

lim

et la convergence n'est donc que linaire. Cependant, si la multiplicit m est connue a priori, on peut
dnir la mthode de NewtonRaphson modie,

x(k+1) = x(k) m

f (x(k) )
, k 0,
f 0 (x(k) )

(5.21)

qui convergera quadratiquement le cas chant.


En conclusion, la mthode de NewtonRaphson est la mthode de choix en termes de vitesse de
convergenge, puisque, dans les cas favorables, les approximations succesives du zro recherch convergent
de manire quadratique, ce qui se traduit, comme on l'a indiqu dans la section 5.2, par environ un
doublement du nombre de dcimales exactes de l'approximation chaque itration de l'algorithme. Elle
ncessite pour cela une expression de la drive de la fonction f permettant que cette dernire soit
eectivement value en tout point donn. Si cette drive n'est pas connue, on utilisera la mthode de
la scante (voir la section ci-aprs), dont la vitesse de convergence est moindre mais ne requiert pas que
la drive de f existe.
La plus grande dicult dans l'utilisation de la mthode de NewtonRaphson rside dans la caractre
local de sa convergence. Si l'initialisation x(0) est trop loigne du zro, la mthode peut ne pas converger
et mme diverger. Pour cette raison, il est courant dans les applications de l'associer une mthode d'encadrement comme la mthode de dichotomie, cette dernire permettant d'approcher, bien que lentement,
le zro recherch de manire fournir une  bonne  initialisation pour la mthode de Newton.

5.4.5

Mthode de Steensen

La mthode de Steensen est une autre mthode de point xe dont la convergence peut tre quadratique. Contrairement la mthode de NewtonRaphson, elle ne ncessite pas de connatre la drive de
la fonction dont on cherche le zro, mais utilise en revanche deux valuations de cette fonction chaque
itration. La relation de rcurrence la dnissant s'crit
2
f (x(k) )
(k+1)
(k)

x
=x
, k 0,
(5.22)
f x(k) + f (x(k) ) f (x(k) )
l'initialisation x(0) tant donne.
Pour comprendre l'origine de la formule ci-dessus, il faut tout d'abord parler d'acclration de convergence de suites numriques, et plus particulirement du procd 2 d'Aitken 19 [Ait26]. Celui-ci vise
construire partir d'une suite numrique (x(k) )kN convergente une suite (y (k) )kN , possdant la mme
limite et dont la convergence est plus rapide, donne par

y (k) = x(k)

(x(k+1) x(k) )2
, k 0.
2 x(k+1) + x(k)

x(k+2)

(5.23)

On peut justier la transformation (5.23) en considrant une suite dont la convergence est celle d'une
suite gomtrique (voir la dnition B.44), c'est--dire une suite (x(k) )kN , de limite , pour laquelle il
existe un rel , || < 1, tel que, pour x(k) 6= ,

x(k+1) = (x(k) ), k 0.

(5.24)

19. Alexander Craig Aitken (1er avril 1895 - 3 novembre 1967) tait un mathmaticien no-zlandais et l'un des meilleurs
calculateurs mentaux connus. Il ft lu la Royal Society of London en 1936 pour ses travaux dans le domaine des
statistiques, de l'algbre et de l'analyse numrique.

155

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

Dans ce cas particulier, on dtermine en eet facilement la limite et la constante ds que sont connues
les valeurs de trois termes conscutifs de la suite (x(k) )kN , les relations

x(k+1) = (x(k) ) et x(k+2) = (x(k+1) ), k 0,


donnant, par soustraction,

x(k+2) x(k+1)
x(k+1) x(k)
et, par substitution de cette dernire identit dans la premire des relations,
=

x(k+2) x(k) (x(k+1) )2


.
x(k+2) 2 x(k+1) + x(k)

En introduisant l'oprateur aux drences tel que x(i) = x(i+1) x(i) et 2 x(i) = x(i+1) x(i) =
x(i+2) 2 x(i+1) + x(i) , i N, l'galit ci-dessus devient

= x(k)

(x(k) )2
,
2 x(k)

(5.25)

le procd tirant son nom de cette criture. On comprend alors que la dnition (5.23) dcoule de l'application toute suite (x(k) )kN d'une extrapolation base sur la formule (5.25), avec l'attente que la
suite rsultante converge plus rapidement, mme si lorsque l'hypothse (5.24) n'est pas valable. Le rsultat suivant montre que c'est eectivement le cas mme si la convergence de la suite (x(k) )kN n'est
qu'asymptotiquement gomtrique.

Thorme 5.19 Soit une suite (x(k) )kN pour laquelle il existe une constante , || < 1, et une suite

( (k) )kN telles que, pour x(k) 6= ,

x(k+1) = ( + (k) ) (x(k) ), k 0, avec lim (k) = 0.


k+

Alors, pour k assez grand, les termes de la suite (y (k) )kN obtenue par l'application du procd 2 d'Aitken
(5.23) (x(k) )kN sont bien dnis et l'on a

y (k)
= 0.
k+ x(k)
lim

Dmonstration.

On a, pour tout entier naturel k,

x(k+2) 2 x(k+1) + x(k)

(x(k+2) ) 2 (x(k+1) ) + (x(k) )

(( + (k+1) )( + (k) ) 2 ( + (k) ) + 1)(x(k) )

(x(k) )(( 1)2 + (k+1) (k) + ( (k+1) + (k) ) 2 (k) ).

On en dduit que, pour k susamment grand, x(k+2) 2 x(k+1) + x(k) 6= 0, puisque x(k) 6= 0, 6= 1 et
limk+ (k) = 0, ce qui garantit que les termes de la suite (y (k) )kN sont bien dnis partir d'un certain rang.
tant donn que
x(k+1) x(k) = (x(k+1) ) (x(k) ) = ( 1 + (k) )(x(k) ),
il vient
y (k) = (x(k) ) (x(k) )

d'o

( 1 + (k) )2
,
( 1)2 + (k+1) (k) + ( (k+1) + (k) ) 2 (k)



( 1 + (k) )2
y (k)
=
lim
1

= 0.
k+ x(k)
k+
( 1)2 + (k+1) (k) + ( (k+1) + (k) ) 2 (k)
lim

L'utilisation du procd avec une suite (x )kN issue d'une itration de point xe (5.9) pour la
rsolution de l'quation f (x) = 0 conduit l'obtention de la suite (y (k) )kN dnie par
2

y (k) = x(k)

(k)

(g(x(k) ) x(k) )2
, k 0.
2 g(x(k) ) x(k)

g(g(x(k) ))

156

5.4. MTHODES DE POINT FIXE

La suggestion, faite par Steensen dans [Ste33], est d'essayer de tirer un avantage  immdiat  de
l'acclration de convergence en introduisant priodiquement (toutes les deux itrations) dans la mthode
de point xe (5.9) les valeurs calcules des termes de la suite (y (k) )kN . Il en rsulte une nouvelle mthode
itrative, dont la relation de rcurrence s'crit
(5.26)

x(k+1) = (x(k) ), k 0,
avec

(x) = x

x g(g(x)) (g(x))2
(g(x) x)
=
,
g(g(x)) 2 g(x) + x
g(g(x)) 2 g(x) + x

la fonction possdant gnralement 20 les mmes points xes que la fonction g . COMPLETER Pour
la recherche de zros, on associe habituellement le nom de Steensen la mthode obtenue en faisant le
choix particulier g(x) = x + f (x) et donne par la relation de rcurrence (5.22).
En supposant que la fonction f est deux fois continment direntiable dans un voisinage d'un zro
simple, on peut montrer 21 , en suivant les lignes de la dmonstration du thorme 5.17, que la suite
d'approximations dnie par (5.22) converge au moins quadratiquement vers ce zro, condition que la
valeur initiale x(0) soit choisie susamment proche de celui-ci.

5.4.6

Classe des mthodes de Householder **

COMPLETER Les mthodes de Householder [Hou70, section 4.4], initialement introduites par Schrder 22 [Sch70], forment une classe de mthodes de recherche de zros d'une fonction d'une variable relle
continment drivable p + 1 fois, o p est l'ordre de la mthode considre.
Ides concernant leur drivation partir d'une fonction suppose analytique dans un voisinage du
zro recherch
relation de rcurrence
 
(p1)

1
f

x(k+1) = x(k) + p  (p)


1
f

(x(k) )

, k 0,
(x(k) )

Leur convergence est d'ordre p + 1 pour une fonction susamment drivable au voisinage d'un zro
simple.
Pour p = 1, on obtient la mthode de NewtonRaphson dnie par (5.17)
Pour p = 2, on retrouve la mthode de Halley 23 [Hal94]

x(k+1) = x(k)

2 f (x(k) )f 0 (x(k) )
, k 0,
2
2 f 0 (x(k) ) f (x(k) )f 00 (x(k) )

20. Par dnition de , on a (x (x))(g(g(x)) 2 g(x) + x) = (g(x) x)2 . Tout point xe de est donc un point
xe de g . Supposons prsent que soit un point xe de g , en lequel la fonction est direntiable et telle que g 0 () 6= 0.
L'application de la rgle de L'Hpital (voir le thorme B.109) donne alors
() =

+ (g 0 ())2 2 g 0 ()
g(g()) + g 0 ()g 0 (g()) 2 g 0 ()g()
=
= .
g 0 ()g 0 (g()) 2 g 0 () + 1
(g 0 ())2 2 g 0 () + 1

21. Il sut pour cela d'tablir la relation suivante, semblable (5.19) et valable pour tout x(k) appartenant un certain
voisinage du zro ,
x(k+1) = (x(k) )2

1 00 (k)
f ( )(x(k) ))
2
(k)
0
2 f (x ) + f 00 ( (k) )f (x(k) )

f 00 ( (k) )(f 0 (x(k) )

+ f 00 ( (k) )

dans laquelle (k) est un point compris entre x(k) et et (k) est un point compris entre x(k) et x(k) + f (x(k) ).
22. Ernst Schrder (25 novembre 1841 - 16 juin 1902) tait un mathmaticien allemand. Il est un personnage majeur de
l'histoire de la logique mathmatique, ayant ralis et publi un important travail de synthse et de systmatisation des
divers systmes de logique formelle de son poque.
23. Edmond Halley (8 novembre 1656 - 14 janvier 1742) tait un astronome, gophysicien, mathmaticien, mtorologue
et ingnieur britannique. Il conduisit une des premires missions d'exploration ocanographique et dtermina la priode de
la comte portant aujourd'hui son nom.

157

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

5.5

Mthode de la scante et variantes

La mthode de la scante (secant method en anglais) peut tre considre comme une variante de la
mthode de la corde, dans laquelle la pente de la corde est mise jour chaque itration, ou bien une
modication de la mthode de la fausse position permettant de se passer de l'hypothse sur le signe de la
fonction f aux extrmits de l'intervalle d'encadrement initial (il n'y a d'ailleurs plus besoin de connatre
un tel intervalle). On peut aussi la voir comme une quasi-mthode de NewtonRaphson, dans laquelle on
aurait remplac la valeur f 0 (x(k) ) par une approximation obtenue par une dirence nie. C'est l'une des
mthodes que l'on peut employer lorsque la drive de f est complique, voire impossible 24 , calculer
ou encore coteuse valuer.
Plus prcisement, partir de la donne de deux valeurs initiales x(1) et x(0) , telles que x(1) 6= x(0) ,
la mthode de la scante consiste en l'utilisation de la relation de rcurrence

x(k+1) = x(k)

x(k) x(k1)
f (x(k) ), k 0,
f (x(k) ) f (x(k1) )

(5.27)

pour obtenir les approximations successives du zro recherch. Elle tire son nom de l'interprtation gomtrique de (5.27) : pour tout entier positif k , le point x(k+1) est le point d'intersection de l'axe des abscisses
avec la droite passant par les points (x(k1) , f (x(k1) )) et (x(k) , f (x(k) )) de la courbe reprsentative de
la fonction f (voir la gure 5.11).

x(1) x(0) x(2)x(3)


x(1)

Figure 5.11:

Construction des premiers itrs de la mthode de la scante.

Bien que l'on doive disposer de deux estimations de avant de pouvoir utiliser la relation de rcurrence
(5.27), cette mthode ne requiert chaque tape qu'une seule valuation de fonction, ce qui est un
avantage par rapport la mthode de NewtonRaphson, dont la relation de rcurrence (5.17) demande
de connatre les valeurs de f (x(k) ) et de f 0 (x(k) ). En revanche, la dirence de la mthode de la fausse
position, rien n'assure qu'au moins un zro de f se trouve entre x(k1) et x(k) , pour tout k N. Enn,
compare la mthode de la corde, elle ncessite le calcul de  mise jour  du quotient apparaissant
dans (5.27). Le bnce tir de cet eort supplmentaire est une vitesse de convergence superlinaire,
mais cette convergence n'est que locale, comme le montre le rsultat suivant 25 .

Thorme 5.20 (convergence locale de la mthode de la scante) Soit f une fonction de classe
C 2 dans un voisinage d'un zro simple . Alors, si les donnes x(1) et x(0) , avec x(1) 6= x(0) , choisies
dans ce voisinage, sont susamment
proches de , la suite dnie par (5.27) converge vers avec un

ordre au moins gal 21 (1 + 5) = 1, 6180339887 . . .


24. C'est le cas si la fonction f n'est connue qu'implicitement, par exemple lorsque que c'est la solution d'une quation
direntielle et que x est un paramtre de la donne initiale du problme associ.
25. Notons qu'on ne peut utiliser les techniques introduites pour les mthodes de point xe pour tablir un rsultat de
convergence, la relation de rcurrence (5.27) dnissant la mthode ne pouvant s'crire sous la forme (5.9).

158

5.5. MTHODE DE LA SCANTE ET VARIANTES


Dmonstration. La dmonstration de ce rsultat suit essentiellement les mmes tapes que celle du thorme
5.17. Comme on l'a fait dans cette preuve, on introduit, pour > 0, l'ensemble I = {x R | |x | } et la
constante M (), on suppose susamment petit pour avoir

M () < 1.

et l'on montre alors que est l'unique zro de f contenu dans I .


Pour prouver la convergence de la mthode de la scante, quelles que soient les initialisations x(1) et x(0) ,
avec x(1) 6= x(0) , dans I , il faut faut montrer d'une part que la mthode est bien dnie sur l'intervalle I ,
c'est--dire que deux itrs successifs x(k) et x(k1) , k 0 sont distincts (sauf si f (x(k) ) = 0 pour k donn, auquel
cas la mthode aura converg en un nombre ni d'itrations), et d'autre part que la suite (x(k) )kN construite par
la mthode est contenue dans I et converge vers .
Pour cela, on raisonne par rcurrence sur l'indice k et l'on suppose que x(k) et x(k1) appartiennent I , avec
(k)
x
6= x(k1) , pour k 1. On se sert alors l'quation (5.27) dnissant la mthode pour obtenir une relation
faisant intervenir les trois erreurs conscutives (x(i) ), i = k 1, k, k + 1. En soustrayant dans chaque membre
de (5.27) et en utilisant que f () = 0, il vient
x(k+1) = x(k)

[x(k1) , x(k) ]f [x(k) , ]f


x(k) x(k1)
(k)
(k)
f
(x
)
=
(x

)
,
f (x(k) ) f (x(k1) )
[x(k1) , x(k) ]f

o l'on a not, en employant la notation des dirences divises (dont on anticipe l'introduction dans le chapitre 6),
[x, y]f =

f (x) f (y)
.
xy

Par la relation de rcurrence (6.15) pour les dirences divises, la dernire galit s'crit encore
x(k+1) = (x(k) )(x(k1) )

[x(k1) , x(k) , ]f
.
[x(k1) , x(k) ]f

Par application du thorme des accroissements nis (voir le thorme B.111), il existe (k) , compris entre x(k1)
et x(k) , et (k) , contenu dans le plus petit intervalle auquel appartiennent x(k1) , x(k) et , tels que
[x(k1) , x(k) ]f = f 0 ( (k) ) et [x(k1) , x(k) , ]f =

On en dduit que
x(k+1) = (x(k) )(x(k1) )

d'o

1 00 (k)
f ( ).
2

f 00 ( (k) )
,
2 f 0 ( (k) )

(5.28)

00 (k)
f ( )
|x(k+1) | 2 0 (k) (M ()) < ,
2 f ( )

et x(k+1) appartient donc I . Par ailleurs, il est clair d'aprs la relation (5.27) que x(k+1) est dirent de x(k) ,
except si f (x(k) ) est nulle.
En revenant (5.28), il vient alors que
|x(k+1) | M ()|x(k) | (M ())k+1 |x(0) |, k 0,

ce qui permet de prouver que la mthode converge.

On vrie enn que l'ordre de convergence de la mthode est au moins gal r = 21 (1 + 5). On remarque
tout d'abord que r satisfait
r2 = r + 1.
On dduit ensuite de (5.28) que
|x(k+1) | M ()|x(k) | |x(k1) |, k 0.

En posant E (k) = M ()|x(k) |, k 0, on obtient, aprs multiplication de l'ingalit ci-dessus par M (), la
relation
E (k+1) E (k) E (k1) , k 0.
Soit E = max(E (1) , E (0)

1/r

). On va tablir par rcurrence que


E (k) E r

k+1

159

, k 0.

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

Cette ingalit est en eet trivialement vrie pour k = 0. En la supposant vraie jusqu'au rang k, k 1, elle est
galement vraie au rang k 1 et l'on a
E (k+1) E r

k+1

Er = Er

(r+1)

= Er

k 2

= Er

k+2

Le rsultat est donc valable pour tout entier positif k. En revenant la dnition de E (k) , on obtient que
|x(k) | (k) , avec (k) =

k+1
1
Er
, k 0,
M ()

avec E < 1 par hypothses sur , x(1) et x(0) . Il reste remarquer que
(k+1)
r1
, k 0,
r = M ()
(k)

et utiliser la dnition 5.3 pour conclure.

5.5.1

Mthode de Muller

Une premire gnralisation de l'approche menant la mthode de la scante est fournie par la

mthode de Muller [Mul56]. Dans cette dernire, disposant chaque tape de trois approximations

prcdentes, x(k2) , x(k1) et x(k) , d'un zro d'une fonction f , on construit le polynme de degr
deux x(k2) ,x(k1) ,x(k) f , dont le graphe passe par les points (x(k2) , f (x(k2) )), (x(k1) , f (x(k1) )) et
(x(k) , f (x(k) )), et l'on choisit comme nouvelle approximation du zro la racine de x(k2) ,x(k1) ,x(k) f la
plus proche de x(k) . On notera que cette racine peut tre complexe, mme si les valeurs d'initialisation
x(2) , x(1) et x(0) sont toutes relles ; c'est l un aspect important de cette mthode.
Pour obtenir une expression pour le point x(k+1) , on fait appel la forme de Newton du polynme
x(k2) ,x(k1) ,x(k) f (voir la sous-section 6.2.2), qui s'crit

x(k2) ,x(k1) ,x(k) f (x) = [x(k) ]f + [x(k1) , x(k) ]f (x x(k) ) + [x(k2) , x(k1) , x(k) ]f (x x(k) )(x x(k1) ),
les dirences divises [x(k) ]f , [x(k1) , x(k) ]f et [x(k2) , x(k1) , x(k) ]f tant dnies au moyen de la relation
de rcurrence (6.15). Il sut alors de poser

w(k) = [x(k1) , x(k) ]f + (x(k) x(k1) ) [x(k2) , x(k1) , x(k) ]f


pour avoir

x(k2) ,x(k1) ,x(k) f (x) = [x(k) ]f + w(k) (x x(k) ) + [x(k2) , x(k1) , x(k) ]f (x x(k) )2 ,
et tre ramen trouver la valeur x x(k) de plus petit module telle que x(k2) ,x(k1) ,x(k) f (x) = 0. On
trouve 26
2 f (x(k) )
p
,
x(k+1) = x(k)
w w2 4 [x(k) ]f [x(k2) , x(k1) , x(k) ]f
le signe au dnominateur de la fraction tant choisi de manire maximiser le module de ce dernier.
En supposant la fonction f trois fois continment direntiable dans un voisinage d'un zro simple ,
il vient, par utilisation de la formule de TaylorLagrange,
 (3) (k) 
f ( )
, k 0,
x(k+1) = (x(k) )(x(k1) )(x(k2) ) 0 (k)
6 f ( )
o (k) et (k) sont des points situs entre x(k) et . Par une technique de preuve en tout point similaire
celle utilise pour dmontrer la convergence superlinaire de la mthode de la scante (voir le thorme
5.20), on peut alors obtenir que la mthode de Muller converge avec un ordre au moins gal r 1, 8393,
o r est la solution relle positive de l'quation algbrique x3 x2 x 1 = 0.
26. On remarquera qu'on a employ la formule rciproque de la formule  standard  pour exprimer la solution recherche
de l'quation quadratique, car elle permet une valuation numriquement stable de la racine en question en vitant tout
problme d'annulation (voir la section 1.4.1).

160

5.6. CRITRES D'ARRT

5.5.2

Mthode de Brent **

La mthode de Brent 27 [Bre71] combine la mthode de dichotomie et la mthode de la scante avec une
technique d'interpolation quadratique inverse, en s'inspirant d'algorithmes introduits prcdemment par
Dekker 28 [Dek69]. Le but de cette hybridation est de proter des avantages respectifs de ces mthodes
tout en s'aranchissant de leurs inconvnients, an d'obtenir une mthode d'approximation, robuste,
ecace et dont la convergence est rapide.
On peut rsumer 29 la mthode de la manire suivante.
INTRODUIRE l'interpolation quadratique inverse
f fonction continue 30 valeurs relles sur un intervalle [a, b] telle que f (a)f (b) 0, th. ref assure
l'existence d'au moins un zro dans l'intervalle
la mthode fonctionne avec trois suites de points (a(k) ), (b(k) ) et (c(k) ) telles que, pour tout k ,
b(k) est l'approximation courante du zro
a(k) = b(k1) , le point a(k) pouvant concider avec c(k)
c(k)
une
b telle que est compris entre b(k) et c(k) (f (b(k) )f (c(k) ) 0),
est
ancienne
(k) valeur de a ou(0)
(k)



avec f (b ) f (c ) (initialement c = a)
ALGO :
si f (b(k) ) = 0, on a termin
si f (b(k) ) 6= 0, on pose m = 21 (c(k) b(k) ) (VOIR pour poser m comme point milieu m = 21 (b(k) + c(k) ))
- si |m| (voir comment on xe cette tolrance), on a termin (n renvoie 0.5(b + c)
- sinon
- si c(k) = a(k) , on utilise la mthode de la scante pour obtenir un point s - si a 6= c, alors les valeurs
f (a(k) ), f (b(k) ) et f (c(k) ) sont distinctes ( ? on a f (b) 6= f (c)) et on utilise la procd d'interpolation
quadratique inverse avec les points a, b et c (approximation du zro obtenue en valuant en 0 polynme
d'interpolation de Lagrange de degr deux de la fonction rciproque f 1 associ aux points f (a), f (b) et
f (c)) pour obtenir le point s

s=

f (a(k) )

a(k) f (b(k) )f (c(k) )


b(k) f (a(k) )f (c(k) )
c(k) f (a(k) )f (b(k) )

+

+


(k)
(k)
(k)
(k)
(k)
(k)
(k)
(k)
f (b ) f (a ) f (c )
f (b ) f (a ) f (b ) f (c )
f (c ) f (b(k) ) f (c(k) ) f (a(k) )

(k)
(k)
00
00
(k)
si s est compris entre
(k) b 00et
b +0 m, b(k) = s, sinon b = b + m (dicho)
0
00
ensuite b = b si b b , b = b + sign(m) (pas en ) sinon.
on prend b(k+1) = b0 (Dekker), mais il peut arriver qu'on ne prenne que des pas en , ce qui ralentit
fortement la convergence
(k)

b b(k1)
Pour viter cela, la modication
de
Brent
est
de
satisfaire
les
deux
conditions
suivante
:

<






si dicho l'tape
prcdente
( < b(k1) b(k2) sinon) ET s b(k) < 21 b(k) b(k1) si dicho l'tape



prcdente ( s b(k) < 12 b(k1) b(k2) sinon) pour accepter le choix b00 = s. On utilise b00 = b(k) + m
sinon.
+ varie chaque itration

5.6

Critres d'arrt

Mis part dans les cas de la mthode de dichotomie et de la mthode de Brent, nous n'avons (volontairement) pas abord la question du critre d'arrt utiliser en pratique. En eet, s'il y a convergence,
la suite (x(k) )kN construite par une mthode itrative tend vers le zro quand k tend vers l'inni,
27. Richard Peirce Brent (n le 20 avril 1946) est un mathmaticien et informaticien australien. Ses travaux de recherche
concernent notamment la thorie des nombres (et plus particulirement la factorisation), la complexit et l'analyse des
algorithmes, les gnrateurs de nombres alatoires et l'architecture des ordinateurs.
28. Theodorus Jozef Dekker (n le 1er mars 1927) est un mathmaticien hollandais. Il est l'inventeur d'un algorithme
d'exclusion mutuelle, permettant deux processus concurrents de partager une mme ressource sans conit et utilisant un
segment de mmoire partage comme mcanisme de communication.
29. L'algorithme propos dans l'article est passablement plus compliqu que la prsentation qui en est faite ici, l'auteur
ayant port un grand soin dans la prise en compte des problmes causs par les erreurs d'arrondi et les dbordements en
arithmtique en prcision nie.
30. VOIR remarque dans l'article de Brent sur fonction discontinue

161

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

et il faut donc, comme nous l'avons fait pour les mthodes de rsolution de systmes linaires dans le
chapitre 3, introduire un critre permettant d'interrompre le processus itratif lorsque l'approximation
courante de est juge  satisfaisante . Pour cela, on a principalement le choix entre deux types de
critres  qualitatifs  (imposer un nombre maximum d'itrations constituant une troisime possibilit
strictement  quantitative ) : l'un bas sur l'incrment et l'autre sur le rsidu.
Quel que soit le critre retenu, notons > 0 la tolrance xe pour le calcul approch de . Dans le
cas d'un contrle de l'incrment, les itrations s'achveront ds que
(k+1)

x
(5.29)
x(k) < ,
alors qu'on mettra n au calcul ds que

(5.30)



f (x(k) ) < ,

si l'on choisit de contrler le rsidu.


Selon les congurations, chacun de ces critres peut s'avrer plus ou moins bien adapt. Pour s'en
convaincre, considrons la suite (x(k) )kN produite par la mthode de point xe (5.9), en supposant la
fonction g continment direntiable dans un voisinage de . Par un dveloppement au premier ordre, on
obtient
x(k+1) = g(x(k) ) g() = g 0 ( (k) )(x(k) ), k 0,
avec (k) un rel compris entre x(k) et . On a alors

x(k+1) x(k) = x(k+1) (x(k) ) = (g 0 ( (k) ) 1)(x(k) ), k 0,


dont on dduit, en cas de convergence, le comportement asymptotique suivant
1
(x(k+1) x(k) ).
x(k) ' 0
g () 1
Par consquent, le critre d'arrt (5.29), bas sur l'incrment, sera indiqu si 1 < g 0 () 0 (il est
d'ailleurs optimal pour une mthode de point xe dont la convergence est au moins quadratique, c'est-
dire pour laquelle g 0 () = 0), mais trs peu satisfaisant si g 0 () est proche de 1.
Considrons maintenant le cas d'un critre bas sur le rsidu, en supposant la fonction f continment
direntiable dans un voisinage d'un zro simple . En cas de convergence de la mthode et pour k 0
assez grand, il vient, par la formule de TaylorYoung (thorme B.115),

f (x(k) ) = f 0 ()( x(k) ) + ( x(k) )( x(k) ),


avec (x) une fonction dnie dans un voisinage de l'origine et tendant vers 0 quand x tend vers 0, dont
on dduit l'estimation


(k)
f (x(k) )
x .
.
|f 0 ()|
Le critre (5.30) fournira donc un test d'arrt adquat lorsque |f 0 ()| ' 1, mais s'avrera trop restrictif
si |f 0 ()|  1 ou en revanche trop optimiste si |f 0 ()|  1.

5.7

Mthodes pour les quations algbriques

Dans cette dernire section, nous considrons la rsolution numrique d'quations algbriques, c'est-dire le cas pour lequel l'application f est un lment pn de l'ensemble Pn des fonctions polynomiales
de degr n 0 associes aux polynmes de Rn [X], i.e.

pn (x) =

n
X

(5.31)

ai xi ,

i=0

les coecients ai , i = 0, . . . , n, tant des nombres rels donns. Les solutions de ce type d'quation, relles
ou complexes, sont encore appeles racines.
S'il est trivial de rsoudre les quations algbriques du premier degr 31 et que la forme des solutions
des quations du second degr 32 est bien connue, il existe aussi des expressions analytiques pour les
31. Ce sont les quations du type a x + b = 0, avec a 6= 0, dont la solution est donne par x = ab .
32. Ce sont les quations de la forme a x2 + b x + c = 0, avec a 6= 0, dont les solutions sont donnes par x =

162

b2 4ac
.
2a

5.7. MTHODES POUR LES QUATIONS ALGBRIQUES

solutions des quations de degr trois et quatre, publies par Cardano 33 en 1545 dans son Artis Magn,
Sive de Regulis Algebraicis Liber Unus (les formules tant respectivement dues del Ferro 34 et Tartaglia 35
pour le troisime degr et Ferrari 36 pour le quatrime degr). En revanche, le thorme d'AbelRuni
indique qu'il existe des polynmes de degr suprieur ou gal cinq dont les racines ne s'expriment pas
par radicaux. Le recours une approche numrique se trouve par consquent compltement motiv.
On peut directement utiliser la plupart des mthodes prcdemment prsentes pour la recherche de
racines relles de pn , et certaines, comme les mthodes bases sur les itrations de point xe, peuvent tre
facilement adaptes pour les racines complexes. Le besoin de dterminer l'ensemble des racines ou, au
contraire, certaines racines d'un polynme survient cependant de manire courante dans les applications,
justiant l'laboration de mthodes tirant parti de la forme trs particulire de la fonction dont on cherche
les zros. Comme on va le voir, cette dernire a inspir une grande varit d'approches originales.
Aprs avoir donn des outils permettant de localiser des racines ou d'estimer leur nombre l'intrieur
d'un intervalle donn, nous commenons par introduire la mthode de Horner 37 servant l'valuation numrique ecace d'un polynme en un point. Nous nous intressons ensuite quelques mthodes classiques
et largement reprsentes dans la littrature (au moins pour leur intrt thorique). Celles-ci permettent,
selon les cas, la dtermination d'une, de plusieurs ou de toutes les racines, de manire simultane ou non,
d'un polynme coecients rels.

5.7.1

Localisation des racines **

A VOIR : borne de Cauchy (1829), suites de Sturm [Stu29], etc...

Dnition 5.21 ( suite de Sturm  d'un polynme) Une famille ... de polynmes est dite une suite
de Sturm sur l'intervalle ]a, b[, a (resp. b) pouvant ventuellement tre gal + (resp. ), si ...

5.7.2

valuation des polynmes et de leurs drives

Nous allons prsent dcrire la mthode de Horner (Horner's rule en anglais) [Hor19], qui permet
l'valuation ecace d'un polynme et de sa drive en un point donn. Celle-ci repose sur le fait que tout
polynme pn Pn peut s'crire sous la forme

pn (x) = a0 + x (a1 + x (a2 + + x (an1 + an x) . . . )) .

(5.32)

Si les formes (5.31) et (5.32) sont algbriquement quivalentes, la premire ncessite n additions et 2n 1
multiplications alors que la seconde ne requiert que n additions et n multiplications 38 .
33. Girolamo Cardano (24 septembre 1501 - 21 septembre 1576) tait un mathmaticien, mdecin et astrologue italien.
Ses travaux en algbre, et plus prcisment ses contributions la rsolution des quations algbriques du troisime degr,
eurent pour consquence l'mergence des nombres imaginaires.
34. Scipione del Ferro (6 fvrier 1465 - 5 novembre 1526) tait un mathmaticien italien. Il est clbre pour avoir t le
premier trouver la mthode de rsolution des quations algbriques du troisime degr sans terme quadratique.
35. Niccol Fontana Tartaglia (vers 1499 - 13 dcembre 1557) tait un mathmaticien italien. Il ft l'un des premiers
utiliser les mathmatiques en balistique, pour l'tude des trajectoires de boulets de canon.
36. Lodovico Ferrari (2 fvrier 1522 - 5 octobre 1565) tait un mathmaticien italien. lve de Cardano, il est l'origine
de la mthode de rsolution des quations algbriques du quatrime degr.
37. William George Horner (1786 - 22 septembre 1837) tait un mathmaticien britannique. Il est connu pour sa mthode
permettant l'approximation des racines d'un polynme et pour l'invention en 1834 du zootrope, un appareil optique donnant
l'illusion du mouvement.
38. La mthode de Horner est optimale, au sens o tout autre algorithme pour l'valuation d'un polynme arbitraire
en un point donn requerra au moins autant d'oprations, en termes du nombre d'oprations arithmtiques (addition
et multiplication) requises (voir [Pan66]). Pour les polynmes de degr strictement suprieur 4, on peut trouver des
mthodes qui ncessitent moins de multiplications, mais utilisent des calculs prliminaires de coecients. Ces dernires sont
par consquent rserver aux situations dans lesquelles on cherche valuer un mme polynme en plusieurs points et la
mthode de Horner reste la mthode la plus gnralement employe.

163

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

valuation d'un polynme en un point


L'algorithme pour valuer le polynme pn en un point z se rsume au calcul de n constantes bi ,
i = 0, . . . , n, dnies de la manire suivante :

bn

= an ,

bi

= ai + bi+1 z, i = n 1, n 1, . . . , 0,

avec b0 = pn (z).

Application de la mthode de Horner pour l'valuation d'un polynme en un point. valuons


le polynme 7 x4 + 5 x3 2 x2 + 8 au point z = 0, 5 par la mthode de Horner. On a b4 = 7, b3 = 5 + 7 0, 5 = 8, 5,
b2 = 2 + 8, 5 0, 5 = 2, 25, b1 = 0 + 2, 25 0, 5 = 1, 125 et b0 = 8 + 1, 125 0, 5 = 8, 5625, d'o la valeur 8, 5625.
Il est noter qu'on peut organiser ces calculs successifs de cet algorithme dans un tableau, ayant pour
premre ligne les coecients ai , i = n, n 1, . . . , 0, du polynme valuer et comme seconde ligne les
coecients bi , i = n, n 1, . . . , 0. Ainsi, chaque lment de la seconde ligne est obtenu en multipliant
l'lment situ sa gauche par z et en ajoutant au rsultat l'lment situ au dessus. Pour l'exemple
d'application prcdent, on trouve ainsi le tableau suivant 39

7
7

5
8, 5

2
2, 25

0
1, 125

8
.
8, 5625

Division euclidienne d'un polynme par un monme


Remarquons que les oprations employes par la mthode sont celles d'un procd de division synth-

tique. En eet, si l'on ralise la division euclidienne de pn (x) par x z , il vient

pn (x) = (x z) qn1 (x; z) + r0 ,

(5.33)

o le quotient qn1 (; z) Pn1 est un polynme dpendant de z par l'intermdiaire de ses coecients,
puisque, par identication,
n
X
bi xi1 ,
(5.34)
qn1 (x; z) =
i=1

et o le reste r0 est une constante telle que r0 = b0 = pn (z). Ainsi, la mthode de Horner fournit un
moyen simple d'eectuer trs rapidement la division euclidienne d'un polynme par un monme de degr
un.

Application de la mthode de Horner pour la division euclidienne d'un polynme. Eectuons

la division euclidienne du polynme 4 x3 7 x2 +3 x5 par x2. En construisant un tableau comme prcdemment,


soit
4 7 3 5
,
0 4
1
5
5
on obtient 4 x3 7 x2 + 3 x 5 = (x 2)(4 x2 + x + 5) + 5.

valuation des drives successives d'un polynme en un point


Appliquons de nouveau la mthode pour eectuer la division du polynme qn1 (x; z) par (x z). On
trouve
qn1 (x; z) = (x z) qn2 (x; z) + r1 ,
avec qn2 (; z) Pn2 et r1 une constante, avec

qn2 (x; z) =

n
X

bi xi2 et r1 = c1 ,

i=2

39. Dans ce tableau, on a ajout une premire colonne contenant 0 la deuxime ligne an de pouvoir raliser la mme
opration pour obtenir tous les coecients bi , i = 0, . . . , n, y compris bn .

164

5.7. MTHODES POUR LES QUATIONS ALGBRIQUES

les coecients ci , i = 1, . . . , n, tant dnis par

cn

= bn ,

ci

= bi + ci+1 z, i = n 1, n 1, . . . , 1.

On a par ailleurs

pn (x) = (x z)2 qn2 (x; z) + r1 (x z) + r0 ,


et, en drivant cette dernire galit, on trouve que r1 = c1 = pn 0 (z). On en dduit un procd itratif
permettant d'valuer toutes les drives du polynme pn au point z . On arrive en eet

pn (x) = rn (x z)n + + r1 (x z) + r0 ,

(5.35)

aprs n + 1 itrations de la mthode, que l'on peut rsumer dans un tableau synthtique comme on l'a
dj fait
an an1 . . . a2 a1 a0
0 bn bn1 . . . b2 b1 r0
0 cn cn1 . . . c2 r1

. . . r2

(5.36)
..
..
..
.
.
.
.
.
.

rn

rn1

dans lequel tous les lments n'appartenant pas la premire ligne (contenant les seuls coecients connus
initialement) ou la premire colonne sont obtenus en multipliant l'lment situ gauche par z et en
ajoutant le rsultat de cette opration l'lment situ au dessus. Par drivations successives de (5.35),
on montre alors que
1
rj = p(j)
(z), j = 0, . . . , n,
j! n
o pn dsigne la j ime drive du polynme pn .
On notera que le calcul de l'ensemble des coecients du tableau (5.36) demande 21 (n + 1)n additions
et autant de multiplications.
(j)

Stabilit numrique de la mthode de Horner


A ECRIRE (voir Wilkinson 1963) La valeur q0 calcule au point x est la valeur exacte en x d'un
polynme obtenu en perturbant avec une erreur relative d'au plus 2n les coecients de pn :

q0 = (1 + 1 ) a0 + (1 + 3 ) a1 x + + (1 + 2n1 ) an1 xn1 + (1 + 2n ) an xn ,


ku
avec |k | 1ku
= k
erreur directe

|pn (x) q0 | 2n

n
X

|ai | |x|

i=0

erreur relative
n
i
X
|pn (x) q0 |
|ai | |x|
2n
= 2n (pn , x)
|pn (x)|
|pn (x)|
i=0

(pn , x) peut tre arbitrairement grand, mais on a (pn , x) = 1 si ai 0 i et x 0, ou si (1)i ai 0


i et x 0.
165

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

5.7.3

Mthode de NewtonHorner

la lecture de la sous-section prcdente, on voit immdiatement que la mthode de Horner peut


judicieusement tre exploite dans une implmentation de la mthode de NewtonRaphson pour l'approximation d'une racine, relle ou complexe, d'un polynme pn de degr n. En eet, en dduisant de
(5.33) que
0
p0n (x) = qn1 (x; z) + (x z) qn1
(x; z),
0
o qn1 (; z) Pn1 est le polynme dni par (5.34) et p0n et qn1
(; z) dsignent respectivement les
drives de pn et qn1 (; z) par rapport x, on obtient la forme suivante pour (5.17)

x(k+1) = x(k)

pn (x(k) )
pn (x(k) )
(k)
=
x
, k 0,

p0n (x(k) )
qn1 (x(k) ; x(k) )

(5.37)

qui est la relation de rcurrence de la mthode de NewtonHorner. On remarque qu'on a seulement besoin
d'avoir calcul les coecients bi , i = 1, . . . , n, c'est--dire la premire ligne du tableau (5.36), pour tre en
mesure d'valuer le quotient dans le dernier membre de droite de (5.37). Une fois ces coecients obtenus,
le cot de chaque itration de la mthode est de 2n additions, 2n 1 multiplications et une division.
Indiquons que si la racine que l'on cherche approcher une partie imaginaire non nulle, il est
ncessaire de travailler en arithmtique complexe et de choisir une donne initiale x(0) dont la partie
imaginaire est non nulle.

5.7.4

Dation

La mthode de Horner permettant d'eectuer des divisions euclidiennes de polynmes, il sera possible
de calculer des approximations de l'ensemble des racines d'un polynme donn pn de degr n en oprant
comme suit : une fois l'approximation d'une premire racine z du polynme pn obtenue, on eectue une
division de pn par le monme (x z) et on applique de nouveau une mthode de recherche de zros
au polynme quotient pour obtenir une autre racine, et ainsi de suite... Ce procd itratif, qui permet
d'approcher successivement toutes les racines d'un polynme, porte le nom de dation 40 . Associ
la mthode de NewtonHorner (voir la sous-section prcdente), il exploite pleinement l'ecacit de la
mthode de Horner, mais on peut plus gnralement faire appel toute mthode de dtermination de
zros pour la recherche des racines.
Il est important de mentionner que la dation se trouve aecte par l'accumulation des erreurs d'arrondi au cours de chaque cycle de recherche d'une nouvelle racine. En eet, toute racine tant dtermine
de manire approche, le polynme quotient eectivement obtenu aprs chaque tape a pour racines des
perturbations des racines restant trouver du polynme initialement considr. Les approximations des
dernires racines obtenues l'issue du processus de dation peuvent ainsi prsenter des erreurs importantes. Pour amliorer la stabilit numrique du procd, on peut commencer par approcher la racine de
plus petit module, puis continuer avec les suivantes jusqu' celle de plus grand module. De plus, on peut,
chaque tape, amliorer la qualit de l'approximation d'une racine dj trouve en s'en servant comme
donne initiale de la mthode de recherche de zros utilise applique au polynme pn . On parle alors de
phase de ranement.
Lorsque l'on utilise la mthode de NewtonHorner nanmoins, il est possible de se passer de la dation
en utilisant une procdure due Maehly [Mae54], base sur l'observation que la drive du polynme

qnj (x) =

pn (x)
,
(x 1 ) . . . (x j )

o les nombres i , 1 i j avec j un entier positif infrieur ou gal n, sont des racines du polynme
pn , est de la forme
0
qnj
(x) =

j
X
p0n (x)
pn (x)
1

.
(x 1 ) . . . (x j ) (x 1 ) . . . (x j ) i=1 (x i )

40. Une technique similaire, portant le mme nom, est utilise pour la dtermination de l'ensemble du spectre d'une
matrice par la mthode de la puissance (voir la sous-section 4.4.2).

166

5.7. MTHODES POUR LES QUATIONS ALGBRIQUES

Pour j strictement infrieur n, la relation de rcurrence de la mthode de NewtonRaphson pour la


recherche d'une racine de qnj s'crit alors

x(k+1) = x(k)

pn (x(k) )
, k 0.
Pj
pn (x(k) )
p0n (x(k) ) i=1 (x
(k) )
j

La mthode obtenue, parfois dite de NewtonMaehly , est insensible d'ventuels problmes d'approximation des racines 1 , . . . , j dj obtenues et sa convergence reste quadratique.

5.7.5

Mthode de Bernoulli *

La mthode de Bernoulli 41 [Ber32] exploite le lien existant entre une quation aux dirences linaire
(voir la sous-section 8.4.1) et son polynme caractristique pour obtenir la racine dominante de ce dernier.
On peut en eet associer au polynme dni par (5.31) l'quation homogne

an uk+n + an1 uk+n1 + + a1 uk+1 + a0 uk = 0, k 0,


dnissant une suite (uk )kN partir de la donne de n valeurs initiales uj , j = 0, . . . , n 1. Lorsque les
racines de pn sont simples, la solution de cette quation est donne par

uk =, k n
les coecients ... dpendant des valeurs initiales. En supposant alors qu'il est possible d'ordonner les
racines de la manire suivante
|1 | . . . |n1 | < |n | ,
c'est--dire en faisant l'hypothse que la racine dominante n est unique, et que .. 6= 0, on peut crire

...
et l'on a

uk+1
= n .
uk
Le principe de la mthode de Bernoulli est de calculer, partir de conditions initiales adquates, les
valeurs de la suite (uk )kN de manire approcher la racine n au moyen d'une suite de quotient. Par
conditions initiales adquates, on entend une slection de valeurs initiales ... garantissant la non nullit
du coecient ... Pour cela, on gnre des valeurs partir du systme
lim

k+

an um + an1 um1 + + anm+1 u1 + anm m = 0, m = 1, . . . , n,


garantissant 42 que tous les coecients sont tous gaux 1.
si la racine sous-dominante est la seule ayant ce module, on peut acclrer la convergence par le
procd d'Aitken
si les racines non dominantes ne sont pas simples, les proprits de convergence restent les mmes,
mais si la racine dominante n'est pas simple, convergence ralentie
racines dominantes complexes conjugues : on peut modier la mthode pour dterminer le module
et l'argument
Une extension moderne de la mthode de Bernoulli est due Rutishauser 43 et permet d'obtenir toutes
les racines simultanment. Il s'agit de l'algorithme dirence-quotient (quotient-dierence (qd) algorithm
en anglais) [Rut54].
Cette mthode dboucha sur la mthode LR pour le calcul des valeurs propres d'une matrice (voir la
section 4.6).
41. Daniel Bernoulli (8 fvrier 1700 - 17 mars 1782) tait un mdecin, physicien et mathmaticien suisse. Il est notamment
clbre pour ses applications des mathmatiques la mcanique, et plus particulirement l'hydrodynamique et la thorie
cintique des gaz, et pour ses travaux en probabilits ( la base de la thorie conomique de l'aversion du risque) et en
statistique.
42. preuve ?
43. Heinz Rutishauser (30 janvier 1918 - 10 novembre 1970) tait un mathmaticien suisse, pionnier de l'analyse numrique
et du calcul scientique. Il est l'inventeur de plusieurs algorithmes remarquables et l'un des contributeurs l'laboration
du premier compilateur pour le langage de programmation ALGOL 58.

167

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

5.7.6

Mthode de Gre

La mthode de Gre 44 est une mthode permettant d'approcher simultanment toutes les racines
d'un polynme, dont la convergence est globale 45 et quadratique. Elle repose sur la construction d'quations algbriques successives, dont chacune a pour solutions les carrs des solutions de l'quation la
prcdant, permettant, partir d'un certain rang, d'obtenir facilement des approximations des racines
recherches, ou au moins de leurs modules, en utilisant les relations de Vite qui existent entre les coecients d'un polynme et ses zros.
Bien que cette mthode puisse aussi bien s'appliquer des quations algbriques coecients rels
que complexes, nous n'allons ici considrer que le premier de ces deux cas en supposant que l'on cherche
dterminer les racines, notes i , i = 1, . . . , n, du polynme normalis de degr n coecients rels

pn (x) = xn + an1 xn1 + + a1 x + a0 ,


tel que le rel a0 est non nul. Lorsque toutes les racines de ce polynme sont simples, relles et de valeurs
absolues distinctes, des approximations des racines sont directement fournies par la mthode de Gre.
Dans toute autre situation (existence de racines multiples et/ou complexes et/ou de modules gaux),
l'obtention de ces valeurs approches repose, comme nous allons le voir, sur diverses rgles plus ou moins
complexes qui font que cette technique est loin de possder le caractre gnrique que l'on souhaiterait.
Le principe de la mthode consiste en l'application d'un procd rcursif de mise au carr des racines
(k)
par dnition d'une suite (pn )kN de polynmes de degr n par la relation de rcurrence
(k)
p(k+1)
(x2 ) = (1)n p(k)
n
n (x) pn (x), k 0,

(5.38)

(k+1)

(0)

ainsi dni a pour racines les carrs des


et en posant pn = pn . On vrie aisment que le polynme pn
k
(k)
(k)
racines de pn ; l'quation pn (x) = 0 a par consquent pour solutions les nombres (i )2 , i = 1, . . . , n.
En pratique, on ne va pas raliser de produit de polynmes mais simplement calculer les coecients du
(0)
polynme obtenu chaque tape, ces derniers tant donns par ai = ai , i = 0, . . . , n 1, et

min(i,ni)
X
(k+1)
(k)
(k) (k)
ai
= (1)ni (ai )2 + 2
(1)j aij ai+j , i = 0, . . . , n 1, k 0.
j=1

On met n aux itrations lorsque les coecients du polynme l'tape courante sont gaux, une
tolrance xe, aux carrs de ceux du polynme obtenu l'tape prcdente.
Dcrivons la mise en uvre de cette mthode lorsque les racines recherches sont simples, relles et de
valeurs absolues direntes, c'est--dire que l'on a i R, i = 1, . . . , n, et |1 | < |2 | < < |n |. Aprs
r itrations du procd, avec r un entier susamment grand, on trouve que
(r)

2r

|n |

(r)

2r

an1 , |ni |

ani1
(r)

, i = 1, . . . , n 1,

ani

(5.39)

dont on dduit des approximation des valeurs absolues des racines en ralisant n extractions de racines
et n 1 divisions. La dtermination du signe de chaque racine se fait ensuite par simple subtitution de
l'une des deux possibilits dans l'quation algbrique originelle pn (x) = 0.
Supposons maintenant que les racines soient encore relles et de valeurs absolues direntes, mais que
(k+1)
l'une d'entre elles soit double, s+1 = s , 1 s n 1. Dans ce cas, le coecient as1 du polynme
(k+1)
(k)
pn
va, partir d'un certain rang, tre approximativement gal la moiti du carr du coecient as1
(k)
lui correspondant dans le polynme pn . La racine en question satisfait alors
(r)

(r)

2r

|s |

as

(r)

as2

et |s |

as1
(r)

2 as2

44. Karl Heinrich Gre (7 novembre 1799 - 2 dcembre 1873) tait un mathmaticien allemand. Il est connu pour la
mthode de rsolution numrique des quations algbriques qu'il dveloppa pour rpondre une question de l'acadmie des
sciences de Berlin.
45. Cette mthode ne ncessite en eet aucune approximation pralable des racines recherches.

168

5.7. MTHODES POUR LES QUATIONS ALGBRIQUES

aprs r itrations ce qui permet de dterminer une approximation de sa valeur absolue en utilisant l'une
ou l'autre de ces relations.
Si le polynme pn possde au moins une paire de racines complexes conjugues, s+1 = s , une
oscillation du signe du coecient est observe chaque itration, de faon ce que
(r)

(r)

|s |

2r

as

(r)

as2

et 2 |s | cos (r arg(s ))

as1
(r)

as2

aprs r itrations si aucune autre racine ne possde le mme module. Une approximation du module est
|s | alors facilement obtenue, tandis que la dtermination d'une valeur approche de arg(s ) ncessite de
tester chaque possibilit dans l'quation algbrique originelle. S'il n'existe qu'une seule paire de racines
conjugues, on peut viter cette dernire tape en se rappelant la somme des racines est gale au coecient
an1 ,
an1 = 1 + + s1 + 2 Re(s ) + s+2 + + n ,
ce qui fournit une approximation de la partie relle des racines conjugues une fois les valeurs approches
des n 2 autres racines (relles) dtermines. Lorsque deux paires de racines conjugues, s+1 = s et
t+1 = t , sont prsentes, on a de la mme manire

2 (Re(s ) + Re(t )) = (an1 + 1 + + s1 + s+2 + + t1 + t+2 + + n ) ,


a1
et on peut alors utiliser que la somme des inverses des racines est gale ,
a0




Re(s ) Re(t )
a1
1
1
1
1
1
1
+
2
=
+
+ +
+
+ +
+
+ +
,
|s |
|t |
a0
1
s1
s+2
t1
t+2
n
pour trouver successivement les parties relles et imaginaires des approximations des quatre racines
complexes, les modules |s | et |t | tant fournis par (5.39).
Il reste possible de faire appel des arguments similaires ceux que nous venons d'exposer dans
d'autres cas de gure, mais leur implmentation dans un programme infomatique reste peu vidente.
Une procdure plus systmatique consiste appliquer la mthode de Gre la fois la rsolution de
pn (x) = 0 et celle de l'quation de pn (x + ) = 0, avec  un rel positif x susamment petit, et
considrer, pour toute racine complexe , les points d'intersection dans le plan complexe des cercles
respectivement centrs en l'origine et en  et de rayons respectifs || et | + |. Pour viter des choix du
rel  conduisant des correspondances incorrectes, une utilisation directe des informations obtenues en
faisant tendre  vers 0 a t propose par Brodetsky et Smeal [BS24] et complte par Lehmer 46 [Leh63].
Terminons en mentionnant le danger de dbordements vers l'inni ou vers zro en arithmtique en
prcision nie (voir la sous-section 1.3.2), causs par la croissance (dans le cas de racines de module
strictement plus grand que 1) ou l'vanescence (dans le cas de racines de module strictement infrieur
1) de certains coecients de la suite de polynmes, que l'on peut radiquer en recourant une technique
de mise l'chelle [Gra63].

5.7.7

Mthode de Laguerre

La mthode de Laguerre 47 [Lag80] permet d'approcher l'une des racines d'un polynme, gnralement
de manire globale et avec une convergence cubique si cette racine est simple. tant donn un polynme
pn de degr n, la mthode construit, partir d'une estimation quelconque x(0) de l'une des racines de pn ,
une suite de valeurs approches (x(k) )kN en utilisant la relation de rcurrence

n pn (x(k) )

x(k+1) = x(k)
p0n (x(k) )

 , k 0,
(n 1) (n 1)(p0n (x(k) ))2 n pn (x(k) )p00n (x(k) )

(5.40)

46. Derrick Henry Lehmer (23 fvrier 1905 - 22 mai 1991) tait un mathmaticien amricain. Auteur de plusieurs rsultats
remarquables en thorie des nombres, il s'intressa aussi aux aspects informatiques de cette discipline, notamment en
inventant un test de primalit et en proposant un algorithme pour la factorisation euclidienne.
47. Edmond Nicolas Laguerre (9 avril 1834 - 14 aot 1886) tait un mathmaticien franais, qui travailla principalement
dans les domaines de la gomtrie et de l'analyse. Il reste surtout connu pour l'introduction des polynmes orthogonaux
portant aujourd'hui son nom.

169

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

dans laquelle
le signe au dnominateur de la fraction est choisi de faon minimiser 48 la valeur de
(k+1)

l'incrment x
x(k) . En supposant que toutes les racines de pn sont relles et que l'approximation
(k)
x est comprise entre deux racines (ou entre et la plus petite racine ou encore entre la plus grande
racine et +), l'ide prsidant la dnition (5.40) est de contruire une parabole coupant l'axe rel en
deux points, dont les abscisses respectives appartiennent l'intervalle considr pour x(k) , de manire
ce que l'abscisse de l'un de ces points soit la plus proche possible d'un zro de pn .
Pour des quations algbriques dont toutes les solutions sont relles, la convergence est globale au
sens o la suite (x(k) )kN converge pour toute valeur relle de l'initialisation x(0) . Supposons en eet que
les racines i , i = 1, . . . , n de pn soient ordonnes de la manire suivante : 1 2 n , et que
x(0) 6= i , i = 1, . . . , n. Les nombres (x(0) i )1 , i = 1, . . . , n, sont alors 49 contenus dans un intervalle
dont les extrmits sont a(x(0) ) et b(x(0) ), avec
p
p0n (x) (n 1) ((p0n (x))2 n pn (x)p00n (x))
a(x) =
n pn (x)
et

b(x) =

p0n (x) +

(n 1) ((p0n (x))2 n pn (x)p00n (x))


.
n pn (x)

Si l'on a j < x(0) < j+1 pour un certain entier j compris entre 1 et n 1, on fait l'hypothse que pn (x)
prend des valeurs strictement positives sur l'intervalle ]j , j+1 [ (le cas contraire se traitant de manire
similaire). Il vient alors

a(x(0) ) (x(0) j+1 )1 < 0 < (x(0) j )1 b(x(0) )


d'o

j x(0)

1
1
< x(0) < x(0)
j+1 .
b(x(0) )
a(x(0) )

On voit dans ce cas que les deux points correspondant aux choix possibles pour x(1) appartiennent
l'intervalle [j , j+1 ]. Si l'un d'entre eux concide avec l'une des racines j ou j+1 , une racine de pn aura
t obtenu. Sinon, on ritre le procd et l'on est formellement conduit considrer deux suites (y (k) )kN
et (z (k) )kN , respectivement dnies par

y (0) = x(0) , y (k+1) = y (k)

1
1
, k 0, et z (0) = x(0) , z (k+1) = z (k)
, k 0.
b(y (k) )
a(z (k) )

La suite (y (k) )kN est dcroissante et minore par j . Elle est donc convergente et l'on a

1
= 0,
k+ b(y (k) )
lim

dont on dduit que

lim pn (y (k) ) = 0

k+

48. Lorsque la racine approche est relle, le signe choisi est celui de p0n (x(k) ).
49. Il sut de prouver que ce rsultat
Q est vrai pour une valeur donne de l'entier i entre 1 et n, disons i = 1. Posons
x(0 = z ; en crivant que pn (z) = c n
pas de la
i=1 (z i ), c 6= 0, on constate que l'assertion dmontrer ne
Pdpend
n
1 et
valeur
c et l'on peut donc supposer que c = 1. En introduisant les quantits =
i=1 (z i )
Pnde la constante
= i=1 (z i )2 , on a, en vertu de l'ingalit de CauchySchwarz,
( (z 1 )1 )2 = ((z 2 )1 + + (z n )1 )2 (n 1)((z 2 )2 + + (z n )2 ) = (n 1)( (z 1 )2 ).

Il en dcoule que

n (z 1 )2 2 (z 1 )1 + 2 (n 1) 0.
La fonction quadratique dnie par q(x) = n x2 2 x + 2 (n 1) est donc ngative ou nulle en x = (z 1 )1 , tout
en tant clairement strictement positive
pour |x| tendant vers +. La quantit (z 1 )1 est donc contenue entre les deux
p
1
zros de q , donns par n ( (n 1)(n 2 )). On conclut en observant que l'on a
p0n (z)
(p0 (z))2 pn (z)p00
n (z)
= et n
= .
pn (z)
(pn (z))2

170

5.7. MTHODES POUR LES QUATIONS ALGBRIQUES

et donc que limk+ y (k) = j . De manire analogue, on obtient que la suite (z (k) )kN a pour limite
j+1 .
Il reste traiter les cas pour lesquels la valeur de x(0) n'est pas comprise entre deux racines. Supposons
que x(0) > n , le mme raisonnement s'appliquant si x(0) < 1 . On fait alors l'hypothse que pn (x) prend
des valeurs strictement positives sur l'intervalle ]n , +[ (le cas contraire se traitant l encore de manire
similaire). On a alors
0 < (x(0) n )1 b(x(0) )
d'o

n x(0)

1
< x(0) .
b(x(0)

En introduisant la suite (y (k) )kN et procdant comme prcdemment, on montre que la mthode converge
vers la racine n .
Au voisinage d'une racine simple, la convergence de la mthode est cubique 50 . Elle est linaire pour
une racine multiple.
Pour un polynme possdant des racines complexes, il n'existe pas de rsultat de convergence globale
de la mthode, mais de bonnes proprits de convergence sont nanmoins observes en pratique 51 . En
particulier, si x(0) = 0, la mthode converge vers la racine de plus petit module du polynme. Dans le
cas d'un racine complexe simple, la convergence de la mthode reste d'ordre trois, cette proprit tant
de nature algbrique.

5.7.8

Mthode de DurandKerner **

dj utilise par Wierstrass en 1891, redcouverte et analyse par Durand vers 1960 [Dur60] et Kerner
en 1966 [Ker66]
approximation de toutes les racines du polynme, base sur la mthode de Newton
(k)

(k+1)

xi

5.7.9

(k)

= xi

Qn

pn (xi )

(k)
j=1 (xi
j6=i

(k)

xj )

, i = 1, . . . , n, k 0,

Mthode de Bairstow

La mthode de Bairstow 52 est utilise pour la dtermination approche de racines d'un polynme
coecients rels, pour lequel les racines complexes vont par paires de valeurs conjugues. Pour tout entier
n suprieur ou gal 2, elle consiste crire la fonction polynomiale pn (x) de degr n sous la forme
(5.41)

pn (x) = (x2 + u x + v) qn2 (x) + r x + s,

Pn2
i
o qn2 une fonction polynomiale de degr n 2, qn2 (x) =
i=0 bi x , et faire en sorte que les
coecients r et s soient nuls par ajustement du choix des coecients de la fonction quadratique x2 +u x+v ,
50. Pour dmontrer ce rsultat, on utilise le fait que la relation de rcurrence (5.40) est une itration de point xe, de
fonction
g(x) = x

p0n (x)

n pn (x)
p
.
(n 1) ((n 1)(p0n (x))2 n pn (x)p00
n (x))

Pour toute racine relle simple , on a alors


g 0 () = 1

n p0n ()
n p00
n ()
et g 00 () = 0
p0n () (n 1) |p0n ()|
pn () (n 1) |p0n ()|


1

2 p0n ()
p0n () (n 1) |p0n ()|


1

n 2 p0n ()
2 |p0n ()|


,

ces deux quantits tant nulles si le signe choisi est celui de p0n (). On peut en revanche montrer que g 000 () 6= 0 et l'ordre
de convergence de la mthode est donc gal trois, en vertu de la proposition 5.15.
51. La mthode est en eet capable d'approcher des racines complexes, mme lorsque l'initialisation est choisie relle, la
quantit apparaissant sous la racine carre dans la relation (5.40) pouvant dans ce cas tre ngative.
52. Leonard Bairstow (25 juin 1880 - 8 septembre 1963) tait un mcanicien britannique. Il s'intressa principalement
l'arodynamique ainsi qu'aux mathmatiques appliques l'aronautique.

171

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

qui fournira alors deux racines de pn . Pour cela, il sut de voir les rels r et s comme des fonctions
implicites de u et de v et de rsoudre le systme de deux quations non linaires deux inconnues

r(u, v) = 0 et s(u, v) = 0,
ce que Bairstow suggre de faire par la mthode de NewtonRaphson gnralise aux systmes d'quations : tant donnes des initialisations 53 u(0) et v (0) , on cherche u et v comme les limites respectives des
suites (u(k) )kN et (v (k) )kN dnies par
 (k+1)   (k) 
 (k) (k) 
u
u
,v )
(k) (k) 1 r(u
=

J(u
,
v
)
, k 0,
v (k+1)
v (k)
s(u(k) , v (k) )
avec

r (k) (k)
(u , v )

J(u(k) , v (k) ) = u
s (k) (k)
(u , v )
u

soit encore

u(k+1)

v (k+1)

r (k) (k)
(u , v )

v
,
s (k) (k)
(u , v )
v



(k) (k) s
(k) (k)
(k) (k) r
(k) (k)
= u (k) r(u , v ) (u , v ) s(u , v ) (u , v )
v
v
J 
 , k 0,
r
1
(k) (k)
(k) (k)
(k) (k) s
(k) (k)
(k)
= v (k) s(u , v ) (u , v ) r(u , v ) (u , v )
u
u
J
(k)

(5.42)



r (k) (k) s (k) (k)
r (k) (k) s (k) (k)
J (k) = det J(u(k) , v (k) ) =
(u , v ) (u , v )
(u , v ) (u , v ).
u
v
v
u
Pour utiliser ces formules, il faut alors tre en mesure d'valuer les drives de r et de s par rapport
u et v . En identiant (5.31) avec (5.41), on trouve que
bn2 = an , bn3 = an1 u an = an1 u bn2 , bi = ai+2 u bi+1 v bi+2 , i = n 4, . . . , 0, (5.43)
r = a1 u b0 v b1 , s = a0 v b0 ,
et, par direntiation, il vient

bn3
bi
bi+1
bi+2
bn2
= 0,
= bn2 ,
= bi+1 u
v
, i = n 4, . . . , 0,
u
u
u
u
u

(5.44)

bn2
bn3
bi
bi+1
bi+2
= 0,
= 0,
= bi+2 u
v
, i = n 4, . . . , 0,
v
v
v
v
v

(5.45)

et

r
b0
b1 s
b0 r
b0
b1 s
b0
= b0 u
v
,
= v
,
= b1 u
v
,
= b0 v
.
u
u
u u
u v
v
v v
v
En introduisant les coecients ci , i = 0, . . . , n 1, dnis par la relation de rcurrence
cn1 = cn2 = 0, ci = bi+1 u ci+1 v ci+2 , i = n 3, . . . , 0,

(5.46)

on trouve en comparant respectivement (5.46) (5.44) et (5.45) que

bi
bi
= ci et
= ci+1 , 0 i n 2,
u
v
d'o

r
s
r
s
= b0 u c0 v c1 ,
= v c0 ,
= b1 u c1 v c2 ,
= b0 v c1 .
u
u
v
v

chaque nouvelle itration de la mthode de NewtonRaphson, il faut donc calculer les suites (bi )0in2
et (ci )0in1 partir des valeurs courantes u(k) et v (k) via les relations (5.43) et (5.46) pour raliser
53. Un choix courant est u(0) =

an1
an

et v (0) =

an2
.
an

172

5.8. NOTES SUR LE CHAPITRE

la mise jour (5.42), ce procd prenant n lorsque une fois un critre de convergence satisfait avec une
tolrance xe.
De par sa construction, la mthode de Bairstow hrite du caractre local 54 et quadratique de la
convergence de la mthode de NewtonRaphson, sauf si la multiplicit du facteur quadratique est plus
grande que un, auquel cas cette convergence n'est plus que linaire.

5.7.10

Mthode de JenkinsTraub **

[JT70b] (pour un polynme rel [JT70a])

5.7.11

Recherche des valeurs propres d'une matrice compagnon **

recherche des zros d'un polynme par recherche des valeurs propres de sa matrice compagnon. Bien
qu'il existe des algorithmes stables de recherche de valeurs propres, ce problme est extrmement mal
conditionn ( cause du choix de la base de reprsentation des polynmes), sauf lorsque les racines sont
toutes situes sur ou proximit du cercle unit. Dans les autres cas, il faut faire appel une autre base,
issue d'une famille de polynmes orthogonaux. La matrice associe est dite collgue (colleague matrix
en anglais) [Spe60, Goo61] pour le choix des polynmes de Chebyshev, camarade (comrade matrix en
anglais) pour les autres [Spe57, Bar75a, Bar75b]). Les problmes ainsi obtenus sont bien conditionns.

5.8

Notes sur le chapitre

La mthode de la fausse position apparat dans un texte indien intitul Vaishali Ganit datant approximativement du troisime sicle avant J.-C.. On la retrouve, utilise pour la rsolution d'quations linaires
uniquement, dans le septime des  neuf chapitres sur l'art mathmatique , dj mentionns dans la section 2.7. La convergence linaire souvent observe de cette mthode est due au fait que l'une des bornes
de l'intervalle d'encadrement n'est plus jamais modie aprs un certain nombre d'itrations. Plusieurs
modications ont t proposes pour liminer ce problme de  rtention  et obtenir une convergence
superlinaire (voir par exemple [DJ71, AB73]).
La mthode de NewtonRaphson est l'une des plus clbres des mathmatiques appliques et des plus
utilises en pratique. Elle fut dcrite pour la premire fois par Newton dans De analysi per aequationes
numero terminorum innitas, crit en 1669, sous une forme considrablement dirente de celle connue
aujourd'hui, car la notion de drive (et donc de linarisation) d'une fonction n'tait pas encore dnie
l'poque. Dans un exemple d'application, Newton s'en servit pour aner une estimation grossire de
l'une des racines de l'quation algbrique x3 2 x 5 = 0. On la retrouve par la suite dans les deuxime
et troisime ditions de l'ouvrage Philosophiae naturalis principia mathematica du mme auteur, utilise
sous une forme gomtrique pour la rsolution de l'quation de Kepler. En 1690, Raphson publia dans
Analysis aequationum universalis seu ad aequationes algebraicas resolvendas methodus generalis, et expedita, ex nova innitarum serierum doctrina deducta ac demonstrata une description simplie de la

mthode complte de nombreux exemples impliquant uniquement des polynmes, Raphson considrant
cette technique de rsolution comme purement algbrique. C'est en fait Simpson 55 que l'on doit, dans
Essays on several curious and useful subjects, in speculative and mix'd mathematicks paru en 1740, la
premire formulation de la mthode en tant que procd itratif de rsolution d'quations non linaires
gnrales bas sur l'utilisation du calcul de  uxions , ce dernier terme tant celui utilis par Newton
54. On peut en eet montrer que la matrice jacobienne J(u, v) intervenant dans la mthode est inversible dans voisinage
d'un point (u , v ) tel que que le facteur quadratique x2 + u x + v a pour racines deux zros simples de pn (i. e.,
r(u , v ) = s(u , v ) = 0). En notant ces deux racines i et j , i, j {1, . . . , n}, i 6= j , et en drivant l'identit (5.41) par
rapport u et v , on arrive un systme de quatre galits, qui est quivalent l'identit matricielle


i qn2 (i )
j qn2 (j )

qn2 (i )
qn2 (j )


=

i
j


1
J(u , v ).
1

Le fait que la matrice J(u , v ) soit inversible dcoule alors du fait que le dterminant de la matrice dans le membre de
gauche de l'quation ci-dessus, gal (i j ) qn2 (i ) qn2 (j ) est non nul par hypothse sur les zros i et j .
55. Thomas Simpson (20 aot 1710 - 14 mai 1761) tait un inventeur et mathmaticien anglais, connu principalement
pour la mthode d'intgration numrique portant son nom.

173

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

pour dsigner la drive d'une fonction. Pour de nombreuses autres informations sur le dveloppement
historique de la mthode de NewtonRaphson, on pourra consulter l'article de Ypma [Ypm95].
Ajoutons que l'application de cette mthode se gnralise naturellement la rsolution d'une quation
(non linaire) d'une variable complexe, d'un systme 56 d'quations (non linaires) ou mme d'une quation fonctionnelle (non linaire) dans un espace de Banach (la drive tant alors entendue au sens de la
drive de Frchet 57 ). Elle est ainsi un lment essentiel de la dmonstration 58 du thorme de plongement isomtrique de Nash 59 [Nas56] ou encore de celle du fameux thorme de Kolmogorov 60 Arnold 61 
Moser 62 [Kol54, Arn63, Mos62], qui rpond des questions d'existence et de stabilit de solutions presque
priodiques de certains systmes dynamiques (notamment ceux de la mcanique cleste). Elle est aussi
utilise pour la rsolution numrique du problme d'optimisation non linaire sans contraintes

min f (x),

xRd

dans lequel f est suppose rgulire, dont l'quation d'optimalit s'crit

f (x) = 0,
o f (x) est le gradient de f au point x. Cette dernire quation est en eet un systme de d quations
d inconnues que l'on peut rsoudre par la mthode de Newton. Dans ce cas particulier, il est important
de noter que la mthode construit une suite convergeant vers un point stationnaire de la fonction f , sans
faire de distinction entre les minima ou les maxima. Il faut donc en gnral procder des modications
adquates de la mthode pour la contraindre viter les points stationnaires qui ne sont pas des minima
de f , ce qui n'est pas une tche aise. En partie pour cette raison, la littrature sur les applications de la
mthode de Newton (et de toutes ses variantes) en optimisation est trs riche. Nous renvoyons le lecteur
intress l'ouvrage [BGLS06] en guise d'introduction.
Enn, lorsque l'on se sert de la mthode de NewtonRaphson pour la recherche dans le plan complexe
des racines d'un polynme p, celle-ci prsente ce que l'on appelle des bassins de convergence ou d'attraction. Ce sont des rgions du plan complexe associes l'une des solutions de l'quation p(z) = 0 de la
manire suivante : un point z du plan appartient au bassin de convergence G associ la racine si la
suite dnie par la mthode de Newton avec z comme donne initiale, c'est--dire z (0) = z et

z (k+1) = z (k)

p(z (k) )
, k 0,
p0 (z (k) )

56. On peut par exemple l'utiliser pour calculer l'inverse d'une matrice carre inversible A en ne se servant que de sommes
et de produits de matrices, donnant lieu la mthode de NewtonSchulz [Sch33] dnie par la relation de rcurrence
X (n+1) = 2 X (k) X (k) AX (k) , k 0,

la matrice X (0) tant donne.


57. Maurice Ren Frchet (2 septembre 1878 - 4 juin 1973) tait un mathmaticien franais. Trs prolique, il t plusieurs
importantes contributions en topologie, o il introduisit par exemple le concept d'espace mtrique, en analyse, en probabilits
et en statistique.
58. La mthode permet plus prcisment d'obtenir, par un procd la combinant avec une technique de lissage, un thorme
d'inversion locale formul dans une classe particulire d'espaces de Frchet. Ce rsultat, qui porte le nom de thorme de
NashMoser suite aux articles [Mos66a, Mos66b] et gnralise le thorme des fonctions implicites, sert notamment prouver
l'unicit locale de solutions d'quations aux drives partielles non linaires dans des espaces de fonctions regulires.
59. John Forbes Nash, Jr. (n le 13 juin 1928) est un mathmaticien amricain. Il s'est principalement intress la
thorie des jeux, la gomtrie direntielle et aux quations aux drives partielles. Il a partag le prix de la Banque de
Sude en sciences conomiques en mmoire d'Alfred Nobel en 1994 avec Reinhard Selten et John Harsanyi pour ses travaux
en thorie des jeux.
60. Andrei Nikolaevich Kolmogorov (Andr&ei
@ Nikol&aeviq Kolmog&orov en russe, 25 avril 1903 - 20 octobre 1987) tait un
mathmaticien russe. Ses apports aux mathmatiques sont considrables et touchent divers domaines, au nombre desquels
gurent la thorie des probabilits, la topologie, la logique intuitionniste, la thorie algorithmique de l'information, mais
aussi la mcanique classique, la thorie des systmes dynamiques et la thorie de la turbulence.
61. Vladimir Igorevich Arnold (Vlad&
imir I& goreviq Arn&ol~d en russe, 12 juin 1937 - 3 juin 2010) tait un mathmaticien
russe. On lui doit d'importantes contributions la thorie des systmes dynamiques, la topologie, la gometrie algbrique,
les thories des catastrophes et des singularits, ainsi qu' la mcanique classique.
62. Jrgen Kurt Moser (4 juillet 1928 - 17 dcembre 1999) tait un mathmaticien amricain d'origine allemande. Ses
recherches portrent sur les quations direntielles, la thorie spectrale, la mcanique cleste et la thorie de la stabilit. Il
apporta des contributions fondamentales l'tude des systmes dynamiques.

174

5.8. NOTES SUR LE CHAPITRE

converge vers . Les frontires de ces rgions sont alors constitues des points pour lesquels la suite
(z (k) )kN ne converge pas. Fait remarquable, cet ensemble est une fractale (c'est plus prcisement l'ensemble de Julia 63 associ la fonction mromorphe 64 z 7 z pp(z)
0 (z) ) et sa reprsentation donne lieu,
selon le polynme considr, des images surprenantes (voir la gure 5.12).

Illustration de l'utilisation de la mthode de Newton pour la recherche des racines complexes de


l'quation z 5 1 = 0. gauche, on a reprsent les bassins de convergence de la mthode : chaque point z (0)
(choisi ici tel que |Re(z (0) )| 2 et |Im(z (0) )| 2) servant d'initialisation est color en fonction de la racine atteinte
en cas de convergence (une sixime couleur tant attribue s'il n'y a pas convergence). droite, on a color ces
mmes points en fonction du nombre d'itrations requis pour atteindre la convergence avec une tolrance gale
103 pour le critre d'arrt. La structure fractale des frontires des bassins de convergence est clairement observe.
Figure 5.12:

La mthode de Steensen est particulirement intressante pour la rsolution de systmes d'quations


non linaires. Elle se gnralise des quations faisant intervenir des oprateurs non linaires dans des
espaces de Banach [Che64].
L'ordre de convergence obtenu pour la mthode de la scante n'est autre que le nombre d'or, encore
appel la  divine proportion  d'aprs l'ouvrage De divina proportione de Pacioli 65 , dni comme l'unique
rapport entre deux longueurs telles que le rapport de la somme de ces longueurs sur la plus grande soit
gal celui de la plus grande sur la plus petite. Ce nombre irrationnel intervient, par exemple, dans la
construction du pentagone rgulier et ses proprits algbriques le lient la fameuse suite de Fibonacci 66 .
Les gnralisations possibles de la mthode de la scante la rsolution d'un systme d'quations non
linaires sont l'origine des classes des quasi-mthodes de Newton (quasi-Newton methods en anglais),
dans lesquelles on substitue l'inverse de la matrice jacobienne de la fonction que l'on cherche annuler
une approximation facilement mise jour chaque itration et laquelle on peut choisir d'imposer certaines proprits. Parmi les mthodes ainsi obtenues, on peut citer la mthode de Broyden 67 [Bro65] ou
la mthode de DavidonFletcherPowell [Dav59, FP63], utilise pour la rsolution de problmes d'optimisation non linaire.
63. Gaston Maurice Julia (3 fvrier 1893 - 19 mars 1978) tait un mathmaticien franais, spcialiste des fonctions d'une
variable complexe. Il est principalement connu pour son remarquable Mmoire sur l'itration des fractions rationnelles.
64. On rappelle qu'une fonction d'une variable complexe est dite mromorphe si elle est holomorphe (c'est--dire dnie
et drivable) dans tout le plan complexe, sauf ventuellement sur un ensemble de points isols dont chacun est un ple
pour la fonction. On dnit de manire informelle l'ensemble de Julia d'une telle fonction comme l'ensemble des nombres
complexes pour lesquels une perturbation arbitrairement petite peut modier de faon drastique la suite des valeurs itres
de la fonction qui en est issue.
65. Luca Bartolomeo de Pacioli (v. 1445 - 19 juin 1517) tait un moine et mathmaticien italien. Il est considr, grce
son recueil Summa de arithmetica, geometria, proportioni et proportionalita publi Venise en 1494, comme le premier
codicateur de la comptabilit moderne.
66. Leonardo Pisano, dit Fibonacci, (v. 1175 - v. 1250) tait un mathmaticien italien. Il reste connu de nos jours pour un
problme conduisant aux nombres et la suite qui portent son nom, mais, en son temps, ce furent surtout les applications
de l'arithmtique au calcul commercial (calcul du prot des transactions, conversion entre monnaies de dirents pays) qui
le rendirent clbre.
67. Charles George Broyden (3 fvrier 1933 - 20 mai 2011) tait un mathmaticien anglais, spcialiste de la rsolution
numrique de problmes d'optimisation non linaire et d'algbre linaire.

175

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

La possibilit d'lever au carr de faon lmentaire les racines d'une quation algbrique an d'en
acclrer la dtermination par la mthode de NewtonRaphson ou de la fausse position a t suggre
par Dandelin 68 en 1826 [Dan26], ce dernier mentionnant simplement que le procd pouvait tre ritr
et utilis de manire obtenir les modules des zros ou les zros eux-mmes. Lobachevskii 69 redcouvrit
cette mthode en 1834 et Gre en proposa en 1837 un algorithme pratique de mise en uvre [Gr37].
La mthode de Gre est pour ces raisons parfois appele mthode de DandelinGre ou mthode de
Lobachesvkii par certains auteurs (voir [Hou59]).
La mthode de Bairstow fut initialement introduite dans l'annexe du livre [Bai20] pour la dtermination des racines d'une quation algbrique du huitime degr intervenant dans l'tude de la stabilit d'un
avion.
Pour un aperu historique et une prsentation d'algorithmes rcents concernant la rsolution des
quations algbriques, on pourra consulter l'article de Pan [Pan97].
AJOUTER des explications relatives la rfrence [Boy02]

Rfrences
[AB73]

N. Anderson and . Bjrk. A new high order method of regula falsi type for computing a root of
an equation. BIT, 13(3):253264, 1973. doi: 10.1007/BF01951936 (cited on page 173).

[Ait26]

A. C. Aitken. On Bernoulli's numerical solution of algebraic equations. Proc. Roy. Soc. Edinburgh,
46:289305, 1926 (cited on page 155).

[Arn63]

V. I. Arnold. Proof of a theorem of A. N. Kolmogorov on the preservation of conditionally periodic


motions under a small perturbation of the Hamiltonian (russian). Uspehi Mat. Nauk, 18(5(113)):13
40, 1963 (cited on page 174).

[Bai20]

L.

[Bar75a]

S. Barnett. A companion matrix analogue for orthogonal polynomials. Linear Algebra and Appl.,
12(3):197202, 1975. doi: 10.1016/0024-3795(75)90041-5 (cited on page 173).

[Bar75b]

S.

Bairstow.

Applied aerodynamics. Longmans, Green and co., 1920 (cited on page 176).

Some applications of the comrade matrix. Internat. J. Control, 21(5):849855, 1975.


10.1080/00207177508922039 (cited on page 173).

Barnett.

doi:

[Ber32]

D. Bernoulli. Methodus universalis determinandae curvaturae li a potentiis quamcunque legem


inter se observantibus extensi, una cum solutione problematum quorundam novorum eo pertinentium.
Comm. Acad. Sci. Imper. Petropolitanae, 3:6269, 1732 (cited on page 167).

[BGLS06]

J. F.

Bonnans, J. C. Gilbert, C. Lemarchal, and C. A. Sagastizbal. Numerical optimization, theoretical and practical aspects. Of Universitext. Springer, second edition, 2006. doi:

10.1007/978-3-540-35447-5 (cited on page 174).


[Boy02]

J. P. Boyd. Computing zeros on a real interval through Chebyshev expansion and polynomial
rootnding. SIAM J. Numer. Anal., 40(5):16661682, 2002. doi: 10.1137/S0036142901398325
(cited on page 176).

[Bre71]

R. P. Brent. An algorithm with guaranteed convergence for nding a zero of a function. Comput.
J., 14(4):422425, 1971. doi: 10.1093/comjnl/14.4.422 (cited on page 161).

[Bro65]

C. G. Broyden. A class of methods for solving nonlinear simultaneous equations. Math. Comput.,
19(92):577593, 1965. doi: 10.1090/S0025-5718-1965-0198670-6 (cited on page 175).

[BS24]

[Che64]

S. Brodetsky and G. Smeal. On Graee's method for complex roots of algebraic equations. Math.
doi: 10 . 1017 / S0305004100002802 (cited on
page 169).

Proc. Cambridge Philos. Soc., 22(2):8387, 1924.


K.-W.

Chen.

Generalization of Steensen's method for operator equations in Banach space. Com-

ment. Math. Univ. Carolinae, 5(2):4777, 1964 (cited on page 175).

68. Germinal Pierre Dandelin (12 avril 1794 - 15 fvrier 1847) tait un mathmaticien belge. Ses travaux portrent sur la
gomtrie et plus particulirement sur les coniques.
69. Nikolai Ivanovich Lobachevskii (Nikol&ai
@ Iv&anoviq Lobaq&evski@i en russe, 1er dcembre 1792 - 24 fvrier 1856) tait
un mathmaticien russe, inventeur d'une gomtrie hyperbolique non-euclidienne.

176

RFRENCES

[Dan26]

G. Dandelin. Recherches sur la rsolution des quations numriques. In, Nouveaux mmoires de
l'Acadmie Royale des Sciences et Belles-Lettres de Bruxelles. Tome 3, pages 771. P. J. De Mat,
imprimeur de l'Acadmie Royale, Bruxelles, 1826 (cf. page 176).

[Dav59]
[Dek69]

W. C. Davidon. Variable metric method for minimization. Technical report (ANL-5990). A.E.C.
Research and Development, 1959 (cited on page 175).
T. J

Dekker.

Finding a zero by means of successive linear interpolation. In B. Dejon and P.


editors, Constructive aspects of the fundamental theorem of algebra, pages 3748. WileyInterscience, 1969 (cited on page 161).
Henrici,

[DJ71]

M. Dowell and P. Jarratt. A modied regula falsi method for computing the root of an equation.
BIT, 11(2):168174, 1971. doi: 10.1007/BF01934364 (cited on page 173).

[Dur60]

E.

[FP63]

R.

[Goo61]

I. J. Good. The colleague matrix, a Chebyshev analogue of the companion matrix. Quart. J. Math.
Oxford Ser. (2), 12(1):6168, 1961. doi: 10.1093/qmath/12.1.61 (cited on page 173).

[Gra63]

A. A. Grau. On the reduction of number range in the use of the Graee process. J. Assoc. Comput.
Mach., 10(4):538544, 1963. doi: 10.1145/321186.321198 (cited on page 169).

[Gr37]

C. H. Grffe. Die Ausung der hheren numerischen Gleichungen, als Beantwortung einer von der
Knigl. Akademie der Wissenschaften zu Berlin aufgestellten Preisfrage. 1837 (siehe Seite 176).

[Hal94]

E. Halley. Methodus nova accurata et facilis inveniendi radices aequationum quarumcumque


generaliter, sine praevia reductione. Philos. Trans. Roy. Soc. London, 18:136148, 1694. doi:
10.1098/rstl.1694.0029 (cited on page 157).

[Hea21]

T. Heath. A history of Greek mathematics. Volume II from Aristarchus to Diophantus. Clarendon


Press, 1921 (cited on page 154).

[Hor19]

W. G. Horner. A new method of solving numerical equations of all orders, by continuous approximation. Philos. Trans. Roy. Soc. London, 109:308335, 1819. doi: 10.1098/rstl.1819.0023
(cited on page 163).

[Hou59]

A. S. Householder. Dandelin, Lobaevski, or Graee? Amer. Math. Monthly, 66(6):464466,


1959. doi: 10.2307/2310626 (cited on page 176).

[Hou70]

A. S. Householder. The numerical treatment of a single nonlinear equation. McGraw-Hill, 1970


(cited on page 157).

[JT70a]

M. A. Jenkins and J. F. Traub. A three-stage algorithm for real polynomials using quadratic
iteration. SIAM J. Numer. Anal., 7(4):545566, 1970. doi: 10.1137/0707045 (cited on page 173).

[JT70b]

M. A. Jenkins and J. F. Traub. A three-stage variable-shift iteration for polynomial zeros and
its relation to generalized Rayleigh iteration. Numer. Math., 14(3):252263, 1970. doi: 10.1007/
BF02163334 (cited on page 173).

[Ker66]

I. O.

[Kol54]

A. N. Kolmogorov. On conservation of conditionally periodic motions for a small change in


Hamilton's function (russian). Dokl. Akad. Nauk SSSR, 98:527530, 1954 (cited on page 174).

[Lag80]

E. N. Laguerre. Sur une mthode pour obtenir par approximation les racines d'une quation algbrique qui a toutes ses racines relles. Nouv. Ann. Math. (2), 19 :193202, 1880 (cf. page 169).

[Leh63]

D. H. Lehmer. The complete root-squaring method. SIAM J. Appl. Math., 11(3):705717, 1963.
doi: 10.1137/0111053 (cited on page 169).

[Mae54]

H. J. Maehly. Zur iterativen Ausung algebraischer Gleichungen. Z. Angew. Math. Phys., 5(3):260
263, 1954. doi: 10.1007/BF01600333 (siehe Seite 166).

[Mos62]

J.

Moser.

On invariant curves of area-preserving mappings of an annulus. Nachr. Akad. Wiss.

J.

Moser.

A rapidly convergent iteration method and non-linear dierential equations - I. Ann.

[Mos66a]

Durand. Solutions numriques des quations algbriques. Tome I quations du type F (x) = 0,
racines d'un polynme. Masson, 1960 (cf. page 171).
Fletcher

and M. J. D.

Powell.

Comput. J., 6(2):163168, 1963.

Kerner.

doi:

A rapidly convergent descent method for minimization.


10.1093/comjnl/6.2.163 (cited on page 175).

Ein Gesamtschrittverfahren zur Berechnung der Nullstellen von Polynomen. Numer.

Math., 8(3):290294, 1966. doi: 10.1007/BF02162564 (siehe Seite 171).

Gttingen Math.-Phys. Kl. II, 1962(1):120, 1962 (cited on page 174).

Scuola Norm. Sup. Pisa Cl. Sci. (3), 20(2):265315, 1966 (cited on page 174).
177

CHAPITRE 5. RSOLUTION NUMRIQUE DES QUATIONS NON LINAIRES

[Mos66b]
[Mul56]

J.

A rapidly convergent iteration method and non-linear dierential equations - II. Ann.

Moser.

Scuola Norm. Sup. Pisa Cl. Sci. (3), 20(3):499535, 1966 (cited on page 174).
D. E.

Muller.

A method for solving algebraic equations using an automatic computer. Math.


doi: 10.1090/S0025- 5718- 1956- 0083822- 0 (cited on

Tables Aids Comp., 10(56):208215, 1956.


page 160).

The imbedding problem for Riemannian manifolds. Ann. Math. (2), 63(1):2063, 1956.
10.2307/1969989 (cited on page 174).

[Nas56]

J.

[Pan66]

V. Y. Pan. On means of calculating values of polynomials (russian). Uspehi Mat. Nauk, 21(1):103
134, 1966 (cited on page 163).

[Pan97]

V. Y. Pan. Solving a polynomial equation: some history and recent progress. SIAM Rev., 39(2):187
220, 1997. doi: 10.1137/S0036144595288554 (cited on page 176).

[Rut54]

H. Rutishauser. Der Quotienten-Dierenzen-Algorithmus. Z. Angew. Math. Phys., 5(3):233251,


1954. doi: 10.1007/BF01600331 (siehe Seite 167).

[Sch33]

Nash.

doi:

G.

Iterative Berechung der reziproken Matrix. Z. Angew. Math. Mech., 13(1):5759, 1933.
10.1002/zamm.19330130111 (siehe Seite 174).

Schulz.

doi:

[Sch70]

E. Schrder. Ueber unendlich viele Algorithmen zur Ausung der Gleichungen. Math. Ann.,
2(2):317365, 1870. doi: 10.1007/BF01444024 (siehe Seite 157).

[Spe57]

W. Specht. Die Lage der Nullstellen eines Polynoms. III. Math. Nachr., 16(5-6):369389, 1957. doi:
10.1002/mana.19570160509 (siehe Seite 173).

[Spe60]

W. Specht. Die Lage der Nullstellen eines Polynoms. IV. Math. Nachr., 21(3-5):201222, 1960.
10.1002/mana.19600210307 (siehe Seite 173).

[Ste33]

J. F. Steffensen. Remarks on iteration. Skand. Aktuar., 1933(1):6472, 1933.


03461238.1933.10419209 (cited on page 157).

[Stu29]

C. Sturm. Analyse d'un mmoire sur la rsolution des quations numriques. Bull. Frussac, 11 :419
422, 1829 (cf. page 163).

[Waa73]

J. D. van der

[Ypm95]

T. J.
1995.

Waals.

10.1080/

Over de continuiteit van den gas- en vloeistoftoestand, 1873 (zie pagina 136).

Historical development of the NewtonRaphson method. SIAM Rev., 37(4):531551,


10.1137/1037125 (cited on page 174).

Ypma.
doi:

doi:

doi:

178

Chapitre 6

Interpolation polynomiale
L'interpolation est une technique consistant construire une courbe d'un type donn passant par un
nombre ni de points donns du plan. D'un point de vue applicatif, les ordonnes de ces points peuvent
reprsenter les valeurs aux abcisses d'une fonction arbitraire, que l'on cherche dans ce cas remplacer par
une fonction plus simple manipuler lors d'un calcul numrique, ou encore de donnes exprimentales,
pour lesquelles on vise obtenir empiriquement une loi de distribution lorsque leur nombre est important.
Sous sa forme la plus simple, l'interpolation linaire, ce procd est bien connu des utilisateurs de tables
de logarithmes, qui furent massivement employes pour les calculs avant l'arrive des calculatrices. C'est
aussi un ingrdient essentiel de nombreuses et diverses 1 mthodes numriques, ainsi que de techniques
d'estimation statistique (comme le krigeage en gostatistique par exemple).
Nous nous limiterons dans ces pages des problmes d'interpolation polynomiale, ce qui signie
que la courbe que l'on cherche obtenir est le graphe d'une fonction polynomiale (ventuellement par
morceaux). Ce choix n'est, de loin, pas le seul possible : l'interpolation trigonomtrique, base sur les
polynmes trigonomtriques, est en eet largement utilise pour l'interpolation des fonctions priodiques
et la mise en uvre de techniques en lien avec l'analyse de Fourier 2 , l'interpolation rationnelle se sert
de quotients de polynmes, etc... Cependant, les nombreuses proprits analytiques et algbriques des
polynmes, allies la facilit que l'on a les driver, les intgrer ou les valuer numriquement en un
point, en font une classe de fonctions extrmement intressante en pratique. L'interpolation polynomiale
est pour cette raison un outil numrique de premier ordre pour l'approximation polynomiale des fonctions
relles d'une variable relle, dont nous rappelons en introduction plusieurs rsultats fondamentaux.
Aprs avoir ainsi en partie motiv la problmatique de l'interpolation, nous tudions en dtail l'interpolation de Lagrange 3 , qui constitue certainement la base thorique principale de l'interpolation polynomiale, et son application l'approximation d'une fonction relle. Des gnralisations de ce procd sont
ensuite explores et quelques exemples d'interpolation par morceaux concluent le chapitre.

6.1

Quelques rsultats concernant l'approximation polynomiale

Dans la suite, pour toute fonction g valeurs relles dnie sur un intervalle [a, b] born et non vide
de R, la norme de la convergence uniforme de g sur [a, b] sera note

kgk = max |g(x)| .


x[a,b]

1. Parmi les mthodes prsentes dans ces notes et faisant intervenir l'interpolation, on peut citer les mthodes de
recherche de zro de la sous-section 5.3.2 et de la section 5.5, les formules de quadrature du chapitre 7 ou les mthodes
pas multiples linaires de la sous-section 8.3.3.
2. Joseph Fourier (21 mars 1768 - 16 mai 1830) tait un mathmaticien et physicien franais, connu pour ses travaux
sur la dcomposition de fonctions priodiques en sries trigonomtriques convergentes et leur application au problme de la
propagation de la chaleur.
3. Joseph Louis Lagrange (Giuseppe Lodovico Lagrangia en italien, 25 janvier 1736 - 10 avril 1813) tait un mathmaticien et astronome franco-italien. Fondateur, avec Euler, du calcul des variations, il a galement produit d'importantes
contributions tant en analyse, en gomtrie et en thorie des groupes qu'en mcanique.

179

CHAPITRE 6. INTERPOLATION POLYNOMIALE

INTRODUIRE ici les normes kk et kk2 ( poids ?) sur C ([a, b]) (intervalle sous-jacent clair d'aprs le
contexte), remarque sur l'absence d'quivalence (dimension innie), le choix de la norme inuera fortement
sur le rsultat obtenu et dpendra a priori de l'application vise...

6.1.1

Polynmes et fonctions polynomiales

COMPLETER notation de Pn et amalgame notation polynme/fonction polynomiale associe

6.1.2

Approximation uniforme

Le bien-fond de l'approximation polynomiale repose sur le rsultat suivant, qui montre qu'il est
possible d'approcher, sur un intervalle born et de manire arbitraire relativement la norme de la
convergence uniforme, toute fonction continue par une fonction polynomiale de degr susamment lev.

Thorme 6.1 ( thorme d'approximation de Weierstrass 4  [Wei85]) Soit f une fonction


d'une variable relle valeurs relles, continue sur un intervalle [a, b] born et non vide de R. Alors, pour
tout > 0, il existe une fonction polynomiale p telle que

kf pk < .
Dmonstration. Il existe de nombreuses dmonstrations de ce rsultat. La preuve originelle de Weierstrass
est base sur l'analyticit d'intgrales singulires, obtenues par convolution d'une extension de la fonction approcher avec une fonction gaussienne, solutions d'une quation de la chaleur sur la droite relle. Nous reproduisons
ici une preuve particulirement simple propose par Kuhn [Kuh64].
On observe que, par un changement de variable, il sut de dmontrer le rsultat pour une fonction f dnie
et continue sur l'intervalle [0, 1]. Nous allons tout d'abord montrer qu'il existe une fonction ane par morceaux
approchant uniformment f sur [0, 1]. La fonction f tant uniformment continue sur [0, 1] en vertu du thorme
de Heine (voir le thorme B.93), il existe, pour tout rel > 0 donn, un entier naturel n, que l'on choisit
strictement plus grand que 1, tel que |f (x) f (y)| 4 si |x y| n1 , avec x et y appartenant [0, 1]. Posons
alors xi = ni , i = 0, . . . , n, ces points dnissant une partition de l'intervalle [0, 1], et introduisons la fonction
g , ane sur chacun des intervalles [xi , xi+1 ], i = 0, . . . , n 1, et telle que g(xi ) = f (xi ), i = 0, . . . , n. Pour
tout x dans [0, 1], il existe un entier i compris entre 0 et n 1 tel que x appartient l'intervalle [xi , xi+1 ] et
l'on a donc |f (x) f (xi )| 4 . D'autre part, une fonction ane sur un intervalle atteignant ses bornes aux
extrmits de l'intervalle, la valeur g(x) est comprise entre g(xi ) = f (xi ) et g(xi+1 ) = f (xi+1 ) et par consquent
|f (xi ) g(x)| |f (xi ) f (xi+1 )| 4 . L'application de l'ingalit triangulaire conduit alors

|f (x) g(x)| |f (x) f (xi )| + |f (xi ) g(x)|

+ = .
4
4
2

Nous allons maintenant exhiber une fonction polynomiale approchant la fonction g de manire uniforme sur
l'intervalle [0, 1]. Pour cela, nous remarquons que g peut s'crire explicitement
g(x) = g1 (x) +

n1
X

(gi+1 (x) gi (x)) h(x xi ), x [1, 1],

(6.1)

i=1

o gi , 1 i n, est la fonction ane dnie par


gi (x) = f (xi1 ) +

f (xi ) f (xi1 )
(x xi1 ), x R,
xi xi1

et h est la fonction chelon de Heaviside 5 , telle que


(
0
x R, h(x) =
1

si x < 0
.
si x 0

4. Karl Theodor Wilhelm Weierstra (31 octobre 1815 - 19 fvrier 1897) tait un mathmaticien allemand, souvent cit
comme le  pre de l'analyse moderne . On lui doit l'introduction de plusieurs dnitions et de formulations rigoureuses,
comme les notions de limite et de continuit, et ses contributions au dveloppement d'outils thoriques en analyse ouvrirent
la voie l'tude du calcul des variations telle que nous la connaissons aujourd'hui.
5. Oliver Heaviside (18 mai 1850 - 3 fvrier 1925) tait un ingnieur, mathmaticien et physicien britannique autodidacte. Il est notamment l'origine des simplications algbriques conduisant la forme des quations de Maxwell connue
aujourd'hui en lectromagntisme.

180

6.1. QUELQUES RSULTATS CONCERNANT L'APPROXIMATION POLYNOMIALE

Compte tenu de l'expression (6.1), on voit que le problme se ramne celui de l'approximation polynomiale de
la fonction h. Pour tout entier naturel m, considrons la fonction polynomiale pm dnie par


m
1x
pm (x) = qm
, avec qm (x) = (1 xm )2 .
2
Pour m strictement positif, la fonction qm dcrot de manire monotone sur l'intervalle [0, 1], prenant la valeur 1
en x = 0 et 0 en x = 1. Soit un point x de l'intervalle [0, 12 [. On a alors
1 qm (x) = (1 xm )2

1 (2x)m

d'aprs l'ingalit de Bernoulli 6 , d'o


lim qm (x) = 1, 0 x <

m+

1
.
2

Soit x un point de ] 12 , 1[. On a cette fois


1
=
qm (x)

1
1 xm

2m
=


1+

xm
1 xm

2m
1+

(2x)m
> (2x)m ,
1 xn

dont on dduit que

1
< x 1.
2
Ainsi, la suite de fonctions polynomiales (pm )mN , borne sur l'intervalle [1, 1], converge vers la fonction h sur
[1, ] [, 1], pour tout > 0, la dcroissance de la fonction qm assurant que cette convergence est uniforme.
Faisons prsent le choix d'un rel > 0 susamment petit pour que les intervalles [xi , xi + ], i = 1, . . . , n 1

soient disjoints, puis d'un entier m susamment grand pour que l'on ait |h(x) pm (x)| 4s
, 0 < |x| 1,
Pn1
avec s = i=1 |gi+1 (x) gi (x)|, et dnissons la fonction polynomiale
lim qm (x) = 0,

m+

p(x) = g1 (x) +

n1
X

(gi+1 (x) gi (x)) pm (x xi ).

i=1

Pour tout point x dans l'intervalle [0, 1], il vient


|g(x) p(x)|

n1
X

|gi+1 (x) gi (x)| |h(x xi ) pm (x xi )| + |gk+1 (x) gk (x)| |h(x xk ) pm (x xk )|

i=1
i6=k

et
|g(x) p(x)|

n1
X

+ = si x [xk , xk + ], 1 k n 1,
4s
4
2

|gi+1 (x) gi (x)| |h(x xi ) pm (x xi )| s

i=1

= sinon.
4s
4

On conclut alors en utilisant nouveau l'ingalit triangulaire.

REPRENDRE Une dmonstration constructive clbre, suivant une approche probabiliste, est due
Bernstein 7 [Ber12]. REMARQUE sur l'approximation par les polynmes de Bernstein

Bn f (x) =

  
n
X
n j
j
x (1 x)nj , x [0, 1]
f
n
j
j=0

utilise en pratique et sa lente convergence (kf Bn (f )k

1
8n

kf 00 k , f C 2 ([a, b]), optimal)

on peut faire mieux :


6. Jakob ou Jacques Bernoulli (27 dcembre 1654 - 16 aot 1705) tait un mathmaticien et physicien suisse. Il s'intressa
principalement l'analyse fonctionnelle, aux calculs direntiel et intgral, dont il se servit pour rsoudre de clbres
problmes de mcanique. Il posa par ailleurs les bases du calcul des probabilits, qu'il appliqua l'tude des jeux de hasard.
7. Sergei Natanovich Bernstein (Serg&ei
@ Nat&anoviq Bernxt&ei@n en russe, 5 mars 1880 - 26 octobre 1968) tait un
mathmaticien russe. Ses travaux portrent sur l'approximation constructive des fonctions et la thorie des probabilits.

181

CHAPITRE 6. INTERPOLATION POLYNOMIALE

Thorme 6.2 ( ingalit de Jackson 8 ) une fonction de classe C k peut tre approche par une suite

de fonctions polynomiales de degr n croissant de manire ce que l'erreur d'approximation uniforme


soit au pire comme nCk lorsque n +, la constante ne dpendant que de k .
Dmonstration.

A ECRIRE

NOTE : rsultat initialement tabli par Jackson dans sa thse pour les polynmes trigonomtriques
et algbriques

Corollaire 6.3 ingalit faisant intervenir le module de continuit (c'est de cette ingalit qu'on a besoin)
kf p k
Dmonstration.



C(k)
(k) 1

f
,
nk
n

A ECRIRE

Compte tenu des prcdents rsultats et tant donn une fonction continue sur un intervalle et un
entier positif n, il est naturel, de chercher dterminer la fonction polynomiale de degr infrieur ou gal
n approchant au mieux la fonction en norme uniforme sur l'intervalle. Ce problme donne lieu la
dnition suivante.

Dnition 6.4 (polynme de meilleure approximation uniforme) Soit f une fonction d'une variable relle valeurs relles, continue sur un intervalle [a, b] born et non vide de R. On appelle polynme
de meilleure approximation uniforme de degr n de f sur [a, b] le polynme pn de Pn ralisant
kf pn k = min kf qk .
qPn

Thorme 6.5 (existence du polynme de meilleure interpolation uniforme) Pour toute fonction f de C ([a, b]), avec [a, b] un intervalle born et non vide de R, et tout entier positif n, il existe un
polynme de meilleure approximation uniforme de degr n de f sur [a, b].
Dmonstration.

A ECRIRE

Pour dmontrer que le polynme de meilleure approximation uniforme est unique, on utilise la caractrisation suivante de ce dernier.

Thorme 6.6 ( thorme d'qui-oscillation de Chebyshev  9 ) REPRENDRE

f C ([a, b]), p Pn est un polynme de meilleure approximation uniforme de f sur [a, b] si et seulement
si |f p| atteint son maximum en n + 2 points distincts :
f (xi ) p(xi ) = (1)i kf pk , i = 0, . . . , n + 1
o est le signe de f (x0 ) p(x0 ) ( = 1).
Dmonstration.

A ECRIRE

Corollaire 6.7 (unicit du polynme de meilleure approximation uniforme) Le polynme de


meilleure approximation uniforme est unique.
Dmonstration.

A ECRIRE

ranement du thorme d'qui-oscillation : estimation de l'erreur de meilleure approximation sans


calcul du polynme : thorme de de la Valle Poussin 10 [VP10]
8. Dunham Jackson (24 juillet 1888 - 6 novembre 1946) tait un mathmaticien amricain. Ses travaux portrent sur la
thorie de l'approximation, et plus particulirement les polynmes trigonomtriques et orthogonaux.
9. Ce rsultat fut d'abord esquiss en 1853 [Tch54], puis abord plus en dtail en 1857 [Tch59], par Chebyshev, mais ce
n'est que plus tard, aprs l'introduction de la notion de compacit, qu'il fut compltement dmontr par Borel [Bor05].
10. Charles-Jean tienne Gustave Nicolas de la Valle Poussin (14 aot 1866 - 2 mars 1962) tait un mathmaticien belge.
Il est connu pour avoir dmontr, simultanment mais indpendamment de Hadamard, le thorme des nombres premiers
l'aide de mthodes issues de l'analyse complexe.

182

6.1. QUELQUES RSULTATS CONCERNANT L'APPROXIMATION POLYNOMIALE

Thorme 6.8 REPRENDRE f C ([a, b]), n 0 et pn polynme de degr infrieur ou gal n tel que
la dirence f pn prend alternativement des valeurs positives et ngatives en n + 2 points xj conscutifs
de [a, b] (a x0 < x1 < < xn+1 b). Alors
min

0jn+1

|f (xj ) pn (xj )| kf pn k

REPRENDRE Par l'absurde. Si le rsultat tait faux, le polynme pn pn , de degr


infrieur ou gal n, changerait de signe n+1 fois (on a en eet pn (xj )pn (xj ) = f (xj )pn (xj )(f (xj )pn (xj ))
avec kf pn k < min |f (xj ) pn (xj )|) et possderait donc n + 1 racines. Ceci impliquerait que pn = pn ,
Dmonstration.

0jn+1

d'o une contradiction.

Ce dernier thorme est la base d'une mthode de calcul pratique du polynme de meilleure approximation uniforme, l'algorithme de Remes 11 [Rem34a, Rem34c, Rem34b]. (A VOIR : description de
l'algorithme) La non-linarit du problme d'approximation rend nanmoins cette mthode coteuse et
celle-ci reste par consquent peu utilise 12 . Ceci est aussi en grande partie d au fait que, comme nous le
verrons plus loin, l'interpolation de Lagrange aux points de Chebychev fournit souvent une approximation
quasiment optimale et trs aisment calculable.
En lien avec ce dernier point, indiquons que l'on peut estimer la  qualit  d'une approximation
polynomiale de degr donn d'une fonction continue en comparant l'erreur d'approximation, mesure en
norme de la convergence uniforme, qui lui correspond avec celle commise par le polynme de meilleure
approximation uniforme de mme degr. En notant Pn l'oprateur de projection de C ([a, b]) dans luimme qui associe toute fonction continue sur l'intervalle [a, b] ladite approximation polynomiale pn de
degr n, i. e. Pn (f ) = pn et Pn (pn ) = pn , f C ([a, b]), on trouve

kf pn k = kf Pn (f )k kf pn k + kpn Pn (f )k
= kf pn k + kPn (pn f )k (1 + n ) kf pn k,

(6.2)

en faisant simplement appel l'ingalit triangulaire et en introduisant la constante de Lebesgue 13 de


l'oprateur Pn ,
kpn k
= sup kpn k ,
n = kPn k = sup
f C ([a,b])
f C ([a,b]) kf k
kf k 1

qui n'est autre que sa norme d'oprateur, value dans la norme de la convergence uniforme.

6.1.3

Meilleure approximation au sens des moindres carrs

dnition d'un problme analogue au prcdent : approximation en moyenne quadratique


on ve voir que la notion de meilleure approximation dans cette norme est lie celles d'espace prhilbertien/de produit scalaire/d'orthogonalit
construction du polynme par dcomposition dans la base canonique, matrice de Hilbert, mauvais
conditionnement du systme linaire
choix d'une base dans laquelle la matrice du systme linaire est diagonale : introduction des polynmes
orthogonaux, dnition, thorie (proprits dont relation de rcurrence trois termes)
Note : the polynomial of best approximation in the 2-norm for a function f C ([a, b]) is also a
near-best approximation in the -norm for f on [a, b]

& kovleviq R&emez en russe, 17 fvrier 1896 - 21 aot 1975) tait un mathma11. Evgenii Yakovlevich Remez (Evg&enii

ticien russe. Il est connu pour ses apports la thorie constructive des fonctions, en particulier l'algorithme et l'ingalit
portant aujourd'hui son nom.
12. Le traitement numrique du signal fait exception la rgle, l'algorithme ayant t adapt avec succs pour la conception
de ltres rponse impulsionnelle nie, sous la forme d'une variante connue sous le nom d'algorithme de Parks et McClelland
[PM72].
13. Henri-Lon Lebesgue (28 juin 1875 - 26 juillet 1941) tait un mathmaticien franais. Il rvolutionna le calcul intgral
en introduisant une thorie des fonctions mesurables en 1901 et une thorie gnrale de l'intgration l'anne suivante.
183

CHAPITRE 6. INTERPOLATION POLYNOMIALE

6.2

Interpolation de Lagrange

Soit n un entier positif. Dans l'ensemble de cette section, on suppose que la famille {(xi , yi )}i=0,...,n ,
est un ensemble de n + 1 points du plan euclidien dont les abcisses sont toutes deux deux distinctes.

6.2.1

Dnition du problme d'interpolation

Le problme d'interpolation de Lagrange s'nonce en ces termes : tant donn une famille de n + 1
couples (xi , yi ), i = 0, . . . , n, distincts de nombres rels, trouver un polynme n de degr infrieur ou gal
n dont le graphe de la fonction polynomiale associe passe par les n + 1 points du plan ainsi dnis. Plus
concrtement, ceci signie que le polynme n solution de ce problme, appel polynme d'interpolation,
ou interpolant, de Lagrange associ aux points {(xi , yi )}i=0,...,n , satisfait les contraintes

n (xi ) = yi , i = 0, . . . , n.

(6.3)

On dit encore qu'il interpole les quantits yi aux nuds xi , i = 0, . . . , n.


Commenons par montrer que ce problme de dtermination est bien pos, c'est--dire (voir la soussection 1.4.2) qu'il admet une unique solution.

Thorme 6.9 (existence et unicit du polynme d'interpolation de Lagrange) Soit n un


entier positif. tant donn n + 1 points distincts x0 , . . . , xn et n + 1 valeurs y0 , . . . , yn , il existe un unique
polynme n de Pn satisfaisant (6.3).
Dmonstration.

Le polynme n recherch tant de degr n, on peut poser


n (x) =

n
X

aj xj , x R,

(6.4)

j=0

et ramener le problme d'interpolation la dtermination des coecients aj , j = 0, . . . , n. En utilisant les conditions n (xi ) = yi , i = 0, . . . , n, on arrive un systme linaire n + 1 quations et n + 1 inconnues :
a0 + a1 xi + + an xi n = yi , i = 0, . . . , n.

(6.5)

Ce systme possde une unique solution si et seulement si la matrice carre qui lui est associe est inversible. Or,
il se trouve que cette dernire est une matrice de Vandermonde dont le dterminant vaut (la preuve est laisse en
exercice)


1 x0 . . . x0 n


!
n1
n
1 x1 . . . x1 n
Y
Y
Y


(xj xi ) .
(xj xi ) =
..
..
.. =
.
.
. 0i<jn
j=i+1
i=0

1 xn . . . xn n
Les nuds d'interpolation tant tous distincts, ce dterminant est non nul.

On notera qu'il est galement possible de prouver l'unicit du polynme d'interpolation en supposant
qu'il existe un autre polynme m , de degr m infrieur ou gal n, tel que m (xi ) = yi pour i = 0, . . . , n.
La dirence n m s'annulant en n+1 points distincts, il dcoule du thorme fondamental de l'algbre
qu'elle est nulle.
Pour obtenir les coecients du polynme n dans la base canonique de l'anneau des polynmes, il sut
donc de rsoudre le systme linaire (6.5). On peut cependant montrer que les matrices de Vandermonde
sont gnralement trs mal conditionnes, quel que soit le choix de nuds d'interpolation (voir les articles
[Gau75, Bec00]) et la rsolution numrique des systmes associs par une mthode directe est alors sujette
des problmes de stabilit, en plus de s'avrer coteuse lorsque le nombre de nuds est important 14 .
Indiquons qu'il existe nanmoins des mthodes ecaces et numriquement stables ddies la rsolution
14. On a vu dans le chapitre 2 que le cot de la rsolution d'un systme d'ordre n par la mthode d'limination de Gauss
tait de l'ordre de 23 n3 oprations arithmtiques.

184

6.2. INTERPOLATION DE LAGRANGE

de systmes de Vandermonde, comme celle 15 , dj voque dans le premier chapitre, propose par Bjrk
et Pereyra [BP70].
A VOIR : amlioration possible du conditionnement par translation et mise l'chelle des fonctions
i1
n
0
, avec c = x0 +x
et d = xn x
)
de base (i (x) = xc
d
2
2
Sous la forme (6.4), le polynme d'interpolation de Lagrange peut tre valu en tout point distinct
d'un nud d'interpolation par la mthode de Horner avec n additions et n multiplications.
STABILITE, il faut considrer le conditionnement de cette reprsentation du polynme d'interpolation de
Lagrange relativement des perturbations de ses coecients, lien avec le conditionnement de la matrice
Vandermonde ?
Notons que la constante de Lebesgue du problme d'interpolation de Lagrange dni plus haut est
simplement la norme de l'oprateur, dit d'interpolation, linaire Ln de Rn+1 dans Pn , qui associe tout
jeu de n + 1 valeurs lies aux nuds d'interpolation le polynme d'interpolation de Lagrange de degr n
correspondant,
kn k
.
n = kLn k, = max
yRn+1 kyk
Une expression particulirement simple pour la constante de Lebesgue sera donne dans la prochaine
sous section et l'on verra dans la sous-section 6.2.3 comment, vue comme une fonction de l'entier n, elle
se comporte selon le choix de distribution des nuds d'interpolation sur l'intervalle [a, b]. Cette question
s'avre en eet fondamentale lorsque l'on cherche approcher au mieux une fonction donne par son
polynme d'interpolation de Lagrange, les valeurs yi , i = 0, . . . , n, tant dans ce cas les valeurs aux
nuds de la fonction en question, et sera aborde dans la sous-section 6.2.3.
A VOIR : la constante de Lebesque permet entre autres choses d'aborder la question de la sensibilit
du problme d'interpolation relativement au choix des nuds

6.2.2

Direntes reprsentations du polynme d'interpolation de Lagrange

REPRENDRE Nous venons de voir comment obtenir le polynme d'interpolation de Lagrange dans la
base canonique de l'anneau des polynmes et les inconvnients de cette approche (...). Une autre possibilit
consiste crire ce polynme selon une reprsentation dirente, de manire ce que la dtermination
soit rendue particulirement aise. C'est ce que l'on fait en adaptant la base choisie de faon ce que la
matrice du systme linaire associ au problme soit diagonale ou triangulaire.

Forme de Lagrange
Commenons par introduire les polynmes de Lagrange et leurs proprits.

Dnition 6.10 On appelle polynmes de Lagrange associs aux nuds {xi }i=0,...,n , n 1, les
n + 1 polynmes li Pn , i = 0, . . . , n, dnis par

li (x) =

n
Y
x xj
.
x xj
j=0 i

(6.6)

j6=i

Bien que communment employe pour ne pas alourdir les critures, la notation li , i = 0, . . . , n, utilise
pour les polymes de Lagrange ne fait pas explicitement apparatre leur degr, la valeur de l'entier n tant
xe et gnralement claire compte tenu du contexte. Il faudra cependant garder cette remarque l'esprit,
puisque l'on peut tre amen faire tendre tendre cette valeur vers l'inni (voir la section 6.2.3). Ajoutons
que, si l'on a exig que l'entier n soit suprieur ou gal 1 dans la dnition, le cas trivial n = 0 peut
tre inclus dans tout ce qui va suivre en posant l0 1 si n = 0.
15. L'algorithme en question eectue la rsolution du systme linaire V a = y (ou du systme dual V T b = z ), associ une
matrice de Vandermonde V d'ordre n, avec un cot s'levant 23 n(n+1) additions et soustractions et n(n+1) multiplications
et divisions, les solutions numriques obtenues pouvant tre trs prcises malgr un mauvais conditionnement de la matrice
V (on trouvera dans l'article [Hig87] une analyse expliquant ce phnomne). De manire quelque peu anecdotique, on notera
que, lorsqu'il est utilis pour la dtermination du polynme d'interpolation de Lagrange sous la forme (6.4), l'algorithme de
Bjrk et Pereyra produit le polynme sous la forme (6.11) comme rsultat intermdiaire, avant de le rcrire dans la base
canonique de l'anneau des polynmes.

185

CHAPITRE 6. INTERPOLATION POLYNOMIALE

Proposition 6.11 Les polynmes de Lagrange {li }i=0,...,n , n 0, sont tous de degr n, vrient li (xk ) =
ik , i, k = 0, . . . , n, o ik dsigne le symbole de Kronecker, et forment une base de Pn .

Dmonstration.
Le rsultat est vident si n = 0. Si n 1, les deux premires proprits dcoulent
directement de
la
dnition
(6.6) des polynmes de Lagrange. On dduit ensuite de la deuxime proprit que, si
P
le polynme ni=0 i li , i R, i = 1, . . . , n, est identiquement nul, alors on a

0=

n
X

i li (xj ) = j , j {1, . . . , n}.

i=0

La famille {li }i=0,...,n est donc libre et forme une base de Pn .

titre d'illustration, on a reprsent sur la gure 6.1 les graphes sur l'intervalle [1, 1] des polynmes
de Lagrange associs aux nuds 1, 12 , 0, 12 et 1.
1, 2

l0(x)
l1(x)
l2(x)
l3(x)
l4(x)

1
0, 8
0, 6
0, 4
0, 2
0
0, 2
0, 4
0, 6
1

0, 5

0, 5

Figure 6.1: Graphes des polynmes de Lagrange li , i = 0, . . . , 4, associs des nuds quidistribus sur
l'intervalle [1, 1].

On dduit de la proposition 6.11 le rsultat suivant.

Thorme 6.12 ( formule d'interpolation de Lagrange ) Soit n un entier positif. tant donn
n + 1 points distincts x0 , . . . , xn et n + 1 valeurs y0 , . . . , yn , le polynme d'interpolation n Pn tel que
n (xi ) = yi , i = 0, . . . , n, est donn par
n (x) =

n
X

(6.7)

yi li (x).

i=0
Dmonstration. Pour tablir (6.7), on utilise que les polynmes {li }i=0,...,n forment une base de Pn . La
P
dcomposition de n dans cette base s'crit n = ni=0 i li , et on a alors

yj = n (xj ) =

n
X

i li (xj ) = j , j {1, . . . , n}.

i=0

Il dcoule de cette formule que la constante de Lebesgue n prcdemment introduite s'exprime trs
simplement en fonction des polynme de Lagrange. Il vient en eet
n

n

X
X


kn k = max
yi li (x) kyk max
|li (x)| ,

x[a,b]
x[a,b]
i=0

i=0

186

6.2. INTERPOLATION DE LAGRANGE

et l'on peut alors montrer que (PREUVE ?)

n = max

x[a,b]

n
X

|li (x)| .

i=0

A VOIR : the Lebesgue constant can be viewed as the relative condition number of the operator
mapping each coecient vector u to the set of the values of the polynomial with coecients u in the
Lagrange form.
L'valuation du polynme d'interpolation n sous sa forme de Lagrange (6.7) en un point autre que
l'un des nuds d'interpolation demande d'valuer chacun des polynmes de Lagrange li , i = 0, . . . , n, en
ce point et ncessite au total n additions, 21 (n + 2)(n + 1) soustractions, (2n + 1)(n + 1) multiplications
et n + 1 divisions. Ce calcul peut par ailleurs s'avrer numriquement instable lorsque la valeur de n est
leve (REFERENCE ?). La  mise jour 16  de ce mme polynme, c'est--dire l'opration consistant
obtenir le polynme n+1 associ n + 2 couples (xi , yi ), i = 0, . . . , n + 1, partir de la donne du
polynme n associ aux paires (xi , yi ), i = 0, . . . , n, et de celle du couple (xn+1 , yn+1 ), est malaise,
car la base des polynmes de Lagrange servant crire n+1 est dirente de celle utilise pour n .
Pour ces raisons, la formule d'interpolation de Lagrange (6.7) est gnralement considre comme un
outil thorique, peu utile en pratique, et le recours la forme de Newton du polynme d'interpolation
est souvent recommand.

Forme de Newton
La forme de Newton du polynme d'interpolation ore une alternative la formule (6.7) qui facilite la
fois l'valuation et la mise jour du polynme d'interpolation aprs que certaines quantits, indpendantes
du point auquel on value le polynme, ont t calcules. An de l'expliciter, nous allons chercher crire le
polynme d'interpolation de Lagrange n , avec n 1, associ aux nuds d'interpolation xi , i = 0, . . . , n,
comme la somme du polynme n1 , tel que n1 (xi ) = yi pour i = 0, . . . , n 1, et d'un polynme
de degr n, qui dpendra des nuds xi , i = 0, . . . , n 1 et d'un seul autre coecient que l'on devra
dterminer. Posons ainsi
n (x) = n1 (x) + qn (x),
(6.8)
o qn appartient Pn . Puisque qn (xi ) = n (xi )n1 (xi ) = 0 pour i = 0, . . . , n1, on a ncessairement

qn (x) = an (x x0 )(x x1 ) . . . (x xn1 ).


Notons alors

n (x) =

n1
Y

(x xj )

(6.9)

j=0

le polynme de Newton de degr n associ aux nuds {xi }i=0,...,n1 et dterminons le coecient an .
Puisque n (xn ) = yn , on dduit de (6.8) que

an =

yn n1 (xn )
.
n (xn )

Le coecient an donn par la formule ci-dessus est appele la nime dirence divise de Newton et se
note gnralement 17
an = [x0 , x1 , . . . , xn ]y, n 1.
16. Cette opration est primordiale dans le cadre de l'approximation polynomiale d'une fonction par le biais de l'interpolation (voir la sous-section 6.2.3). En eet, lorsqu'on ne sait a priori pas combien de points sont ncessaires pour approcher
une fonction donne par son polynme d'interpolation de Lagrange avec une prcision xe, il est particulirement utile de
pouvoir introduire, un un, de nouveaux nuds d'interpolation jusqu' satisfaction.
17. On peut trouver dans la littrature de nombreuses notations pour les dirences divises. Celle choisie dans ces pages,
savoir [. . . ]y ou, plus loin, [. . . ]f lorsque la dirence divise est applique aux valeurs prises aux nuds par une fonction
f continue, vise mettre en avant le fait que [. . . ] dsigne un oprateur, dpendant de l'ensemble des nuds d'interpolation
apparaissant en place de . . . .

187

CHAPITRE 6. INTERPOLATION POLYNOMIALE

On a par consquent

(6.10)

n (x) = n1 (x) + [x0 , x1 , . . . , xn ]y n (x).

En posant [x0 ]y = y0 et 0 1, on obtient, partir de (6.10) et en raisonnant par rcurrence sur le degr
n, que
n
X
n (x) =
[x0 , . . . , xi ]y i (x),
(6.11)
i=0

qui est, en vertu de l'unicit du polynme d'interpolation, le mme polynme que celui dni par la formule
(6.7). La forme (6.11) est appele formule des dirences divises de Newton du polynme d'interpolation.
Ce n'est autre que l'criture de n dans la base 18 de Pn forme par la famille de polynmes de Newton
{i }i=0,...,n . On remarquera que, crite dans la base des polynmes de Newton, la matrice du systme
linaire associ au problme d'interpolation de Lagrange est

1
0
...
...
...
0

..

1
x1 x0
0
.

..

1
x2 x0
(x2 x0 )(x2 x1 )
0
.
.

(6.12)

.
.
.
.
..
..

..
..
..
.
.
.
.

Qn2

(xn1 xj )
0

1 xn1 x0 (xn1 x0 )(xn1 x1 ) . . .


j=0
Qn2
Qn1
1
xn x0
(xn x0 )(xn x1 )
...
(x

x
)
(x

x
)
n
j
n
j
j=0
j=0
Les dirences divises [x0 ]y, [x0 , x1 ]y, . . . , [x0 , . . . , xn ]y sont donc solution d'un systme triangulaire
infrieur et peuvent par consquent tre obtenues au moyen d'une mthode de descente (voir la section
2.2), aprs calcul des coecients de la matrice ci-dessus.
La gure 6.2 prsente les graphes sur l'intervalle [1, 1] la famille de polynmes de Newton associs
aux nuds 1, 21 , 0, 12 et 1.
3

0(x)
1(x)
2(x)
3(x)
4(x)

2, 5
2

1, 5
1
0, 5
0
0, 5
1

0, 5

0, 5

Graphes des polynmes de Newton i , i = 0, . . . , 4, associs des nuds quidistribus sur


l'intervalle [1, 1].

Figure 6.2:

Les dirences divises possdent plusieurs proprits algbriques. On peut vrier, titre d'exercice,
que la formule (6.7) se rcrit, en fonction du polynme de Newton de degr n + 1, de la manire suivante

n (x) = n+1 (x)

n
X
i=0

yi
.
0
(xi )
(x xi ) n+1

18. On montre en eet par rcurrence que {i }i=0,...,n est une famille de n + 1 polynmes
le polynme i , i = 0, . . . , n, est de degr i).

188

(6.13)
chelonne en degr

(i.e., que

6.2. INTERPOLATION DE LAGRANGE

En utilisant alors la dnition (6.11) pour identier [x0 , . . . , xn ]y avec le coecient lui correspondant
dans l'galit (6.13), on obtient la forme explicite

[x0 , . . . , xn ]y =

n
X
i=0

X
yi
yi
=
n
0
Y
n+1 (xi )
i=0
(xi xj )

(6.14)

j=0
j6=i

pour cette dirence divise. Parmi toutes les consquences de cette dernire expression, il en est une
particulirement importante pour la mise en uvre de la forme de Newton du polynme d'interpolation.
En eet, par une manipulation algbrique, on obtient la relation

[x0 , . . . , xn ]y =

[x1 , . . . , xn ]y [x0 , . . . , xn1 ]y


, n 1,
xn x0

dont se dduit la formule de rcurrence

[xik , . . . , xi ]y =

[xik+1 , . . . , xi ]y [xik , . . . , xi1 ]y


, i = k, . . . , n, k = 0, . . . , n,
xi xik

(6.15)

de laquelle les dirences divises tirent leur nom et qui fournit un procd pour leur calcul eectif. Ce
dernier consiste en la construction du tableau suivant

x0
x1
x2
..
.

[x0 ]y
[x1 ]y
[x2 ]y
..
.

[x0 , x1 ]y
[x1 , x2 ]y
..
.

[x0 , x1 , x2 ]y
..
.

xn

[xn ]y

[xn1 , xn ]y

[xn2 , xn1 , xn ]y

(6.16)

..

[x0 , . . . , xn ]y

au sein duquel les dirences divises sont disposes de manire ce que leur valuation se fasse de
proche en proche en observant la rgle suivante : la valeur d'une dirence est obtenue en soustrayant
la dirence place immdiatement sa gauche celle situe au dessus de cette dernire, puis en divisant le
rsultat par la dirence entre les deux points de l'ensemble {xi }i=0,...,n situs respectivement sur la ligne
de la dirence calculer et sur la dernire ligne atteinte en remontant diagonalement dans le tableau
partir de cette mme dirence.
Les dirences divises apparaissant dans la forme de Newton (6.11) du polynme d'interpolation de
Lagrange sont les n + 1 coecients diagonaux du tableau (6.16). Leur obtention requiert par consquent
(n+1)n soustractions et 12 (n+1)n divisions. Si ce cot est du mme ordre que celui requis par la rsolution
d'un systme linaire triangulaire, il s'avre que la construction du tableau des dirences divises est
bien moins susceptible de produire des dbordements vers l'inni ou vers zro en arithmtique virgule
ottante que le calcul des lments de la matrice (6.12).

Exemple de calcul de la forme de Newton d'un polynme d'interpolation. Calculons le poly-

nme d'interpolation de Lagrange prenant les valeurs 4, 1, 4 et 6 aux points respectifs 1, 1, 2 et 3, en tirant
parti de (6.11) et de la mthode de calcul des dirences divises base sur la formule (6.15). Nous avons
1
1
2
3

4
1
4
6

(1 4)/(1 (1)) = 5/2


(4 + 1)/(2 1) = 5
(6 4)(3 2) = 2

d'o
3 (x) = 4

(5 (5/2))/(2 (1)) = 5/2


(2 5)/(3 1) = 3/2

(3/2 5/2)/(3 (1)) = 1

5
5
(x + 1) + (x + 1)(x 1) (x + 1)(x 1)(x 2).
2
2

Il dcoule enn de la reprsentation (6.14) que les dirences divises sont des fonctions symtriques

de leurs arguments. On a en eet

[x0 , . . . , xn ]y = [x(0) , . . . , x(n) ]y,


189

(6.17)

CHAPITRE 6. INTERPOLATION POLYNOMIALE

pour toute permutation de l'ensemble {0, . . . , n}.


Une fois les dirences divises calcules, l'valuation du polynme d'interpolation n , sous sa forme
de Newton, en un point autre que l'un des nuds d'interpolation se fait au moyen d'une gnralisation
de la mthode de Horner introduite dans la sous-section 5.7.2, en remarquant que l'on a

n (x) = (. . . ([x0 , . . . , xn ]y (x xn1 ) + [x0 , . . . , xn1 ]y)(x xn2 ) + + [x0 , x1 ]y)(x x0 ) + [x0 ]y.
Le calcul de la valeur de n (x) ncessite alors n additions, n soustractions et n multiplications. Pour
mettre jour le polynme d'interpolation, il sut simplement, disposant d'une valeur yn+1 associe un
nud xn+1 , de calculer et d'ajouter la ligne supplmentaire [xn+1 ]y [xn , xn+1 ]y [x0 , . . . , xn+1 ]y au
tableau des dirences divises existant, ce qui ncessite 2(n + 1) soustractions et n + 1 divisions.
STABILITE NUMERIQUE : deux tapes, valuation des coecients de la forme (dirences divises)
puis valuation du polynme en un point connaissant les coecients. Le calcul des dirences divises
dpend fortement de l'ordonnancement des nuds d'interpolation Si l'on cherche calculer les dirences
divises aussi prcisment que possible ou minimiser les rsidus |n (xi ) fl(n (xi ))|, i = 0, . . . , n
l'ordonnancement x0 < x1 < < xn (ou x0 > x1 > > xn ) fournit des estimations d'erreur
optimales. En revanche, si l'on cherche minimiser |n (x) fl(n (x))| pour tout x 6= xi , i = 0, . . . , n,
il vaut mieux arranger les nuds d'interpolation comme des points de Leja 19 [Lej57]. Dans ce dernier
cas :
j1
j1
Y
Y
|x0 | = max |xi | ,
|xj xk | = max
|xi xk | , j = 1, . . . , n 1.
0in

ij

k=0

k=0

tant donn n + 1 points xi , i = 0, . . . , n, cet ordonnancement peut-tre calcul en O(n2 ) oprations.


Rsultats : - borne sur le conditionnement (qui crot moins vite qu'exponentiellement tant que m (le
nombre de points de l'ensemble) est relativement plus petit que n) si les nuds d'interpolation sont des
points de Leja (voir [Rei90])
- ordonnancement optimal des points de Fejr (points de Chebyshev par exemple) en les ordonnant
selon une suite de van der Corput 20 [Cor35] (voir [FR89])

Une application de la forme de Newton du polynme d'interpolation de Lagrange : l'algorithme de Bjrk-Pereyra. A ECRIRE
exemple : on veut rsoudre

1
1

1
1

1
2
4
8

1
3
9
27

1
a0
10

4
a1 = 26
16 a2 58
64
a3
112

la reprsentation de Newton du polynme d'interpolation de Lagrange associ ce problme est


p(x) = 10 + 16(x 1) + 8(x 1)(x 2) + (x 1)(x 2)(x 3).


4
10
3
16

On trouve alors a = partir de c =


2
8
1
1

Formes barycentriques
Si la forme de Newton du polynme d'interpolation s'avre plus commode manipuler que celle
de Lagrange d'un point de vue pratique, il est nanmoins possible de rcrire cette dernire de faon
permettre une valuation et une mise jour de l'interpolant n avec un nombre d'oprations proportionnel
au degr n. Pour cela, il faut considrer la formule (6.7) et, en se servant la dnition (6.6) des polynmes
19. Franciszek Leja (27 janvier 1885 - 11 octobre 1979) tait un mathmaticien polonais. Il s'intressa aux fonctions
analytiques et plus particulirement aux mthodes de points d'extremum et aux diamtres transnis.
20. Johannes Gualtherus van der Corput (4 septembre 1890 - 16 september 1975) tait un mathmaticien hollandais. Il
travailla dans le domaine de la thorie analytique des nombres.

190

6.2. INTERPOLATION DE LAGRANGE

Qn
de Lagrange, y mettre en facteur la quantit n+1 (x) = j=0 (x xj ). On trouve alors ce qu'on appelle
communment la premire forme de la formule d'interpolation barycentrique,
n (x) = n+1 (x)

n
X
i=0

wi
yi ,
x xi

(6.18)

dans laquelle les poids barycentriques wi , i = 0, . . . , n, sont dnis par

wi =

1
n
Y

(6.19)

(xi xj )

j=0
j6=i

ou encore, par identication de (6.18) avec (6.13),

wi =

1
.
0
(xi )
n+1

Il est important d'observer que les poids barycentriques ne dpendent ni du point x, ni des valeurs
yi , i = 0, . . . , n, reprsentant les donnes interpoler. Leur calcul demande 21 n(n 1) soustractions,
(n + 1)(n 1) multiplications et n + 1 divisions. Une fois cette tche accomplie, l'valuation du polynme
d'interpolation n sous la forme barycentrique (6.18) en tout point ne concidant pas avec un un nud
d'interpolation requiert n additions, n + 1 soustractions, 2n + 1 multiplications et n + 1 divisions. De
mme, la prise en compte d'un nud d'interpolation xn+1 et d'une valeur yn+1 supplmentaires pour
construire le polynme n+1 partir de n se fait en divisant respectivement chacun des poids wi ,
i = 0, . . . , n, associs n par xi xn+1 et en calculant wn+1 via la formule (6.19), pour un total de
n + 1 soustractions, n multiplications et n + 2 divisions. Le cot de ces oprations est donc de l'ordre de
grandeur de celui obtenu avec la forme de Newton du polynme d'interpolation.
La formule (6.18) peut cependant tre rendue encore plus  lgante . Il sut en eet de remarquer
que, si les valeurs yi , i = 0, . . . , n, sont celles prises par la fonction constante gale 1 aux nuds
d'interpolation, il vient
n
n
X
X
wi
li (x) = n+1 (x)
1=
.
x

xi
i=1
i=0
En divisant alors l'galit (6.18) par cette dernire identit, on arrive la seconde (ou vraie) forme de la
formule d'interpolation barycentrique suivante
n
X

n (x) =

wi
yi
x xi

i=0
n
X
i=0

wi
x xi

(6.20)

qui est gnralement celle implmente en pratique, car elle permet des rductions lors du calcul des
poids. En eet, les quantits wi , i = 0, . . . , n, intervenant de manire identique ( un facteur multiplicatif
prs) au numrateur et au dnominateur du membre de droite de l'galit (6.20), tout facteur commun
chacun des poids peut, prot, tre simpli sans que la valeur du polynme d'interpolation s'en trouve
aecte. Nous allons illustrer ce principe sur quelques exemples de distributions de nuds d'interpolation
pour lesquelles on connat une formule explicite pour les poids barycentriques. Dans le cas de nuds
quidistribus sur un intervalle [a, b] born de R, on a
 
(1)ni nn n
wi =
, i = 0, . . . , n,
n!(b a)n i

n!
o ni = i!(ni)!
dsigne le coecient binomial donnant le nombre de sous-ensembles distincts i lments
que l'on peut former partir d'un ensemble contenant n lments. Les poids  rduits  correspondants
191

CHAPITRE 6. INTERPOLATION POLYNOMIALE

, i = 0, . . . , n. Pour les familles de points de Chebyshev sur l'intervalle


1]
 [1, 
2i+1
respectivement donns par les racines des polynmes de Chebyshev de premire espce (xi = cos 2n+2 ,

i = 0, . . . , n) et de deuxime espce (xi = cos ni , i = 0, . . . , n), on a les poids rduits

sont alors w
ei = (1)i

n
i

w
ei = (1)i sin


2i + 1
, i = 0, . . . , n,
2n + 2

et 21 (voir [Sal72])

1
(1)n
, w
ei = (1)i , 1 i n 1 et w
en =
.
2
2
Sous la forme (6.20), l'valuation du polynme d'interpolation en un point autre que l'un des nuds
d'interpolation ne ncessite plus que 2n additions, n + 1 soustractions, n + 1 multiplications et n + 2
divisions.
STABILITE NUMERIQUE : [Hig04] la formule (6.18) est stable au sens inverse, c'est--dire que,
sous le hypothses habituelles sur l'arithmtique virgule ottante, la valeur calcule fl(n (xi )) obtenue
en utilisant cette formule est la valeur exacte du polynme d'interpolation au point x pour un jeu de
donnes lgrement perturbes, les perturbations relatives n'tant pas d'amplitude plus grande que 5nu,
o u est la prcision machine. En revanche, la formule (6.20) n'est pas stable au sens inverse mais vrie
une estimation de stabilit au sens direct plus restrictive. mais dirence ne sera visible que pour un
mauvais choix de nuds d'interpolation et/ou un jeu de donnes issu d'une fonction particulire.
Mentionnons enn que, pour toute distribution de n + 1 nuds d'interpolation, on a l'ingalit (voir
[BM97] pour une preuve)
max |w |
1 0in i
,
n 2
2n min |wi |
w
e0 =

0in

ce qui permet de calculer trs facilement, une fois les poids barycentriques connus, une borne infrieure
pour la constante de Lebesgue n de l'oprateur d'interpolation de Lagrange associ ces nuds.

Algorithme de Neville
Si l'on ne cherche pas contruire le polynme d'interpolation de Lagrange, mais simplement
connatre sa valeur en un point donn et distinct des nuds d'interpolation, on peut envisager d'employer
une mthode itrative base sur des interpolations linaires successives entre polynmes. Ce procd particulier repose sur le rsultat suivant.

Lemme 6.13 Soient xik , k = 0, . . . , n, n + 1 nuds distincts et yik , k = 0, . . . , n, n + 1 valeurs. On note


xi0 ,xi1 ,...,xin le polynme d'interpolation de Lagrange de degr n tel que
xi0 ,xi1 ,...,xin (xik ) = yik , k = 0, . . . , n.
tant donn xi , xj , xik , k = 0, . . . , n, n + 3 nuds distincts et yi , yj , yik , k = 0, . . . , n, n + 3 valeurs, on
a

xi0 ,...,xin ,xi ,xj (z) =

(z xj ) xi0 ,...,xin ,xi (z) (z xi ) xi0 ,...,xin ,xj (z)


, z R.
xi xj

(6.21)

Dmonstration. Soit q(z) le membre de droite de l'galit (6.21). Les polynmes xi ,...,xi ,xi et xi ,...,xi ,xj
n
n
0
0
tant tous deux de degr n + 1, le polynme q est de degr infrieur ou gal n + 2. On vrie ensuite que

q(xik ) =

(xik xj ) xi0 ,...,xin ,xi (xik ) (xik xi ) xi0 ,...,xin ,xj (xik )
= yik , k = 0, . . . , n,
xi xj

et
q(xi ) =

(xj xi ) xi0 ,...,xin ,xj (xj )


(xi xj ) xi0 ,...,xin ,xi (xi )
= yi , q(xj ) =
= yj .
xi xj
xi xj

21. Pour ces derniers points, on a en eet w0 =

2n2
,
n

wi = (1)i

192

2n1
,
n

1 i n 1, et wn = (1)n

2n2
n

(voir [Rie16]).

6.2. INTERPOLATION DE LAGRANGE

On en dduit que q = xi0 ,...,xin ,xi ,xj par unicit du polynme d'interpolation.

Dans la classe de mthodes faisant usage de l'identit (6.21), l'une des plus connues est l'algorithme
de Neville 22 [Nev34], qui consiste calculer de proche en proche les valeurs au point z considr de
polynmes d'interpolation de degr croissant, associs des sous-ensembles des points {(xi , yi )}i=0,...,n .
la manire de ce que l'on a fait pour le calcul des dirences divises, cette construction peut s'organiser
dans un tableau synthtique :

x0
x1
x2
..
.

x0 (z) = y0
x1 (z) = y1
x2 (z) = y2
..
.

x0 ,x1 (z)
x1 ,x2 (z)
..
.

xn

xn (z) = yn

xn1 ,xn (z)

x0 ,x1 ,x2 (z)


..
.

..

.
xn2 ,xn1 ,xn (z)

(6.22)

x0 ,...,xn (z)

Le point z tant x, les lments de la deuxime colonne du tableau sont les valeurs prescrites yi
associes aux nuds d'interpolation xi , i = 0, . . . , n. partir de la troisime colonne, tout lment est
obtenu partir de deux lments situs immdiatement sa gauche (respectivement sur la mme ligne
et sur la ligne prcdente) par application de la relation (6.21). Par exemple, la valeur x0 ,x1 ,x2 (z) est
donne par
(z x2 )x0 ,x1 (z) (z x0 )x1 ,x2 (z)
.
x0 ,x1 ,x2 (z) =
x0 x2
Pour obtenir la valeur de x0 ,...,xn (z), on doit ainsi eectuer (n+1)2 soustractions, (n+1)n multiplications
et 21 (n + 1)n divisions.
Il existe plusieurs variantes de l'algorithme de Neville permettant d'amliorer son ecacit ou sa
prcision (voir par exemple [SB02]). Il n'est lui-mme qu'une modication de l'algorithme d'Aitken [Ait32],
qui utilise des polynmes d'interpolation intermdiaires dirents et conduit au tableau suivant

x0
x1
x2
..
.

x0 (z) = y0
x1 (z) = y1
x2 (z) = y2
..
.

x0 ,x1 (z)
x0 ,x2 (z)
..
.

xn

xn (z) = yn

x0 ,xn (z)

x0 ,x1 ,x2 (z)


..
.

..

.
x0 ,x1 ,xn (z)

(6.23)

x0 ,...,xn (z)

Exemple d'application des algorithmes de Neville et d'Aitken. Construisons les tableaux de

valeurs des algorithmes de Neville et d'Aitken pour l'valuation du polynme d'interpolation de Lagrange associ
aux valeurs de la fonction f (x) = ex aux nuds xi = 1 + 4i , i = 0, . . . , 5 au point z = 1, 8. On a (en arrondissant
les rsultats la cinquime dcimale) respectivement
1
1, 25
1, 5
1, 75
2
2, 25

2, 71828
3, 49034
4, 48169
5, 75460
7, 38906
9, 48774

5, 18888
5, 67130
6, 00919
6, 08149
5, 71011

5, 96076
6, 04297
6, 05257
6, 04435

6, 04845
6, 05001
6, 04928

6, 04970
6, 04961

6, 04964

5, 18888
5, 53973
5, 95702
6, 45490
7, 05073

5, 96076
6, 03384
6, 11729
6, 21290

6, 04845
6, 05468
6, 06161

6, 04970
6, 04977

6, 04964

pour l'algorithme de Neville et


1
1, 25
1, 5
1, 75
2
2, 25

2, 71828
3, 49034
4, 48169
5, 75460
7, 38906
9, 48774

pour celui d'Aitken. L'approximation de e1,8 obtenue est 6, 04964.


22. Eric Harold Neville (1er janvier 1889 - 22 aot 1961) tait un mathmaticien britannique. Ses travaux les plus notables
concernent la gomtrie direntielle et les fonction elliptiques de Jacobi. Il joua, la demande de son collgue Godfrey
Harold Hardy, un rle prpondrant dans la venue en Angleterre en 1914 du mathmaticien indien Srinivasa Ramanujan.

193

CHAPITRE 6. INTERPOLATION POLYNOMIALE

6.2.3

Interpolation polynomiale d'une fonction

L'intrt de remplacer une fonction quelconque par un polynme l'approchant aussi prcisment que
voulu sur un intervalle donn est vident d'un point de vue numrique et informatique, puisqu'il est trs
ais de stocker et de manipuler, c'est--dire additionner, multiplier, driver ou intgrer, des polynmes
dans un calculateur. Pour ce faire, il semble naturel de chercher utiliser un polynme d'interpolation
de Lagrange associ aux valeurs prises par la fonction en des nuds choisis.

Polynme d'interpolation de Lagrange d'une fonction


Cette dernire ide conduit l'introduction de la dnition suivante.

Dnition 6.14 Soit n un entier positif, xi , i = 0, . . . , n, n + 1 nuds distincts et f une fonction relle
donne, dnie aux points xi . On appelle polynme d'interpolation (ou interpolant) de Lagrange
de degr n de la fonction f , et on note n f , le polynme d'interpolation de Lagrange de degr n
associ aux points (xi , f (xi ))i=0,...,n .

Exemple de polynme d'interpolation de Lagrange d'une fonction. Construisons le polynme

d'interpolation de Lagrange de degr deux de la fonction f (x) = ex sur l'intervalle [1, 1], avec comme nuds
d'interpolation les points x0 = 1, x1 = 0 et x2 = 1. Nous avons tout d'abord
l0 (x) =

1
1
x(x 1), l1 (x) = 1 x2 et l2 (x) = x(x + 1),
2
2

la forme de Lagrange du polynme d'interpolation est donc la suivante


2 f (x) =

1
1
x(x 1) e1 + (1 x2 ) + x(x + 1) e.
2
2

Pour la forme de de Newton de ce mme polynme d'interpolation, il vient


0 (x) = 1, 1 (x) = (x + 1) et 2 (x) = (x + 1)x,

ainsi que, en tendant quelque peu la notation utilise pour les dirences divises,
[x0 ]f = e1 , [x0 , x1 ]f = 1 e1 et [x0 , x1 , x2 ]f =

d'o

1
(e 2 + e1 ) = cosh(1) 1,
2

2 f (x) = e1 + (1 e1 ) (x + 1) + (cosh(1) 1) (x + 1)x.

Enn, les poids barycentriques associs aux nuds d'interpolation valent


w0 =

1
1
1
, w1 = et w2 = ,
2
2
2

et la premire forme barycentrique du polynme d'interpolation est par consquent




1 e1
11
1 e
2 f (x) = (x + 1)x(x 1)

+
.
2x+1
2x
2x1
On remarquera que 2 f s'crit encore
2 f (x) = 1 + sinh(1) x + (cosh(1) 1) x2

en utilisant les fonction polynomiales associes aux lments de la base canonique de l'anneau des polynmes.

Erreur d'interpolation polynomiale


En termes de thorie de l'approximation, on peut voir le polynme d'interpolation de Lagrange de la
fonction f aux nuds xi , i = 0, . . . , n, comme le polynme de degr n minimisant l'erreur d'approximation
kf pn k, pn Pn , mesure avec la semi-norme

kf k =

n
X

|f (xi )| .

i=0

194

6.2. INTERPOLATION DE LAGRANGE

f (x)
2f (x)

2, 5

2
1, 5

1
0, 5

0
0, 5

0, 5

Graphes de la fonction f (x) = ex et de son polynme d'interpolation de Lagrange de degr deux


nuds quirpartis sur l'intervalle [1, 1].

Figure 6.3:

Bien que les valeurs de f et de son polynme d'interpolation concident aux nuds d'interpolation,
elles dirent en gnral en tout autre point et il convient donc d'tudier l'erreur d'interpolation f n f
sur l'intervalle auquel appartiennent les nuds d'interpolation. En supposant la fonction f susamment
rgulire, on peut tablir le rsultat suivant, qui donne une estimation de cette dirence.

Thorme 6.15 Soit n un entier positif, [a, b] un intervalle non vide de R, f une fonction de classe

C n+1 sur [a, b] et n + 1 nuds distincts xi , i = 0, . . . , n, contenus dans [a, b]. Alors, pour tout rel x
appartenant [a, b], il existe un point dans Ix , le plus petit intervalle contenant x0 , . . . , xn et x, tel que
l'erreur d'interpolation au point x est donne par
f (x) n f (x) =

f (n+1) ()
n+1 (x),
(n + 1)!

(6.24)

o n+1 est le polynme de Newton de degr n + 1 associ la famille {xi }i=0,...,n .


Dmonstration. Si le point x concide avec l'un des nuds d'interpolation, les deux membres de (6.24)
sont nuls et l'galit est trivialement vrie. Supposons donc que x est un point distinct de xi , i = 0, . . . , n, et
introduisons la fonction auxiliaire

(t) = f (t) n f (t)

f (x) n f (x)
n+1 (t), t Ix .
n+1 (x)

Celle-ci est de classe C n+1 sur Ix (en vertu des hypothses sur la fonction f ) et s'annule en n + 2 points (puisque
(x) = (x0 ) = (x1 ) = = (xn ) = 0). D'aprs le thorme de Rolle (voir thorme B.110 en annexe), la
fonction 0 possde au moins n + 1 zros distincts dans l'intervalle Ix et, en raisonnant par rcurrence, on en
dduit que (j) , 0 j n + 1, admet au moins n + 2 j zros distincts. Par consquent, il existe appartenant
Ix tel que (n+1) () = 0, ce qui s'crit encore
f (n+1) ()

f (x) n f (x)
(n + 1)! = 0
n+1 (x)

et dont on dduit (6.24).

En utilisant la continuit de f
et en considrant les bornes suprieures des valeurs absolues des
deux membres de (6.24) sur l'intervalle [a, b], on obtient comme corollaire immdiat
(n+1)

kf n f k

1
1
n+1
.
kf (n+1) k kn+1 k
kf (n+1) k |b a|
(n + 1)!
(n + 1)!

(6.25)

La premire majoration montre en particulier que l'amplitude de l'erreur d'interpolation dpend la fois
de la quantit kf (n+1) k , qui peut tre importante si la fonction f est trs oscillante, et de la quantit
195

CHAPITRE 6. INTERPOLATION POLYNOMIALE

kn+1 k , dont la valeur est lie la distribution des nuds d'interpolation dans l'intervalle [a, b]. Nous
reviendrons sur ce second point.
La forme de Newton du polynme d'interpolation conduit une expression de l'erreur d'interpolation
polynomiale autre que (6.24). Pour le voir, considrons n f le polynme d'interpolation de f aux nuds
x0 , . . . , xn et xn+1 un nud arbitraire distinct des prcdents. Si l'on dsigne par n+1 f le polynme
interpolant f aux nuds x0 , . . . , xn+1 , on a, en utilisant (6.11),
n+1 f (x) = n f (x) + [x0 , . . . , xn , xn+1 ]f (x x0 ) . . . (x xn ),
d'o, en posant xn+1 = x et en tenant compte de la dnition (6.9) des polynmes de Newton,

f (x) n f (x) = [x0 , . . . , xn , x]f n+1 (x).

(6.26)

Cette nouvelle reprsentation de l'erreur d'interpolation s'avre tre une tautologie, puisque, si elle ne fait
intervenir aucune drive, elle utilise des valeurs de f dont celle au point x... Nanmoins, en supposant
vraies les hypothses du thorme 6.15 et en comparant (6.26) avec (6.24), il vient

[x0 , . . . , xn , x]f =

f (n+1) ()
,
(n + 1)!

(6.27)

avec min(x0 , . . . , xn , x) < < max(x0 , . . . , xn , x). Cette dernire identit, due Cauchy [Cau40], est
notamment utile pour valuer l'ordre de grandeur des dirences divises. Elle se gnralise au cas de
points non supposs distincts (voir le corollaire 2 de la section 1 du chapitre 6 de [IK94]).

Thorme 6.16 Soit n un entier positif, [a, b] un intervalle non vide de R, f une fonction de classe
C n+1 sur [a, b] et {xi }i=1,...,n un ensemble de n + 1 points contenus dans [a, b]. Alors, on a
[x0 , . . . , xn ]f =

f (n) ()
,
n!

avec min(x0 , . . . , xn ) < < max(x0 , . . . , xn ).

Quelques proprits des dirences divises associes une fonction


Nous allons dans cette section tablir des proprits de continuit et de drivabilit pour la fonction
de la variable relle x dnie par [x0 , x1 , . . . , xn , x]f , o les points x0 , . . . , xn sont distincts et contenus
dans un intervalle [a, b] born de R et x appartient [a, b].
Tout d'abord, on obtient, en explicitant (6.26),

n
n
n
Y
X
Y
x xj
f (x)
f (xi )
= (x xj ) [x0 , . . . , xn , x]f,
x xj
j=0 i
i=1
j=0
j6=i

d'o

[x0 , . . . , xn , x]f =

n
X
i=0

[x, xi ]f
.
n
Y
(xi xj )

(6.28)

j=0
j6=i

Si f est une fonction continue sur [a, b], alors, pour tout i dans {0, . . . , n}, l'application x 7 [x, xi ]f
est continue sur [a, b]\{xi } et prolongeable par continuit en xi en posant [xi , xi ]f = f 0 (xi ) si f est
drivable en ce point, puisque, en vertu de la relation (6.15), [x, xi ]f reprsente le taux d'accroissement
de la fonction f en xi . On dduit alors de (6.28) que [x0 , . . . , xn , x]f est une fonction continue sur [a, b]
si f est drivable sur cet intervalle.
En supposant de plus que f est de classe C 1 sur [a, b] et que la drive f 00 est dnie et continue
sur un intervalle (arbitrairement petit) contenant le nud d'interpolation xi , i = 0, . . . , n, le calcul de
d
dx ([x, xi ]f ) pour x 6= xi , suivi d'un dveloppement de Taylor au point xi dans lequel on fait tendre x
d
vers xi , montre que dx
([x, xi ]f ) est une fonction continue sur [a, b] pour i = 0, . . . , n. On a alors montr
le rsultat suivant.
196

6.2. INTERPOLATION DE LAGRANGE

Lemme 6.17 Soit n un entier positif, f une fonction de classe C 2 sur un intervalle [a, b] non vide de R

et n + 1 points x0 , . . . , xn distincts et contenus dans [a, b]. Alors, l'application de [a, b] dans R dnie par

x 7 [x0 , . . . , xn , x]f
est de classe C 1 sur [a, b].

Une consquence de ce rsultat est que l'on peut dnir, pour tout x appartenant [a, b]\{xi }i=0,...,n ,
la quantit [x0 , . . . , xn , x, x]f en posant

[x0 , . . . , xn , x, x]f = lim [x0 , . . . , xn , x, x + t]f.


t0

Par utilisation des proprits (6.15) et (6.17) des dirences divises, le membre de gauche de cette galit
peut encore s'crire

[x0 , . . . , xn , x, x + t]f =

[x0 , . . . , xn , x + t]f [x0 , . . . , xn , x]f


[x0 , . . . , xn , x + t]f [x0 , . . . , xn , x]f
=
(x + t) x
t

et l'on a alors l'identit suivante

[x0 , . . . , xn , x, x]f =

d
([x0 , . . . , xn , x]f ).
dx

(6.29)

L'application x 7 [x0 , . . . , xn , x, x]f est donc une fonction continue sur [a, b], en vertu du lemme 6.17.

Convergence des polynmes d'interpolation et exemple de Runge


Nous nous intressons dans cette section la question de la convergence uniforme du polynme d'interpolation d'une fonction vers cette dernire lorsque le nombre de nuds d'interpolation tend vers l'inni.
Comme ce polynme dpend de la distribution des nuds d'interpolation, il est ncessaire de formuler
ce problme de manire plus prcise. Nous supposerons ici que l'on fait le choix, particulirement simple,
d'une rpartition uniforme des nuds (on dit que les nuds sont quirpartis ou encore quidistribus )
sur un intervalle [a, b] non vide de R, en posant

xi = a +

i(b a)
, i = 0, . . . , n, n N .
n

Au regard de l'estimation (6.25), il apparat clairement que la convergence de la suite (n f )nN des
polynmes d'interpolation d'une fonction f de classe C sur [a, b] est lie au comportement de kf (n+1) k
lorsque n augmente. En eet, si

lim

n+ (n

1
kf (n+1) k kn+1 k = 0,
+ 1)!

il vient immdiatement que

lim kf n f k = 0,

n+

c'est--dire qu'on a convergence vers f , uniformment sur [a, b], de la suite des polynmes d'interpolation
de f associs des nuds quirpartis sur l'intervalle [a, b] quand n tend vers l'inni.
Malheureusement, il existe des fonctions, que l'on qualiera de  pathologiques , pour lesquelles le
produit kf (n+1) k kn+1 k tend vers l'inni plus rapidement que (n + 1)! lorsque n tend vers l'inni.
Un exemple clbre, d Runge 23 [Run01], considre la convergence du polynme d'interpolation de la
fonction
1
f (x) =
(6.30)
1 + x2
23. Carl David Tolm Runge (30 aot 1856 - 3 janvier 1927) tait un mathmaticien et physicien allemand. Il est connu
pour avoir dvelopp une mthode de rsolution numrique des quations direntielles ordinaires trs utilise. On lui doit
galement d'importants travaux exprimentaux sur les spectres des lments chimiques pour des applications en spectrocopie
astronomique.

197

CHAPITRE 6. INTERPOLATION POLYNOMIALE

degr n

2
4
6
8
10
12
14
16
18
20
22
24

max |f (x) n f (x)|

x[5,5]

0,64623
0,43836
0,61695
1,04518
1,91566
3,66339
7,19488
14,39385
29,19058
59,82231
123,62439
257,21305

Valeur (arrondie la cinquime dcimale) de l'erreur d'interpolation de Lagrange nuds quirpartis en norme de la convergence uniforme en fonction du degr d'interpolation pour la fonction de Runge
1
f (x) = 1+x
2 sur l'intervalle [5, 5].

Table 6.1:

nuds quirpartis sur l'intervalle [5, 5]. Les valeurs du maximum de la valeur absolue de l'erreur
d'interpolation pour cette fonction sont prsentes dans la table 6.1 pour quelques valeurs paires du
degr d'interpolation n. On observe une croissance exponentielle de l'erreur avec l'entier n.
La gure 6.4 prsente les graphes de la fonction f et des polynmes d'interpolation 2 f , 4 f , 6 f ,
8 f et 10 f associs des nuds quirpartis sur l'intervalle [5, 5] et met visuellement en vidence le
phnomne de divergence de l'interpolation au voisinage des extrmits de l'intervalle.
2

f (x)
2f (x)
4f (x)
6f (x)
8f (x)
10f (x)

1, 5

1
0, 5

0
0, 5
1
4

Figure 6.4:

Graphes de la fonction de Runge f (x) =

nuds quirpartis sur l'intervalle [5, 5].

1
et de cinq de ses polynmes d'interpolation
1 + x2

Ce comportement de la suite des polynmes d'interpolation n'a rien voir avec un ventuel  dfaut 
de rgularit de la fonction que l'on interpole 24 , qui est de classe C sur R. Il est en revanche li au
fait 25 que, vue comme une fonction d'une variable complexe, la fonction f , bien qu'analytique sur l'axe
24. La situation peut en revanche tre pire lorsque la fonction n'est pas rgulire. Dans [Ber18], Bernstein montre en
eet que la suite des polynmes d'interpolation de Lagrange nuds quidistribus de la fonction valeur absolue sur tout
intervalle [a, a], a > 0, diverge en tout point de cet intervalle dirent de a, 0 ou a.
25. Le lecteur intress par la comprhension de ce phnomne pourra trouver plus de dtails dans l'article [Epp87].

198

6.2. INTERPOLATION DE LAGRANGE

rel, possde deux ples sur l'axe imaginaire en z = i.


degr n

max |f (x) n f (x)|

x[5,5]

2
4
6
8
10
12
14
16
18
20
22
24

0,60060
0,20170
0,15602
0,17083
0,10915
0,06921
0,04660
0,03261
0,02249
0,01533
0,01036
0,00695

Valeur (arrondie la cinquime dcimale) de l'erreur d'interpolation de Lagrange utilisant les points
de Chebyshev en norme de la convergence uniforme en fonction du degr d'interpolation pour la fonction de Runge
1
f (x) = 1+x
2 sur l'intervalle [5, 5].

Table 6.2:

D'autres choix de nuds d'interpolation permettent nanmoins d'tablir un rsultat de convergence


uniforme du polynme d'interpolation dans ce cas. C'est, par exemple, le cas des points de Chebyshev
(voir la table 6.2 et la gure 6.5), donns sur tout intervalle [a, b] non vide de R par


2i + 1
a+b ba
+
cos
, i = 0, . . . , n, n N .
xi =
2
2
2n + 2
Il dcoule d'une dnition des polynmes de Chebyshev de premire espce que l'on a pour ces points 26

n+1
ba
kn+1 k = 2
.
4
Cette valeur est minimale parmi toutes les distributions de nuds possibles et bien infrieure l'estimation

n+1
ba
kn+1 k
e
obtenue pour des nuds quirpartis, e tant la constante de Napier 27 (e = 2, 718281828459 . . . ). On
voit ainsi que l'interpolation de Lagrange aux points de Chebychev est gnralement plus prcise que
celle en des nuds quidistribus. Il est cependant possible d'aller plus loin en tablissant un rsultat
de convergence, moyennant une hypothse de rgularit sur la fonction interpole. Pour ce faire, il sut
de faire appel l'ingalit (6.2) et d'obtenir des estimations sur la constante de Lebesgue n associe
l'oprateur d'interpolation de Lagrange.
Indiquons simplement que l'on peut dmontrer qu'on n'aura la convergence de la valeur n f (z) du polynme d'interpolation
de Lagrange nuds quirpartis sur un intervalle [a, b] d'une fonction f vers la valeur f (z) lorsque n tend vers l'inni que
si la fonction f est analytique sur [a, b] et que le nombre complexe z appartient un contour C(), > 0, dni par
C() = {z C | (z) = } , avec (z) = exp

1
ba


ln(|z s|) ds ,

l'intrieur duquel f est analytique. Or, dans le cas de l'exemple de Runge, pour tout nombre rel z tel que |z| >
3, 6333843024, tout contour C() contenant z doit ncessairement inclure les ples de la fonction.
26. On a en eet




ba
2

n+1

2x (a + b)
,
ba
o Tn+1 est le polynme de Chebyshev de premire espce de degr n + 1, dni sur l'intervalle [1, 1] par Tn+1 (x) =
cos ((n + 1) arccos(x)).
n+1 (x) = 2n

Tn+1

27. John Napier (1550 - 4 avril 1617) tait un physicien, mathmaticien, astronome et astrologue cossais. Il tablit
quelques formules de trigonomtrie sphrique, popularisa l'usage anglo-saxon du point comme sparateur entre les parties
entire et fractionnaire d'un nombre et inventa les logarithmes.

199

CHAPITRE 6. INTERPOLATION POLYNOMIALE

f (x)
2f (x)
4f (x)
6f (x)
8f (x)
10f (x)

1, 5

1
0, 5

0
0, 5

1
4

Figure 6.5:

Graphes de la fonction de Runge f (x) =

points de Chebyshev sur l'intervalle [5, 5].

1
et de cinq de ses polynmes d'interpolation aux
1 + x2

Tout d'abord, des rsultats d'Erds 28 [Erd61] et de Brutman [Bru78] montrent que, pour toute distribution de n + 1 nuds sur l'intervalle [1, 1], on a
  

2
2
4
ln(n + 1) +
ln
+ < n ,

o dsigne la constante d'Euler 29 Mascheroni 30 ( = 0, 5772156649015 . . . ), ce qui implique la constante


de Lebesgue de l'oprateur crot au moins logarithmiquement avec le nombre de points d'interpolation.
En revanche, il vient (voir [Riv90])
2
(6.31)
n ln(n + 1) + 1

pour les racines des polynmes de Chebyshev de premire et de deuxime espces. Ceci explique l'excellent
comportement de l'interpolation de Lagrange aux points de Chebyshev dans de nombreux cas pratiques
et nous conduit au rsultat suivant.

Thorme 6.18 (convergence de l'interpolation de Lagrange aux points de Chebyshev) A


ECRIRE la suite des polynmes d'interpolation aux points de Chebyshev converge uniformment vers la
fonction f interpoler ds que cette dernire satisfait une condition de Dini 31 Lipschitz, savoir que
lim0+ (f, ) ln() = 0, avec (f, ) le module de continuit de f
Dmonstration.

REPRENDRE, utilise l'ingalit (6.2) combine avec la majoration (6.31) pour donner


2
kf n f k
ln(n + 1) + 2 kf pn k
(6.32)

28. Paul Erds (Erds Pl en hongrois, 26 mars 1913 - 20 septembre 1996) tait un mathmaticien hongrois. Il posa et
rsolut de nombreux problmes et conjectures en thorie des nombres, en combinatoire, en thorie des graphes, en probabilit,
en thorie des ensembles et en analyse. Son uvre prolique (compose d'environ 1500 publications scientiques) a donn
naissance au concept humoristique de nombre d'Erds, reprsentant une  distance de collaboration  entre Erds et une
personne donne.
29. Leonhard Paul Euler (15 avril 1707 - 18 septembre 1783) tait un mathmaticien et physicien suisse. Il est considr
comme l'un des plus grands scientiques de tous les temps. Il t de nombreuses dcouvertes dans des domaines aussi
varis que les mathmatiques, la mcanique, l'optique et l'astronomie. En mathmatiques, il apporta de trs importantes
contributions, notamment en analyse, en thorie des nombres, en gomtrie et en thorie des graphes.
30. Lorenzo Mascheroni (13 mai 1750 - 14 juillet 1800) tait un mathmaticien italien. Il dmontra que tout point du
plan constructible la rgle et au compas l'est galement au compas seul.
31. Ulisse Dini (14 novembre 1845 - 28 octobre 1918) tait un mathmaticien et homme politique italien. On lui doit
des rsultats importants sur les sries de Fourier, sur l'intgration des fonctions d'une variable complexe et en gomtrie
direntielle.

200

6.2. INTERPOLATION DE LAGRANGE

puis le corollaire 6.3 (disant que kf pn k (f, n1 ) pour arriver



 

2
1
kf n f k C
ln(n + 1) + 2 f,

n
avec limn+ (f, n1 ) ln(n) = 0 par hypothse, ce qui donne le rsultat

Revenons sur la quasi-optimalit de l'interpolation de Lagrange aux points de Chebyshev laquelle


il a t fait allusion dans la section 6.1. On voit avec l'ingalit (6.32) que l'erreur d'interpolation aux
points de Chebychev ne peut tre pire que l'erreur de meilleure approximation uniforme que d'un facteur
multiplicatif gal 2 ln(n+1)+2. Pour n = 105 , cette constante vaut environ 9, 32936 et la non-optimalit
de l'approximation se traduit par une perte de prcision correspondant un chire (deux si l'on va jusqu'
n = 1066 , nombre amplement susant en pratique, le facteur valant alors environ 98, 7475) par rapport
la valeur de l'erreur de meilleure approximation. Cette observation fait que l'erreur d'approximation du
polynme d'interpolation de Lagrange aux points de Chebyshev est qualie de presque optimale (near
best en anglais) dans la littrature.
l'oppos de ce rsultat positif, on a l'estimation asymptotique suivante pour des noeuds quidistribus sur l'intervalle [1, 1] (on pourra consulter [TW91] pour un historique de ce rsultat)

n+

2n+1
.
en ln(n)

Dans ce cas, la croissance exponentielle de la constante de Lebesgue conduit proscrire ce choix de


distribution des nuds ds que leur nombre dpasse quelques dizaines d'units : l'amplication des erreurs
d'arrondi est en eet telle que, mme en considrant une fonction pour laquelle la convergence des
polynmes d'interpolation a lieu en thorie, une divergence est systmatiquement observe, au moins
pour des points proches des extrmits de l'intervalle, en arithmtique en prcision nie (voir [PTK11]).

6.2.4

Gnralisations *

Dans cette sous-section, nous considrons deux extensions, de gnralit croissante, du problme
d'interpolation de Lagrange.

Interpolation de Hermite
Soit k un entier positif, {xi }i=0,...,k un ensemble de k + 1 nombres rels deux deux distincts et
(j)
des valeurs yi , j = 0, . . . , ni 1, i = 0, . . . , k , les entiers ni tant strictement positifs. Le problme
d'interpolation de Hermite 32 [Her78] (dans l'article : formule d'interpolation avec contour dans le plan
complexe...) associ ces donnes est le suivant : trouver le polynme n de degr infrieur n, avec n

l'entier tel que

n+1=

k
X

ni ,

(6.33)

i=0

vriant les conditions


(j)

n (j) (xi ) = yi , j = 0, . . . , ni 1, i = 0, . . . , k.

(6.34)

En d'autres mots, ce nouveau problme d'interpolation vise imposer non seulement la valeur du polynme, mais aussi celles de ses ni 1 premires drives successives, en chacun des nuds d'interpolation.
On parle parfois de polynme osculateur (adjectif issu du verbe latin osculo signiant embrasser ), le
graphe du polynme pousant  le mieux possible  celui de la fonction interpole aux nuds d'interpolation.
On peut immdiatement observer que le problme d'interpolation de Lagrange, dni par (6.3), correspond au cas particulier ni = 1, i = 0, . . . , k , avec k = n.
On a le rsultat suivant.
32. Charles Hermite (24 dcembre 1822 - 14 janvier 1901) tait un mathmaticien franais. Il s'intressa principalement
la thorie des nombres, aux formes quadratiques, la thorie des invariants, aux polynmes orthogonaux et aux fonctions
elliptiques.

201

CHAPITRE 6. INTERPOLATION POLYNOMIALE

Thorme 6.19 (existence et unicit du polynme d'interpolation de Hermite) REPRENDRE


Le polynme d'interpolation de Hermite n solution du problme dni plus haut existe et est unique.

Dmonstration. REPRENDRE En faisant le choix d'une base pour la reprsentation du polynme d'interpolation n , on peut exprimer les conditions (6.34) sous la forme d'un systme linaire de n + 1 quations
pour les coomposantes de n . Celui-ci possde une unique solution pour tout second membre si et seulement si le
systme homogne associ a pour seule solution la solution nulle. Supposons que ce ne soit pas le cas. Le polynme
d'interpolation correspondant une solution non triviale du systme homogne est alors tel que

n (j) (xi ) = 0, j = 0, . . . , ni 1, i = 0, . . . , k,

et chaque nud d'interpolation xi est donc un zro de multiplicit ni , i = 0, . . . , k, de n . En comptant ces zros
avec leur multiplicit, on arrive n + 1 racines pour un polynme de degr infrieur ou gal n, ce qui achve la
preuve.


cas remarquable de l'interpolation de Hermite d'une fonction f rgulire : k = 0 et n0 = n + 1. On


obtient
n
X
f (j) ((x0 )
n f (x) =
(x x0 )j ,
j!
j=0
qui n'est autre que le polynme de Taylor de la fonction associ au point x0 .
expression du polynme d'interpolation de Hermite dans la base canonique de l'anneau de polynme
conduit un systme linaire ayant pour matrice une matrice de Vandermonde conuente
forme de Lagrange : base de polynmes de Lagrange gnraliss
proprits de continuit et de direntiabilit pour les dirences divises
tableau modi pour le calcul des dirences divises
EXEMPLE : polynme d'interpolation de Hermite cubique
erreur d'interpolation

Interpolation de Birkho *
Dans le prcdent problme d'interpolation, le fait d'imposer la valeur d'une drive d'ordre donn du
polynme d'interpolation en un nud implique que les valeurs en ce point des drives d'ordre infrieur
et du polynme lui-mme sont galement imposes. Le problme d'interpolation de Birkho 33 [Bir06] se
passe de cette obligation en autorisant de xer les valeurs de drivs non successives en un mme nud,
expliquant pourquoi ce procd d'interpolation est parfois qualif de lacunaire. Pour le dnir prcisement,
introduisons une matrice d'incidence (non oriente) E , c'est--dire dont les coecients valent soit 0 soit
1, de taille k m et considrons l'entier naturel n tel que

n+1=

m
k X
X

eij .

i=1 j=1

On cherche alors un polynme n de degr infrieur ou gal n vriant


(j)

n (j) (xi ) = yi

si ei+1 j+1 = 1, i = 0, . . . , k, j = 0, . . . , m 1

(6.35)

o les points (xi , yi ) et les entiers positifs ni sont donns. Cette approche dire de celle de l'interpolation
de Hermite dans le sens o il est possible de xer une valeur d'une drive de p en un point sans pour
autant xer les valeurs des drives d'ordre infrieur ou du polynme lui-mme en ce mme point.
Consquence : ce problme peut ne pas avoir de solution.
exemple : valeur du polynme en 1 et 1 et de sa drive en 0, polynme de degr deux
Dans l'article [Sch66], Schoenberg 34 proposa de dterminer l'ensemble des matrices d'incidence, dites
rgulires, pour lesquelles le problme d'interpolation dni par (6.35) admet toujours (c'est--dire pour
tout choix de nuds et de valeurs imposes) une solution, mais le cas de nuds xes pose dj d'intressantes questions thoriques.
33. George David Birkho (21 mars 1884 - 12 novembre 1944) est un mathmaticien amricain. Plusieurs de ses travaux
eurent une porte considrable, en particulier ceux concernant les systmes dynamiques et la thorie ergodique.
34. Isaac Jacob Schoenberg (21 avril 1903 - 21 fvrier 1990) tait un mathmaticien roumain, connu pour ses travaux sur
les splines.

202

6.3. INTERPOLATION PAR MORCEAUX

6.3

Interpolation par morceaux

Jusqu' prsent, nous n'avons envisag le problme de l'approximation d'une fonction f sur un intervalle [a, b] par l'interpolation de Lagrange qu'en un sens global, c'est--dire en cherchant n'utiliser qu'une
seule expression analytique de l'interpolant (un seul polynme) sur [a, b]. Pour obtenir une approximation
que l'on espre plus prcise, on n'a alors d'autre choix que d'augmenter le degr du polynme d'interpolation. L'exemple de Runge voqu dans la section prcdente montre que la convergence uniforme
de la suite (n f )nN vers f n'est cependant pas garantie pour toute distribution arbitraire des nuds
d'interpolation.
Une alternative cette premire approche est de construire une partition de l'intervalle [a, b] en
sous-intervalles sur chacun desquels une interpolation polynomiale de bas degr est employe. On parle
alors d'interpolation polynomiale par morceaux. L'ide naturelle suivie est que toute fonction peut tre
approche de manire arbitrairement prcise par des polynmes de bas degr (un ou mme zro par
exemple), de manire limiter les phnomnes d'oscillations observs avec l'interpolation de haut degr,
sur des intervalles susamment petits.
Dans toute cette section, on dsigne par [a, b] un intervalle non vide de R et par f une application de
[a, b] dans R. On considre galement m + 1 nuds xi , i = 0, . . . , m, tels que a = x0 < x1 < < xm = b,
ralisant une partition Th de [a, b] en m sous-intervalles [xj1 , xj ] de longueur hj = xj xj1 , 1 j m,
dont on caractrise la  nesse  par
h = max hj .
1jm

Aprs avoir brivement introduit l'interpolation de Lagrange par morceaux, nous allons nous concentrer
sur une classe de mthodes d'interpolation par morceaux possdant des proprits de rgularit globale
intressantes : les splines d'interpolation.

6.3.1

Interpolation de Lagrange par morceaux

L'interpolation de Lagrange par morceaux d'une fonction f donne relativement une partition Th
d'un intervalle [a, b] consiste en la construction d'un polynme d'interpolation par morceaux concidant sur
chacun des sous-intervalles [xj1 , xj ], 1 j m, de Th avec le polynme d'interpolation de Lagrange
de f en des nuds xs de ce sous-intervalle. La fonction interpolante ainsi obtenue est, en gnral,
simplement continue sur [a, b].
On notera qu'on peut a priori choisir un polynme d'interpolation de degr dirent sur chaque sousintervalle (il en va de mme la rpartition des nuds lui correspondant). Cependant, en pratique, on
utilise trs souvent la mme interpolation, de bas degr, sur tous les sous-intervalles pour des raisons de
commodit. Dans ce cas, on note nh f le polynme d'interpolation par morceaux obtenu en considrant
sur chaque sous-intervalle [xj1 , xj ], 1 j m, d'une partition Th de [a, b] une interpolation de Lagrange
(i)
de f en n + 1 nuds xj , 0 i n, par exemple quirpartis, avec n 1 petit. Puisque la restriction
n
de h f chaque sous-intervalle [xj1 , xj ], 1 j m, est le polynme d'interpolation de Lagrange de f
(i)
de degr n associs aux nuds xj , 0 i n, on dduit aisment, si f est de classe C n+1 sur [a, b], du
thorme 6.15 une majoration de l'erreur d'interpolation |f (x) nh f (x)| sur chaque sous-intervalle de
Th , conduisant une estimation d'erreur globale de la forme

kf nh f k C hn+1 kf (n+1) k ,
avec C une constante strictement positive dpendant de n. On observe alors qu'on peut rendre arbitrairement petite l'erreur d'interpolation ds lors la partition Th de [a, b] est susamment ne (i.e., le rel
h est susamment petit).

6.3.2

Interpolation par des fonctions splines

L'interpolation polynomiale de Lagrange par morceaux introduite dans la section prcdente fait
partie de la classe plus large d'interpolation par des fonctions splines. tant donne une partition Th de
l'intervalle [a, b], une fonction spline est une fonction qui possde une certaine rgularit globale prescrite
et dont la restriction chacun des sous-intervalles de Th est un polynme de degr galement prescrit.
203

CHAPITRE 6. INTERPOLATION POLYNOMIALE

On suppose habituellement qu'une fonction spline est au minimum continue 35 et qu'elle est continment
drivable jusqu' un certain ordre. Une famille de splines importante pour les applications est celle des
fonctions splines de degr n, avec n 1, dont les drives jusqu' l'ordre n 1 sont continues, mais des
splines possdant moins de rgularit sont galement couramment employes 36 .
Aprs quelques remarques gnrales sur les fonctions splines, nous considrons plus en dtail deux
exemples d'interpolation d'une fonction par des fonctions splines respectivement linaires et cubiques, en
mettant l'accent sur leur construction eective et leur proprits. Nous renvoyons le lecteur intress par
la thorie des splines d'interpolation et leur mise en uvre pratique l'ouvrage de de Boor [Boo01] pour
une prsentation exhaustive.

Gnralits
Commenons par donner une dnition gnrale des fonctions splines.

Dnition 6.20 Soit trois entiers naturels k, m et n, avec k n, un intervalle [a, b] non vide de R et Th
une partition de [a, b] en m sous-intervalles [xj , xj+1 ], j = 0, . . . , m 1. On dnit la classe Snk (Th ) des

fonctions splines de degr n et de classe C k sur l'intervalle [a, b] relativement la partition


Th par

n
o
Snk (Th ) = s C k ([a, b]) | s|[xj1 ,xj ] Pn , j = 1, . . . , m .

Dans la suite, on abrgera toujours la notation Snk (Th ) en Snk , la dpendance par rapport la partition
tant sous-entendue. On note qu'une dnition plus gnrale est possible si l'on n'impose pas la continuit
globale de la fonction spline sur [a, b] (l'entier k pouvant alors prendre la valeur 1). Dans ce cas, la classe
Sn1 dsignera l'ensemble des fonctions polynomiales par morceaux, relativement Th , de degr n, qui
ne sont pas ncessairement des fonctions continues.
Il ressort aussi de cette dnition que tout polynme de degr n sur [a, b] est une fonction spline 37 , mais
une fonction spline s est en gnral, et mme quasiment toujours en pratique, constitue de polynmes
dirents sur chacun des sous-intervalles [xj1 , xj ], j = 1, . . . , m, et la drive k ime de s peut donc
prsenter une discontinuit en chacun des nuds internes x1 , . . . , xm1 . Un nud en lequel se produit
une telle discontinuit est dit actif.
La restriction d'une fonction spline s de Snk un sous-intervalle [xj1 , xj ], 1 j m, tant un
polynme de degr n, on voit que l'on a besoin de dterminer (n + 1)m coecients pour caractriser
compltement s. La condition de rgularit s C k ([a, b]) revient imposer des raccords en valeurs des
drives d'ordre 0 jusqu' k de la fonction s en chaque nud interne de la partition, ce qui fournit k(m1)
quations pour ces coecients. Si s est par ailleurs une spline d'interpolation de la fonction f aux nuds
de la partition, elle doit vrier les contraintes

s(xi ) = f (xi ), i = 0, . . . , m,
et il reste donc (m 1)(n k 1) + n 1 paramtres xer pour obtenir s (dans le cas trs courant pour
lequel k = n 1, on aura donc n 1 conditions supplmentaires imposer). C'est le choix (arbitraire)
de ces (m 1)(n k 1) + n 1 dernires conditions qui dnit alors le type des fonctions splines
d'interpolation utilises.

Interpolation par une fonction spline linaire


Nous considrons dans cette section le problme de l'interpolation d'une fonction f aux nuds d'une
partition Th d'un intervalle [a, b] par une fonction spline linaire, c'est--dire de degr un, continue,
c'est--dire l'unique fonction s de S10 vriant

s(xi ) = f (xi ), i = 0, . . . , m.

(6.36)

35. Cette condition n'est videmment pas ncessaire.


36. Par exemple, le langage informatique PostScript, qui sert pour la description des lments d'une page (textes, images,
polices, couleurs, etc...), utilise des splines cubiques qui sont seulement continment drivables.
37. Ceci correspond au choix k = n = m. Dans ce cas, la fonction spline interpolant une fonction rgulire f est simplement
donne par le polynme d'interpolation de Lagrange de f aux nuds de la partition introduit dans la section 6.2.3.

204

6.3. INTERPOLATION PAR MORCEAUX

En remarquant que ceci correspond une interpolation de Lagrange par morceaux de degr un de f relativement Th (voir la section 6.3.1), ce problme est trivialement rsolu, car l'on dduit immdiatement
de la forme de Newton du polynme d'interpolation que

s(x) = f (xj1 ) + [xj1 , xj ]f (x xj1 ), x [xj1 , xj ], j = 1, . . . , m 1.


L'tude de l'erreur d'interpolation commise est alors trs simple, puisque, si la fonction f est de classe
C 2 sur [a, b], il dcoule du thorme 6.15 qu'il existe j ]xj1 , xj [, j = 1, . . . , m, tel que

f (x) s(x) =

f 00 (j )
(x xj1 )(x xj ), x [xj1 , xj ],
2

d'o

|f (x) s(x)|

h2j
8

max
t[xj1 ,xj ]

|f 00 (t)| , x [xj1 , xj ],

ce qui conduit

h2 00
kf k .
8
Cette estimation montre que l'erreur d'interpolation peut tre rendue aussi petite que souhait, de manire
uniforme sur l'intervalle [a, b], en prenant h susamment petit.
Plutt que de dnir la fonction spline linaire interpolant f par ses restrictions aux sous-intervalles
[xj1 , j], j = 1, . . . , m, de la partition Th , on peut chercher l'crire sous la forme d'une combinaison
linaire de m + 1 fonctions i , 0 i m, appropries, dites fonctions de base 38 ,
kf sk

s(x) =

m
X

(6.37)

f (xi ) i (x), x [a, b],

i=0

o l'on exige de chaque fonction i , i = 0, . . . , m, qu'elle soit une fonction spline linaire continue,
s'annulant en tout nud de la partition except le iime , en lequel elle vaut 1, soit encore
(6.38)

i (xj ) = ij , 1 i, j m,
o ij est le symbole de Kronecker. On a, plus explicitement, les dnitions suivantes
x x
i1

si xi1 x xi

hi

i (x) = xi+1 x si xi x xi+1 , 1 i m 1,

hi+1

0
sinon
et

x1 x
h1
0 (x) =
0

si x0 x x1
sinon

x xm1
hm
, m (x) =
0

si xm1 x xm
sinon

qui expliquent pourquoi ces fonctions sont parfois appeles  fonctions chapeaux  (hat functions en
anglais) en raison de l'allure de leur graphe (voir la gure 6.6).

Interpolation par une fonction spline cubique


Les fonctions splines d'interpolation cubiques sont les fonctions splines de plus petit degr permettant
une interpolation de classe C 2 d'une fonction f rgulire donne. Nous allons maintenant nous intresser
l'interpolation aux nuds de la partition Th de l'intervalle [a, b] d'une fonction f de classe C 2 sur [a, b]
par une fonction spline s de S32 , c'est--dire une fonction spline de degr trois et deux fois continment
drivable satisfaisant (6.36).
38. De telles fonctions forment en eet une base de S10 , car on peut facilement montrer, en utilisant la proprit (6.38),
qu'elles sont linairement indpendantes et engendrent cet espace, en vertu de l'galit (6.37). On peut d'ailleurs voir (6.37)
comme un analogue de la formule d'interpolation de Lagrange (6.7).

205

CHAPITRE 6. INTERPOLATION POLYNOMIALE

a = x0 x1

x2

x3

x4

x5

x6 = b

Figure 6.6: Graphes des fonctions de base {i }i=0,...,6 associes aux nuds {xi }i=0,...,6 d'une partition de
l'intervalle [a, b].

Nous allons tout d'abord voir comment dterminer une telle fonction. Pour cela, nous introduisons la
notation
Mi = s00 (xi ), i = 0, . . . , m,
pour les valeurs de la drive seconde de s aux nuds de la partition Th , que l'on appelle encore les
moments de la fonction spline. Puisque la restriction de s chacun des sous-intervalles de la partition
est un polynme de degr trois, la restriction de sa drive seconde est une fonction ane et l'on a

s00 (x) = Mj1

x xj1
xj x
+ Mj
, x [xj1 , xj ], j = 1, . . . , m.
hj
hj

En intgrant deux fois cette relation et en utilisant les conditions (6.36) aux nuds xj1 et xj , il vient

s(x) = Mj1



(xj x)3
hj
(x xj1 )3
(Mj Mj1 ) (x xj1 )
+ Mj
+ [xj1 , xj ]f
6hj
6hj
6

h2j
Mj1 + f (xj1 ), x [xj1 , xj ], j = 1, . . . , m.
6

Il faut maintenant imposer la continuit de la drive premire de s en chacun des nuds intrieurs
xi , i = 1, . . . , m 1. On obtient alors

s0 (x
i )=

hi
hi
hi+1
hi+1
Mi1 +
Mi + [xi1 , xi ]f =
Mi +
Mi+1 + [xi , xi+1 ]f = s0 (x+
i ), i = 1, . . . , m 1,
6
3
6
3

0
o s0 (x
i ) = lim s (xi t). Ceci conduit au systme d'quations linaires suivant
t0
t>0

i Mi1 + 2 Mi + i Mi+1 = bi , i = 1, . . . , m 1,

(6.39)

o l'on a pos

i =

hi+1
6
hi
, i =
et bi =
([xi , xi+1 ]f [xi1 , xi ]f ) , i = 1, . . . , m 1. (6.40)
hi + hi+1
hi + hi+1
hi + hi+1

On a ainsi obtenu un systme de m 1 quations n + 1 inconnues, auquel deux (c'est--dire 3 1)


conditions supplmentaires, gnralement appeles conditions aux extrmits (end conditions en anglais),
doivent tre ajoutes. Divers choix sont possibles dont voici quelques uns parmi les plus courants (voir
galement l'illustration la gure 6.7).
(i) Lorsque les valeurs de la drive premire de f en a et b sont connues, on peut imposer les conditions
aux extrmits
s0 (a) = f 0 (a) et s0 (b) = f 0 (b),
ce qui revient ajouter les quations

h1
h1
hm
hm
M0 +
M1 = [x0 , x1 ]f f 0 (x0 ) et
Mm1 +
Mm = f 0 (xm ) [xm1 , xm ]f.
3
6
6
3
La fonction spline interpolante est alors dite complte.
206

6.3. INTERPOLATION PAR MORCEAUX

(ii) De la mme manire, si l'on connat les valeurs de la drive seconde de f en a et b, on peut choisir
d'ajouter les contraintes
s00 (a) = f 00 (a) et s00 (a) = f 00 (a),
(6.41)
c'est--dire M0 = f 00 (a) et Mm = f 00 (b).
(iii) Si on n'a, en revanche, aucune information sur les drives de la fonction f , on peut utiliser les
conditions homognes s00 (a) = s00 (b) = 0, i.e., M0 = Mm = 0. La fonction spline interpolante
correspondant ce choix est dite naturelle.
(iv) On peut galement chercher imposer la continuit de s000 aux nuds internes x1 et xm1 , ce qui
correspond faire respectivement concider les restrictions de la fonction spline sur les deux premiers
et les deux derniers sous-intervalles de la partition Th . Ceci se traduit par les conditions suivantes

h2 M0 (h1 + h2 ) M1 + h1 M2 = 0 et hm Mm2 (hm1 + hm ) Mm1 + hm1 Mm = 0.


Les moments M1 et Mm1 peuvent alors tre limins du systme linaire obtenu. Les nuds x1 et
xm1 n'intervenant par consquent pas dans la construction de la fonction spline interpolante, ce
ne sont pas des nuds actifs et on parle en anglais de not-a-knot spline.
(v) Enn, on peut imposer la condition s00 (a) = s00 (b), i.e., M0 = Mm . Dans ce cas, la fonction spline
d'interpolation obtenue est dite priodique.
Les cas de l'interpolation par une fonction spline cubique not-a-knot ou priodique mis part 39 ,
chacun des choix de conditions numrs ci-dessus conduit 40 la rsolution d'un systme linaire d'ordre
m + 1, dont les inconnues sont les moments de la fonction spline s, de la forme

M0
2 0
b0
M 1 b1
1 2
1

.. ..

..
..
..
(6.42)
. = . .

.
.
.

m1 2 m1
Mm1
bm1
m
2
Mm
bm
Dans tous les cas cependant, l'existence et l'unicit de la solution du systme pour les moments rsulte
du fait que sa matrice est diagonale strictement dominante par lignes (on a notamment i > 0, i > 0
et i + i = 1 pour i = 1, . . . , m 1), quels que soient la partition Th et le choix des conditions aux
extrmits. On rappellera pour nir qu'un systme linaire dont la matrice est tridiagonale peut tre
ecacement rsolu par l'algorithme de Thomas prsent dans la section 2.4.4.
Une autre approche pour la construction d'une fonction spline interpolante cubique rside dans l'utilisation d'une base de S32 , qui est un espace de dimension m + 3. Le procd gnral 41 le plus courant
consiste utiliser des fonctions polynomiales par morceaux particulires nommes fonctions B-splines
(ce dernier terme tant une abbrviation de basis spline en anglais), qui ont le mme degr et la mme
rgularit que la spline que l'on cherche construire et possdent de plus les proprits d'tre positives
et non nulles sur seulement quelques sous-intervalles contigus de la partition Th (on dit qu'elles sont
support compact ). On trouvera des dnitions et de nombreux autres dtails sur les fonctions B-splines
dans l'ouvrage [Boo01].
Parmi les proprits des fonctions splines cubiques interpolantes, on peut mentionner une remarquable
proprit de minimisation vrie par les fonctions splines naturelles.
39. Dans le cas d'un choix de conditions priodiques, le systme linaire obtenu est d'ordre m (car M0 = Mm ) et n'est
pas tridiagonal, puisque sa matrice est

2
1

1
2
..
.

1
1
..
.
m1

..

.
2
m

m1
2

40. Par exemple, on a 0 = 1, b0 = h6 ([x0 , x1 ]f f 0 (x0 )), m = 1 et bm = h6m (f 0 (xm ) [xm1 , xm ]f ) pour le choix
1
(i), ou bien encore 0 = 0, b0 = 0, m = 0 et bm = 0 pour le choix (iii).
41. La base de S10 exhibe dans la section prcedente est par exemple constitue de fonctions B-splines.

207

CHAPITRE 6. INTERPOLATION POLYNOMIALE

0, 35

0, 35

0, 3

0, 3

0, 25

0, 25

0, 2

0, 2

0, 15

0, 15

0, 1

0, 1

0, 05

0, 05

0
0

(a) fonction spline complte.

(b) fonction spline vriant les conditions (6.41).

0, 35

0, 35

0, 3

0, 3

0, 25

0, 25

0, 2

0, 2

0, 15

0, 15

0, 1

0, 1

0, 05

0, 05

0
0

(c) fonction spline naturelle.

(d) fonction spline

not-a-knot.

Graphes illustrant l'interpolation de la fonction f (x) = x ex sur l'intervalle [0, 6] par dirents
types de fonctions splines cubiques relativement une partition uniforme de pas gal 1 (le graphe de la fonction
est en trait discontinu, celui de la fonction spline interpolante en pointill).
Figure 6.7:

Thorme 6.21 Soit [a, b] un intervalle non vide de R, f une fonction de classe C 2 sur [a, b]. Si s
dsigne la fonction spline cubique naturelle interpolant f relativement une partition Th de [a, b], alors,
pour toute fonction g de classe C 2 sur [a, b] interpolant la fonction f aux mmes nuds que s, on a
b

(g 00 (x)) dx

(6.43)

(s00 (x)) dx,

avec galit si et seulement si g = s.


Dmonstration.

Pour prouver ce rsultat, il sut d'tablir que


Z

g 00 (x)

2

Z
dx =

g 00 (x) s00 (x)

2

Z
dx +

s00 (x)

2

dx.

(6.44)

L'ingalit (6.43) dcoule en eet directement de cette relation et l'on voir galit dans (6.43) si et seulement si
g 00 s00 = 0 sur [a, b], ce qui implique, aprs deux intgrations entre a et x et utilisation des conditions satisfaites
par les fonctions g et s au nud a, que g = s sur [a, b].
On remarque alors que (6.44) est quivalente
b


s00 (x) g 00 (x) s00 (x) dx = 0.

208

6.3. INTERPOLATION PAR MORCEAUX

En intgrant par partie, il vient alors


b

Z
a



b
s00 (x) g 00 (x) s00 (x) dx = s00 (x) g 0 (x) s0 (x) x=a


s000 (x) g 0 (x) s0 (x) dx

Z
=


s000 (x) g 0 (x) s0 (x) dx,

puisque s00 (a) = s00 (b) = 0. La fonction s000 tant constante par morceaux relativement la partition Th , on a
alors
b

m1
X 000 +

s000 (x) g 0 (x) s0 (x) dx =
s (xi )

xi+1


g 0 (x) s0 (x) dx

xi

i=0

m1
X

s000 (x+
i ) (g(xi+1 ) s(xi+1 ) (g(xi ) s(xi ))) = 0,

i=0
000
avec s000 (x+
i ) = lim s (xi + t), i = 0, . . . , m 1.

t0
t>0

Cette caractrisation variationnelle est due Holladay [Hol57]. On dit que la fonction spline cubique
naturelle est l'interpolant  le plus rgulier  d'une fonction f de classe C 2 sur l'intervalle [a, b], au sens
o la norme L2 (]a, b[) de sa drive seconde,
00

!1/2

00

ks kL2 (]a,b[) =

|s (x)| dx

Z
n
, avec L (]a, b[) = f : ]a, b[ R |
2

o
2
|f (x)| dx ,

est la plus petite parmi celles de toutes 42 les fonctions g de classe C 2 interpolant f aux nuds d'une
partition donne de l'intervalle [a, b]. Cette proprit est d'ailleurs l'origine du terme  spline , qui est
un mot d'origine anglaise dsignant une latte souple en bois, ou cerce, servant tracer des courbes. En
eet, en supposant que la forme prise par une cerce que l'on contraint passer par des points de contrle
donns (xi , f (xi )), i = 0, . . . , n, est une courbe d'quation y = g(x), avec a x b, on observe que la
conguration adopte minimise, parmi toutes celles satisfaisant les mmes contraintes, l'nergie de exion

Z
E(g) =
a

(g 00 (x))

1 + |g 0 (x)|

2 3

dx.

Pour une courbe variant lentement, c'est--dire pour kg 0 k  1, on voit que cette dernire proprit est
trs proche de (6.43).
Ajoutons que l'ingalit (6.43) est encore valable si s est une fonction spline cubique complte et si la
fonction g vrie g 0 (a) = f 0 (a) et g 0 (b) = f 0 (b), en plus d'interpoler f aux nuds de Th .
Nous terminons cette section un rsultat d'estimation d'erreur pour les fonctions splines interpolantes

compltes.

Thorme 6.22 Soit [a, b] un intervalle non vide de R, f une fonction de classe C 4 sur [a, b], Th une
partition de [a, b] et K 1 la constante dnie par

h
.
1jm hj

K = max

Si s est la fonction spline cubique complte interpolant f aux nuds xi , i = 0, . . . , m, de Th , alors il


existe des constantes Ck 2, ne dpendant pas de Th , telles que

kf (k) s(k) k Ck K h4r kf (4) k , k = 0, 1, 2, 3.


Pour dmontrer ce thorme, nous aurons besoin du rsultat suivant.
42. On remarquera que l'ingalit (6.43) est en particulier vraie si g = f .

209

CHAPITRE 6. INTERPOLATION POLYNOMIALE

Lemme 6.23 Soit [a, b] un intervalle non vide de R, f une fonction de classe C 4 sur [a, b] et Th une

partition de [a, b]. En notant M le vecteur des moments Mi , i = 0, . . . , m, de la fonction spline cubique
complte interpolant f aux nuds de Th et en posant

f 00 (x0 )

F = ... ,

f 00 (xm )

on a

kM F k

3 2 (4)
h kf k .
4

Dmonstration. Posons r = A(M F ) = b AF , o A et b dsignent respectivement la matrice et le


second membre du systme linaire (6.42) associ aux moments de la fonction spline cubique complte interpolant
f . On a alors

6
[x0 , x1 ]f f 0 (x0 ) 2 f 00 (x0 ) f 00 (x1 ).
r0 =
h1
En utilisant la formule de TaylorLagrange pour exprimer f (x1 ) et f 00 (x1 ) en termes des valeurs de f et de ses
drives au point x0 , il vient

r0 =

6
h1

f 0 (x0 ) +


h1 00
h2
h3
f (x0 ) + 1 f 000 (x0 ) + 1 f (4) (1 ) f 0 (x0 )
2
6
24


h1 (4)
h2
h1 (4)
2 f 00 (x0 ) f 00 (x0 ) + h1 f 000 (x0 ) +
f (2 ) = 1 f (4) (1 )
f (2 ),
2
4
2

avec 1 et 2 appartenant ]x0 , x1 [, d'o


|r0 |

3 2 (4)
h kf k .
4

De manire analogue, on obtient

3 2 (4)
h kf k .
4
Pour les composantes restantes du vecteur r , on trouve
|rm |

ri =

hi+1
6
hi
([xi , xi+1 ]f [xi1 , xi ]f )
f 00 (xj1 ) 2 f 00 (xi )
f 00 (xi+1 ), 1 i m 1,
hi + hi+1
hi + hi+1
hi + hi+1

et, par la formule de TaylorLagrange,


ri =

 
h2
h3
1
hi+1 00
6 f 0 (xi ) +
f (xi ) + i+1 f 000 (xi ) + i+1 f (4) (1 )
hi + hi+1
2
6
24


hi 00
h2
h3
f 0 (xj )
f (xi ) i f 000 (xi ) i f (4) (2 )
2
6
24




2
h
hi+1 (4)
hi f 00 (xi ) hi f 000 (xi ) + i f (4) (3 ) 2(hi + hi+1 ) f 00 (xi ) hi+1 f 00 (xi ) + hi+1 f 000 (xi ) +
f (4 )
2
2
 3

3
3
3
hi+1 (4)
h
h
1
h
=
f (1 ) i f (4) (2 ) f (4) (3 ) i+1 f (4) (4 ) ,
hi + hi+1
4
4
2
2

avec 1 , 2 , 3 et 4 appartenant ]xi1 , xi+1 [. Il vient alors


|ri |

3 h3i + h3i+1 (4)


3
kf k h2 kf (4) k .
4 hi + hi+1
4

Pour conclure, il sut alors de remarquer que, pour tous vecteurs u et v de Rm+1 , de composantes respectives
ui et vi , i = 0, . . . , m, on a
Au = v kuk kvk .
En eet, en notant i0 l'indice tel que |ui0 | = kuk = max |ui |, on a, en posant 0 = 0 et m = 0,
0im

i0 ui0 1 + 2 ui0 + i0 ui0 +1 = vi0 ,

210

6.3. INTERPOLATION PAR MORCEAUX

d'o, en se servant de (6.40),


kvk |vi0 | 2 |ui0 | i0 |ui0 1 | i0 |ui0 +1 | (2 i0 i0 ) |ui0 | |ui0 | = kuk .

Dmonstration du thorme 6.22.

l'intervalle [xj1 , xj ], j = 1, . . . , m, on a
s000 (x) f 000 (x) =

Prouvons tout d'abord le rsultat pour k = 3. Pour tout point x dans

Mj Mj1
f 000 (x)
hj
Mj1 f 00 (xj1 )
f 00 (xj ) f 00 (x) (f 00 (xj1 ) f 00 (x))
Mj f 00 (xj )

+
f 000 (x).
=
hj
hj
hj

En vertu de la formule de TaylorLagrange et du lemme 6.23, il vient alors


2
000

f (x) s000 (x) 3 h kf (4) k
2 hj



(xj x)2 (4)
(xj1 x)2 (4)
1
000
000
000
+
(xj x) f (x) +
f (1 ) (xj1 x) f (x)
f (2 ) hj f (x) ,
hj
2
2

avec 1 et 2 appartenant ]xj1 , xj [, d'o


2
000

f (x) s000 (x) 2 h kf (4) k .
hj

Puisqu'on a, par dnition,

h
K , on trouve nalement
hj
000

f (x) s000 (x) 2 Kh kf (4) k .

Pour k = 2, on remarque que, pour tout x dans ]a, b[, il existe un entier j = j(x) tel que


xj(x) x h .
2

On a alors
f 00 (x) s00 (x) = f 00 (xj(x) ) s00 (xj(x) ) +

(f 00 (t) s00 (t)) dt,

xj(x)

et, puisque K 1,
00

f (x) s00 (x) 3 h2 kf (4) k + h 2 Kh kf (4) k 7 h2 kf (4) k , x [a, b].
4
2
4

Considrons maintenant le cas k = 1. En plus des extrmits 0 = a et m+1 = b, il existe, en vertu du


thorme de Rolle, m points j ]xj1 , xj [, j = 1, . . . , m, vriant
f 0 (j ) = s0 (xj ), j = 0, . . . , m + 1.

Pour chaque point x de l'intervalle [a, b], il existe donc un entier j = j(x) tel que


j(x) x h,
et l'on a par consquent
f 0 (x) s0 (x) =

(f 00 (t) s00 (t)) dt.

j(x)

On en dduit nalement que


0

f (x) s0 (x) h 7 h2 kf (4) k = 7 h3 kf (4) k , x [a, b].
4
4

Reste le cas k = 0. Comme


Z

f (x) s(x) =

(f 0 (t) s0 (t)) dt, x [a, b],

xj(x)

211

CHAPITRE 6. INTERPOLATION POLYNOMIALE

il vient, en utilisant l'ingalit tablie pour k = 1,


|f (x) s(x)|

7
h 7 3 (4)
h kf k = h4 kf (4) k , x [a, b].
2 4
8


La constante K 1 introduite dans ce thorme  mesure  la dviation de la partition Th par rapport


la partition uniforme de [a, b] ayant le mme nombre de sous-intervalles. Ce rsultat montre alors, sous
rserve que K soit uniformment borne lorsque h tend vers zro, la fonction spline cubique complte et
ses trois premires drives convergent, uniformment sur [a, b], vers f et ses drives 43 lorsque le nombre
de points d'interpolation tend vers l'inni. On ajoutera que ces estimations peuvent tre amliores. Sous
les mmes hypothses, on montre (voir pour cela [HM76]) en eet que

kf (k) s(k) k ck h4r kf (4) k , k = 0, 1, 2, 3,


avec c0 =

6.4

5
1
3
1
, c1 =
, c2 = et c3 = (K + K 1 ), les constantes c0 et c1 tant optimales.
384
24
8
2

Notes sur le chapitre

Pour plus de dtails sur la gnse du thorme d'approximation de Weierstrass, on pourra consulter
l'article de revue [Pin00], dans lequel sont prsentes plusieurs preuves alternatives et gnralisations de
ce rsultat.
On retrouve la forme de Lagrange du polynme d'interpolation, ainsi que les polynmes de Lagrange,
dans une leon donne par Lagrange l'cole normale en 1795 [Lag77], mais sa dcouverte semble due
Waring 44 , qui en t la publication seize ans auparavant [War79]. Les dirences divises et la forme
dite de Newton du polynme d'interpolation ont pour leur part t introduites dans la preuve du lemme
V, traitant de la rsolution du problme d'interpolation polynmiale, du troisime livre des Philosophi
naturalis principia mathematica, l'uvre matresse de Newton publie en 1687.
La premire forme de la formule d'interpolation barycentrique apparat dj dans la thse de Jacobi,
intitule Disquisitiones analyticae de fractionibus simplicibus et soutenue en 1825. La seconde forme
n'arrive en revanche que bien plus tard, dans l'article [Tay45], son utilisation tant alors restreinte
un choix de nuds quidistribus. La dnomination d'interpolation  barycentrique  semble pour sa
part provenir de la note [Dup48]. Pour plus de dtails sur ces formules d'interpolation et de nombreuses
rfrences bibliographiques associes, on pourra consulter l'excellent article de synthse [BT04b].
phnomne de Runge pour interpolation trigonomtrique = phnomne de Gibbs ( ? car fonctions
discontinues)
Le fait que la suite des constantes de Lebesgue (n )nN de toute distribution de nuds a pour limite
+ est relier un thorme d Faber 45 [Fab14] (voir galement [Ber18]), qui rpond par la ngative
la question lgitime :  existe-t-il un tableau triangulaire inni de points appartenant l'intervalle [a, b],
(0)

x0

(1)

x1

x0 ,
..
.

(2)

x1 ,
..
.

(n)

x1 ,
..
.

x0 ,

x0 ,
..
.

(1)

(2)

(n)

(2)

x2
..
.

(n)

..

,
.

x2 ,
..
.

(n)

xn
..
.

..

43. On remarquera au passage que f 000 est alors approche par une suite de fonctions en gnral discontinues (car constantes
par morceaux).
44. Edward Waring (v. 1736 - 15 aot 1798) tait un mathmaticien anglais. Il traita dans son clbre ouvrage Meditationes
algebraic, publi en 1770, des solutions des quations algbriques et de la thorie des nombres, mais il travailla aussi
notamment sur l'approximation des racines, l'interpolation et la gomtrie des coniques.
45. Georg Faber (5 avril 1877 - 7 mars 1966) tait un mathmaticien allemand. Il travailla de manire importante
sur la reprsentation des fonctions complexes par des sries de polynmes l'intrieur de courbes rgulires et prouva,
indpendamment de Krahn, une conjecture de Rayleigh concernant la forme minimisant, volume donn, la plus petite
valeur propre de l'oprateur laplacien muni d'une condition aux limites de Dirichlet homogne.

212

6.4. NOTES SUR LE CHAPITRE

tel que, pour n'importe quelle fonction f continue sur [a, b], la suite (n f )nN des polynmes d'interpolation de Lagrange associs aux nuds des lignes de ce tableau converge, en norme de la convergence
uniforme, vers f ? , en stipulant que, pour chaque tableau de points, il existe une fonction continue

pour laquelle la suite de polynmes d'interpolation associs diverge. Des rsultats encore plus pessimistes
furent obtenus par la suite, notamment par Bernstein [Ber31] (A VERIFIER : Pour tout tableau, il existe
une fonction continue et un point c de [a, b] tels que n f (c) ne converge pas vers f (c) quand n tend vers
+) et par Erds et Vrtesi [EV80] (A VERIFIER : Pour tout tableau, il existe une fonction continue
telle que n f (c) ne converge pas vers f (c) quand n tend vers + pour presque tout c dans [a, b]).
L'interpolation de Lagrange aux points de Chebyshev de fonctions via les formules barycentriques
est la base de Chebfun [BT04a, Tre+11], une collection de programmes open source crits pour Matlab permetttant d'eectuer diverses oprations numriques sur des fonctions continues ou continues par
morceaux via la surcharge de commandes normalement rserves la manipulation de vecteurs et de
matrices.
A VOIR : autre gnralisation (mean value interpolation) de l'interpolation de Lagrange, principalement porte thorique car dicile mettre en uvre, comme l'interpolation de Kergin [Ker80]
L'introduction de la thorie de l'approximation par des splines est due Schoenberg avec la publication
de deux articles fondateurs en 1946 [Sch46a, Sch46b], mais ce n'est rellement qu' partir des annes 1970,
avec la dcouverte, de manire indpendante par Cox [Cox72] et de Boor [Boo72] en 1972, d'une formule
de rcurrence numriquement stable pour le calcul de fonctions B-splines, qu'elle ne furent employes
pour des applications.
Ajoutons que l'interpolation polynomiale se gnralise trs simplement au cas multidimensionnel
lorsque le domaine d'interpolation est un produit tensoriel d'intervalles. Associe des nuds choisis
comme tant les racines de polynmes orthogonaux, elle est l'origine de plusieurs mthodes spectrales
d'approximation (voir par exemple [Tre00]). L'interpolation polynomiale par morceaux est pour sa part
extrmement exible et permet, une fois tendue au cas multidimensionnel, de prendre en compte facilement des domaines de forme complexe (typiquement tout polygone lorsqu'on se place dans R2 ou tout
polydre dans R3 ). La thorie de l'interpolation est ce titre un outil de base de la mthode des lments
nis, introduite par Courant 46 [Cou43], qui, tout comme les mthodes spectrales, est trs utilise pour
la rsolution numrique des quations aux drives partielles (voir par exemple [CL09]).
Terminons ce chapitre par un exemple d'application originale de l'interpolation de Lagrange, le partage
de cl secrte de Shamir 47 [Sha79] en cryptographie. Cette mthode consiste en la rpartition d'informations lies une donne secrte, comme une cl ou un mot de passe, entre plusieurs dpositaires, ces
derniers ne pouvant retrouver facilement la donne que si un nombre susant d'entre eux mettent en
commun les parties qu'ils ont reues. Formellement, on suppose que l'on souhaite distribuer le secret en
n parties et que seule la connaissance d'un nombre m, avec m n, dit seuil, de ces parties rende ais
le recouvrement du secret. Faisant l'hypothse que le secret est un lment s d'un corps ni 48 , l'ide
de Shamir est de choisir au hasard m 1 coecients a1 , . . . , am1 dans ce corps ni et de construire
le polynme p(x) = s + a1 x + + am1 xm1 , les parties distribues aux dpositaires tant n couples
(xi , p(xi )), i = 1, . . . , n, composs d'lments xi distincts du corps ni et de leurs images par p dans
ce mme corps. On retrouve alors le secret partir d'un jeu de m parties en construisant tout d'abord
le polynme d'interpolation de Lagrange de degr m 1 qui lui est associ et en identiant ensuite le
coecient associ au terme de degr zro dans ce polynme, comme le montre l'exemple ci-dessous. Ce
type de partage est dit scuris au sens de la thorie de l'information, car la connaissance de seulement
m 1 parties ne permet pas d'apprendre quoi que ce soit sur le secret.

Exemple d'application du partage de cl secrte de Shamir. On suppose que l'on travaille sur le
corps ni Z10007 , que le secret est s = 1234 et que l'on veut eectuer un partage en n = 6 parties sachant que la
46. Richard Courant (8 janvier 1888 - 27 janvier 1972) tait un mathmaticien germano-amricain. Il est en grande partie
l'origine de la mthode des lments nis utilise pour la rsolution numrique de nombreux problmes d'quations aux
drives partielles.
47. Adi Shamir (n le 6 juillet 1952) est un cryptologue isralien. Il est l'inventeur de la cryptanalyse direntielle et,
avec Ron Rivest et Len Adleman, l'un des co-inventeurs de l'algorithme RSA. Il lui doit aussi des contributions dans divers
domaines de l'informatique, notamment en thorie de la complexit algorithmique.
48. Un corps ni est un corps commutatif qui est par ailleurs ni. Dans la plupart des applications en cryptographie, on
utilise un corps ni de la forme Zq = Z/qZ, avec q un nombre premier tel que q n, ou une extension d'un tel corps.

213

CHAPITRE 6. INTERPOLATION POLYNOMIALE

connaissance m = 3 parties doit tre susante pour reconstruire le secret. On tire donc au hasard les coecients
a1 = 153 et a2 = 29, d'o p(x) = 1234 + 153 x + 29 x2 , et l'on construit les six couples de donnes suivants :
(1, 1416), (2, 1656), (3, 1954), (4, 2310), (5, 2724) et (6, 3196).
On considre maintenant que l'on dispose des trois parties (2, 1656), (4, 2310) et (5, 2724) pour dterminer le
secret. Les polynmes de Lagrange associs sont alors
l0 (x) =

1
10
3
1
1
7
1
(x 4)(x 5) =
x + x2 , l1 (x) = (x 2)(x 5) = 5 + x x2
6
3
2
6
6
2
2
1
8
1
et l2 (x) = (x 2)(x 4) = 2 x + x2 ,
6
3
3

et le polynme d'interpolation de Lagrange est








10
8
3
1
7
1
1
2 (x) = 1656
x + x2 + 2310 5 + x x2 + 2724
2 x + x2 = 1234 + 153 x + 29 x2 .
3
2
6
2
2
3
3
En se rappelant que le secret est donn par la valeur de ce dernier polynme en x = 0, on retrouve s = 1234.

Rfrences
[Ait32]

A. C.

Aitken.

On interpolation by iteration of proportional parts, without the use of dierences.


doi: 10.1017/S0013091500013808 (cited on

Proc. Edinburgh Math. Soc. (2), 3(1):5676, 1932.

page 193).
[Bec00]

B. Beckermann. The condition number of real Vandermonde, Krylov and positive denite Hankel
matrices. Numer. Math., 85(4):553577, 2000. doi: 10.1007/PL00005392 (cited on page 184).

[Ber12]

S. N.

[Ber18]

Bernstein.

Dmonstration du thorme de Weierstrass fonde sur le calcul des probabilits.

Comm. Soc. Math. Kharkov, 13(1-2) :501517, 1912-1913 (cf. page 181).
S. N. Bernstein. Quelques remarques sur l'interpolation. Math. Ann., 79(1-2) :112, 1918.
10.1007/BF01457173 (cf. pages 198, 212).

doi

[Ber31]

S. Bernstein. Sur la limitation des valeurs d'un polynme Pn (x) de degr n sur tout un segment par
ses valeurs en (n + 1) points du segment. Bull. Acad. Sci. URSS, 8 :10251050, 1931 (cf. page 213).

[Bir06]

G. D. Birkhoff. General mean value and remainder theorems with applications to mechanical
dierentiation and quadrature. Trans. Amer. Math. Soc., 7(1):107136, 1906. doi: 10.1090/S00029947-1906-1500736-1 (cited on page 202).

[BM97]

J.-P. Berrut and H. D. Mittelmann. Lebesgue constant minimizing linear rational interpolation
of continuous functions over the interval. Comput. Math. Appl., 33(6):7786, 1997. doi: 10.1016/
S0898-1221(97)00034-5 (cited on page 192).

[Boo01]

C. de Boor. A practical guide to splines. Volume 27 of Applied mathematical sciences. Springer,


revised edition, 2001 (cited on pages 204, 207).

[Boo72]

C. de Boor. On calculating with B -splines. IMA J. Appl. Math., 6(1):5062, 1972.


0021-9045(72)90080-9 (cited on page 213).

[Bor05]

E. Borel. Leons sur les fonctions de variables relles et les dloppements en sries de polynmes.
Gauthier-Villars, 1905 (cf. page 182).

[BP70]

. Bjrk and V. Pereyra. Solution of Vandermonde systems of equations. Math. Comput.,


24(112):893903, 1970. doi: 10.1090/S0025-5718-1970-0290541-1 (cited on page 185).

[Bru78]

L. Brutman. On the Lebesgue function for polynomial interpolation. SIAM J. Numer. Anal.,
15(4):694704, 1978. doi: 10.1137/0715046 (cited on page 200).

[BT04a]

Z. Battles and L. N. Trefethen. An Extension of MATLAB to continuous functions and operators. SIAM J. Sci. Comput., 25(5):17431770, 2004. doi: 10.1137/S1064827503430126 (cited on
page 213).

[BT04b]

J.-P. Berrut and L. N. Trefethen. Barycentric Lagrange interpolation. SIAM Rev., 46(3):501
517, 2004. doi: 10.1137/S0036144502417715 (cited on page 212).

[Cau40]

A.-L. Cauchy. Sur les fonctions interpolaires. C. R. Acad. Sci. Paris, 11 :775789, 1840 (cf. page 196).

214

doi:

10.1016/

RFRENCES

[CL09]

P. Ciarlet et . Lunville. La mthode des lments nis. De la thorie la pratique. I. Concepts


gnraux. Les presses de l'cole Nationale Suprieure de Techniques Avances (ENSTA), 2009 (cf.
page 213).

[Cor35]

J. G. van der Corput. Verteilungsfunktionen. Proc. Konink. Nederl. Akad. Wetensch., 38:813821,
1935 (siehe Seite 190).

[Cou43]

R.

[Cox72]

M. G. Cox. The numerical evaluation of B -splines. IMA J. Appl. Math., 10(2):134149, 1972.
10.1093/imamat/10.2.134 (cited on page 213).

[Dup48]

Courant.

Variational methods for the solution of problems of equilibrium and vibrations. Bull.
doi: 10.1090/S0002-9904-1943-07818-4 (cited on page 213).

Amer. Math. Soc., 49(1):123, 1943.

M.

Dupuy.

doi:

Le calcul numrique des fonctions par l'interpolation barycentrique. C. R. Acad. Sci.

Paris, 226 :158159, 1948 (cf. page 212).

[Epp87]

J. F. Epperson. On the Runge example. Amer. Math. Monthly, 94(4):329341, 1987.


10.2307/2323093 (cited on page 198).

[Erd61]

P. Erds. Problems and results on the theory of interpolation. II. Acta Math. Hungar., 12(1-2):235
244, 1961. doi: 10.1007/BF02066686 (cited on page 200).

[EV80]

P. Erds and P. Vrtesi. On the almost everywhere divergence of Lagrange interpolatory polynomials for arbitrary system of nodes. Acta Math. Hungar., 36(1-2):7194, 1980. doi: 10.1007/
BF01897094 (cited on page 213).

[Fab14]

G.

Faber.

doi:

ber die interpolatorische Darstellung stetiger Funktionen. Jahresber. Deutsch. Math.-

Verein., 23:192210, 1914 (siehe Seite 212).

[FR89]

B. Fischer and L. Reichel. Newton interpolation in Fejr and Chebyshev points. Math. Comput.,
53(187):265278, 1989. doi: 10.1090/S0025-5718-1989-0969487-3 (cited on page 190).

[Gau75]

W. Gautschi. Norm estimates for inverses of Vandermonde matrices. Numer. Math., 23(4):337
347, 1975. doi: 10.1007/BF01438260 (cited on page 184).

[Her78]

C. Hermite. Sur la formule d'interpolation de Lagrange. J. Reine Angew. Math., 1878(84) :7079,
1878. doi : 10.1515/crll.1878.84.70 (cf. page 201).

[Hig04]

N. J. Higham. The numerical stability of barycentric Lagrange interpolation. IMA J. Numer.


Anal., 24(4):547556, 2004. doi: 10.1093/imanum/24.4.547 (cited on page 192).

[Hig87]

N. J.

Higham.

C. A.

Hall

[HM76]

Error analysis of the Bjrck-Pereyra algorithms for solving Vandermonde systems.


doi: 10.1007/BF01408579 (cited on page 185).

Numer. Math., 50(5):613632, 1987.


and W. W.

Meyer.

Theory, 16(2):105122, 1976.

doi:

Optimal error bounds for cubic spline interpolation. J. Approx.


10.1016/0021-9045(76)90040-X (cited on page 212).

[Hol57]

J. C. Holladay. A smoothest curve approximation. Math. Comput., 11(60):233243, 1957.


10.1090/S0025-5718-1957-0093894-6 (cited on page 209).

[IK94]

E.

[Ker80]

doi:

Analysis of numerical methods. Dover, 1994 (cited on page 196).


P. Kergin. A natural interpolation of C K functions. J. Approx. Theory, 29(4):278293, 1980. doi:
Isaacson

and H. B.

Keller.

10.1016/0021-9045(80)90116-1 (cited on page 213).

[Kuh64]

H. Kuhn. Ein elementarer Beweis des Weierstraschen Approximationssatzes. Arch. Math. (Basel),
15(1):316317, 1964. doi: 10.1007/BF01589203 (siehe Seite 180).

[Lag77]

J. L. Lagrange. Leons lmentaires sur les mathmatiques donnes l'cole normale en 1795.
Leon cinquime. Sur l'usage des courbes dans la solution des problmes. In J.-A. Serret, diteur,
uvres de Lagrange, tome septime, pages 271287. GauthierVillars, Paris, 1877 (cf. page 212).

[Lej57]

F. Leja. Sur certaines suites lies aux ensembles plans et leur application la reprsentation
conforme. Ann. Polon. Math., 4 :813, 1957 (cf. page 190).

[Nev34]

E. H.

[Pin00]

A. Pinkus. Weierstrass and approximation theory. J. Approx. Theory, 107(1):166, 2000.


10.1006/jath.2000.3508 (cited on page 212).

[PM72]

T. Parks and J. McClellan. Chebyshev approximation for nonrecursive digital lters with linear
phase. IEEE Trans. Circuit Theory, 19(2):189194, 1972. doi: 10.1109/TCT.1972.1083419 (cited
on page 183).

Neville.

Iterative interpolation. J. Indian Math. Soc., 20:87120, 1934 (cited on page 193).

215

doi:

CHAPITRE 6. INTERPOLATION POLYNOMIALE

[PTK11]

R. B. Platte, L. N. Trefethen, and A. B. J. Kuijlaars. Impossibility of fast stable approximation of analytic functions from equispaced samples. SIAM Rev., 53(2):308318, 2011. doi:
10.1137/090774707 (cited on page 201).

[Rei90]

L. Reichel. Newton interpolation at Leja points. BIT, 30(2):332346, 1990.


BF02017352 (cited on page 190).

[Rem34a]

E.

Remes.

doi:

10 . 1007 /

Sur la dtermination des polynmes d'approximation de degr donn. Comm. Soc. Math.

Kharkov, 10 :4163, 1934 (cf. page 183).

[Rem34b]

E. Remes. Sur le calcul eectif des polynmes d'approximation de Tchebichef. C. R. Acad. Sci. Paris,
199 :337340, 1934 (cf. page 183).

[Rem34c]

E. Remes. Sur un procd convergent d'approximations successives pour dterminer les polynmes
d'approximation. C. R. Acad. Sci. Paris, 198 :20632065, 1934 (cf. page 183).

[Rie16]

M. Riesz. ber einen Satz des Herrn Serge Bernstein. Acta Math., 40(1):337347, 1916.
1007/BF02418550 (siehe Seite 192).

[Riv90]

T. J. Rivlin. Chebyshev polynomials. From approximation theory to algebra and number theory.
Wiley-Interscience, second edition edition, 1990 (cited on page 200).

[Run01]

C.

[Sal72]

H. E. Salzer. Lagrangian interpolation at the Chebyshev points xn, cos(/n), = 0(1)n; some
unnoted advantages. Comput. J., 15(2):156159, 1972. doi: 10.1093/comjnl/15.2.156 (cited on
page 192).

[SB02]

J. Stoer and R. Bulirsch. Introduction to numerical analysis. Volume 12 of Texts in applied


mathematics. Springer, third edition, 2002. doi: 10.1007/978-0-387-21738-3 (cited on page 193).

[Sch46a]

I. J. Schoenberg. Contributions to the problem of approximation of equidistant data by analytic


functions. Part A. On the problem of smoothing or graduation. A rst class of analytic approximation formulae. Quart. Appl. Math., 4:4599, 1946 (cited on page 213).

[Sch46b]

I. J. Schoenberg. Contributions to the problem of approximation of equidistant data by analytic functions. Part B. On the problem of osculatory interpolation. A second class of analytic
approximation formulae. Quart. Appl. Math., 4:112141, 1946 (cited on page 213).

[Sch66]

Runge.

doi:

10.

ber empirische Funktionen und die Interpolation zwischen quidistanten Ordinaten. Z.

Math. Phys., 46:224243, 1901 (siehe Seite 197).

I. J.

doi:

On Hermite-Birkho interpolation. J. Math. Anal. Appl., 16(3):538543, 1966.


10.1016/0022-247X(66)90160-0 (cited on page 202).

Schoenberg.

[Sha79]

A. Shamir. How to share a secret. Comm. ACM, 22(11):612613, 1979.


359176 (cited on page 213).

[Tay45]

W. J. Taylor. Method of lagrangian curvilinear interpolation. J. Res. Nat. Bur. Standards,


35(2):151155, 1945. doi: 10.6028/jres.035.006 (cited on page 212).

[Tch54]

P. L.

Tchebychef.

doi:

10.1145/359168.

Thorie des mcanismes connus sous le nom de paralllogrammes. Mm. Acad.

Impr. Sci. St.-Ptersbourg (Savants trangers), 7 :539568, 1854 (cf. page 182).

[Tch59]

P. L. Tchebychef. Sur les questions de minima qui se rattachent la reprsentation approximative


des fonctions. Mm. Acad. Impr. Sci. St.-Ptersbourg (6), 7 :199291, 1859 (cf. page 182).

[Tre+11]

L. N. Trefethen et al. Chebfun version 4.2. http://www.maths.ox.ac.uk/chebfun/. The Chebfun


Development Team, 2011 (cited on page 213).

[Tre00]

L. N. Trefethen. Spectral methods in


(cited on page 213).

[TW91]

L. N. Trefethen and J. A. C. Weideman. Two results on polynomial interpolation in equally


spaced points. J. Approx. Theory, 65(3):247260, 1991. doi: 10.1016/0021- 9045(91)90090- W
(cited on page 201).

[VP10]

C.-J. de la Valle Poussin. Sur les polynmes d'approximation et la reprsentation approche d'un
angle. Bull. Cl. Sci. Acad. Roy. Belg., 12 :808844, 1910 (cf. page 182).

[War79]

E.

[Wei85]

K. Weierstrass. ber die analytische Darstellbarkeit sogenannter willkrlicher Functionen einer


reellen Vernderlichen. Sitzungsber. Preuss. Akad. Wiss. Berlin :633639, 789805, 1885 (siehe Seite 180).

Matlab.

SIAM, 2000.

doi:

10.1137/1.9780898719598

Problems concerning interpolations. Philos. Trans. Roy. Soc. London, 69:5967, 1779.
10.1098/rstl.1779.0008 (cited on page 212).

Waring.

doi:

216

Chapitre 7

Formules de quadrature
L'valuation d'une intgrale dnie 1 de la forme
Z b
I(f ) =
f (x) dx,
a

o [a, b] est un intervalle non vide et born de R et f est une fonction d'une variable relle, continue
sur [a, b], valeurs relles, est un problme classique intervenant dans de nombreux domaines, qu'ils
soient scientiques ou non. Nous nous intressons dans le prsent chapitre l'utilisation de formules
de quadrature 2 (quadrature rules en anglais) qui approchent la valeur de l'intgrale par une somme
pondre nie de valeurs de la fonction f , et, lorsqu'elle en possde, de ses drives, en des points choisis.
Les formules que nous considrons pour ce faire sont essentiellement de la forme

In (f ) =

n
X

(7.1)

i f (xi ),

i=0

o n est un entier naturel, les coecients {i }i=0,...,n sont rels et les points {xi }i=0,...,n appartiennent
l'intervalle [a, b], mais d'autres types de formules sont galement voqus.
Les raisons conduisant une valuation seulement approche d'une intgrale comme I(f ) sont varies.
Tout d'abord, si l'on a, en vertu du thorme fondamental de l'analyse (voir le thorme B.129), que

I(f ) = F (b) F (a),


o la fonction F est une primitive de f on ne sait pas toujours, mme en ayant recours des techniques
plus ou moins sophistiques telles que le changement de variable ou l'intgration par parties, exprimer
F en termes de fonctions algbriques, trigonomtriques, exponentielles ou logarithmiques. Lorsque c'est
toutefois le cas, l'valuation numrique d'une telle intgrale peut encore s'avrer dicile et coteuse en
pratique, tout en n'tant ralise qu'avec un certain degr d'exactitude en arithmtique en prcision nie
et donc, au nal, approche 3 . Par ailleurs, on a vu dans la section 1.4 que l'valuation numrique d'une
intgrale par une formule de rcurrence pouvait fournir un rsultat catastrophique si l'on ne prenait
pas garde d'ventuels problmes de conditionnement, ce qui nuit la gnricit de l'implmentation
de la formule de rcurrence considre et exige du praticien une certaine familiarit avec la notion de
stabilit numrique d'un algorithme. Enn, le recours une valuation approche est obligatoire lorsque
l'intgrand est solution d'une quation fonctionnelle (une quation direntielle par exemple) que l'on ne
sait pas explicitement rsoudre.
1. On sait qu'une telle intgrale existe en vertu de la proposition B.128.
2. L'usage du terme  quadrature  remonte l'Antiquit et au problme, pos par l'cole pythagoricienne, de la construction la rgle et au compas d'un carr ayant la mme aire qu'une surface donne.
3. En guise d'illustration, on peut reprendre l'exemple donn en introduction du livre de Davis et Rabinowitz [DR84],
Z
0

dx
1
= ln
1 + x4
4 2

t2 +
t2

2t + 1
2t + 1

1
+
2 2

217


arctan

t
2t


+ arctan

t
2+t


.

CHAPITRE 7. FORMULES DE QUADRATURE

Nous limitons dans ces pages notre expos la classe des formules de quadrature interpolatoires (interpolatory quadrature rules en anglais), en mettant plus particulirement l'accent sur les formules de
NewtonCotes 4 , qui sont un cas particulier de formules de quadrature bases sur l'interpolation de La-

grange introduite dans le prcdent chapitre. D'autres formules de quadrature trs couramment employes
sont brivement prsentes dans la section 7.6.

7.1

Gnralits

Dans l'expression (7.1), les points xi et les coecients i , i = 0, . . . , n, sont respectivement appels

nuds (nodes en anglais) et poids (weights en anglais) de la formule de quadrature.

Comme pour les problmes d'interpolation tudis au chapitre prcdent, la prcision d'une formule
de quadrature pour une fonction f continue sur l'intervalle [a, b] donne se mesure notamment en valuant
l'erreur de quadrature
(7.2)

En (f ) = I(f ) In (f ).

On dnit par ailleurs le degr (algbrique) d'exactitude 5 ((algebraic) degree of exactness en anglais)
d'une formule de quadrature In (f ) comme le plus grand entier r 0 pour lequel

I(f ) = In (f ), f Pm , m {0, . . . , r}.


Enn, une formule de quadrature interpolatoire est obtenue en remplacant la fonction f dans l'intgrale
par son polynme d'interpolation de Lagrange (voir la section 6.2 du prcdent chapitre) ou de Hermite
ou de Birkho (voir la sous-section 6.2.4). Dans le premier cas, on pose ainsi
b

Z
In (f ) =

(7.3)

n f (x) dx,
a

o n f dsigne le polynme d'interpolation de Lagrange de f associ un ensemble de nuds {xi }i=0,...,n


donn. En vertu de la dnition 6.14, on a alors, par la proprit de linarit de l'intgrale,

Z
In (f ) =
a

n
X

!
f (xi ) li (x)

i=0

dx =

n
X

Z
f (xi )

i=0

li (x) dx,
a

et, en identiant avec (7.1), on trouve que les poids de quadrature sont simplement les intgrales respectives des polynmes de Lagrange {li }i=0,...,n sur l'intervalle [a, b], c'est--dire

Z
i =

li (x) dx, i = 0, . . . , n.

(7.4)

On a la caractrisation suivante pour les formules de quadrature interpolatoires de la forme (7.1).

Thorme 7.1 Soit n un entier positif. Toute formule de quadrature utilisant n + 1 nuds distincts et
donne par (7.1) est interpolatoire si et seulement si son degr d'exactitude au moins gal n.
Dmonstration. Soit un intervalle non vide [a, b] de R. Pour toute formule de quadrature interpolatoire
n + 1 nuds distincts xi , i = 0, . . . , n, on dduit de l'galit (6.24) que, pour toute fonction polynomiale f de
degr infrieur ou gal n, l'erreur de quadrature En (f ) est nulle.

4. Roger Cotes (10 juillet 1682 - 5 juin 1716) tait un mathmaticien anglais, premier titulaire de la chaire de professeur
plumien d'astronomie et de philosophie exprimentale de l'universit de Cambridge. Bien qu'il ne publia qu'un article de
son vivant, il apporta d'importantes contributions en calcul intgral, en thorie des logarithmes et en analyse numrique.
5. On trouve parfois aussi le terme de degr (algbrique) de prcision ((algebraic) degree of precision en anglais).

218

7.2. FORMULES DE NEWTONCOTES

Rciproquement, si le degr d'exactitude de la formule de quadrature est au moins gal n, les poids de
quadrature i , i = 0, . . . , n, doivent vrier les relations
n
X
n
X

i = b a,

i=0

1 2
(b a2 ),
2
..
.

i xi =

i=0

n
X

i xi n =

i=0

(7.5)

1
(bn+1 an+1 ),
n+1

qui constituent un systme linaire de n + 1 quations n + 1 inconnues admetttant une unique solution (le
dterminant qui lui est associ tant de Vandermonde et les nuds xi , i = 0, . . . , n, tant supposs distincts). On
remarque alors que la formule de quadrature (7.3) est par dnition exacte pour toute fonction polynomiale de
degr infrieur ou gal n, et plus particulirement pour tout polynme d'interpolation de degr n associ aux
nuds xi , i = 0, . . . , n. Le choix (7.4) satisfait donc chacune des quations de (7.5).


Si le polynme d'interpolation considr est de Hermite ou, plus gnralement, de Birkho, la formule
de quadrature prend la forme (NOTATION)

Iap (f ) =

n0
X
i=0

0,i f (x0,i ) +

n1
X

1,i f (x1,i ) + +

i=0

nm
X

m,i f (m) (xm,i ).

(7.6)

i=0

COMPLETER

7.2

Formules de NewtonCotes

Les formules de quadrature de NewtonCotes (NewtonCotes formulae ou NewtonCotes quadrature


rules en anglais) sont bases sur l'interpolation de Lagrange nuds quirpartis dans l'intervalle [a, b] ;

ce sont donc des cas particuliers de formules de quadrature interpolatoires de Lagrange. Pour n un entier
positif x, notons xi = x0 + ih, i = 0, . . . , n, les nuds de quadrature. On peut dnir deux types de
formules de NewtonCotes :
les formules fermes (closed formulae en anglais), pour lesquelles les extrmits de l'intervalle [a, b]
font partie des nuds, c'est--dire x0 = a, xn = b et h = ba
n (n 1), et dont les rgles bien
connues du trapze (n = 1) et de Simpson (n = 2) sont des cas particuliers,
ba
les formules ouvertes (open formulae en anglais), pour lesquelles x0 = a + h, xn = b h et h = n+2
(n 0), auxquelles appartient la rgle du point milieu (n = 0).
Une proprit intressante de ces formules est que leurs poids de quadrature ne dpendent explicitement que de n et h et non de l'intervalle d'intgration [a, b] ; ceux-ci peuvent donc tre calculs a priori.
En eet, en introduisant, dans le cas des formules fermes, le changement de variable

x = x0 + th = a + th, avec t [0, n],


on vrie que, pour tout (i, j) {0, . . . , n}2 , i 6= j , n 1,

tj
x xj
a + th (a + jh)
=
=
, t [0, n],
xi xj
a + ih (a + jh)
ij
et donc

li (x) =

n
Y
tj
j=0
j6=i

ij

d'o l'expression suivante pour les poids de quadrature


Z b
Z nY
n
tj
i =
li (x) dx = h
dt, i {0, . . . , n}.
a
0 j=0 i j
j6=i

219

CHAPITRE 7. FORMULES DE QUADRATURE

On obtient ainsi que

In (f ) = h

n
X

wi f (xi ), avec wi =

n
nY

Z
0

i=0

tj
dt.
ij
j=0
j6=i

En procdant de manire analogue pour les formules ouvertes, on trouve que

In (f ) = h

n
X

wi f (xi ), avec wi =

n
n+1 Y

i=0

tj
dt,
ij
j=0
j6=i

en posant que x1 = x0 h = a et xn+1 = x0 + (n + 1)h = b. Dans le cas particulier o n = 0, on a


w0 = 2 puisque l0 (x) = 1.
Ajoutons par ailleurs, en vertu d'une proprit de symtrie des polynmes de Lagrange, que les poids
wi et wni sont gaux pour i = 0, . . . , n pour les formules fermes (n 1) et ouvertes (n 0). Pour cette
raison, on ne tabule les valeurs des poids que pour 0 i n2 (voir la table 7.1).
n
1
2
3
4
5
6

w0
1
2
1
3
3
8
14
45
95
288
3
10

Table 7.1:

de l'entier n.

w1

w2

w3

(rgle du trapze)
4
3
9
8
64
45
375
288
3
2

(rgle de Simpson)
(rgle des trois huitimes)
24
45
125
144
3
10

(rgle de Boole 6 [Boo60])

9
5

w0

2
3
2
8
3
55
24
33
10

1
2
3
4

(rgle de Weddle 7 [Wed54])

w1

w2

(rgle du point milieu)

4
3
5
24
21

39
5

Poids des formules de NewtonCotes fermes ( gauche) et ouvertes ( droite) pour quelques valeurs

On remarque la prsence de poids ngatifs pour certaines formules ouvertes 8 , ce qui peut conduire
des instabilits dues aux erreurs d'annulation (voir la sous-section 1.4.1) lors de l'valuation numrique
de la formule. La convergence de la suite des intgrales approches par une formule de Newton-Cotes
n + 1 nuds n'est par ailleurs pas assure lorsque n tend vers l'inni, mme si l'intgrand est une fonction
analytique sur l'intervalle d'intgration 9 (ce comportement est relier la divergence de l'interpolation
de Lagrange avec nuds quirpartis pour la fonction de Runge (6.30)). Pour ces deux raisons, l'utilisation
des formules de NewtonCotes (fermes ou ouvertes) utilisant plus de huit nuds reste dlicate et est
gnralement dconseille en pratique. Ainsi, si l'on souhaite amliorer la prcision de l'approximation
d'une intgrale obtenue par une formule de quadrature de NewtonCotes donne, on fera plutt appel
des formules composes (voir la section 7.4) ou encore aux formules de Gauss (voir les notes de n de
chapitre).
Passons maintenant la prsentation de quelques cas particuliers des formules de quadrature de
NewtonCotes.
6. George Boole (2 novembre 1815 - 8 dcembre 1864) tait un mathmaticien et philosophe anglais. Il est le crateur
de la logique moderne, fonde sur une structure algbrique et smantique, dont les applications se sont avres primordiales
pour la thorie des probabilits, les systmes informatiques ou encore les circuits lectroniques et tlphoniques. Il a aussi
travaill dans d'autres domaines des mathmatiques, publiant notamment des traits sur les quations direntielles et les
dirences nies.
7. Thomas Weddle (30 novembre 1817 - 4 dcembre 1853) tait un mathmaticien anglais, connu pour ses travaux en
analyse et en gomtrie.
8. La formule ferme neuf nuds ainsi que toutes les formules fermes plus de onze points prsentent elles aussi au
moins un poids ngatif.
9. On peut nanmoins montrer qu'on a convergence, en l'absence d'erreur d'arrondi, si l'intgrand est une fonction
analytique rgulire dans une rgion susamment grande du plan complexe contenant cet intervalle (voir [Dav55]).

220

7.2. FORMULES DE NEWTONCOTES

Rgle du point milieu (midpoint rule en anglais). Cette formule, aussi appele rgle du rectangle 10

(rectangle rule en anglais), est obtenue en remplaant dans l'intgrale la fonction f par la valeur qu'elle
prend au milieu de l'intervalle [a, b] (voir la gure 7.1), d'o


a+b
I0 (f ) = (b a)f
.
(7.9)
2
Le poids de quadrature vaut donc 0 = b a et le nud est x0 =

a+b
.
2

f (x)

a+b
2

Illustration de la rgle du point milieu. La valeur approche de l'intgrale I(f ) correspond l'aire
colore en bleu.

Figure 7.1:

En supposant la fonction f de classe C 2 sur [a, b], on peut utiliser le thorme 7.2 pour montrer que
l'erreur de quadrature de cette formule vaut

E0 (f ) =

(b a)3 00
f (), avec ]a, b[.
24

Son degr d'exactitude est par consquent gal un.

Rgle du trapze (trapezoidal rule en anglais). On obtient cette formule en remplaant dans

l'intgrale la fonction f par son polynme d'interpolation de Lagrange de degr un aux points a et b (voir
la gure 7.2). Il vient alors
ba
I1 (f ) =
(f (a) + f (b)) .
(7.10)
2
ba
Les poids de quadrature valent 0 = 1 =
, tandis que les nuds sont x0 = a et x1 = b.
2
2
En supposant f de classe C sur [a, b], on obtient la valeur suivante pour l'erreur de quadrature

E1 (f ) =

(b a)3 00
f (), avec ]a, b[.
12

et l'on en dduit que cette formule un degr d'exactitude gal un.


10. D'autres formules de quadrature interpolatoires sont bases sur un polynme d'interpolation de Lagrange de degr
nul (et donc un seul nud de quadrature) : ce sont les rgles du rectangle gauche
et

I0 (f ) = (b a)f (a),

(7.7)

I0 (f ) = (b a)f (b),

(7.8)

du rectangle droite

dont le degr d'exactitude est gal zro. Elles ne font cependant pas partie des formules de NewtonCotes.

221

CHAPITRE 7. FORMULES DE QUADRATURE

f (x)

a
Figure 7.2:

colore en bleu.

Illustration de la rgle du trapze. La valeur approche de l'intgrale I(f ) correspond l'aire

Rgle de Simpson (Simpson's rule en anglais). Cette dernire formule est obtenue en substituant
dans l'intgrale la fonction f son polynme d'interpolation de Lagrange de degr deux aux nuds
a+b
x0 = a , x1 =
et x2 = b (voir la gure 7.3) et s'crit
2




ba
a+b
I2 (f ) =
f (a) + 4 f
+ f (b) .
(7.11)
6
2
Les poids de quadrature sont donns par 0 = 2 =

ba
ba
et 1 = 2
.
6
3
f (x)

Figure 7.3:

colore en bleu.

a+b
2

Illustration de la rgle de Simpson. La valeur approche de l'intgrale I(f ) correspond l'aire

On montre, grce au thorme 7.2, que, si la fonction f est de classe C 4 sur l'intervalle [a, b], l'erreur
de quadrature peut s'crire

E2 (f ) =

(b a)5 (4)
f (), avec ]a, b[.
2880

Cette formule a donc un degr d'exactitude gal trois.

7.3

Estimations d'erreur

Nous drivons dans cette section des expressions permettant ...


222

(7.12)

7.3. ESTIMATIONS D'ERREUR

7.3.1

Cas des formules de NewtonCotes

Dmontrons maintenant le thorme fournissant les estimations des erreurs de quadrature des rgles
du point milieu, du trapze et de Simpson annonces plus haut.

Thorme 7.2 Soit [a, b] un intervalle non vide et born de R, n un entier positif et f une fonction de
C n+2 ([a, b]) si n est pair, de C n+1 ([a, b]) si n est impair. Alors, l'erreur de quadrature pour les formules
de NewtonCotes fermes est donne par

Z b
Kn
x n+1 (x) dx < 0,
f (n+2) (), Kn =
(n + 2)!
a
En (f ) =
Z b

Kn

f (n+1) (), Kn =
n+1 (x) dx < 0,

(n + 1)!
a

si n est pair,
si n est impair,

avec a < < b, et par

Z b
Kn0
(n+2)
0
f
(), Kn =
x n+1 (x) dx > 0,
(n + 2)!
a
En (f ) =
Z
b

Kn0

f (n+1) (), Kn0 =


n+1 (x) dx > 0,

(n + 1)!
a

si n est pair,
si n est impair,

avec a < < b, pour les formules de NewtonCotes ouvertes.


Dmonstration. Traitons tout d'abord le cas d'une formule ferme avec n pair. En intgrant la relation
(6.26) entre a et b et en posant
Z x
n+1 (x) =
n+1 (s) ds,

on obtient, aprs une intgration par parties (lgitime en vertu du lemme 6.17),
Z b
Z b
h
ib
d
[x0 , . . . , xn , x]f dx.

n+1 (x)
En (f ) =
n+1 (x) [x0 , . . . , xn , x]f dx = n+1 (x) [x0 , . . . , xn , x]f
dx
x=a
a
a

Il est clair que n+1 (a) = 0 ; de plus, la fonction n+1 a+b
+ tant impaire 11 , on a n+1 (b) = 0, d'o
2
Z b
Z b
f (n+2) ((x))
En (f ) =
n+1 (x) [x0 , . . . , xn , x, x]f dx =
n+1 (x)
dx,
(n + 2)!
a
a
avec une fonction continue valeurs dans ]a, b[, en utilisant respectivement (6.29) et le thorme 6.16. Enn,
comme 12 on a n+1 (x) > 0 pour a < x < b, on dduit de la formule de la moyenne gnralise (voir le thorme
11. Ceci dcoule d'une proprit de la fontion polynomiale associe au n + 1ime

polynme factoriel,

n+1 (t) = t(t 1) . . . (t n).

Par utilisation du changement de variable x = x0 + th, on a en eet


n+1 (x) = hn+1 n+1 (t).

et n+1 n
+ sont polynomiales, de degr gal n + 1, et possdent les
2

Il est alors clair que les fonctions n+1 n2


mmes n + 1 racines n2 , n2 1,. . . , n2 ; elles ne dirent donc que d'un facteur constant. En comparant les coecients de
leurs termes de plus haut degr, on trouve nalement


n+1

n
2

= (1)n+1 n+1

n
2


.

12. Pour tablir ce rsultat, il faut tout d'abord remarquer que le polynme n+1 est de degr impair et a pour seules
racines les points a, x1 , . . . , xn1 , b. On a par consquent n+1 (s) > 0 pour a < s < x1 , d'o n+1 (x) > 0 pour a < x < x1 .
D'autre part, on a, pour a < x + h < a+b
avec x 6= xi , i = 0, . . . , n, et en utilisant le changement de variable x = x0 + th,
2





n
n+1 (x + h) n+1 (t + 1) (t + 1)t . . . (t n + 1) t + 1
t+1
2

=
=
=
=









n+1 (t)
t(t 1) . . . (t n)
tn
(n + 1) (t + 1)
(n + 1)
n+1 (x)

n
2

1
1+

2
n

< 1,

d'o |n+1 (x + h)| < |n+1 (x)|. Ceci montre que la contribution ngative de n+1 (s) l'intgrale n+1 (x) sur le sousintervalle [x1 , x2 ] est de moindre importance que la contribution positive sur [a, x1 ], d'o n+1 (x) > 0 pour a < x < x2 .
Cet argument peut tre rpt de manire couvrir l'ensemble de l'intervalle a, a+b
et l'antisymtrie de n+1 par rapport
2
a+b
sut
alors
pour
conclure.
2

223

CHAPITRE 7. FORMULES DE QUADRATURE

B.132) que
En (f ) =

f (n+2) ()
(n + 2)!

n+1 (x) dx,


a

avec a < < b, d'o, aprs une intgration par parties,


En (f ) =

f (n+2) ()
(n + 2)!

x n+1 (x) dx.


a

Dans le cas o l'entier n est impair, on note que la fonction n+1 ne change pas de signe sur l'intervalle
[b h, b]. On a alors, en vertu de la formule de la moyenne gnralise et de l'galit (6.27),
bh

Z
En (f )

n+1 (x) [x0 , . . . , xn , x]f dx

n+1 (x) [x0 , . . . , xn , x]f dx +

bh

a
bh

n+1 (x) [x0 , . . . , xn , x]f dx +

=
a

f (n+1) ( 0 )
(n + 1)!

n+1 (x) dx,


bh

avec a < 0 < b. Par les proprits (6.15) et (6.17) des dirences divises, on peut alors crire
Z bh
Z bh
n+1 (x) [x0 , . . . , xn , x]f dx =
n (x) ([x0 , . . . , xn1 , x]f [x0 , . . . , xn ]f ) dx,
a

avec n+1 (x) = (x xn ) n (x). En posant alors


Z

n (x) =

n (s) ds,
a

on a, n 1 tant pair, n (a) = n (b h) = 0 et n (x) est strictement positive pour tout x dans ]a, b h[, et l'on
trouve, aprs une intgration par parties et l'application de la formule de la moyenne gnralise,
Z bh
Z bh
Z
f (n+1) ( 00 ) bh
n+1 (x) [x0 , . . . , xn , x]f dx =
n (x) [x0 , . . . , xn1 , x]f dx =
n (x) dx,
(n + 1)! a
a
a
avec a < 00 < b. On a donc tabli que
En (f ) =

f (n+1) ( 00 )
(n + 1)!

f (n+1) ( 0 )
(n + 1)!

bh

n (x) dx +
a

n+1 (x) dx.


bh

Puisque le rel b est la plus grande racine de n+1 et que n+1 (x) > 0 pour x > b, on a n+1 (x) 0 pour tout x
dans [b h, b] et donc
Z b
n+1 (x) dx < 0.
bh

On sait par ailleurs que n (x) > 0 pour a < x < b h, d'o
Z bh
n (x) dx > 0.
a

La fonction f (n+1) tant continue sur l'intervalle [a, b], la formule de la moyenne discrte (voir le thorme B.133)
implique alors l'existence d'un rel strictement compris entre a et b tel que
 Z bh

Z b
f (n+1) ()

n (x) dx +
n+1 (x) dx ,
En (f ) =
(n + 1)!
a
bh
et l'on conclut en remarquant que
Z b
h
ib
n+1 (x) dx = (b x) n (x)

x=bh

bh

n (x) dx =
bh

n (x) dx.
bh

Les rsultats pour les formules ouvertes s'obtiennent exactement de la mme faon que pour les formules
fermes, en remplaant les fonctions i , avec i = n, n + 1, introduites dans les preuves par les fonctions
Z x
e
i (x) =
i (s) ds, i = n, n + 1,
a

224

7.3. ESTIMATIONS D'ERREUR

qui dirent des prcdentes par le fait que l'on a maintenant a < x0 et xn < b. On montre nanmoins, par des
e n+1 (a) =
e n+1 (b) = 0 et
e n+1 (x) < 0, a < x < b,
arguments similaires ceux prcdemment invoqus, que
pour tout entier n pair.


Ce thorme montre que le degr d'exactitude d'une formule de NewtonCotes n + 1 nuds est gal
n + 1 lorsque n est pair et n lorsque n est impair, que la formule soit ferme ou ouverte. Il est donc en
gnral prfrable d'employer une formule avec un nombre impair de nuds.
Notons que l'on peut galement chercher faire apparatre la dpendance de l'erreur de quadrature
par rapport au pas h et utilisant le changement de variable x = x0 + th. On obtient ainsi facilement le
rsultat suivant.

Corollaire 7.3 Sous les hypothses du thorme 7.2, on a les expressions suivantes pour les erreurs de
quadrature respectives des formules de NewtonCotes fermes et ouvertes
Z n
Mn
n+3 (n+2)
t n+1 (t) dt < 0,
h
f
(), Mn =
(n + 2)!
Z0 n
En (f ) =
Mn

n+1 (t) dt < 0,


hn+2 f (n+1) (), Mn =
(n + 1)!
0

si n est pair,
si n est impair,

avec a < < b,

Z n+1

Mn0

n+3
(n+2)
0

t n+1 (t) dt > 0,


f
(), Mn =
(n + 2)! h
1
En (f ) =
Z
n+1

Mn0

n+1 (t) dt > 0,


hn+2 f (n+1) (), Mn0 =

(n + 1)!
1

si n est pair,
si n est impair,

avec a < < b.

7.3.2

Reprsentation intgrale de l'erreur de quadrature *

En vertu de la proprit de linarit de l'intgrale (et de la drive), l'erreur de quadrature (7.2) peut
tre vue comme le rsultat l'action d'un oprateur linaire sur une fonction susamment rgulire. Le
rsultat suivant, d Peano 13 [Pea13] et donn ici sous une forme gnrale s'adaptant toutes les formules de quadrature interpolatoires prcdemment dcrites, utilise ce fait pour fournir une reprsentation
lgante de l'erreur.

Thorme 7.4 (reprsentation intgrale de l'erreur de quadrature) REPRENDRE Soit n N.


Supposons que E(f ) = 0 pour tout f de Pn . Alors, pour tout f de classe C n+1 ([a, b]), on a

Z
E(f ) =

f (n+1) (t) K(t) dt,

avec

1
E(x 7 [(x t)+ ]n ),
n!
o ()+ dsigne la partie positive. La fonction K est appele le noyau de Peano (Peano kernel en
anglais) de la formule de quadrature/de l'oprateur E .
K(t) =

A REPRENDRE Le reste du dveloppement de Taylor avec reste intgral de f (x) au point


Z x
Z b
1
1
(x t)n f (n+1) (t) dt =
[(x t)+ ]n f (n+1) (t) dt.
n! a
n! a
L'application de l'oprateur d'erreur de quadrature au dveloppement conduit alors


Z b
1
E(f ) =
E x 7
[(x t)+ ]n f (n+1) (t) dt ,
n!
a
Dmonstration.

a est

13. Giuseppe Peano (27 aot 1858 - 20 avril 1932) tait un mathmaticien italien. Analyste puis logicien, il s'est principalement intress aux fondements des mathmatiques, ainsi qu' la thorie des langages.

225

CHAPITRE 7. FORMULES DE QUADRATURE

la formule de quadrature considre tant de degr d'exactitude gal n. Pour arriver la reprsentation donne
dans l'nonc partir de cette dernire identit, il faut pouvoir changer l'intgrale avec E .


On peut montrer que les noyaux de Peano associs certaines classes de formules de quadrature sont
de signe constant sur l'intervalle [a, b]. C'est notamment le cas pour les formules de NewtonCotes (voir
[Ste27] ). Par utilisation de la formule de la moyenne gnralise (voir le thorme B.132), il vient alors
Z b
(n+1)
E(f ) = f
()
K(t) dt avec ]a, b[.
a

On obtient par cette technique une autre preuve des rsultats du thorme 7.2.

Exemple d'application de la reprsentation intgrale de l'erreur de quadrature. La rgle de


Simpson a un degr d'exactitude gal trois (a montrer), l'application du thorme conduit par consquent
!

3
Z b
1
1
1
4 a+b
3
3
3
(x t)+ dx (a t)+
(b t)+ .
K(t) =
t
3!
3
3
2
3
a
+
Par dnition de la partie positive, il vient
Z b
Z b
(b t)4
(x t)3+ dx =
(x t)3+ dx =
4
a
t
et
(a

t)3+


= 0,

(
3
0
a+b
3
t
=
a+b
2
t
+
2

si t
si t <

a+b
2
a+b
2

, (b t)3+ = (b t)3 .

retrouver (7.12)

7.4

Formules de quadrature composes

Les formules de quadrature introduites jusqu' prsent ont toutes t obtenues en substituant l'intgrand son polynme d'interpolation de Lagrange nuds quirpartis sur l'intervalle d'intgration,
la valeur de l'intgrale considre tant alors approche par la valeur de l'intgrale du polynme. Pour
amliorer la prcision de cette approximation, on est donc tent d'augmenter le degr de l'interpolation polynomiale utilise. Le phnomne de Runge (voir la section 6.2.3 du prcdent chapitre) montre
cependant qu'un polynme d'interpolation de degr lev peut, lorsque les nuds d'interpolation quirpartis, fournir une approximation catastrophique d'une fonction pourtant trs rgulire, ce qui a des
consquences dsastreuses lorsque l'on cherche, par exemple, approcher l'intgrale
Z 5
dx
= 2 arctan(5) = 2, 74680153389 . . .
(7.13)
2
5 1 + x
par une formule de NewtonCotes (voir la table 7.2). Il a d'ailleurs t dmontr par Plya 14 [Pl33] que
les formules de NewtonCotes ne convergent gnralement pas lorsque l'entier n tend vers l'inni, mme
lorsque la fonction intgrer est analytique. Ceci, alli l'observation que les poids de quadrature n'ont
pas tous le mme signe partir de n = 2 pour les formules ouvertes et n = 8 pour les formules fermes,
ce qui qui pose des problmes de stabilit numrique, conduit les praticiens ne pas, ou peu, utiliser
les formules de quadrature de NewtonCotes dont le nombre de nuds est suprieur ou gal huit. Il
existe d'autres formules de quadrature interpolatoires, comme les formules de Gauss, aux nuds non
quirpartis, qui ne sont pas sujettes ce problme de divergence, mais dont le calcul des nuds et poids
de quadrature lorsque le nombre de nuds devient important peut s'avrer coteux (cette armation
tant nanmoins temprer, voir la section 7.6).
Il est cependant possible construire trs simplement des formules de quadrature dont la mise en uvre
est aise et dont la prcision pourra tre aussi grande que souhaite : ce sont les formules de quadrature
composes (composite quadrature rules ou compound quadrature rules en anglais).
14. George Plya (Plya Gyrgy en hongrois, 13 dcembre 1887 - 7 septembre 1985) tait un mathmaticien amricain
d'origine austro-hongroise. Il t d'importantes contributions la combinatoire, la thorie des nombres et la thorie des
probabilits. Il rdigea galement plusieurs ouvrages sur l'heuristique et la pdagogie des mathmatiques.

226

7.4. FORMULES DE QUADRATURE COMPOSES

n
1
2
3
4
5
6
7
8
9
10

In (f )
5,19231
6,79487
2,08145
2,374
2,30769
3,87045
2,89899
1,50049
2,39862
4,6733

Valeur de In (f ) obtenue par une formule de quadrature de NewtonCotes ferme en fonction de


1
n pour l'approximation de l'intgrale (7.13) de la fonction de Runge f (x) = 1+x
2 . On n'observe a priori pas de
convergence de la valeur approche vers la valeur exacte lorsque n augmente.
Table 7.2:

7.4.1

Principe

Les formules de quadrature interpolatoires composes utilisent la technique de l'interpolation polynomiale par morceaux introduite dans la section 6.3, qui consiste une interpolation polynomiale nuds
quirpartis de bas degr sur des sous-intervalles obtenus en partitionnant l'intervalle d'intgration. On
peut contruire de nombreuses classes de formules de quadrature interpolatoires composes, mais nous
ne prsentons ici que les plus courantes, en lien avec les formules de NewtonCotes qui viennent d'tre
tudies.
tant donn un entier m suprieur ou gal a 1, on pose

H=

ba
m

et l'on introduit une partition de l'intervalle [a, b] en m sous-intervalles [xj1 , xj ], j = 1, . . . , m, de


longueur H , avec xi = a + iH , i = 0, . . . , m. Comme
Z b
m Z xj
X
I(f ) =
f (x) dx =
f (x) dx,
a

j=1

xj1

il sut d'approcher chacune des intgrales apparaissant dans le membre de droite de l'galit ci-dessus
en utilisant une formule de quadrature interpolatoire, gnralement la mme sur chaque sous-intervalle,
pour obtenir une formule compose, conduisant une approximation de I(f ) de la forme

Im,n (f ) =

m X
n
X

(7.14)

i,j f (xi,j ),

j=1 i=0

o les coecients i,j et les points xi,j , i = 0, . . . , n, dsignent respectivement les poids et les nuds de
la formule de quadrature interpolatoire utilise sur le j ime sous-intervalle, j = 1, . . . , m, de la partition
de [a, b]. Dans les formules de NewtonCotes composes, la formule de quadrature utilise sur chaque
sous-intervalle est une mme formule de NewtonCotes, ferme ou ouverte, n + 1 nuds quirpartis,
n 0, et l'on a par consquent

xi,j = xj1 + i h, i = 0, . . . , n, j = 1, . . . , m,
H
avec h = H
n , n 1, pour une formule ferme, et h = n+2 , n 0, pour une formule ouverte, les poids de
quadrature i,j = h wi tants indpendants de j .
En notant que l'erreur de quadrature d'une formule compose, note Em,n (f ), se dcompose de la
manire suivante
!
Z xj
n
m
X
X
Em,n (f ) = I(f ) Im,n (f ) =
f (x) dx
i,j f (xi,j ) ,
j=1

227

xj1

i=0

CHAPITRE 7. FORMULES DE QUADRATURE

on obtient sans mal, grce l'analyse d'erreur ralise dans la prcdente section, le rsultat suivant pour
les formules de NewtonCotes composes.

Thorme 7.5 Soit [a, b] un intervalle non vide et born de R, n un entier positif et f une fonction de
C n+2 ([a, b]) si n est pair, de C n+1 ([a, b]) si n est impair. Alors, en conservant les notations du corollaire
7.3, l'erreur de quadrature pour les formules de NewtonCotes composes vaut

Mn b a n+2 (n+2)
H
f
()
(n + 2)! nn+3
Em,n (f ) =
Mn b a n+1 (n+1)

H
f
()
(n + 1)! nn+2

si n est pair,
si n est impair,

avec a < < b, pour les formules fermes et

ba
Mn0
H n+2 f (n+2) ()
(n + 2)! (n + 2)n+3
Em,n (f ) =
Mn0
ba

H n+1 f (n+1) ()
(n + 1)! (n + 2)n+2

si n est pair,
si n est impair,

avec a < < b.


Dmonstration.
Considrons le cas d'une formule de quadrature compose de NewtonCotes ferme.
Puisque la mme formule de quadrature est utilise sur chacun des sous-intervalles [xj1 , xj ], j = 1, . . . , m, il
dcoule du corollaire 7.3, en remarquant que la constante Mn ne dpend pas de l'intervalle d'intgration, que

Mn
n+3 Pm
(n+2)

(j ) si n est pair,
(n + 2)! h
j=1 f
Em,n (f ) =
P
Mn

(n+1)

(j ) si n est impair,
hn+2 m
j=1 f
(n + 1)!

avec xj1 < j < xj , j = 1, . . . , m. Par dnition de H , il vient alors

Mn
ba
n+2 Pm
(n+2)

(j ) si n est pair,
(n + 2)! mnn+3 H
j=1 f
Em,n (f ) =
P
Mn
ba

(n+1)

H n+1 m
(j ) si n est impair,
j=1 f
(n + 1)! mnn+2
dont se dduit l'estimation annonce en appliquant le thorme de la moyenne discrte. L'estimation pour les
formules ouvertes s'obtient de manire analogue.


On dduit de ce thorme que, n x, l'erreur de quadrature d'une formule de NewtonCotes


compose tend vers 0 lorsque m tend vers l'inni, c'est--dire lorsque H tend vers 0, ce qui assure
la convergence de la valeur approche de l'intgrale vers sa valeur exacte (voir la table 7.3). De plus, le
degr d'exactitude d'une formule compose concide avec celui de la formule dont elle drive. En pratique,
on utilise gnralement des formules de NewtonCotes composes bases sur des formules peu de nuds
(n 2), ce qui garantit que tous les poids de quadrature sont positifs. cet gard, les formules dans
l'exemple qui suit sont trs couramment employes.

Exemples de formules de NewtonCotes composes. On prsente, avec leur erreur de quadrature


(obtenue via le thorme 7.5) ci-dessous trois formules NewtonCotes composes parmi les plus utilises. La rgle
du point milieu compose (voir la gure 7.4) fait partie des formules ouvertes et ne possde qu'un nud de
quadrature dans chaque sous-intervalle de la partition de l'intervalle [a, b]. Dans ce cas, on a h = H2 et


 
m
X
1
b a 2 00
I(f ) = H
f a+ i
H +
H f (),
2
24
i=1
avec ]a, b[.
La rgle du trapze compose (voir la gure 7.5) est une formule ferme qui a pour nuds de quadrature les
extrmits de chaque sous-intervalle. On a alors h = H et


m1
X
H
b a 2 00
I(f ) =
f (a) + f (b) + 2
f (a + iH)
H f (),
2
12
i=1

228

7.4. FORMULES DE QUADRATURE COMPOSES

m
1
2
4
8
16
32
64
128
256

Em,1 (f )
Em,2 (f )
2,36219
4,04807
2,44551
0,09649
0,53901
0,12942
0,03769
0,01348
0,00069
9,08169 105
0,00024
4,54992 108
5
6,0182 10
2,60675 109
5
1,50475 10
1,63011 1010
6
3,76199 10
1,01887 1011

Valeurs des erreurs de quadrature des rgles de quadrature du trapze et de Simpson composes
en fonction du nombre de sous-intervalles m pour l'approximation de l'intgrale (7.13) de la fonction de Runge
1
f (x) = 1+x
2 . On constate que l'erreur de quadrature Em,n (f ), n = 1, 2, tend vers zro lorsque m augmente.

Table 7.3:

f (x)

Figure 7.4: Illustration de la rgle du point milieu compose quatre sous-intervalles sur l'intervalle [a, b]. La
valeur approche de l'intgrale I(f ) correspond l'aire colore en bleu.

avec ]a, b[. Enn, la rgle de Simpson compose (voir la gure 7.6) utilise comme nuds de quadrature les
extrmits et le milieu de chaque sous-intervalle, d'o h = H2 et
I(f ) =




 

m1
m
X
X
H
1
b a 4 (4)
f (a) + 2
f (a + iH) + 4
f a+ i
H + f (b)
H f (),
6
2
2880
i=1
i=1

avec, l encore, ]a, b[.

On peut tablir la convergence d'une formule de quadrature compose sous des hypothses bien moins
restrictives que celles du thorme 7.5. C'est l'objet du rsultat suivant.

Thorme 7.6 Soit [a, b] un intervalle non vide et born de R, f une fonction continue sur [a, b],

{xi }i=0,...,m l'ensemble des nuds d'une partition de [a, b] en m sous-intervalles et une formule de quadrature compose de la forme (7.14) relativement cette partition, de degr exactitude gal r et dont
les poids de quadrature i,j , i = 0, . . . , n, j = 1, . . . , m, sont positifs. Alors, on a
lim Im,n (f ) = I(f ).

m+

Dmonstration.
Lorsque m tend vers l'inni, les mesures des sous-intervalles de la partition de [a, b]
deviennent arbitrairement petites et, pour tout > 0, on peut donc trouver un entier M tel que, si m M , il
existe des m polynmes pj , j = 1, . . . , m, de degr infrieur ou gal r tels que

max

xj1 xxj

|f (x) pj (x)| , j = 1, . . . , m.

229

CHAPITRE 7. FORMULES DE QUADRATURE

f (x)

Illustration de la rgle du trapze compose quatre sous-intervalles sur l'intervalle [a, b]. La valeur
approche de l'intgrale I(f ) correspond l'aire colore en bleu.

Figure 7.5:

f (x)

Figure 7.6: Illustration de la rgle de Simpson compose quatre sous-intervalles sur l'intervalle [a, b]. La
valeur approche de l'intgrale I(f ) correspond l'aire colore en bleu.

Il vient alors, en utilisant que le degr d'exactitude de la formule de quadrature compose est r,
Z
Z

Z xj
n
xj
xj

X



f (x) dx
pj (x) dx +
pj (x) dx
i,j f (xi,j )

xj1
xj1

xj1
i=0
n

n
X

X


|xj xj1 | +
i,j (pj (xi,j ) f (xi,j )) |xj xj1 | +
|i,j | .


i=0
i=0
Par ailleurs, la formule de quadrature tant exacte pour une fonction constante et les poids de quadrature tant
tous positifs, il vient
n
X
|i,j | = |xj xj1 | .
i=0

On a par consquent
|Em,n (f )| 2 |b a| ,

et le rsultat est dmontr.

Notons qu'en prenant pj (x) = f


on obtient le corollaire suivant.

xj1 +xj
2

, x [xj1 , xj ], j = 1, . . . , m, dans la preuve ci-dessus,

Corollaire 7.7 Sous les hypothses du prcdent thorme, on a de plus




H
|I(f ) Im,n (f )| 2 (b a) f,
,
2
230

7.5. VALUATION D'INTGRALES SUR UN INTERVALLE BORN DE FONCTIONS PARTICULIRES **

o, pour tout rel strictement positif,



(f, ) = sup |f (x) f (y)| | (x, y) [a, b]2 , x 6= y, |x y|
est le module de continuit de la fonction f .

7.4.2

Formules adaptatives **

REPRENDRE On a vu que, pour une fonction f continue, il est possible d'atteindre une prcision
arbitraire pour le calcul de l'intgrale I(f ) avec un formule de quadrature compose, simplement en prenant la longueur H susamment petit. Lorsque la fonction prsente par endroits de brusques variations
ou des oscillations, et que ces rgions reprsentent une petite portion de l'intervalle d'intgration [a, b],
une rduction uniforme du pas H sur l'intervalle entier conduira un cot lev, et en partie inutile,
pour la mthode. On peut donc souhaiter concentrer les valuations de fonction l o cela est rellement
ncessaire, en ajustant localement le pas et donnant ainsi lieu une formule de quadrature compose adaptative (adaptive composite quadrature rule en anglais). Les programmes de calcul numrique d'intgrales
les plus courants/robustes font appel ce type de technique.
Premires tentatives : rgle de Simpson adaptative [Kun62, McK62] (voir aussi [Lyn69])
Pour en apprendre plus sur ces techniques, qui ne sont d'ailleurs pas imparables, voir [GG00].

7.5
7.5.1

valuation d'intgrales sur un intervalle born de fonctions


particulires **
Fonctions priodiques **

parler de la convergence exponentielle de la rgle du trapze compose


Article de fond [TW]

7.5.2

Fonctions rapidement oscillantes **

On dira qu'un intgrand est rapidement oscillant si celui-ci prsente de nombreux (typiquement plus
de dix) maxima et minima locaux sur l'intervalle d'intgration. De telles fonctions interviennent par
exemple lors du calcul des coecients d'une srie de Fourier, avec l'valuation d'intgrales relles comme
Z b
Z b
f (x) cos(kx) dx ou
f (x) sin(kx) dx, k N.
a

dicults particulires...
parler de la mthode de Filon [Fil28], en partie base sur une formule de quadrature compose

7.6

Notes sur le chapitre

Le lecteur intress trouvera de nombreux dtails complmentaires sur la thorie et les aspects pratiques de l'intgration numrique dans les ouvrages de rfrence de Davis et Rabinowitz [DR84] et de
Brass et Petras [BP11].
Une question venant naturellement l'esprit concernant les formules de quadrature est de savoir
quel(s) choix judicieux de nuds et de poids permet(tent) d'atteindre le degr d'exactitude maximal
possible avec une formule n + 1 nuds distincts. Une consquence du thorme 7.1 est qu'une formule
de quadrature n + 1 points ayant un degr d'exactitude maximal est ncessairement interpolatoire. On
est donc amen se demander s'il existe des choix de points xi , i = 0, . . . , n, conduisant une formule
de quadrature interpolatoire capable d'intgrer exactement tout polynme de degr infrieur ou gal
n + m pour un entier m strictement positif. Or, un rsultat, d Jacobi [Jac26], montre que la condition
Z b
n+1 (x)q(x) dx = 0, q Pm1 ,
(7.15)
a

231

CHAPITRE 7. FORMULES DE QUADRATURE

o n+1 dsigne le polynme de Newton associ aux nuds de quadrature, fournit une condition ncessaire 15 et susante 16 caractrisant une telle formule. Cette dernire impose exactement m contraintes
sur les nuds xi , i = 0, . . . , n, et l'on a alors forcment m n + 1, faute de quoi n+1 serait orthogonal
Pn+1 , et donc lui-mme, ce qui est impossible. Le degr d'exactitude maximal atteint par une formule
de quadrature interpolatoire n + 1 nuds distincts est par consquent gal 2n + 1 et la condition (7.15)
montre que ses nuds sont les racines du polynme n+1 , qui n'est autre, un coecient multiplicatif
prs, que le (n + 1)ime lment d'une suite de polynmes orthogonaux relativement au produit scalaire de
L2 ([a, b]). La formule de quadrature optimale (en termes du degr d'exactitude) ainsi obtenue porte le
nom de formule de quadrature de Gauss, en rfrence Johann Carl Friedrich Gauss qui la dveloppa pour
les besoins de ses calculs en astronomie sur les perturbations des orbites plantaires et la publia en 1814
dans un mmoire intitul Methodus nova integralium valores per approximationem inveniendi prsent
la Socit scientique de Gttingen. Ces formules de quadrature ont par la suite t gnralises par
Christoel 17 [Chr58] aux intgrales de la forme
Z b
Iw (f ) =
f (x) w(x) dx,
a

o w est une fonction positive et intgrable 18 sur ]a, b[, appele fonction poids. Les nuds de la formule
sont alors les racines des polynmes orthogonaux (voir la sous-section 6.1.3) pour le produit scalaire induit
par la fonction poids et l'intervalle considrs, ce qui donne lieu direntes familles de quadrature. Parmi
les choix les plus courants, on peut citer
les formules de GaussLegendre , pour la fonction poids w(x) = 1 sur l'intervalle ] 1, 1[,
1
sur l'intervalle
les formules de GaussChebyshev [Tch74], pour la fonction poids w(x) = 1x
2
] 1, 1[,
1
les formules de GaussGegenbauer 19 , pour la fonction poids w(x) = (1 x2 ) 2 sur l'intervalle
] 1, 1[, avec un rel strictement suprieur 12 ,
les formules de GaussJacobi, dont les trois prcdents types de formules sont des cas particuliers,
pour la fonction poids w(x) = (1 x) (1 + x) sur l'intervalle ] 1, 1[, avec et des rels
strictement suprieurs 1,
les formules de GaussLaguerre, pour la fonction poids w(x) = ex sur l'intervalle [0, +[,
2
les formules de GaussHermite, pour la fonction poids w(x) = ex sur R.
Les poids de quadrature d'une formule de Gauss sont tous strictement positifs et ses nuds sont
contenus dans l'intervalle ouvert ]a, b[ (voir [Sti84]) et non uniformment rpartis, comme on peut le
15. En eet, le produit n+1 p tant un polynme de degr infrieur ou gal n + 1 + m 1 = n + m, il est exactement
intgr par la formule de quadrature et on a alors
Z

n+1 (x)p(x) dx =
a

n
X

i n+1 (xi )p(xi ) = 0,

i=0

puisque les nuds xi , i = 0, . . . , n, sont les racines de n+1 .


16. Tout polynme p de Pn+m pouvant s'crire sous la forme p = n+1 q + r, o q Pm1 et r Pn sont respectivement
le quotient et le reste de la division euclidienne de p par n+1 , on a
Z

n+1 (x)q(x) dx +

p(x) dx =

r(x) dx =
a

r(x) dx,
a

en vertu de (7.15). La formule de quadrature tant interpolatoire, elle intgre exactement le polynme r et l'on obtient alors
Z

p(x) dx =
a

n
X
i=0

i r(xi ) =

n
X

i (p(xi ) n+1 (xi )q(xi )) =

n
X

i p(xi ).

i=0

i=0

17. Elwin Bruno Christoel (10 novembre 1829 - 15 mars 1900) tait un mathmaticien et physicien allemand. Il s'intressa
notamment l'tude des transformations conformes, la thorie des invariants, la gomtrie direntielle, l'analyse tensorielle,
la thorie du potentiel, la physique mathmatique, ainsi qu'aux polynmes orthogonaux, aux fractions continues et aux ondes
de choc. Plusieurs rsultats et objets mathmatiques sont aujourd'hui associs son nom.
18. L'intervalle ]a, b[ n'tant pas forcment born, on s'assure lorsque c'est le cas que l'intgrale ci-dessus est bien dnie,
R
au moins lorsque la fonction f est polynomiale, en requrant que tous les moments ab xs w(x) dx, s N, existent et soient
nis.
19. Leopold Bernhard Gegenbauer (2 fvrier 1849 - 3 juin 1903) tait un mathmaticien autrichien. Surtout connu pour
ses travaux en algbre, il s'est galement intress aux thories des fonctions et de l'intgration.

232

7.6. NOTES SUR LE CHAPITRE

constater sur la gure 7.7 pour les formules de GaussLegendre. On peut nanmoins tre amen inclure
parmi les nuds de quadrature soit l'une des deux, soit les deux extrmits de l'intervalle d'intgration,
ce qui conduit respectivement aux formules de GaussRadau 20 [Rad80], dont le degr d'exactitude est
gal 2n pour une formule n + 1 points, et aux formules de GaussLobatto 21 [Lob52], dont le degr
d'exactitude vaut 2n 1 pour une formule n + 1 nuds. On a par ailleurs convergence des formules de
Gauss, ainsi que de GaussRadau et de GaussLobatto, vers l'intgrale Iw (f ) lorsque n tend vers l'inni
pour tout intgrand f continu [Sti84].

n=5

n = 10 |

n = 20 | |
Rpartition sur l'intervalle [1, 1] des nuds de la formule de quadrature de GaussLegendre pour
n = 5, 10 et 20. On observe que les nuds s'accumulent au voisinage des bornes de l'intervalle.

Figure 7.7:

SUR LE CALCUL DES POIDS : Une mthode numrique stable de calcul des poids de formules de
quadrature interpolatoires est prsente dans [KE82].
extension possibles : formules de GaussTurn 22 (utilisation des valeurs des drives, base sur l'interpolation de Hermite) [Tur50] et de GaussKronrod 23 (formule 2n + 1 points obtenue par ajout de
n + 1 nuds et poids une formule n nuds, choisis de manire maximiser le degr d'exactitude)
[Kro65]
Pour complter ce bref tour d'horizon des formules de quadrature numrique, citons les formules de
Fjer 24 [Fej33], de ClenshawCurtis [CC60] et de Basu [Bas71], toutes trois bases sur un dveloppement
de l'intgrand en termes de polynmes de Chebyshev.
A AJOUTER : discussion critique sur les mrites respectifs des formules de Gauss et de Clenshaw
Curtis (calcul des nuds et poids des formules pour des valeurs leves de l'entier n : utilisation de la
transforme de Fourier discrte 25 [Gen72a, Gen72b] ou de l'algorithme dans [Wal06] pour CC, ou de la
mthode prsente dans [GLR07], comparaison des vitesses de convergence des mthodes pour certains
intgrands [Tre08])
Mentionnons enn la mthode de Romberg 26 [Rom55], qui est une mthode itrative de calcul numrique d'intgrale base sur l'application du procd d'extrapolation de Richardson [RG27] pour l'acclration de la convergence de la rgle du trapze compose associe des subdivisions dyadiques 27 successives
de l'intervalle d'intgration.
20. Jean-Charles Rodolphe Radau (22 janvier 1835 - 21 dcembre 1911) tait un astronome et mathmaticien franais
d'origine allemande. Parmi ses travaux, on peut retenir deux mmoires consacrs la rfraction, parus dans les Annales de
l'Observatoire de Paris en 1881 et 1889, qui lui valurent chacun un prix de l'Acadmie des Sciences.
21. Rehuel Lobatto (6 juin 1797 - 9 fvrier 1866) tait un mathmaticien hollandais. Il s'intressa entre autres l'intgration
numrique d'quations direntielles, une gnralisation des formules de quadrature de Gauss et, pour les besoins du
gouvernement hollandais, aux statistiques.
22. Paul Turn (Turn Pl en hongrois, 18 aot 1910 - 26 septembre 1976) tait un mathmaticien hongrois. Travaillant
principalement en thorie des nombres, en analyse et en thorie des graphes, il eut une longue collaboration avec son
compatriote Paul Erds, qui s'tendit sur quarante-six ans et se concrtisa par la publication de vingt-huit articles.
23. Aleksandr Semenovich Kronrod (Aleks&andr Semnoviq Kronr&
od en russe, 22 octobre 1921 - 6 octobre 1986) tait
un mathmaticien et informaticien russe, connu pour les formules de quadrature portant son nom. Il s'intressa au calcul
numrique appliqu la physique thorique et l'conomie, ainsi qu' l'intelligence articielle et la mdecine.
24. Lipt Fejr (9 fvrier 1880 - 15 octobre 1959) tait un mathmaticien hongrois. Ses activits de recherche se concentrrent sur l'analyse harmonique, et plus particulirement les sries de Fourier, mais il publia aussi d'importants articles
dans d'autres domaines des mathmatiques, dont un, crit en collaboration avec Carathodory, sur les fonctions entires en
1907 ou un autre, issu d'un travail avec Riesz, sur les transformations conformes en 1922.
25. On peut alors tirer parti d'une transforme de Fourier rapide (fast Fourier transform en anglais), comme l'algorithme
de Cooley et Tukey [CT65], pour le calcul de cette transforme de Fourier discrte, ramenant trs avantageusement le cot
de cette tape O(n ln(n)) oprations.
26. Werner Romberg (16 mai 1909 - 5 fvrier 2003) tait un mathmaticien allemand. Il est l'origine d'une procdure
rcursive amliorant la prcision du calcul d'une intgrale par la rgle du trapze compose.
27. A DEFINIR

233

CHAPITRE 7. FORMULES DE QUADRATURE

NOTES : cette mthode est base sur un dveloppement de l'erreur par la formule d'EulerMaclaurin 28 ,
elle ncessite le calcul du tableau des valeurs extrapoles R(k, m), 0 m k N , dont les lments
satisfont la relation de rcurrence

R(k, m) =

4m

1
(4m R(k, m 1) R(k 1, m 1)) , 1 m k N,
1

et la premire colonne telle que R(k, 0) = I2k ,1 (f ), k = 0, . . . , N .


et l'utilisation d'un critre d'arrt : |R(k, k) R(k 1, k 1)|
Les nuds des formules de quadrature construites successivement de la mthode de Romberg sont
quidistribus sur l'intervalle d'intgration, mais ces formules ne sont en revanche pas des formules de
NewtonCotes composes, except 29 pour de petites valeurs de l'entier m. En particulier, elles ne sont
pas sujettes aux problmes d'instablit numrique mentionns dans la section 7.2 lorsque m augmente.
(QUESTION : les poids sont-ils toujours positifs ?)

Rfrences
[Bas71]

N. K. Basu. Evaluation of a denite integral using Tschebysche approximation. Mathematica,


13(36):1323, 1971 (cited on page 233).

[Boo60]

G. Boole. A treatise on the calculus of nite dierences. Macmillan and Co., 1860 (cited on
page 220).

[BP11]

H.

Brass and K. Petras. Quadrature theory: the theory of numerical integration on a compact
interval. Volume 178 of Mathematical surveys and monographs. American Mathematical Society,

2011 (cited on page 231).

[CC60]

C. W. Clenshaw and A. R. Curtis. A method for numerical integration on an automatic computer.


doi: 10.1007/BF01386223 (cited on page 233).

Numer. Math., 2(1):197205, 1960.


E. B.

[CT65]

J. W. Cooley and J. W. Tukey. An algorithm for the machine calculation of complex Fourier
series. Math. Comput., 19(90):297301, 1965. doi: 10.1090/S0025-5718-1965-0178586-1 (cited
on page 233).

[Dav55]

P. Davis. On a problem in the theory of mechanical quadratures. Pacic J. Math., 5(suppl. 1):669
674, 1955. doi: 10.2140/pjm.1955.5.669 (cited on page 220).

[DR84]

P. J. Davis and P. Rabinowitz. Methods of numerical integration. Of Computer sciences and


applied mathematics. Academic Press, second edition, 1984 (cited on pages 217, 231).
L. Fejr. Mechanische Quadraturen mit positiven Cotesschen Zahlen. Math. Z., 37(1):287309, 1933.

[Fej33]

Christoffel.

ber die Gauische Quadratur und eine Verallgemeinerung derselben. J. Reine

[Chr58]

Angew. Math., 1858(55):6182, 1858. doi: 10.1515/crll.1858.55.61 (siehe Seite 232).

doi:

10.1007/BF01474575 (siehe Seite 233).

[Fil28]

L. N. G. Filon. On a quadrature formula for trigonometric integrals. Proc. Roy. Soc. Edinburgh,
49:3847, 1928-1929 (cited on page 231).

[Gen72a]

W. M.

[Gen72b]

W. M. Gentleman. Implementing Clenshaw-Curtis quadrature, II Computing the cosine transformation. Comm. ACM, 15(5):343346, 1972. doi: 10.1145/355602.361311 (cited on page 233).

[GG00]

W. Gander and W. Gautschi. Adaptive quadrature  revisited. BIT, 40(1):84101, 2000.


10.1023/A:1022318402393 (cited on page 231).

[GLR07]

A. Glaser, X. Liu, and V. Rokhlin. A fast algorithm for the calculation of the roots of special
functions. SIAM J. Sci. Comput., 29(4):14201438, 2007. doi: 10 . 1137 / 06067016X (cited on
page 233).

Gentleman.

Implementing Clenshaw-Curtis quadrature, I Methodology and experience.


doi: 10.1145/355602.361310 (cited on page 233).

Comm. ACM, 15(5):337342, 1972.

doi:

28. Colin Maclaurin (fvrier 1698 - 14 juin 1746) tait un mathmaticien cossais. Il t des travaux remarquables en
gomtrie, plus prcisment dans l'tude de courbes planes, et crivit un important mmoire sur la thorie des mares.
29. Pour m = 0, on retrouve en eet la rgle du trapze compose. Pour m = 1 et 2, les poids obtenus concident
respectivement avec ceux de la rgle de Simpson compose et de la rgle de Boole compose.

234

RFRENCES

[Jac26]
[KE82]

C. G. J. Jacobi. Ueber Gau neue Methode, die Werthe der Integrale nherungsweise zu nden. J.
Reine Angew. Math., 1826(1):301308, 1826. doi: 10.1515/crll.1826.1.301 (siehe Seite 231).
J. Kautsky and S. Elhay. Calculation of the weights of interpolatory quadratures. Numer. Math.,
40(3):407422, 1982.

doi:

10.1007/BF01396453 (cited on page 233).

[Kro65]

A. S. Kronrod. Nodes and weights of quadrature formulas. Sixteen-place tables. Consultants


Bureau, 1965 (cited on page 233).

[Kun62]

G. F. Kuncir. Algorithm 103: Simpson's rule integrator. Comm. ACM, 5(6):347, 1962.
10.1145/367766.368179 (cited on page 231).

[Lob52]

R. Lobatto. Lessen over de dierentiaal- en integraal-rekening. Tweede deel. Integral-rekening.


Gebroeders Van Cleef, 1852 (zie pagina 233).

[Lyn69]
[McK62]
[Pea13]
[Pl33]

doi:

J. N. Lyness. Notes on the adaptive Simpson quadrature routine. J. ACM, 16(3):483495, 1969.
10.1145/321526.321537 (cited on page 231).

doi:

W. M.

McKeeman.

ACM, 5(12):604, 1962.

Algorithm 145: Adaptive numerical integration by Simpson's rule. Comm.


doi: 10.1145/355580.369102 (cited on page 231).

Peano. Resto nelle formule di quadratura espresso con un integrale nito. Atti Accad. Naz.
Lincei Rend. Cl. Sci. Fis. Mat. Natur., 22:562569, 1913 (citato a pagina 225).
G. Plya. ber die Konvergenz von Quadraturverfahren. Math. Z., 37(1):264286, 1933. doi: 10.

G.

1007/BF01474574 (siehe Seite 226).

[Rad80]

R. Radau. tude sur les formules d'approximation qui servent calculer la valeur numrique d'une
intgrale dnie. J. Math. Pures Appl. (3), 6 :283336, 1880 (cf. page 233).

[RG27]

L. F. Richardson and J. A. Gaunt. The deferred approach to the limit. Part I. Single lattice.
Part II. Interpenetrating lattices. Philos. Trans. Roy. Soc. London Ser. A, 226(636-646):299361,
1927. doi: 10.1098/rsta.1927.0008 (cited on page 233).

[Rom55]

W. Romberg. Vereinfachte numerische Integration. Norske Vid. Selsk. Forh. (Trondheim), 28(7):30
36, 1955 (siehe Seite 233).

[Ste27]

Interpolation. The Williams & Wilkins Company, 1927 (cited on page 226).
T. J. Stieltjes. Quelques recherches sur la thorie des quadratures dites mcaniques. Ann. Sci.
cole Norm. Sup. (3), 1 :409426, 1884 (cf. pages 232, 233).
P. Tchebichef. Sur les quadratures. J. Math. Pures Appl. (2), 19 :1934, 1874 (cf. page 232).
L. N. Trefethen. Is Gauss quadrature better than Clenshaw-Curtis? SIAM Rev., 50(1):6787,

[Sti84]
[Tch74]
[Tre08]

J. F.

2008.

Steffensen.

doi:

10.1137/060659831 (cited on page 233).

[Tur50]

P. Turn. On the theory of mechanical quadrature. Acta Sci. Math. (Szeged), 12(A):3037, 1950
(cited on page 233).

[TW]

L. N. Trefethen and J. A. C.
on page 231).

[Wal06]

J. Waldvogel. Fast construction of the Fejr and ClenshawCurtis quadrature rules. BIT, 46(1):195
202, 2006. doi: 10.1007/s10543-006-0045-4 (cited on page 233).

[Wed54]

T. Weddle. On a new and simple rule for approximating to the area of a gure by means of seven
equidistant ordinates. Cambridge and Dublin Math. J., 9:7980, 1854 (cited on page 220).

Weideman.

235

The exponentially convergent trapezoidal rule (cited

Troisime partie

quations direntielles et aux drives


partielles

237

Dans cette dernire partie, on s'intresse la rsolution numrique de problmes d'quations dites

d'volution, c'est--dire de problmes bases sur des quations direntielles ou aux drives partielles

donc la solution dpend d'un paramtre qui, dans le cas le plus courant, reprsente la variable de temps.
COMPLETER :
parler des quations direntielles ordinaires
dnir les quations aux drives partielles du second ordre avec classication (elliptique, hyperbolique,
parabolique) dans le cas linaire

239

Chapitre 8

Rsolution numrique des quations


direntielles ordinaires
Ce chapitre concerne la rsolution numrique approche d'quations, et de systmes d'quations,
direntielles ordinaires. De telles quations interviennent dans de nombreux problmes issus de la modlisation mathmatique de phnomnes physiques ou biologiques et se rencontrent par consquent dans
des disciplines aussi varies que l'ingnierie, la mcanique ou l'conomie (plusieurs exemples sont donns
dans la section 8.2).
L'laboration de techniques de rsolution approche des quations direntielles ordinaires constitue
un vaste domaine d'tudes et de recherches depuis plus de trois sicles et notre objectif est d'en orir
au lecteur un premier aperu. Aprs quelques rappels concernant les bases de la thorie des quations
direntielles ordinaires, nous dcrivons des mthodes de rsolution numrique parmi les plus classiques
et analysons leurs proprits au moyen de techniques gnrales. Les notions de consistance, de stabilit
et de convergence, dj rencontres dans ce cours et revisites cette occasion, occupent ici une place
centrale et rapparatront lors de l'tude de mthodes de rsolution numrique d'quations aux drives
partielles aux chapitres 10 et 11.

8.1

Rappels sur les quations direntielles ordinaires *

Nous considrons une quation direntielle ordinaire du premier ordre 1 (rst-order ordinary dierential equation en anglais)
x0 (t) = f (t, x(t)),
(8.1)
o x est une fonction d'une variable relle valeurs 2 dans Rd (avec d un entier suprieur ou gal 1),
que l'on cherche dterminer, et f est une application dnie et continue sur un ouvert D de Rd+1 ,
galement valeurs dans Rd .
Lorsque la fonction f est de la forme f (t, x) = A(t) x + b(t), avec A et b des fonctions continues
respectivement valeurs dans Md (R) et Rd , on dit que l'quation direntielle (8.1) est linaire (
coecients constants si A et b ne dpendent pas de t) et linaire homogne si l'on a de plus b 0 ; elle
est non linaire dans les autres cas. Par ailleurs, l'quation est autonome lorsque la fonction f ne dpend
pas de la variable t.

Exemples d'quations direntielles ordinaires du premier ordre. Parmi les quations direntielles ordinaires du premier ordre les plus clbres de l'histoire des mathmatiques, on peut mentionner l'quation
de Bernoulli, propose en 1695,
x0 (t) = b1 (t) x(t) + b2 (t) xm (t),
(8.2)
1. Le qualicatif  ordinaire  signie que l'inconnue x de l'quation direntielle est une fonction qui ne dpend que
d'une seule variable (ici, la variable t). L'quation est dite  du premier ordre  car elle ne fait intervenir que la drive
premire de x.
2. On notera que l'on a fait le choix, par souci de simplicit, de fonctions f et x valeurs relles, mais l'on aurait pu
tout aussi bien envisager qu'elles prennent des valeurs complexes.

241

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

avec b1 et b2 des fonctions valeurs relles, en gnral continues, dnies sur un intervalle ouvert de R et m un
entier naturel (ou un rel, condition que la solution soit valeurs strictement positives) dirent de 0 et 1, et
l'quation de Riccati 3 , introduite en 1720,
x0 (t) = r0 (t) + r1 (t) x(t) + r2 (t) x2 (t),

(8.3)

avec r0 , r1 et r2 des fonctions valeurs relles, gnralement continues, dnies sur un intervalle ouvert de R,
telles que r0 6 0 et r2 6 0.

REPRENDRE On notera enn que nous n'avons jusqu' prsent considr que des quations direntielles ordinaires du premier ordre. Ce choix, apparement arbitraire, provient du fait que toute quation direntielle ordinaire d'ordre suprieur peut tre ramene mcaniquement un systme quivalent
d'quations direntielles d'ordre un en introduisant des inconnues supplmentaires.
Considrons en eet une quation direntielle ordinaire d'ordre k , avec k un entier suprieur ou gal
deux,

x(k) = f (t, x, x0 , . . . , x(k1) ),


o f est une application continue, dnie sur un ouvert
qu'en posant

x
x0

y = ..
.

(8.4)

U de R (Rd )k et valeurs dans Rd . Il est clair

x(k1)
on peut crire (8.4) comme

y 0 = F (t, y),
o

y2
y3
..
.

F (t, y) =
, (t, y) U.

yk
f (t, y1 , . . . , yk )
En observant que la fonction F est continue et localement (resp. globalement) lipschitzienne par rapport
y si et seulement si la fonction f est continue et localement (resp. globalement) lipschitzienne par
rapport x, x0 , . . . , x(k1) , on peut tudier l'existence et l'unicit de solutions de problmes mettant en
jeu l'quation (8.4) par application directe des rsultats que nous venons de rappeler. Ce procd n'a pas
qu'un intrt thorique : il en eet mis prot dans les bibliothques de programmes de rsolution des
quations direntielles ordinaires, qui supposent gnralement que l'quation du problme rsoudre
est sous la forme d'un systme d'quations direntielles du premier ordre.

8.1.1

Solutions

La premire notion qu'il est important de prciser est celle de solution d'une quation direntielle
ordinaire. Elle est l'objet de la dnition suivante.

Dnition 8.1 (solution d'une quation direntielle ordinaire) On appelle solution de l'quation direntielle ordinaire (8.1) tout couple (J, x), avec J un intervalle de R et x une fonction

drivable sur J valeurs dans Rd tels que l'quation (8.1) est satisfaite et (t, x(t)) appartient D pour
tout t appartenant J .

3. Jacopo Francesco Riccati (28 mai 1676 - 15 avril 1754) tait un mathmaticien et physicien italien. Il s'intressa la
rsolution d'quations direntielles ordinaires par des mthodes de sparation de variables et de rduction d'ordre.

242

8.1. RAPPELS SUR LES QUATIONS DIFFRENTIELLES ORDINAIRES *

Exemple de solutions d'une quation direntielle ordinaire du premier ordre. A REPRENDRE

considrer x0 = x , et donc f (t, x) = x = exp( ln(x)) et D = R R+ . On cherche donc un intervalle J de R et


une application drivable x de J dans R satisfasant x(t) > 0 et x0 (t) = (x(t)) , t J . Cette dernire quation
s'crit encore

d
(1 )1 (x(t))1 = 1,
dt
et il existe donc une constante K telle que, t J , (1 )1 (x(t))1 = t + K , ce qui implique que t + K > 0.
Ainsi, pour tout J ]K, +[, la fonction x donne par
x(t) = ((1 )(t + K))1/(1) ,

vrie l'quation pour tout t de J . Les solutions de l'quation sont par consquent obtenues en faisant le choix
d'un rel K , puis d'un intervalle J inclus dans ]K, +[ et en donnant la formule pour x.

On voit avec l'exemple prcdent que les solutions d'une quation direntielle ordinaire peuvent tre
dnies sur des intervalles plus ou moins grands. Cette remarque conduit l'introduction de notions
supplmentaires.

Dnition 8.2 (prolongement d'une solution d'une quation direntielle ordinaire) Soit (J, x)
prolongement (ex-

x
x
et (J,
) deux solutions de l'quation direntielle (8.1). On dit que (J,
) est un

tension en anglais) de (J, x) si J J et x|J = x.

Le prolongement induisant une relation d'ordre sur l'ensemble des solutions d'une quation, on a la
dnition et le rsultat suivants.

Dnition 8.3 (solution maximale d'une quation direntielle ordinaire) On dit que le couple

(J, x) est une solution maximale (maximal solution en anglais) de l'quation direntielle (8.1) si
elle n'admet pas d'autre prolongement qu'elle-mme.

Thorme 8.4 Toute solution de l'quation direntielle (8.1) se prolonge en une solution maximale
(non ncessairement unique).
Dmonstration.

A ECRIRE

REPRENDRE Lorsque le domaine D est de la forme D = I , avec I un intervalle de R et un


ouvert de Rd , il est tout fait possible que la solution maximale (J, x) d'un problme de Cauchy soit
telle que J n'est pas gal I . Ceci conduit l'introduction la dnition suivante.

Dnition 8.5 (solution globale d'une quation direntielle ordinaire) Une solution de l'quation direntielle (8.1) est dite globale si elle est dnie sur l'ouvert I tout entier.
On observera que toute solution globale est maximale, mais que la rciproque n'est pas vraie.

Exemple. A ECRIRE x0 = x2
A VOIR : obstruction au prolongement est du au fait que la solution maximale sort de tout compact
quand t arrive aux bornes de J

Thorme 8.6 ( thorme des bouts ou de sortie de tout compact ) A ECRIRE


Donnons enn un rsultat relatif la rgularit des solutions d'une quation direntielle ordinaire
du premier ordre.

Thorme 8.7 Si la fonction f est de classe C k , k N, alors toute solution de l'quation (8.1) est de

classe C k+1 .

Dmonstration. Raisonnons par rcurrence sur l'entier k . Si k = 0, la fonction f est continue. Pour toute
solution (J, x) de (8.1), la fonction x est, par dnition, drivable sur J . Elle est donc continue et possde une
drive continue sur J . Elle est par consquent de classe C 1 sur J .
Supposons prsent que le rsultat est vrai l'ordre k 1, k 1. Toute solution de l'quation direntielle est
alors au moins de classe C k . La fonction f tant de classe C k par hypothse de rcurrence, il s'ensuit que la
fonction x0 est de classe C k en tant que compose de fonction de classe C k . On en dduit que la solution x est de
classe C k+1 sur J .


243

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

8.1.2

Problme de Cauchy

Nous avons vu plus haut qu'il existe en gnral une innit de solutions d'une quation direntielle
ordinaire. Cependant, dans la plupart des cas, on ne cherche pas dterminer toutes ces solutions, mais
seulement celles qui vont satisfaire une condition initiale (initial condition en anglais) prescrite. Ceci
conduit l'introduction de la notion de problme de Cauchy (initial value problem en anglais), associant
une quation direntielle une condition initiale donne.

Dnition 8.8 ( problme de Cauchy ) Soit (t, ) D donn. Rsoudre le problme de Cauchy
d'quation (8.1) et de condition initiale

(8.5)

x(t0 ) = ,

consiste trouver une solution (J, x) de (8.1), telle que J contienne t0 en son intrieur et que la fonction
x satisfasse (8.5).

Il est essentiel de remarquer que rsoudre le problme de Cauchy quivaut rsoudre une quation

intgrale, comme le montre le rsultat suivant.

Lemme 8.9 Un couple (J, x) est solution du problme de Cauchy (8.1)-(8.5) si et seulement si x est une
fonction continue sur J , telle que (t, x(t)) D pour tout t J et

(8.6)

f (s, x(s)) ds, t J.

x(t) = +
t0
Dmonstration.

A ECRIRE

On appelle courbe intgrale toute courbe reprsentative d'une solution de l'quation direntielle
ordinaire (8.1). On peut ainsi interprter la rsolution du problme de Cauchy comme la dtermination
d'une courbe intgrale de l'quation (8.1) passant par le point (t0 , ) associ la condition initiale (8.5).
La notion de solution d'un problme de Cauchy tant introduite, il convient naturellement de se poser
la question de l'existence d'une telle solution et, le cas chant, de son unicit, en particulier si l'on
envisage de rsoudre numriquement le problme.
Le rsultat que nous allons maintenant noncer assure qu'un problme de Cauchy admet localement
une unique solution. Pour cela, nous allons supposer que la fonction f est localement lipschitzienne par
rapport sa seconde variable sur le domaine D , ce qui signie que REPRENDRE, pour tout (t0 , ) D ,
il existe une constante L = L(t0 , ) strictement positive et un voisinage C0 = [t0 T0 , t0 + T0 ] B(, r0 )
de (t0 , ) dans D tels que f soit L-lipschitzienne par rapport x sur C0 , c'est--dire

(t, 1 ) C0 , (t, 2 ) C0 , kf (t, 1 ) f (t, 2 )k L k1 2 k.


o l'on dsigne par kk une norme choisie sur Rd .
NOTE : condition susante est que f admette des drives partielles

(8.7)

fi
xj ,

1 i, j d, continues sur D.


fi

En faisant appel au thorme des accroissements nis, on peut alors poser L = d max max x
(t,
x)
.
j
1i,jd (t,x)C0

Une condition susante encore plus forte est qu'elle soit de classe C sur D
On a le rsultat fondamental suivant.
1

Thorme 8.10 ( thorme de CauchyLipschitz ou de PicardLindelf 4  [Lip68, Pic93,


Lin94]) Supposons que la fonction f soit continue et localement lipschitzienne par rapport sa seconde

variable. Alors, pour toute donne (t0 , ), il existe, au voisinage de t0 , une unique solution au problme
de Cauchy (8.1)-(8.5).
Dmonstration. On peut dmontrer ce rsultat de diverses faons. Pour des dtails sur la preuve originelle
(et constructive) d'existence d'une solution, on se rfrera aux notes de n de chapitre (voir la section 8.9). La
dmonstration propose ici est base sur la forme intgrale (8.6) et un argument de point xe, d Picard.

4. Ernst Leonard Lindelf (7 mars 1870 - 4 juin 1946) tait un mathmaticien nlandais. Il travailla principalement en
topologie, en analyse complexe, en thorie des quations direntielles, et uvra pour l'tude de l'histoire des mathmatiques
nlandaises.

244

8.1. RAPPELS SUR LES QUATIONS DIFFRENTIELLES ORDINAIRES *


r0
Soit C = [t0 T, t0 + T ] B(x0 , r0 ) avec T min(T0 , supkf
) et notons F = C ([t0 T, t0 + T ], B(x0 , r0 ))
k

l'ensemble des applications continues de [t0 T, t0 +T ] dans B(x0 , r0 ), que l'on munit de la norme de la convergence
uniforme. toute fonction x de F , associons la fonction (x) dnie par
Z t
((x))(t) = x0 +
f (s, x(s)) ds, t [t0 T, t0 + T ].
t0

D'aprs le lemme (d'quivalence entre la rsolution du problme de Cauchy (8.1)-(8.5) et celle d'une quation
intgrale), la fonction x est une solution du problme de Cauchy (8.1)-(8.5) si et seulement si elle est un point
xe de l'application . Observons alors que
Z t
k((x))(t) x0 k = k
f (s, x(s)) dsk supkf k |t t0 | supkf k T r0 ,
t0

d'o (x) appartient F . L'oprateur envoie donc F dans F .


Nous allons maintenant montrer qu'il existe une itre de qui est contractante. Soit deux fonctions x et y de F .
On a
Z t

Z t


k((x))(t) ((y))(t)k = k (f (s, x(s)) f (s, y(s))) dsk
L kx(s) y(s)k ds L |t t0 | kx yk.
t0

t0

De la mme manire,
Z

k(( )(x))(t) (( )(y))(t)k

t
t0



L2
L k((x))(s) ((y))(s)k ds
|t t0 |2 kx yk.
2

En raisonnant par rcurrence, on montre alors que


k((m )(x))(t) ((m )(y))(t)k

Lm
|t t0 |m kx yk, m 1.
m!
m

Il s'ensuit que l'application m est lipschitzienne de constante Lm! T m . Puisque limm+ Lm! T m = 0, il existe un
m
entier m tel que Lm! T m < 1 et pour lequel l'application p est contractante. F tant un espace de Banach (espace
mtrique complet), le thorme du point xe (gnralis au cas d'une application dont une itre est contractante)
montre que admet un unique point xe.


Corollaire 8.11 (existence d'une solution maximale) A VOIR On suppose que f est continue et

localement lipschitzienne par rapport x sur l'ouvert D . Pour toute donne initiale (t0 , ) D , il existe
une unique solution maximale du problme de Cauchy. L'intervalle de dnition de cette solution est
ouvert.
Dmonstration.

A ECRIRE

Exemple de solution maximale d'un problme de Cauchy.

x0 = x2 , x(0) = 6= 0

Le prcdent rsultat peut tre amlior, au moins en ce qui concerne l'unicit, au moyen du rsultat
suivant.

Proposition 8.12 ( ingalit de Grnwall 5 ) Soit L une fonction positive intgrable sur l'intervalle

]t0 , t0 + T [, K et deux fonctions continues sur [t0 , t0 + T ], K tant non dcroissante. Si satisfait
l'ingalit

(t) K(t) +

L(s)(s) ds, t [t0 , t0 + T ],


t0

alors

(t) K(t) e
Dmonstration.

Rt
t0

L(s) ds

A ECRIRE

, t [t0 , t0 + T ].


5. Thomas Hakon Grnwall (16 janvier 1877 - 9 mai 1932) tait un mathmaticien sudois. Il travailla principalement
dans les domaines de l'analyse, de la thorie des nombres et de la physique mathmatique, mais s'intressa aussi aux
applications des mathmatiques en ingnierie et dans l'industrie en tant que consultant.

245

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Thorme 8.13 (unicit globale) A VOIR sous l'hypothse que f est localement lipschitzienne sur D

et si x et y sont deux solution du problme de Cauchy sur le mme intervalle I (elles ont en particulier
les mmes conditions initiales), alors elles sont gales.
Dmonstration.

A ECRIRE, utilise la proposition 8.12

Consquence : deux courbes intgrales distinctes ne peuvent se couper./L'unicit de la solution de (du


systme d') l'quation(s) direntielle(s) pour une condition initiale donne garantit que les trajectoires
distinctes ne peuvent se couper ou se toucher
Lorsque l'application f satisfait seulement l'hypothse de continuit formule en dbut de section, on
peut encore noncer un rsultat d'existence locale de solution, mais l'unicit de cette dernire ne peut
toutefois tre assure.

Thorme 8.14 ( thorme de Peano  [Pea86, Pea90]) A ECRIRE


Dmonstration.

A ECRIRE, rappeler le

Thorme 8.15 ( thorme d'Arzel 6 Ascoli 7  [Asc93, Arz95]) Soit I un intervalle de R et C(I, Rd )

l'ensemble des applications continues de I dans Rd , que l'on munit de la norme de la convergence uniforme. Alors,
une famille de C(I, Rd ) est relativement compacte (c'est--dire que son adhrence est compacte) si et seulement
si elle est quiborne et quicontinue.


Sous ces conditions cependant, il se peut qu'une quation direntielle ordinaire admettent plusieurs,
voire une innit de, solutions, comme le montre l'exemple suivant.

Exemple de solutions non uniques d'un problme de Cauchy. COMPLETER x0 = 2 |x|1/2 , x(0) =
0

A VOIR : Existence et unicit d'une solution globale sous une condition de Lipschitz globale par
rapport x, uniformment ou non par rapport t : f dnie sur l'ouvert I Rd

t I, (x, y) Rd Rd , kf (t, x) f (t, y)k L kx yk,

(8.8)

c'est par exemple le cas si f est borne, cas des quations linaires
A VOIR : QUESTION de la sensibilit par rapport aux donnes initiales

Dnition 8.16 A FAIRE : notion de stabilit (et stabilit asymptotique) des solutions d'une EDO

8.2

Exemples d'quations et de systmes direntiels ordinaires

Comme nous l'avons crit, les modles mathmatiques bass sur des quations direntielles ordinaires
sont extrmement courants. Dans nombre de situations concrtes, la variable t reprsente le temps et x est
une famille de paramtres dcrivant l'tat d'un systme matriel donn. L'quation direntielle ordinaire
(8.1) traduit ainsi mathmatiquement la loi d'volution du systme considr au cours du temps. Savoir
rsoudre un problme de Cauchy revient donc savoir prvoir la conguration du systme tout moment
alors qu'on en connat seulement une description un instant initial donn.
Les exemples suivants proviennent de divers champs scientiques et prsentent des problmes pour
lesquels une solution explicite du systme d'quations direntielles ordinaires considr n'est gnralement pas disponible. Le recours aux mthodes numriques introduites dans ce chapitre est par consquent
incontournable. An de rester consistant avec les conventions employes dans la plupart des ouvrages (de
physique, de mcanique, de biologie...) discutant de ces modles, la notation direntielle de la drive a
t adopte dans toute cette section.
6. Cesare Arzel (6 mars 1847 - 15 mars 1912) tait un mathmaticien italien. Il est pass la postrit pour ses
contributions la thorie des fonctions d'une variable relle, et plus particulirement la caractrisation des suites de fonctions
continues.
7. Giulio Ascoli (20 janvier 1843 - 12 juillet 1896) tait un mathmaticien italien. On lui doit, parmi d'autres contributions
la thorie des fonctions d'une variable relle, la notion d'quicontinuit.

246

8.2. EXEMPLES D'QUATIONS ET DE SYSTMES DIFFRENTIELS ORDINAIRES

8.2.1

Problme N corps en mcanique cleste

En mcanique classique, c'est--dire dans le cas o les eets de la thorie de la relativit gnrale
peuvent tre ngligs 8 , la rsolution du problme N corps, avec N un entier naturel strictement plus
grand que 1, consiste en la dtermination des trajectoires de N corps en interaction gravitationnelle,
connaissant leurs masses ainsi que leurs positions et vitesses initiales. En vertu de la relation fondamentale
de la dynamique en translation 9 , ce problme est modlis par un systme de N quations direntielles
ordinaires du second ordre dont les inconnues sont valeurs dans R3 ,
N
X
xj xi
d2 xi
=
G
, i = 1, . . . , N,
mj
3
dt2
kx
j xi k
j=1

(8.9)

j6=i

dans lesquelles les quantits xi et mi , i = 1, . . . , N , sont les positions, dpendantes du temps t, et masses
respectives des corps, G est la constante universelle de gravitation 10 et kk dsigne la norme euclidienne,
que l'on complte par la donne de deux conditions initiales

xi (0) = xi0 et

dxi
(0) = v i0 , i = 1, . . . , N,
dt

(8.10)

avec xj 0 6= xk0 pour tous entiers j et k distincts appartenant {1, . . . , N }.


Le problme (8.9)-(8.10) se rsoud facilement par la thorie de Newton lorsque N = 2. Dans tout
autre cas, il possde, comme dcouvert par Sundman 11 en 1909 pour le problme trois corps [Sun09] et
gnralis par Wang en 1991 pour N > 3 [Wan91], une solution analytique qui se prsente sous la forme
d'une srie innie, qu'une trs lente convergence rend malheureusement inutilisable en pratique. Il faut
donc gnralement faire appel une mthode numrique pour obtenir des solutions approches du type
de celle prsente sur la gure 8.1.

8.2.2

Modle de LotkaVolterra en dynamique des populations

Le modle de Lotka 12 Volterra 13 est utilis pour dcrire la dynamique de systmes biologiques dans
lesquels un prdateur et sa proie interagissent. Faisant des hypothses sur l'environnement et l'volution
des populations de prdateurs et de proies, savoir que
les proies ont une nourriture abondante et se reproduisent de manire exponentielle en l'absence
de prdation,
les prdateurs se nourrissent exclusivement de proies et ont tendance disparatre de faon exponentielle lorsque la nourriture manque,
le taux de prdation sur les proies est proportionnel la frquence de rencontre entre les prdateurs
et les proies,
le taux de croissance des prdateurs est proportionnel la quantit de nourriture leur disposition,
celui-ci consiste en un systme de deux quations direntielles ordinaires non linaires couples

dN

= N ( P ) ,
dt
(8.11)

dP = P ( N ) ,
dt
8. Ceci suppose que les vitesses de mouvement des corps considrs sont petites devant celle de la lumire dans le vide.
9. Il s'agit de la deuxime loi de Newton, que l'on nonce ainsi : l'acclration subie par un corps de masse constante
dans un rfrentiel galilen est proportionnelle la rsultante des forces qu'il subit, et inversement proportionnelle sa
masse.

10. Dans le systme international d'units, la valeur de G recommande est 6, 67428(67) 1011 m3 kg1 s2 [MTN08].
11. Karl Frithiof Sundman (28 octobre 1873 - 28 septembre 1949) tait un astronome et mathmaticien nlandais. Il est
connu pour avoir prouv, au moyen de mthodes analytiques de rgularisation, l'existence d'une srie convergente solution
du problme trois corps.
12. Alfred James Lotka (2 mars 1880 - 5 dcembre 1949) tait un mathmaticien et statisticien amricain, thoricien de
la dynamique des populations.
13. Vito Volterra (3 mai 1860 - 11 octobre 1940) tait un mathmaticien et physicien italien. Il est surtout connu pour
ses travaux sur les quations intgrales et intgro-direntielles, sur les dislocations dans les cristaux et sur la dynamique
des populations.

247

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

1
0, 5
0
0, 5
1
30 20
10

10

20

20
30 30

10 0

10

20

30

Figure 8.1: Orbites des huit plantes du systme solaire (Mercure, Vnus, la Terre, Mars, Jupiter, Saturne,
Uranus et Neptune, le Soleil tant plac l'origine du repre) durant une priode de rvolution de Neptune
(soit environ 164, 79 annes terrestres), obtenues par rsolution numrique du problme (8.9)-(8.10) pour N = 8
(le systme de vingt-quatre quations direntielles du second ordre ayant t pralablement crit sous la forme
d'un systme de quarante-huit quations direntielles du premier ordre). Les distances sont exprimes en units
astronomiques (1 ua = 149597870691 m).

o la variable t dsigne le temps, N (t) est le nombre de proies l'instant t, P (t) est le nombre de prdateurs
l'instant t, et o les paramtres , , et sont respectivement le taux de reproduction des proies en
l'absence de prdateurs, le taux de mortalit des proies due la prdation, le taux de reproduction des
prdateurs en fonction de la consommation de proies et le taux de mortalit des prdateurs en l'absence
de proies, auquel on adjoint une condition initiale

N (0) = N0 , P (0) = P0 ,

(8.12)

o N0 et P0 sont des constantes strictement positives reprsentant respectivement les eectifs de proies
et de prdateurs l'instant initial.
Ce modle a t propos indpendamment par Lotka, initialement pour l'tude de systmes chimiques
[Lot10], puis organiques [Lot20] (un exemple simple tant celui d'une espce vgtale et d'une espce
animale herbivore la consommant), et Volterra [Vol26], qui cherchait fournir une explication aux uctuations des prises de certaines espces de poissons dans la mer Adriatique au sortir de la premire guerre
mondiale.
Le systme d'quations autonomes (8.11) a largement t tudi d'un point de vue mathmatique.
On peut montrer que ses solutions sont positives, bornes, priodiques et que la fonction H(N, P ) =
N ln(N ) + P ln(P ) est une intgrale premire 14 . Il possde aussi deux points d'quilibre, (0, 0)
(qui est instable) et ( ,
) (qui est stable). La gure 8.2 prsente un exemple de solution numrique du
problme (8.11)-(8.12).
Le modle de LotkaVolterra peut tre rendu plus raliste en recourant une loi de croissance logistique
[Ver38], plutt que malthusienne, des proies en l'absence de prdateurs (la quantit de nourriture prsente
dans le milieu naturel tant nie) ou en cherchant transcrire une certaine  satit  des prdateurs
vis--vis des proies lorsque celles-ci sont en nombre important (un prdateur ne pouvant manger, et
14. On appelle intgrale premire d'un systme d'quations direntielles toute fonction des solutions du systme restant
constante le long d'une trajectoire quelconque.

248

2, 5
nombre de prdateurs

nombre d'individus

8.2. EXEMPLES D'QUATIONS ET DE SYSTMES DIFFRENTIELS ORDINAIRES

1, 5

0, 5
0

10

15

20

temps

nombre de proies

volution des populations de proies (courbe bleue) et de prdateurs (courbe verte) au cours du
temps ( gauche) et diagramme de phase ( droite) obtenus par rsolution numrique du problme (8.11)-(8.12)
sur l'intervalle [0, T ], avec T = 20, les valeurs des paramtres tant = 3, = 2, = 1, = 2, N0 = 4 et P0 = 2.
Figure 8.2:

digrer, ou chasser qu'un nombre limit de proies) en utilisant, par exemple, une rponse fonctionnelle
de Holling de type II [Hol59] pour la prdation. Dans ce cas, le systme (8.11) se trouve modi de la
manire suivante
 



dN
N

= N 1

P ,

dt

1+ N

dP

= P
N ,
dt
1 + N
o les constantes et , toutes deux strictement positives, sont respectivement la capacit de charge
(carrying capacity en anglais) du milieu, qui correspond la capacit de l'environnement supporter
la croissance des proies, et un temps de manipulation (handling time en anglais), reprsentant le temps
moyen consacr la consommation d'une proie.
Ce type de systme d'quations direntielles intervient dans plusieurs modles en conomie, le plus
clbre et le plus ancien d'entre eux tant le modle de Goodwin 15 (Goodwin's class struggle model en
anglais) [Goo67]. Celui-ci constitue une formalisation mathmatique d'un cycle conomique endogne
s'expliquant principalement par le conit de classes pour le partage de la valeur ajoute entre le capital
et le travail dans le cadre d'un rgime salarial concurrentiel. Nous concluons cette sous-section en dtaillant
sa drivation.
La dynamique du modle est base sur les observations suivantes. En priode de chmage lev,
les salaires rels progressent moins vite que la productivit du travail et la part des bnces dans
le produit intrieur s'accrot alors, permettant une augmentation de l'investissement. La croissance et
l'accumulation de capital tant soutenues, ceci entrane une reprise de la demande de travail et un dclin
du chmage. Cette baisse redonne aux salaris un pouvoir de ngociation salariale, ce qui provoque terme
une diminution de la part des bnces. Les entreprises, limites dans leur capacit de nancement, se
trouvent contraintes de rduire leurs investissements, ce qui ralentit l'accumulation et ramne le taux de
chmage la hausse. Un nouveau cycle peut alors commencer.
Le modle fait un certain nombre de simplications. Il part tout d'abord du principe que l'on se situe
dans le cadre d'une conomie ferme, sans change international ou secteur public, et comprenant deux
types d'agents, les travailleurs et les capitalistes. D'autre part, on suppose que la production rsulte de
l'utilisation de deux facteurs, qui sont le capital, not K , et le travail (labor en anglais). On distingue
alors deux classes de revenus : ceux provenant du travail, verss sous forme de salaires, et ceux issus des
bnces (prots en anglais), distribus aux capitalistes. En notant W la masse salariale et P le montant
15. Richard M. Goodwin (24 fvrier 1913 - 13 aot 1996) tait un conomiste et mathmaticien amricain. Il est connu
pour ses travaux sur les relations entre la croissance conomique long terme et les  cycle des aaires .

249

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

des bnces, on a, puisque tout le produit intrieur, not Y , est distribu en revenus, que

Y (t) = W (t) + P (t), t > 0,


avec W = wL, o w est le salaire nominal (nominal wage en anglais) et L est le nombre de travailleurs
occups. On fait ensuite l'hypothse que les travailleurs utilisent la totalit de leur salaire pour leur
consommation et que les bnces sont intgralement investis, c'est--dire

P (t) = I(t) et W (t) = C(t), t > 0,


o I et C ... REPRENDRE La consquence est que le march des produits est toujours quilibr. Les
cycles conomiques ne peuvent donc pas provenir de dsquilibres entre l'ore et la demande globales.
On voit aussi que, dans une perspective de long terme, les bnces nancent l'accumulation du capital
puisque, par dnition, la variation du stock de capital est gale l'investissement :

K 0 (t) = I(t), t > 0.


On suppose aussi que la productivit du capital est constante au cours du temps

Y (t)
= , t > 0
K(t)
avec > 0, et que la productivit du travail crot un taux constant

Y (0) t
Y (t)
=
e , t>0
L(t)
L(0)

(8.13)

avec Y (0), L(0) et ( : taux de croissance de la productivit) strictement positifs.


- la population active, note N crot avec un taux dmographique constant

N (t) = N (0) e t , t > 0

(8.14)

avec N (0) > 0 et 0 ( : taux de croissance de la population active). Le taux d'emploi, not v est le
L
rapport N
(compris entre 0 (pas de salari) et 1 (pas de chmeur)). Son complment 1 est le taux de
L
. Le fait de distinguer l'emploi eectif de l'emploi potentiel traduit l'existence d'un
chmage u = NN
march du travail ou, pour mieux dire dans la thorie marxiste, d'un march o s'change la force de
travail.
- On retient une interprtation marxienne de la courbe/relation de Phillips 16 [Phi58], bien connue en
macroconomie comme relation dcroissante entre le taux de chmage et le taux de croissance du salaire
moyen/une relation empirique dcroissante entre le taux de chmage et l'ination ou taux de croissance
des salaires nominaux, not w. Quand le taux d'emploi est faible, le pouvoir de ngociation salariale des
salaris est faible et la croissance du salaire moyen est rduite, voire ngative. Rciproquement, quand
le taux d'emploi est lev, les salaris obtiennent des augmentations du salaire moyen. On retient la
formulation linaire
w0 (t) = ( v(t) ) w(t)
(8.15)
avec , > 0. Les volutions temporelles de la masse salariale W = wL se dduisent alors des volutions
conjointes de la population active occupe et du salaire moyen :

W0
w0
L0
=
+
W
w
L
La dynamique du modle est commande de faon endogne par les eets conjugus de l'accumulation
du capital et de la formation des salaires. D'une part, l'volution du stock de capital dpend des prots,
qui dpendent des salaires distribus et donc des revendications salariales. D'autre part, les volutions
16. Alban William Housego Phillips (18 novembre 1914 - 4 mars 1975) tait un conomiste no-zlandais. Sa contribution
la plus connue la macroconomie est la courbe portant aujourd'hui son nom. Il conut et contruisit en 1949 le MONIAC
(acronyme de Monetary National Income Analogue Computer en anglais), un ordinateur analogique hydraulique utilis
pour simuler le fonctionnement de l'conomie du Royaume-Uni.

250

8.2. EXEMPLES D'QUATIONS ET DE SYSTMES DIFFRENTIELS ORDINAIRES

salariales dpendent du taux d'emploi, mais l'emploi est un facteur de production complmentaire au
capital utilis, dont les variations sont nances par les prots. Goodwin choisit de mettre en avant la
dynamique conjointe du taux d'emploi et de la part des salaires dans le revenu, qu'on notera

W
wL
=
Y
Y

( : part salariale de la valeur ajoute)


Il reste obtenir le systme direntiel exprimant les lois d'volution du taux d'emploi et de la part
des salaires dans le revenu. Par dnition de v , on a

v0
L0
N0
L0
=

v
L
N
L
d'aprs (8.14). Puisque les gains de productivit du travail sont constants, il vient d'aprs (8.13)

Y0
L0

=
Y
L
La croissance du produit est gale au rythme d'accumulation du capital (car la productivit du capital
est constante par (constance prod capital) ), donc

Y0
K0
=
K
Y
ce qui entrane

L0
K0
=

L
K

Mais, par (constance prod capital),

K0
K0 Y
K0
=
=
K
Y K
Y
0
et K = P (l'accumulation du capital est nance par les prots, A VOIR) et de plus P = Y W (par
...) d'o
K0
K0
Y W
=
=
= (1 )
K
Y
Y
et donc
v0
= (1 ) ( + )
v
d'o
v 0 = ( (1 ) ( + ))v
Par dnition de , on a

Par (8.15) et (8.13), on trouve

0
w0
L0
Y0
=
+

w
L
Y
0

= v(t) ( + ), d'o
0 = ( v ( + ))

8.2.3

Oscillateur de van der Pol

L'oscillateur de van der Pol 17 est un exemple d'oscillateur dont l'volution est gouverne par l'quation
direntielle ordinaire du second ordre suivante

d2 x
dx
+x=0
+ (x2 1)
dt2
dt

(8.16)

17. Balthasar van der Pol (27 janvier 1889 - 6 octobre 1959) tait un physicien exprimentateur hollandais. Principalement
intress par la propagation des ondes radiolectriques, la thorie des circuits lectriques et la physique mathmatique, ses
travaux sur les oscillations non-linaires connurent un regain d'intrt dans les annes 1980 la faveur de la thorie du
chaos.

251

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

que van der Pol ralisa au moyen d'un circuit lectrique compos de deux rsisteurs de rsistances respectives R et r, d'un condensateur de capacit lectrique C , d'une bobine et d'une ttrode, la priode
d'oscillation tant donne par = RC [Pol26].
Dans ce systme, le terme non linaire a pour eet d'amplier les oscillations de faible amplitude et,
a contrario, d'attnuer celles de forte amplitude. On s'attend par consquent l'existence de solutions
particulires priodiques stables, que des solutions issues de conditions aux limites  voisines  approchent
asymptotiquement (on parle dans ce cas de cycles limites ).
On a reprsent sur les gures 8.3 et 8.4 une solution du problme, obtenue par rsolution numrique,
pour deux rgimes distincts, dtermins par la valeur du paramtre , l'un faiblement amorti ( = 0, 1)
et l'autre amorti ( = 3, 5).
2

1, 5
2
1
1
dx
(t)
dt

x(t)

0, 5
0
0, 5

1
2

1, 5
2

20

40

60

80

3
3

100

Figure 8.3:

0
x(t)

volution au cours du temps ( gauche) et portrait de phase ( droite) de la solution de l'quation


dx
(0) = 0, dans le cas faiblement amorti ( = 0, 1).
dt

(8.16) vriant la condition initiale x(0) = 0, 5,

2
dx
(t)
dt

x(t)

Dans le premier cas, les oscillations sont quasi-sinusodales et le cycle limite vers lequel la solution
converge a pratiquement la forme d'un cercle dans l'espace des phases. Pour le second cas, l'volution de
la solution fait apparatre des variations lentes de l'amplitude entrecoupes de changements soudains, ce
qui donne lieu des oscillations dites de relaxation.

20

40

60

80

6
3 2 1 0 1
x(t)

100

volution au cours du temps ( gauche) et portrait de phase ( droite) de la solution de l'quation


dx
(8.16) vriant la condition initiale x(0) = 0, 5,
(0) = 0, dans le cas amorti ( = 3, 5).
dt
Figure 8.4:

252

8.2. EXEMPLES D'QUATIONS ET DE SYSTMES DIFFRENTIELS ORDINAIRES

8.2.4

Modle SIR de KermackMcKendrick en pidmiologie

Un modle SIR (acronyme anglais pour Susceptible-Infected-Recovered ) est un modle compartimental


d'volution d'une maladie infectieuse au sein une population donne au cours du temps. Il considre que
la population est divise en trois compartiments, reprsentant chacun un tat possible d'un individu face
la maladie : le compartiment S des individus susceptibles de contracter la maladie, le compartiment I
des individus infects et le compartiment R des individus ayant guri et ainsi acquis une immunit face
la maladie 18 , une personne passant d'un compartiment l'autre selon le schma

S I R.
Des rgles, spciant dans quelles mesures et proportions les passages ci-dessus s'oprent, compltent le
modle.
Le modle de KermackMcKendrick [KM27] est l'un des premiers modles de ce type. Il a t propos
en 1927 pour expliquer l'augmentation et la diminution rapides du nombre de patients infects observes
lors d'pidmies de peste ( Londres en 1665 et Bombay en 1896) et de cholra ( Londres en 1865) et
suppose que la population est de taille xe (ce qui se justie lorsque l'pidmie se droule sur une courte
chelle de temps) et homogne (aucune structure d'ge, de genre, spatiale ou sociale n'est considre),
que la priode d'incubation (c'est--dire le dlai entre la contamination et l'apparition des premiers symptmes de la maladie) est instantane, et que la dure durant laquelle un individu infect est contagieux
correspond celle durant laquelle celui-ci est malade.
D'un point de vue mathmatique, ce modle se traduit par un systme de trois quations direntielles
ordinaires non linaires couples, savoir

dS

= r SI,

dt

dI
(8.17)
= r SI a I,

dt

dR = a I,
dt
ainsi que la donne d'une condition initiale,

S(0) = S0 , I(0) = I0 , R(0) = R0 ,

(8.18)

avec gnralement S0 > 0, I0 > 0, R0 = 0, dans lesquels la variable t dsigne le temps (l'instant initial
t = 0 correspondant au dbut de l'pidmie), S(t), I(t) et R(t) sont les nombres respectifs de personnes
appartenant chacun des compartiments l'instant t, r est le taux d'infection et a est le taux de gurison.
On note que le fait que la population reste stable au cours du temps est une proprit intrinsque du
modle puisque, en additionnant les trois quations du systme, il vient

dS
dI
dR
+
+
= 0,
dt
dt
dt
ce qui implique que S(t) + I(t) + R(t) = N pour tout t 0, o N = S0 + I0 + R0 est le nombre total
d'individus.
Bien que simple, ce modle possde un certain nombre de proprits qualitatives intressantes. Parmi
celles-ci, on peut mentionner l'existence d'un nombre, gal

R0 =

rS0
a

et appel le taux de reproduction de base, gouvernant l'volution de la solution de ces quations. Heuristiquement, cette quantit reprsente le nombre moyen attendu de nouveaux cas d'infection, engendrs
par un individu infectieux avant sa gurison (ou sa mort), dans une population entirement constitue
d'individus susceptibles. Le  thorme du seuil , nonc par Kermack et McKendrick, fournit alors un
18. Dans le cas d'une maladie mortelle, les individus dcds du fait de l'infection peuvent tre inclus dans ce dernier
compartiment.

253

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

critre pour dcider de la propagation ou non d'une maladie infectieuse donne au sein d'une population
donne. Si R0 < 1, chaque personne ayant contract la maladie en infecte en moyenne moins d'une autre,
conduisant une disparition totale des malades de la population aprs quelques temps ; en revanche, si
R0 > 1, chaque cas d'infection produit plusieurs cas secondaires et l'on assiste au dveloppement d'une
pidmie.

800
700

nombre de garons

600
500
400
300
200
100
0

10

12

14

temps (jours)

Solution numrique du problme (8.17)-(8.18) dont les valeurs des paramtres S0 = 762, I0 = 1,
R0 = 0, r = 0, 00218 et a = 0, 44036 ont t obtenues par un talonnage du modle eectu partir des donnes
d'une pidmie de grippe dans une cole de garons parues dans la revue mdicale britannique The Lancet le 4
mars 1978 (voir [Mur02], chapitre 10). Les courbes de couleur bleue, verte et rouge reprsentent les volutions
respectives des nombres de sujets des catgories S , I et R au cours du temps.

Figure 8.5:

On notera que le modle de KermackMcKendrick peut tre modi de diverses manires an de mieux
rendre compte des caractristiques d'une maladie (transmission indirecte, vecteurs multiples, dirents
niveaux d'infectiosit...) ou de la structure complexe d'une population (htrognit d'ge, rpartition
gographique, dmographie...) considre. Un exemple est le modle SEIR (la lettre E tant l'initiale du
mot anglais exposed ), dans lequel un compartiment a t introduit pour traduire le fait qu'un individu
susceptible expos la maladie n'est gnralement pas immdiatement capable de la transmettre, mais
seulement aprs une certaine priode de latence. Il est aussi possible un temps moyen d'immunisation
au-del duquel une personne est de nouveau susceptible d'tre infecte, quittant ainsi le compartiment R
pour rintgrer le compartiment S , ce qui donne lieu des modles de type SIRS ou SEIRS.
Dans tous les cas, des simulations numriques, comme celle prsente sur la gure 8.5, permettent
d'explorer la gamme de comportements gnrs par les quations qui composent le modle et d'amliorer
la comprhension de ce dernier, participant ainsi la dnition de stratgies de vaccination ou d'isolement
par mise en quarantaine des malades.

8.2.5

Modle de Lorenz en mtorologie

Le modle de Lorenz 19 [Lor63] fut introduit pour rendre compte, de manire dterministe et idalise,
des interactions entre l'atmosphre terrestre et l'ocan, et plus particulirement des courants convectifs.
19. Edward Norton Lorenz (23 mai 1917 - 16 avril 2008) tait un mathmaticien et mtorologue amricain, pionnier de
la thorie du chaos. Il dcouvrit la notion d'attracteur trange et introduisit l' eet papillon , une expression qui rsume
de manire mtaphorique le problme de la prdictibilit en mtorologie.

254

8.2. EXEMPLES D'QUATIONS ET DE SYSTMES DIFFRENTIELS ORDINAIRES

Il se prsente sous la forme d'un systme de trois quations direntielles ordinaires du premier ordre,

dx1

dt

dx2
dt

dx3
dt

(x2 x1 ) ,

x1 (r x3 ) x2 ,

x1 x2 b x3 ,

(8.19)

complt d'une condition initiale


(8.20)

x1 (0) = 0, x2 (0) = 1, x3 (0) = 0,

dont les inconnues x1 , x2 et x3 sont des quantits respectivement proportionnelles l'intensit des mouvements de convection, l'cart de temprature entre les courants ascendants et descendants et la
distortion du prol vertical de temprature par rapport un prol linaire, et o = 10 est le nombre
de Prandtl 20 , r = 28 est un nombre de Rayleigh rduit et b = 38 est un paramtre associ la gomtrie
du problme.

50

x3(t)

40
30
20
10
0
20 15

10 5
x1(t)

10
5 10
15 20 3020

20
10
x2(t)

30

Reprsentation dans l'espace des phases (x1 (t), x2 (t), x3 (t)) de l'attracteur trange du problme
de Lorenz obtenu par rsolution numrique du problme (8.19)-(8.20) sur l'intervalle [0, T ], avec T = 75.

Figure 8.6:

Pour les valeurs indiques des donnes, issues de considrations physiques, la rsolution numrique
du problme permit Lorenz de constater la sensibilit du systme dynamique face des variations de
la condition initiale et d'observer que les orbites calcules semblent s'accumuler, pour presque tout choix
de condition initiale 21 , sur un ensemble compact de structure complique, que l'on qualie d'attracteur
trange du fait du comportement chaotique exhib par les trajectoires (voir les gures 8.6 et 8.7).
20. Ludwig Prandtl (4 fvrier 1875 - 15 aot 1953) tait un ingnieur et physicien allemand. Il a apport d'importantes
contributions la mcanique des uides, notamment en dveloppant les bases mathmatiques des principes de l'arodynamique des coulements subsoniques et transoniques, ainsi qu'en dcrivant le phnomne de couche limite et en mettant en
vidence son importance pour l'tude de la trane.
p
p
21. Le systme
(8.19) possde en eet trois points xes lorsque r > 1, (0, 0, 0), ( b(r 1), b(r 1), r 1) et
p
p
( b(r 1), b(r 1), r 1), qui sont de plus instables pour la valeur choisie r = 28.

255

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

30

20

50

50

40

40

30

30
x3(t)

x3(t)

x2(t)

10

20

20

10

10

10
20
30
30

20

10

0
x1(t)

10

20

30

0
30

20

10

0
x1(t)

10

20

30

0
30

20

10

0
x2(t)

10

20

30

Trois portraits de phase de l'attracteur trange du problme de Lorenz obtenu par rsolution
numrique du problme (8.19)-(8.20) sur l'intervalle [0, T ], avec T = 75.
Figure 8.7:

8.2.6

Problme de Robertson en chimie

Le problme de Robertson [Rob66] dcrit la cintique d'une raction chimique autocatalytique 22 mettant en jeu trois espces chimiques, ici appeles A, B et C , et dont l'quation bilan globale est A C .
Le mcanisme de la raction peut tre dcompos en trois ractions lmentaires, la premire,

A B,
tant lente (sa constante de vitesse vaut k1 = 0, 04 s1 ) et dcrivant la formation du catalyseur B partir
du ractif A, la deuxime,
B + B B + C,
tant trs rapide (k2 = 3 107 mol1 m3 s1 ) et correspondant la formation du produit C de la raction,
et la troisime,
B + C A + C,
tant rapide (k3 = 104 mol1 m3 s1 ) et exprimant la disparition du catalyseur par recomposition. En
notant xA = [A], xB = [B] et xC = [C] les concentrations molaires (exprimes en mol m3 ) respectives
des espces chimiques intervenant dans la raction, les lois de la cintique chimique conduisent modliser
mathmatiquement ce problme par le systme d'quations direntielles ordinaires suivant

dxA

= k1 xA + k3 xB xC ,

dt

dxB
(8.21)
= k1 xA k2 xB 2 k3 xB xC ,

dt

dxC = k x 2 ,
2 B
dt
que l'on complte d'une condition initiale traduisant le fait que seul le ractif A est prsent en dbut de
raction,
xA (0) = 1, xB (0) = 0, xC (0) = 0.
(8.22)
La gure 8.8 prsente la solution numrique du problme (8.21)-(8.22). On voit que le ractif A est
entirement transform en produit C et que le catalyseur B disparat en temps long, ce qui est conforme
aux observations des chimistes.
On constate galement que la concentration du catalyseur crot de manire trs abrupte aux premiers
instants de la raction pour ensuite diminuer lentement et rgulirement. Ce comportement est typique
des problmes de cintique chimique dans lesquels les dirences entre les constantes de vitesse des ractions lmentaires sont grandes. Cette phase transitoire rapide pose des dicults certaines mthodes
numriques lors du calcul d'une solution approche. Le systme (8.21) constitue ce titre un exemple de
systme dit  raide  (voir la section 8.7).
22. Une raction chimique est dite autocatalytique si l'un de ses propres produits de raction est un catalyseur, c'est--dire
une substance inuant sur la vitesse de transformation chimique, pour elle.

256

8.3. MTHODES NUMRIQUES DE RSOLUTION

8.3

Mthodes numriques de rsolution

Exception faite de quelques cas particuliers 23 , on ne sait gnralement pas donner une forme explicite la solution d'un problme de Cauchy. Pour cette raison, il est courant en pratique d'approcher
numriquement cette dernire, soit au moyen d'une mthode analytique, dans laquelle l'approximation
de la solution prend gnralement la forme d'une srie tronque, soit par une mthode de discrtisation
(discrete variable method en anglais), qui cherche approcher la solution en un nombre ni de points
d'un intervalle donn. C'est la description de quelques mthodes de ce second type qu'est consacre
cette section.
HYPOTHESES Dans toute la suite, l'expos ne concerne que le cas d'quations direntielles scalaires.
Si l'adaptation des mthodes prsentes des systmes d'quations est relativement directe, l'extension
de certains des rsultats obtenus dans la section 8.4 ne l'est pas toujours. Les dirences ou dicults les
plus marquantes seront soulignes l'occasion, ainsi que dans la sous-section 8.4.6 consacre au cas des
systmes.
On suppose que la fonction f est dnie et continue sur D = [t0 , t0 + T ] R, telle qu'il existe une
contante L strictement positive telle que
(8.23)

|f (t, x) f (t, x )| L |x x | , t [t0 , t0 + T ], (x, x ) R2 ,

ce qui garantit que la solution du problme de Cauchy existe et est unique sur [t0 , t0 + T ].
Vrai pour les quations direntielles linaires, peut-on discuter de la lgitimit de cette hypothse,
mais c'est la condition qui intervient naturellement si l'on veut qu'il existe une solution en temps arbitrairement long (sur [t0 , t0 + T ] avec T arbitrairement grand)
REPRENDRE Plus prcisement, nous considrons la rsolution numrique du problme de Cauchy
(8.1)-(8.5) sur un intervalle [t0 , t0 + T ]. Pour cela, une subdivision de [t0 , t0 + T ] en N sous-intervalles
[tn , tn+1 ], n = 0, . . . , N 1, est ralise, l'entier N tant destin tendre vers l'inni. L'ensemble des
points {tn }0nN est appel une grille de discrtisation (discretization grid en anglais) et le scalaire
hn = tn+1 tn , 0 n N 1, est la longueur du pas de discrtisation (discretization step en anglais)
au point de grille tn . La nesse de la grille se mesure par la quantit

h=

max

(8.24)

hn ,

0nN 1

T
, la grille est dite uniforme.
et lorsque h0 = h1 = = hN 1 = h = N
L'ide des mthodes de discrtisation est de construire une suite de valeurs 24 (xn )0nN approchant

23. Pour les quations direntielles ordinaires du premier ordre, on peut par exemple citer les cas des systmes d'quations
linaires coecients constants, des systmes de dimension deux dont on connat une intgrale premire non triviale, de
certaines quations variables spares, des quations homognes ou encore des quations de Bernoulli (8.2) et de Riccati
(8.3).
24. Cette suite sera valeurs vectorielles si l'on s'intresse un systme d'quations direntielles ordinaires.

4 105

3, 5 105
0, 8

0, 8
3 105
2, 5 105

0, 4

0, 6
xC (t)

xA(t)

xB (t)

0, 6

2 105

0, 4

1, 5 105
1 10

0, 2

0, 2

5 106
0
104 103 102 101

10
t

102

103

104

105

106

0
104 103 102 101

10
t

102

103

104

105

106

0
104 103 102 101

10
t

102

103

104

105

106

volution sur l'intervalle [0, T ], avec T = 106 s, des concentrations des espces chimiques A, B et
C obtenues par rsolution numrique du problme (8.21)-(8.22).

Figure 8.8:

257

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Figure 8.9:

DESSIN du type ci-dessus illustrant la construction des approximations par la mthode d'Euler

aux points de grille la solution x du problme de Cauchy considr, c'est--dire telle que

xn x(tn ), 0 n N,
en un sens qu'il nous faudra prciser. Une approximation continue de la fonction x est alors obtenue par
une interpolation linaire par morceaux (voir la section 6.3) des valeurs xn , 0 n N , calcules aux
point de la grille de discrtisation.
On peut essentiellement 25 distinguer deux classes de mthodes de discrtisation pour la rsolution des
quations direntielles ordinaires. Celle des mthodes un pas (o pas spars ) est caractrise par le
fait que, pour tout n 0, la valeur approche xn+1 de la solution au point tn+1 fournie par la mthode
ne dpend que de la valeur xn calcule l'tape prcdente et ne fait par consquent intervenir qu'un
seul pas de discrtisation. Au contraire, les mthodes pas multiples (galement dites pas lis ) font
appel aux approximations de la solution en un certain nombre de points antrieurs ti , avec 0 i n,
pour dterminer la valeur approche xn+1 .
De manire pouvoir introduire naturellement plusieurs premires notions fondamentales relatives
l'tude des mthodes, nous allons tout d'abord nous intresser l'exemple historique, et particulirement
didactique, de la mthode d'Euler.

8.3.1

La mthode d'Euler

La mthode d'Euler est la plus ancienne et certainement la plus simple des mthodes numriques de
rsolution des quations direntielles ordinaires. Elle est dnie par la relation de rcurrence, ou schma,

xn+1 = xn + hn f (tn , xn ), n = 0, . . . , N 1,

(8.25)

la valeur x0 tant donne.


En supposant que l'approximation de la solution du problme (8.1)-(8.5) exactement connue en un
point tn , c'est--dire que l'on a xn = x(tn ), on observe que cette mthode revient simplement construire
une approximation de la solution en tn+1 = tn + hn en confondant sur l'intervalle [tn , tn+1 ] la courbe
intgrale x(t) issue de (tn , x(tn )) avec sa tangente en ce mme point (voir la gure 8.9). Partant d'une
donne initiale x0 , ce procd est appliqu sur chaque sous-intervalle de la subdivision de faon obtenir,
par rcurrence, des approximations xn de la solution aux points de grille tn , 1 n N .
Une seconde interprtation de la mthode est oerte en considrant l'quation intgrale
Z tn+1
x(tn+1 ) = x(tn ) +
f (t, x(t)) dt.
(8.26)
tn

25. Une telle distinction s'avre toutefois quelque peu articielle. Nous verrons en eet dans la section 8.4 que l'analyse
de plusieurs mthodes un pas  classiques  peut tre ralise dans le cadre de la thorie dveloppe pour des mthodes
pas multiples particulires.

258

8.3. MTHODES NUMRIQUES DE RSOLUTION

satisfaite par toute solution de l'quation (8.1) sur [tn , tn+1 ] en vertu du thorme fondamental de l'analyse
(voir le thorme B.129). On voit alors clairement que l'approximation xn+1 est obtenue en remplaant
dans l'intgrale la fonction f (, x()) par une fonction constante ayant pour valeur f (tn , x(tn )), ce qui
revient encore approcher l'intgrale prsente dans (8.26) par une formule de quadrature interpolatoire
introduite au chapitre 7 qui n'est autre que la rgle du rectangle gauche (considrer la formule (7.7)).
On ne manquera pas remarquer que l'on aurait pu tout aussi bien choisir une autre formule de
quadrature pour l'valuation de l'intgrale, comme la rgle du rectangle droite (voir la formule (7.8))
ou encore celle du trapze (voir la formule (7.10)), ce qui aurait respectivement donn lieu aux mthodes
suivantes
xn+1 = xn + hn f (tn+1 , xn+1 ), n = 0, . . . , N 1,
(8.27)
et

xn+1 = xn +

hn
(f (tn+1 , xn+1 ) + f (tn , xn )) , n = 0, . . . , N 1,
2

(8.28)

Il est cependant important de souligner que ces deux modications sont lourdes de consquences en
pratique. En eet, pour dterminer la valeur xn+1 partir de celle de xn , il faut rsoudre une quation
a priori non linaire. Pour cette raison, les mthodes dnies par les relations de rcurrence (8.27) et
(8.28) sont qualies d'implicites, alors celle base sur (8.25) est dite explicite. On peut d'ores et dj
noter que l'utilisation d'une mthode implicite pose des questions d'existence et d'unicit d'un point de
vue thorique et de mise en uvre d'un point de vue calculatoire, mais, de manire assez typique en
analyse numrique, l'eort supplmentaire demand par rapport l'emploi d'une mthode explicite se
trouve compens par le renforcement de certaines proprits. Nous reviendrons en dtail sur ces points
plus loin.
videmment, de telles mthodes de discrtisation ne sont intressantes que si elles permettent d'approcher numriquement la solution du problme (8.1)-(8.5), et ceci d'autant mieux que la grille de discrtisation est ne (voir la gure 8.10). En eet, lorsque le paramtre h tend vers 0, le nombre de points
de grille tend vers l'inni et la grille elle-mme tend vers l'intervalle [t0 , t0 + T ]. On s'attend alors ce
que l'approximation fournie par la mthode tende vers la solution du problme et l'on dit que la mthode
converge. Ceci se traduit mathmatiquement par le fait que l'erreur globale de la mthode xn+1 x(tn+1 )
au point tn+1 , n = 0, . . . , N 1, tend vers zro lorsque h tend vers zro, sous rserve que x0 = x(t0 )
(ventuellement la limite). Nous allons maintenant prouver que c'est le cas pour la mthode d'Euler.
1
0, 95
0, 9
0, 85
0, 8
0, 75
0, 7
0, 65
0, 6

0, 2

0, 4

0, 6

0, 8

Illustration de la convergence de la mthode d'Euler pour la rsolution du problme de Cauchy


d'quation x0 (t) = t x(t) et de condition initiale x(0) = 1, sur l'intervalle [0, 1]. La courbe reprsente le graphe
de la solution du problme, x(t) = t 1 + 2 et , tandis que les familles de points dsigns par les symboles , 
et  sont obtenues au moyen d'une rsolution numrique par la mthode d'Euler sur des grilles de discrtisation
uniformes dont les longueurs de pas respectives sont h = 0, 2, h = 0, 1 et h = 0, 05.
Figure 8.10:

En utilisant la dnition (8.25) de la mthode et l'quation direntielle (8.1), on peut crire, pour
259

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

n = 0, . . . , N 1,
xn+1 x(tn+1 ) = xn + hn f (tn , xn ) x(tn+1 )
= xn x(tn ) + x(tn ) + hn x0 (tn ) hn f (tn , x(tn )) + hn f (tn , xn ) x(tn+1 ).
En vertu de la condition de Lipschitz (8.23) satisfaite par f , il vient alors

|xn+1 x(tn+1 )| (1 + hn L) |xn x(tn )| + |n+1 | , n = 0, . . . , N 1,

(8.29)

o l'on a introduit l'erreur de troncature locale de la mthode au point tn+1 en posant

n+1 = x(tn+1 ) x(tn ) hn x0 (tn ), n = 0, . . . , N 1.


La solution x tant de classe C 1 sur l'intervalle [t0 , t0 + T ], on sait, par application du thorme des
accroissements nis (voir le thorme B.111), qu'il existe, pour tout entier n compris entre 0 et N 1,
un rel n appartenant l'intervalle ]tn , tn+1 [ tel que

n+1 = hn (x0 (n ) x0 (tn )) .


On a par consquent
N
1
X

|n+1 | =

n=0

N
1
X

hn |x0 (n ) x0 (tn )| (x0 , h)

n=0

N
1
X

hn = (x0 , h) T,

n=0

o (x0 , ) dsigne le module de continuit de la fonction x0 , qui est uniformment continue sur l'intervalle
[t0 , t0 + T ] en vertu du thorme de Heine (voir le thorme B.93), ce qui montre que

lim

h0

N
1
X

|n+1 | = 0.

(8.30)

n=0

Cette proprit de consistance de la mthode d'Euler est une condition ncessaire sa convergence.
Revenons la majoration de l'erreur de la mthode. En utilisant rcursivement (8.29), on arrive

!
n
n
n
Y
X
Y

|xn+1 x(tn+1 )|
(1 + hi L) |x0 x(t0 )| +
(1 + hj L) |i+1 | , n = 0, . . . , N 1.
i=0

i=0

j=i+1

Pn
Qn
Pn
PN 1
En remarquant que i=0 (1 + hi L) eL i=0 hi et que i=0 hi i=0 hi = T , n = 0, . . . , N 1, on
obtient nalement que
!
n
X
LT
|xn+1 x(tn+1 )| e
|x0 x(t0 )| +
|i+1 | , n = 0, . . . , N 1,
i=0

cette dernire ingalit caractrisant la stabilit de la mthode. On dduit alors la convergence de la


mthode de la proprit de consistance (8.30) si l'on a par ailleurs

lim |x0 x(t0 )| .

h0

On peut tablir une estimation plus prcise de la vitesse laquelle la mthode converge lorsque la
longueur du pas de discrtisation tend vers zro en supposant que la fonction f est de classe C 1 . Dans
ce cas, la solution x est de classe C 2 et l'on trouve, en utilisant la formule de TaylorLagrange (voir le
thorme B.114),


MT
h , n = 0, . . . , N 1,
|xn+1 x(tn+1 )| eLT |x0 x(t0 )| +
2
260

8.3. MTHODES NUMRIQUES DE RSOLUTION

o M est une constante positive majorant la fonction |x00 | sur l'intervalle [t0 , t0 +T ]. Si |x0 x(t0 )| = O(h),
on trouve que |xn x(tn )| = O(h), n = 0, . . . , N . On dit que (la convergence de) la mthode est d'ordre
un.
L'analyse que nous venons d'eectuer amne plusieurs remarques. La premire est que la convergence
de la mthode d'Euler repose sur les proprits fondamentales de consistance et de stabilit ; il en sera de
mme pour toutes les mthodes que nous prsenterons dans ce chapitre. La seconde est que la mthode
d'Euler n'est pas trs prcise et contraint employer une grille de discrtisation ne si l'on souhaite que
l'erreur globale soit petite, ce qui a des rpercussions sur le cot de calcul de la mthode.
Il est possible de construire des mthodes de discrtisation dont la prcision est meilleure. Pour cela,
on recense essentiellement trois 26 manires de faire. On peut tout d'abord utiliser plus d'une valuation
de la fonction f chaque tape pour obtenir la valeur approche de la solution (voir la sous-section 8.3.2)
ou bien faire dpendre cette valeur de plus d'une valeur prcdemment calcule (voir la sous-section 8.3.3).
Enn, on peut galement se servir d'valuations des drives de la fonction f , lorsque cette dernire est
susamment rgulire, dans le schma de la mthode (voir la sous-section 8.3.4).
COMPLETER la preuve si f dnie sur D = [t0 , t0 + T ] avec un ouvert de R (on doit justier
l'existence de la suite (xn )n en montrant que (tn , xn ) D, n)

8.3.2

Mthodes de RungeKutta

Les mthodes de RungeKutta 27 [Run95, Kut01] visent tendre la rsolution d'quations direntielles ordinaires l'usage des techniques de calcul approch d'intgrales que sont les formules de quadrature
interpolatoires. Elles font pour cela appel de multiples valuations de la fonction f , en des point obtenus par substitutions successives (pour les mthodes explicites), sur chaque sous-intervalle de la grille
de discrtisation, cet  chantillonnage  de la drive de la courbe intgrale recherche permettant de
raliser l'intgration numrique approche de cette dernire au moyen d'une somme pondre des valeurs
recueillies. Pour illustrer cette ide, donnons un premier exemple.

Exemple de mthode de RungeKutta explicite. Considrons une modication de la mthode d'Euler

propose par Runge dans [Run95]. Supposons que l'on connaisse la valeur x(tn ) et que l'on cherche calculer une
approximation xn+1 d'ordre deux de x(tn+1 ). Pour cela, il semble naturel d'utiliser une formule de quadrature
comme la rgle du point milieu (voir la formule (7.9)), dont on sait que le degr d'exactitude est gal un, en place
de la formule du rectangle gauche (dont le degr d'exactitude vaut zro). Cette dernire ncessite cependant
d'valuer la fonction f au point (tn + h2n , x(tn + h2n )), sachant que la seule valeur disposition est xn = x(tn )...
L'ide est de se servir de la mthode d'Euler, sur l'intervalle [tn , tn + h2n ], pour approcher cette valeur inconnue.
On obtient ainsi la mthode d'Euler modie, dont le schma s'crit


hn
hn
xn+1 = xn + hn f tn +
, xn +
f (tn , xn ) , n = 0, . . . , N 1.
(8.31)
2
2
On voit que deux valuations successives de la fonction f sont ncessaires pour faire avancer d'un pas la solution
numrique et que la mthode sacrie la dpendance linaire (entre xn+1 et xn d'une part et f (tn , xn ) et/ou
f (tn+1 , xn+1 ) d'autre part) qui existe dans les mthodes d'Euler ou de la rgle du trapze. En contrepartie, on
peut montrer que cette mthode est eectivement d'ordre deux.

En toute gnralit, une mthode de RungeKutta s niveaux pour la rsolution du problme de


Cauchy (8.1)-(8.5) est dnie par

xn+1 = xn + hn

s
X

bi ki , ki = f (tn + ci hn , xn + hn

i=1

s
X

aij kj ), i = 1, . . . , s, n = 0, . . . , N 1, (8.32)

j=1

26. On trouve galement dans la littrature d'autres classes de mthodes combinant ces trois approches (voir la section
8.9 en n de chapitre).
27. Martin Wilhelm Kutta (3 novembre 1867 - 25 dcembre 1944) tait un mathmaticien allemand. Il dveloppa avec
Carl Runge une mthode de rsolution numrique des quations direntielles aujourd'hui trs utilise. En arodynamique,
son nom est associ une condition permettant de dterminer la circulation autour d'un prol d'aile et, par suite, d'en
dduire la portance.

261

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

la valeur x0 tant donne. Une telle mthode est donc entirement caractrise par la donne des coefcients {aij }1i,js , {bi }1is et {ci }1is , que l'on a coutume de prsenter, depuis la publication de
l'article [But64a], dans le tableau de Butcher 28 (Butcher tableau en anglais) suivant

c1
c2
..
.

a11
a21
..
.

a12
a22
..
.

...
...

a1s
a2s
..
.

cs

as1

as2

...

ass

b1

b2

...

bs

(8.33)

que l'on peut encore crire, en introduisant la matrice carre A d'ordre s et les vecteurs b et c,

A
bT

Dans la suite, nous supposerons 29 que les mthodes sont telles que leurs coecients vrient les
conditions suivantes
s
X
ci =
aij , i = 1, . . . , s,
(8.34)
j=1

qui garantissent que tous les points en lesquels la fonction f est value sont des approximations du premier
ordre de la solution, simpliant ainsi grandement l'criture des conditions d'ordre que doit satisfaire une
mthode de RungeKutta d'ordre lev.
On observe que si aij = 0, 1 i j s, chacune des quantits ki s'exprime uniquement en fonction
de valeurs kj , 1 j < i s, dj connues et la mthode de RungeKutta est dite explicite (explicit
RungeKutta method en anglais, ERK en abrg). Si ce n'est pas le cas, la mthode est dite implicite 30
(implicit RungeKutta method en anglais, IRK en abrg) et la quantit xn+1 est alors dnie de manire
unique sous condition (voir l'ingalit (8.43)). La mthode d'Euler sous sa forme explicite (resp. implicite),
dnie par (8.25) (resp. (8.27)), est l'exemple le plus simple 31 de mthode de RungeKutta explicite (resp.
implicite).

Construction d'une mthode de RungeKutta explicite pour une quation scalaire


Jusqu'aux travaux de Butcher dans les annes 1960, seules les mthodes de RungeKutta explicites taient considres et la drivation de leurs coecients tait une tche fastidieuse, demandant de
nombreux calculs et d'autant plus ardue que l'ordre demand pour la mthode est lev. La technique
gnralement utilise pour ce faire consiste faire correspondre, jusqu' l'ordre souhait, le dveloppement de Taylor au point tn d'une solution rgulire du problme de Cauchy en tn+1 avec celui d'une
approximation numrique au mme point, note x
n+1 , fournie par la mthode en supposant que
(8.35)

xn = x(tn )

(on parle d'hypothse localisante ). Nous allons maintenant illustrer cette approche en construisant des
mthodes de RungeKutta explicites de un trois niveaux et d'ordre identique au nombre de niveaux.
28. John Charles Butcher (n le 31 mars 1933) est un mathmaticien no-zlandais spcialis dans l'tude des mthodes
de rsolution numrique des quations direntielles ordinaires.
29. Il s'avre possible d'obtenir des mthodes explicites, deux ou trois niveaux et d'ordre maximal, en se passant de ces
hypothses (voir [Oli75]).
30. En se rfrant au tableau de Butcher (8.33), on voit qu'une mthode de RungeKutta est explicite si et seulement
si la matrice A est strictement triangulaire infrieure. Si A est seulement triangulaire infrieure, c'est--dire si aij = 0
pour tout couple (i, j) de {1, . . . , s}2 tel que i < j mais qu'au moins l'un des coecients aii , 1 i s, est non nul, la
mthode est semi-implicite (semi-implicit RungeKutta method en anglais). On la qualie alors en anglais de diagonally
implicit RungeKutta method (DIRK en abrg) ou, si tous les lments diagonaux aii , i = 1, . . . , s, sont identiques, de
singly-diagonally implicit RungeKutta method (SDIRK en abrg). Elle est implicite dans tout autre cas.
31. Vue comme une mthode de RungeKutta un niveau, cette mthode a en eet pour tableau de Butcher associ
0

0
1
(resp.
1

262

1
).
1

8.3. MTHODES NUMRIQUES DE RSOLUTION

D'aprs la dnition (8.32) et les conditions (8.34), le schma d'une mthode de RungeKutta explicite
trois niveaux peut s'crire, sous l'hypothse localisante (8.35),

x
n+1
k1
k2
k3

=
=
=
=

x(tn ) + hn (b1 k1 + b2 k2 + b3 k3 ),
f (tn , x(tn )),
f (tn + hn c2 , x(tn ) + hn c2 k1 ),
f (tn + hn c3 , x(tn ) + hn (c3 a32 )k1 + hn a32 k2 ).

(8.36)

Par ailleurs, en supposant la fonction f susamment rgulire ainsi qu'en utilisant et drivant de faon
rpte l'quation (8.1), on obtient le dveloppement de Taylor de x(tn+1 ) suivant

x(tn+1 ) = x(tn ) + hn f (tn , x(tn ))




f
hn 2 f
(tn , x(tn )) + f (tn , x(tn )) (tn , x(tn ))
+
2
t
x
3  2
2
2
f
hn
f
2 f
(tn , x(tn )) + 2 f (tn , x(tn ))
(tn , x(tn ))
+
(tn , x(tn )) + (f (tn , x(tn )))
2
6
t
tx
x2



f
f
f
(tn , x(tn )) + f (tn , x(tn )) (tn , x(tn ))
(tn , x(tn )) + O(hn 4 ). (8.37)
+
t
x
x
Il reste eectuer des dveloppements de similaires pour les quantits k2 et k3 dans le schma (8.36). On
trouve


f
f
(tn , x(tn )) + k1
(tn , x(tn ))
k2 = f (tn , x(tn )) + hn c2
t
x


2
hn 2 2 2 f
2f
2 f
+
c2
(tn , x(tn )) + 2k1
(tn , x(tn )) + k1
(tn , x(tn )) + O(hn 3 ),
2
t2
tx
x2
et


k3 = f (tn , x(tn )) + hn
+

hn 2
2

f
f
(tn , x(tn ))
c3 (tn , x(tn )) + ((c3 a32 )k1 + a32 k2 )
t
x

c3 2

2f
2f
(tn , x(tn )) + 2c3 ((c3 a32 )k1 + a32 k2 )
(tn , x(tn ))
2
t
tx

2
2 f
+ ((c3 a32 )k1 + a32 k2 )
(t
,
x(t
))
+ O(hn 3 ).
n
n
x2

En substituant ces expressions dans (8.36) et en ne conservant que les termes d'ordre infrieur ou gal
trois en hn , on obtient nalement

x
n+1 = x(tn ) + hn (b1 + b2 + b3 ) f (tn , x(tn ))


f
f
(tn , x(tn )) + f (tn , x(tn )) (tn , x(tn ))
+ hn 2 (b2 c2 + b3 c3 )
t
x
 2

3 
2
2
 f
hn
f
2 f
2
2
+
b2 c2 + b3 c3
(tn , x(tn )) + 2 f (tn , x(tn ))
(tn , x(tn )) + (f (tn , x(tn )))
(tn , x(tn ))
2
t2
tx
x2



f
f
f
+2b3 c2 a32
(tn , x(tn )) + f (tn , x(tn )) (tn , x(tn ))
(tn , x(tn )) + O(hn 4 ). (8.38)
t
x
x
Il faut prsent essayer de faire concider les termes de ce dernier dveloppement avec ceux de (8.37)
en fonction du nombre de niveaux de la mthode. Dans le cas d'une mthode un niveau, on pose
b2 = b3 = 0 et on a simplement

x
n+1 = x(tn ) + hn b1 f (tn , x(tn )).
263

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Il vient alors b1 = 1, ce qui conduit une unique mthode de Runge-Kutta explicite un niveau, qui
n'est autre que la mthode d'Euler (8.25) introduite dans la sous-section prcdente.
Pour construire une mthode deux niveaux, on pose b3 = 0 et le dveloppement (8.38) devient alors


f
f
(tn , x(tn )) + f (tn , x(tn )) (tn , x(tn ))
x
n+1 = x(tn ) + hn (b1 + b2 ) f (tn , x(tn )) + hn b2 c2
t
x

 2
2
2
hn 3

f
2
+
(t
,
x(t
))
+
2
f
(t
,
x(t
))
(t
,
x(t
))
+O(hn 4 ).
b2 c 2 2
(t
,
x(t
))
+
(f
(t
,
x(t
)))
n
n
n
n
n
n
n
n
n
n
2
t2
tx
x2


Les premiers termes de ce dveloppement sont ceux de (8.37) si l'on impose que

b1 + b2 = 1,
b2 c2 = 21 .

(8.39)

Ce systme de deux quations trois inconnues possde une famille innie de solutions dpendantes d'un
paramtre, illustrant le fait que les mthodes de RungeKutta explicites de nombre de niveaux et d'ordre
donns ne sont gnralement pas dnies de manire unique. On remarque galement qu'aucune solution
ne conduit une mthode d'ordre plus haut que deux.

Exemples de mthode de RungeKutta explicite deux niveaux d'ordre deux. Deux solutions

particulires du systme (8.39) conduisent des mthodes de RungeKutta connues. Ce sont respectivement la
mthode d'Euler modie (8.31), de tableau de Butcher associ 32
0
1
2

1
2

et la mthode de Heun 33 d'ordre deux [Run95, Heu00]


xn+1 = xn +

hn
(f (tn , xn ) + f (tn + hn , xn + hn f (tn , xn ))) ,
2

de tableau de Butcher associ

0
1

(8.40)

1
2

1
2

En procdant de la mme faon, on arrive, pour une mthode trois niveaux, aux quatre conditions
suivantes
b1 + b2 + b3 = 1,
b2 c2 + b3 c3 = 12 ,
(8.41)
b2 c2 2 + b3 c3 2 = 31 ,
1
b3 c2 a32 = 6 ,
faisant intervenir six inconnues. Les solutions de ce systme forment une famille innie dpendant de
deux paramtres, aucune ne menant une mthode d'ordre plus haut que trois.

Exemples de mthode de RungeKutta explicite trois niveaux d'ordre trois. Parmi les
solutions du systme (8.41) deux conduisent des mthodes connues qui sont la mthode de Heun d'ordre trois
[Heu00], de tableau de Butcher associ
0
1
3
2
3

1
3

2
3

1
4

,
3
4

32. Dans la suite, on omet de noter la partie triangulaire suprieure identiquement nulle de la matrice A dans les tableaux
de Butcher des mthodes de RungeKutta explicites.
33. Karl Heun (3 avril 1859 - 10 janvier 1929) tait un mathmaticien allemand, connu pour ses travaux sur les quations
direntielles.

264

8.3. MTHODES NUMRIQUES DE RSOLUTION

et la mthode de Kutta d'ordre trois [Kut01], de tableau de Butcher associ


0
1
2

1
2

1
6

2
3

.
1
6

L'obtention de mthodes d'ordre suprieur est un travail laborieux, le nombre de conditions augmentant rapidement avec l'ordre : il faut en satisfaire 8 pour atteindre l'ordre 4, 37 pour l'ordre 6, 200 pour
l'ordre 8, 1205 pour l'ordre 10... Cette manire de faire n'est donc pas viable 34 pour la drivation de
mthodes d'ordre lev. De plus, elle ne s'applique pas au cas des systmes d'quations direntielles
ordinaires, pour lesquels la fonction f est valeurs vectorielles. C'est en ralit dans un cadre algbrique, celui de la thorie de Butcher, que la structure gnrale des conditions d'ordre des mthodes de
RungeKutta se trouve rvle. Nous renvoyons le lecteur intress aux notes de n de chapitre pour des
rfrences sur ce sujet.

Exemples de mthode de RungeKutta explicite quatre niveaux d'ordre quatre. Une

mthode de RungeKutta explicite d'ordre quatre, due Kutta [Kut01], extrmement populaire 35 , au point
d'tre appele  la  mthode de RungeKutta, et gnralisant la rgle de Simpson (voir la formule (7.11)) est celle
donne par le tableau
0
1
2
1
2

1
2
1
2

0
0

1
6

1
3

1
3

(8.42)

.
1
6

Une autre mthode d'ordre quatre, galement dcouverte par Kutta, gnralisant la rgle des trois huitimes (voir
la table 7.1), a pour tableau
0
1
3
2
3

1
3
31

1
1

1
8

3
8

3
8

.
1
8

On trouvera dans l'article [Ral62] des choix de coecients minimisant l'erreur de troncature locale
pour des mthodes explicites deux, trois et quatre niveaux d'ordre maximal.

Mthodes de RungeKutta implicites


Une premire question naturelle se posant pour une mthode de RungeKutta implicite est celle de
l'existence des quantits ki , i = 1, . . . , s, solutions du systme (8.32), la matrice carre A dnissant
une mthode implicite n'tant pas strictement triangulaire infrieure et la fonction f tant a priori non
linaire. En supposant que cette dernire satisfait la condition de Lipschitz globale 36 (8.23) par rapport
la variable x, on montre que les conditions du thorme 5.9 sont vries ds que les longueurs des pas
de la grille de discrtisation satisfont

hn <

1
, n = 0, . . . , N 1,
L kAk

(8.43)

34. On pourra consulter l'article [Hu56] sur l'obtention de mthodes de RungeKutta explicites d'ordre six pour s'en
convaincre.
35. Dans [Lam91], cette popularit historique est impute aux valeurs des coecients de la matrice A et du vecteur c de
la mthode, qui facilitaient trs probablement les valuations de la fonction f sur un calculateur mcanique.
36. REPRENDRE Si la condition de Lipschitz est seulement satisfaite dans un voisinage de la condition initiale, des
restrictions additionnelles doivent tre faites sur les pas de discrtisation pour s'assurer que les points en lesquels on value
la fonction f appartiennent ce voisinage. L'unicit des valeurs ki , i = 1, . . . , s, est alors de nature locale.

265

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

et les rels ki , i = 1, . . . , s, sont alors dnis de manire unique. On notera que cette restriction sur la
nesse de la grille peut tre particulirement svre pour la rsolution d'un systme raide, la constante
de Lipschitz L tant souvent trs grande dans ce cas.
Il dcoule de ces considrations que les mthodes de RungeKutta implicites sont bien plus coteuses
en temps de calcul et bien plus diciles implmenter que leurs analogues explicites, les valeurs ki ,
i = 1, . . . , s, devant gnralement tre toutes calcules concurremment et non plus successivement
chaque tape, ce qui induit un eort de calcul important que nous allons dtailler.
Rcrivons tout d'abord (8.32) sous la forme

xn+1
Xi

= xn + hn
= xn + hn

s
X
i=1
s
X

bi f (tn + ci hn , xn + Xi ), n = 0, . . . , N 1,

(8.44)

aij f (tn + cj hn , xn + Xj ), i = 1, . . . , s, n = 0, . . . , N 1.

(8.45)

j=1

On peut alors rsoudre chaque tape le systme d'quations non linaires (8.45) par la mthode des
approximations successives introduite la section 5.4.1, dont la relation de rcurrence est ici

Xi (k+1) = xn + hn

s
X

aij f (tn + cj hn , xn + Xj (k) ), i = 1, . . . , s, k 0,

(8.46)

j=1

et qui est convergente pour tout choix de valeurs d'initialisation Xi (0) , i = 1, . . . , s, si la condition (8.43)
est satisfaite. Chacune des itrations (8.46) demande s valuations de la fonction f , s(s+1)d multiplication
et s2 d additions si l'on rsoud un systme de d quations direntielles ordinaires scalaires. Une fois les
valeurs Xi obtenues, i = 1, . . . , s, l'approximation de la solution au point tn+1 est calcule au moyen
de la formule (8.44), ce qui ncessite 37 encore s valuations de la fonction f , sd + 1 multiplications et
(s 1)d + 1 additions.
Les mthodes de RungeKutta implicites tant en pratique quasiment exclusivement rserves au
traitement des systmes raides, les itrations de point xe (8.46) ne convergent dans de nombreux cas
que pour des longueurs de pas de discrtisation excessivement petites et l'on a alors avantage recourir
la mthode de NewtonRaphson. Dans le cas d'un systme de d quations direntielles ordinaires
scalaires, l'application de la mthode l'quation (8.45) conduit la relation de rcurrence

(k+1)

(k)
+ c1 hn , xn + X1 (k) ) . . .
X1
X1 (k)
hn a1s f
)
x (tn + cs hn , xn + Xs

..
..
..
..

.
.
.
.
f
f
(k)
(k)
(k+1)
(k)
)
. . . Id hn ass x (tn + cs hn , xn + Xs )
Xs
Xs
x (tn + c1 hn , xn + X1
Ps

(k)
(k)
xn + hn j=1 a1j f (tn + cj hn , xn + Xj ) X1

..
=
, k 0, (8.47)
.
Ps
(k)
(k)
xn + hn j=1 asj f (tn + cj hn , xn + Xj ) Xs

Id hn a11

hn as1

f
x (tn

qui implique de rsoudre un systme linaire de taille sd chaque itration, ce qui demande de l'ordre
de 32 (sd)3 oprations arithmtiques pour la factorisation de la matrice du systme et de l'ordre de (sd)2
oprations pour la rsolution des des deux systmes triangulaires obtenus (on renvoie au chapitre 2
pour plus de dtails). On diminue gnralement ce cot par une modication de la mthode de Newton
(k)
consistant remplacer chacune des matrices jacobiennes f
), i = 1, . . . , s, k 0,
x (tn + ci hn , xn + Yi
par une approximation J , indpendante du niveau et de l'itration, un choix courant tant

J=

f
(tn , xn ).
x

(8.48)

37. P
Lorsque la matrice A de la mthode est inversible, il est possible d'viter ces valuations en voyant que xn+1 =
s
T
T 1
.
i=1 di Xi , avec d = b A

xn +

266

8.3. MTHODES NUMRIQUES DE RSOLUTION

La relation (8.47) devient alors

(k)

X1
f (tn + c1 hn , xn + X1 (k) )
X1 (k+1) X1 (k)

.
.
.
..
..
(Is Id hn AJ)
.. ,
= exn +hn (AIs )

f (tn + cs hn , xn + Xs (k) )

Xs (k+1) Xs (k)

Xs (k)
k 0, (8.49)

avec e un vecteur s composantes toutes gales 1 et o l'on a not AB le produit de Kronecker de deux
matrices A et B . La matrice du systme linaire (8.49) restant identique au cours des itrations, on n'a
besoin d'eectuer qu'une seule factorisation LU en dbut d'tape, suivie de la rsolution de deux systmes
linaires triangulaires chaque itration. Si cette modication ne diminue en rien les valeurs des quantits
Xi , i = 1, . . . , s, obtenues convergence, elle a nanmoins pour eet de ralentir cette convergence.
Ajoutons qu'il y a moyen de diminuer le cot de la factorisation de la matrice (Is Id hn A J), pour
le rendre proportionnel sd3 oprations lorsque toutes les valeurs propres de A sont distinctes (car on
est alors ramen la rsolution de s systmes de taille d, en s'appuyant sur une rduction sous une forme
canonique de Jordan 38 (voir [But76]).
Passons prsent la construction proprement dite de mthodes de RungeKutta implicites. Celleci s'avre beaucoup plus aise que pour leurs homologues explicites si l'on s'appuie sur les conditions
algbriques, liant les coecients {aij }1i,js {bi }1is et {ci }1is , suivantes

B(p) :

s
X
i=1

C() :

s
X
j=1

D() :

s
X

bi ci k1 =

1
, k = 1, . . . , p,
k

aij cj k1 =

ci k
, i = 1, . . . , s, k = 1, . . . , ,
k

aij bi ci k1 =

i=1

bj
(1 cj k ), j = 1, . . . , s, k = 1, . . . , .
k

La condition B(p) signie simplement que la formule de quadrature interpolatoire ayant pour nuds les
coecients ci et pour poids les coecients bi , i = 1, . . . , s, est d'ordre p sur l'intervalle [0, 1]. L'importance
des deux conditions restantes tient au rsultat suivant, d Butcher [But64a].

Thorme 8.17 Si les coecients d'une mthode de RungeKutta s niveaux satisfont les conditions
B(p), C() et D() avec p + + 1 et p 2 + 2, cette mthode est d'ordre p.

On peut ainsi obtenir des mthodes implicites s niveaux et d'ordre p = 2s en se basant sur les
formules de quadrature de GaussLegendre (voir la section 7.6) pour la dtermination des coecients
{bi }1is et {ci }1is , ce qui revient satisfaire la condition B(2s), et en cherchant vrier les conditions
C(s) et D(s) pour trouver les coecients {aij }1i,js (voir [Kun61, But64a]).

Exemples de mthode de RungeKutta implicite base sur une formule de GaussLegendre.


Pour s 5, les coecients de ces mthodes s'expriment en termes de radicaux. Pour les mthodes un, deux ou
trois niveaux, on a les tableaux de Butcher associs suivants
s = 1, p = 2
1
2

1
2

1
s = 2, p = 4

3 3
6
3+ 3
6

1
4
3+2 3
12
1
2

32 3
12
1
4
1
2

38. Marie Ennemond Camille Jordan (5 janvier 1838 - 22 janvier 1922) tait un mathmaticien franais, connu la fois
pour son travail fondamental en thorie des groupes et pour son inuent cours d'analyse.

267

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

s = 3, p = 6

5 15
10
1
2

5+ 15
10

5
36
10+3 15
72
25+6 15
180
5
18

103 15
45
2
9
10+3 15
45
4
9

256 15
180

103 15
72
5
36
5
18

ce premier type de mthodes s'ajoutent les mthodes bases sur les formules de quadrature de
GaussRadau et de GaussLobatto, pour lesquelles la fonction f est value respectivement en l'une
ou l'autre et aux deux extrmits du sous-intervalle d'intgration courant chaque tape. Imposer que
c1 = 0 conduit aux mthodes de GaussRadau I, que cs = 1 celles de GaussRadau II (l'ordre atteint
dans ces deux cas tant p = 2s 1), que c1 = 0 et cs = 1 celles de GaussLobatto III (dont l'ordre est
p = 2s 2, avec s 2). Plusieurs sous-familles 39 de mthodes existent selon les conditions algbriques
imposes pour la construction de la matrice A, certains choix se traduisant par l'annulation de coecients
matriciels et rendant par consquent les mthodes obtenues plus ecaces d'un point calculatoire, mais
aussi moins adaptes au traitement des systmes raides (voir la sous-section 8.4.5).

Exemples de mthode de RungeKutta implicite base sur une formule de GaussRadau.

Les tableaux de Butcher associs aux direntes familles de mthodes de RungeKutta implicites un, deux ou
trois niveaux associes aux formules de quadrature de GaussRadau sont respectivement
s = 1, p = 1
1 1
1

GaussRadau IIA
s = 2, p = 3
0

2
3

1
3
1
4

1
3
3
4

2
3

GaussRadau I

1
4
1
4
1
4

41

1
3

1
3

5
12
3
4

0
0

3
4

1
4

GaussRadau IA

1
3

GaussRadau II

5
12
3
4
3
4

1
12
1
4
1
4

GaussRadau IIA

s = 3, p = 5
0

6 6
10

6+ 6
10

9+ 6
75

9 6
75
1
9

24+ 6
120
168+73 6
600

16+ 6
36

16873 6
600

24 6
120

16 6
36

6 6
10

6+ 6
10

1
9

GaussRadau I

4 6
10

4+ 6
10

24 6
120
24+11 6
120

6 6
12

16 6
36

2411 6
120

24+ 6
120

6+ 6
12

16+ 6
36

1
9
1
9
1
9

1 6
18
88+7 6
360
88+43 6
360

16+ 6
36

1+ 6
18
8843 6
360
887 6
360

16 6
36

GaussRadau IA

4 6
10

4+ 6
10

1
9

GaussRadau II

887 6
360
296+169 6
1800

16 6
36

16 6
36

296169 6
1800

88+7 6
360

16+ 6
36

16+ 6
36

2+3 6
225
23 6
225
1
9
1
9

GaussRadau IIA

La mthode de GaussRadau IIA un niveau n'est autre que la mthode d'Euler implicite. On observe que le
premier (resp. dernier) niveau des mthodes de GaussRadau I (resp. II) est explicite.
39. En plus des familles de GaussRadau I (satisfaisant les conditions a1j = 0, j = 1, . . . , s, B(2s 1) et C(s), ce qui
implique que D(s 1) est vrie) et II (conditions ais = 0, i = 1, . . . , s, B(2s 1) et D(s), impliquant C(s 1)) et de
Gauss-Lobatto III (conditions ais = 0 et a1j = 0, i, j = 1, . . . , s, B(2s 2) et C(s 1), impliquant D(s 1)) construites dans
[But64b], mentionnons celles de GaussRadau IA (conditions B(2s 1) et D(s), impliquant C(s 1)) et IIA (conditions
B(2s 1) et C(s), impliquant D(s 1)), de GaussLobatto IIIA (conditions B(2s 2) et C(s), impliquant D(s 2)) et
IIIB (conditions B(2s 2) et D(s), impliquant C(s 2)), introduites dans [Ehl69], ainsi que celle de GaussLobatto IIIC
(conditions B(2s 2) et C(s 1), impliquant D(s 1)), introduite dans [Chi71].

268

8.3. MTHODES NUMRIQUES DE RSOLUTION

Exemples de mthode de RungeKutta implicite base sur une formule de GaussLobatto.


Les tableaux de Butcher associs aux direntes familles de mthodes de RungeKutta implicites deux ou trois
niveaux associes aux formules de quadrature de GaussLobatto sont respectivement
s = 2, p = 2
0
1

0
1

0
0

1
2

1
2

0
1

GaussLobatto III

1
2
1
2

1
2
1
2

0
1

GaussLobatto IIIA

1
2
1
2
1
2

21
1
2
1
2

GaussLobatto IIIC

s = 3, p = 4
0

1
2

1
4

1
4

0
0
0

1
6

2
3

1
6

GaussLobatto III

1
2

5
24
1
6
1
6

1
3
2
3
2
3

0
1
24

1
6
1
6

1
6
1
6
1
6
1
6

1
2

GaussLobatto IIIA

16

0
0
0

1
3
5
6
2
3

0
1
2

1
6

GaussLobatto IIIB

1
6
1
6
1
6
1
6

13
5
12
2
3
2
3

1
6
1
12
1
6
1
6

GaussLobatto IIIC

On observe que le premier et le dernier niveaux des mthodes de GaussLobatto III sont explicites. On remarque
galement qu'il n'existe pas de mthode de GaussLobatto IIIB deux niveaux.

Indiquons que certaines de ces mthodes peuvent aussi s'interprter comme des mthodes de collocation. Applique la rsolution numrique du problme de Cauchy (8.1)-(8.5), une mthode de collocation
consiste poser chaque tape

(8.50)

xn+1 = p(tn + hn ), n = 0, . . . , N 1,
o p dsigne l'unique polynme de degr s satisfaisant

p(tn ) = xn , p0 (tn + cj hn ) = f (tn + cj hn , P (tn + cj hn )), j = 1, . . . , s.

(8.51)

Il a t dmontr dans [Wri70] qu'un tel procd correspond une mthode de RungeKutta implicite.
En eet, en notant kj = p0 (tn + cj hn ), j = 1, . . . , s, on a, en utilisant les rsultats sur l'interpolation de
Lagrange et les notations du chapitre 6, que

p0 (tn + c hn ) =

s
X

kj lj (c), c [0, 1],

j=1

avec

lj (c) =

s
Y
c ck
, j = 1, . . . , s.
cj ck

k=1
k6=j

En intgrant cette identit entre 0 et ci , i = 1, . . . , s, on obtient

p(tn + ci hn ) p(tn ) = hn

s
X

Z
kj

j=1

d'o, en posant

Z
aij =

ci


lj (c) dc , i = 1, . . . , s,

ci

(8.52)

lj (c) dc, i, j = 1, . . . , s,
0

et en utilisant les conditions (8.51),

kj = p0 (tn + cj hn ) = f (tn + cj hn , p(tn + cj hn )) = f (tn + cj hn , xn + hn

s
X
j=1

269

aij kj ), j = 1, . . . , s.

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

En intgrant l'identit entre 0 et 1, il vient

p(tn + hn ) p(tn ) = hn

s
X


lj (c) dc ,

kj
0

j=1

dont on dduit nalement, en posant bj =

Z

lj (c) dc, j = 1, . . . , s, et en se servant de (8.50) et (8.51),

xn+1 = xn + hn

s
X

k j bj .

j=1

Rciproquement, une mthode de RungeKutta implicite dont les coecients ci , i = 1, . . . , s, sont distincts
et d'ordre au moins s sera une mthode de collocation si elle fournit une solution exacte lorsque f (t, x) =
p(t), pour tout polynme p de degr infrieur ou gal s 1, ce qui revient demander que
Z ci
s
X
p(t) dt, i = 1, . . . , s,
(8.53)
aij p(cj ) =
0

j=1

ce qui quivaut

s
X
j=1

aij cj r =

ci r+1
, r = 0, . . . , s 1, i = 1, . . . , s,
r+1

ces conditions s'avrant ncessaires 40 . On peut ainsi vrier que les mthodes de GaussLegendre, de
GaussRadau de type IIA et de GaussLobatto de type IIIA sont des mthodes de collocation.
Nous concluons cette section en voquant brivement des mthodes de RungeKutta semi-implicites,
pour lesquelles les matrices de coecients {aij }1i,js sont triangulaires infrieures. Ceci a pour consquence que le systme d'quations non linaires (8.45) associ de telles mthodes peut tre rsolu de
manire squentielle, via une mthode de descente par blocs, entranant une rduction substantielle du
cot de calcul engendr par rapport une mthode de RungeKutta implicite. Dans le cas des mthodes
DIRK (pour diagonally implicit RungeKutta en anglais) [Ale77], on impose aux coecients diagonaux
aii , i = 1, . . . , s, d'tre tous identiques, ce qui conduit une diminution supplmentaire du cot de rsolution lorsque l'on utilise la modication (8.49) de la mthode de NewtonRaphson, les blocs diagonaux
factoriser tant les mmes. Un inconvnient majeur de ces mthodes est que leur construction semble
dicile pour des ordres levs.

Exemples de mthode DIRK. Pour s = 2 et 3, il existe une unique mthode DIRK s niveaux et d'ordre

s + 1 possdant la proprit d'tre A-stable (voir la dnition 8.45). Ces mthodes sont respectivement donnes
par les tableaux de Butcher
s = 2, p = 3
1
1
1
1
0
+ 2
+ 2
2
2
3
3
1
1
1
1

+
,
2
2
2 3
3
2 3
1
2

s = 3, p = 4

1+
2
1
2
1
2

1+
2
2

1+
2

1+

(1 + 2)

1
62

avec =

2 3
3

cos

18

1
2

1
32

0
0
1+
2
1
62


.

Enn, les mthodes SIRK (pour singly implicit RungeKutta en anglais), introduites dans [Nr76],
conservent l'ide d'une matrice dont le spectre est constitu d'une unique valeur propre relle de multiplicit s tout en abandonnant une forme triangulaire infrieure. Ce sont donc des mthodes de RungeKutta
40. Les coecients aij , 1 i, j s, donns par (8.52) satisfont en eet les conditions (8.53) par dnition du polynme
d'interpolation de Lagrange.

270

8.3. MTHODES NUMRIQUES DE RSOLUTION

compltement implicites, mais dont le cot de rsolution eectif rivalise avec celui des mthodes DIRK si
l'on utilise la mthode de Newton modie (8.49) en conjonction avec la rduction sous forme canonique
de Jordan mentionne plus haut. Contrairement aux mthodes DIRK, des mthodes SIRK d'ordre arbitrairement lev et possdant de bonnes proprits de stabilit peuvent simplement tre obtenues comme
des mthodes de collocation.

Exemple de mthode SIRK. Un exemple de mthode SIRK deux niveaux et d'ordre trois est celui donn

par le tableau de Butcher suivant

(2
(2 +

avec =

8.3.3

2)
2)

(4 2)
4
(4+3 2)
4

4(1+ 2) 2
8

(43 2)
4

(4 2)
4

4(1 2)+ 2
8

3 3
.
6

Mthodes pas multiples linaires

Les mthodes pas multiples linaires (linear multistep methods en anglais) adoptent une philosophie
inverse de celles des mthodes de RungeKutta pour amliorer la prcision de l'approximation qu'elles
calculent, au sens o celles-ci font appel q valeurs prcdemment calcules de la solution approche,
l'entier q , q 1, tant le nombre de pas de la mthode, pour faire avancer chaque tape la rsolution
numrique du problme.
Cette classe de mthodes possde des liens troits avec l'interpolation de Lagrange, prsente au
chapitre 6, la drivation de mthodes se faisant suivant deux approches, bases respectivement sur l'intgration et la direntiation de polynmes d'interpolation de Lagrange particuliers.

Principe
tant donn un entier q 1, une mthode q pas linaire est dnie par le schma

xn+1 =

q1
X

ai xni + h

i=0

q
X

bi f (tni+1 , xni+1 ), n q 1,

(8.54)

i=0

dans lequel les valeurs f (ti , xi ), i = n q + 1, . . . , n + 1, interviennent de manire linaire 41 , ce qui n'tait
pas le cas pour les mthodes de RungeKutta. Ceci suggre d'crire la relation de rcurrence (8.54) sous
la forme gnrale d'quation aux dirences linaire,
q
X
i=0

i xn+i = h

q
X

i f (tn+i , xn+i ), n 0,

(8.55)

i=0

qi
en posant ai = q1i
q , i = 0, . . . , q 1, et bi = q , i = 0, . . . , q , la valeur du coecient q tant xe.
Lorsque le coecient q est nul, la mthode est explicite, elle est implicite sinon.

Le lecteur attentif aura remarqu que la longueur du pas de discrtisation dans la formule (8.55) ne
dpend pas de l'entier n, alors que c'tait le cas pour toutes les mthodes un pas introduites auparavant.
De fait, on a ici suppos que la grille de discrtisation tait uniforme. Faire cette hypothse simplicatrice
n'est pas anodin : en son absence, les coecients i et i , i = 0, . . . , q , dpendent en eet de l'entier
n et varient donc chaque tape. Ceci rend l'implmentation de ces mthodes complexe dans l'optique
d'une adaptation de la longueur du pas de discrtisation (voir nnamoins la n de la section 8.6 pour la
prsentation d'approches possibles).
41. Si cette observation justie le qualicatif donn ces mthodes, on notera cependant que la relation (8.54) n'est
gnralement pas linaire par rapport aux approximations numriques xi , i = n q + 1, . . . , n + 1, la fonction f pouvant
tre non linaire.

271

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Une seconde hypothse classique que l'on fera est de supposer que les coecients (maintenant constants) i et i satisfont aux conditions 42

q = 1, |0 | + |0 | =
6 0.

(8.56)

Lorsque la mthode pas multiples linaire est implicite, on est amen rsoudre chaque tape une
quation (ou, le cas chant, un systme d'quations) gnralement non linaire,

xn+q = hq f (tn+q , xn+q ) +

q1
X

(hi f (tn+i , xn+i ) i xn+i ) .

(8.57)

i=0

La fonction f satisfaisant la condition de Lipschitz globale (8.23) par rapport la variable x, il dcoule
du thorme 5.9 que cette quation possde une unique solution si la longueur h du pas de discrtisation
est telle que
1
,
(8.58)
h<
L |q |
et que l'on peut approcher numriquement cette solution par la mthode des approximations successives :
(0)
(k)
tant donne une valeur xn+q arbitraire, la valeur xn+q est la limite de la suite (xn+q )kN dnie par la
relation de rcurrence
(k+1)

(k)

xn+q = hq f (tn+q , xn+q ) +

q1
X

(hi f (tn+i , xn+i ) i xn+i ) , k 0.

(8.59)

i=0

Dans de nombreux cas, la condition (8.58) ne s'avre pas restreignante, en raison de contraintes sur le
pas plus svres imposes par la prcision voulue sur la solution numrique. Comme on l'a dj vu dans
la sous-section 8.3.2, ceci n'est malheureusement plus vrai dans le cas particulier des systmes raides,
pour lesquels L  1. Il faut dans ce cas abandonner la mthode des approximations successives pour la
remplacer par la mthode de NewtonRaphson. C'est gnralement une modication de cette dernire,
similaire celle propose pour les mthodes de RungeKutta implicites et visant rduire le nombre de
factorisations LU eectues chaque tape, qui est implmente en pratique, la relation de rcurrence
associe prenant alors la forme




f
(k)
(k)
(k)
(k+1)
(0)
xn+q xn+q = xn+q + hq f (tn+q , xn+q )
(tn+q , xn+q )
Im hq
x
+

q1
X

(hi f (tn+i , xn+i ) i xn+i ) , k 0. (8.60)

i=0

Les mthodes pas multiples linaires implicites sont donc bien plus coteuses en temps de calcul et
plus complexes mettre en uvre que leurs analogues explicites. Il est cependant possible de diminuer
le nombre d'itrations de point xe (8.59) (ou (8.60)) ncessaires en choisissant judicieusement la valeur
(0)
xn+q . On peut, par exemple, eectuer une tape d'une mthode pas multiples linaire explicite de mme
ordre et poursuivre les itrations de point xe de la mthode implicite partir de la valeur obtenue ; c'est
le type de stratgie retenue par les mthodes de prdiction-correction prsentes dans la section 8.5.
Enn, il est important de noter que, pour dmarrer, une mthode dnie par la relation de rcurrence
(8.55) ncessite de connatre q valeurs approches de la solution aux temps ti , i = 0, . . . , q 1. Or,
seule la valeur de la solution l'instant t0 est fournie par la condition initiale du problme de Cauchy.
Il faut donc avoir recours une autre mthode pour calculer les q 1 valeurs d'initialisation faisant
dfaut. En pratique, cette procdure de dmarrage est gnralement accomplie au moyen d'une mthode
de RungeKutta d'ordre suprieur ou gal celui de la mthode pas multiples linaire considre.
42. La premire condition interdit que l'on puisse dnir une mthode d'une innit de manires (celle-ci restant inchange
lorsque l'on multiplie (8.55) par une constante non nulle) en normalisant un coecient particulier, alors que la seconde
vise simplement interdire l'criture d'une mthode q pas sous la forme d'une mthode en thorie q + 1 pas. Sans
cette dernire hypothse, il serait par exemple possible de dnir la mthode d'Euler explicite en posant xn+2 xn+1 =
hn+1 f (tn+1 , xn+1 ), donnant ainsi l'illusion d'une mthode deux pas.

272

8.3. MTHODES NUMRIQUES DE RSOLUTION

Avant de passer la prsentation de quatre familles de mthodes pas multiples linaires, dcrites
schmatiquement dans le tableau 8.1, concluons cette brve introduction en dnissant les polynmes

caractristiques premier

(z) =

q
X

j z j , z C,

(8.61)

j z j , z C,

(8.62)

j=0

et second

(z) =

q
X
j=0

associs toute mthode pas multiples linaire dnie par (8.55), sur lesquels repose en grande partie
l'analyse thorique ralise dans la section 8.4. On dduit de (8.56) que le degr de toujours gal q .
En revanche, celui de gal q si la mthode est implicite et strictement infrieur q si elle est explicite.

Exemples de polynmes caractristiques associs aux mthodes un pas dj introduites.

Dans le cas de la mthode d'Euler explicite (resp. implicite) dnie par (8.25) (resp. (8.27)), nous avons (z) = z1
et (z) = 1 (resp. (z) = z 1 et (z) = z ). Pour la mthode de la rgle du trapze, dnie par (8.28), il vient
(z) = z 1 et (z) = 12 (z + 1). Chacune de ces mthodes, pourtant prsentes comme des mthodes un pas,
sont bien des exemples particuliers de mthodes pas multiples linaires.

AdamsBashforth

i
n+q
n+q1
n+q2
..
.

..
.

AdamsMoulton

Nystrm

..
.

..
.

MilneSimpson
gnralise
i
i

..
.

BDF

..
.

Table 8.1: Reprsentation schmatique des points de grille constituant les supports de direntes mthodes
q pas linaires.

Mthodes d'Adams
Bien qu'tant les mthodes pas multiples linaires les plus anciennes, les mthodes d'Adams 43 restent
trs utilises et sont prsentes dans bon nombre de codes de rsolution numrique de systmes d'equations
direntielles ordinaires non raides bass sur des paires de prdicteur-correcteur (voir la section 8.5).
Pour comprendre leur drivation, supposons que l'on dispose d'approximations xn , . . . , xn+q1 , n 0,
de la solution du problme de Cauchy (8.1)-(8.5) aux points tn , . . . , tn+q1 . En considrant la forme
intgrale du problme de Cauchy sur l'intervalle [tn+q1 , tn+q ],

tn+q

x(tn+q ) = x(tn+q1 ) +

f (t, x(t)) dt,

(8.63)

tn+q1

et en utilisant une technique voisine de celle des formules de quadrature interpolatoires (voir le chapitre 7),
on voit qu'une approximation de x(tn+q ) peut tre obtenue assez naturellement en substituant dans (8.63)
xn+q1 x(tn+q1 ) et en remplaant la fonction dans l'intgrale soit par le polynme d'interpolation de
Lagrange de degr q 1 associ aux couples (ti , f (ti , xi )), i = n, . . . , n + q 1, pour une mthode
explicite q pas, soit par celui de degr q associ aux couples (ti , f (ti , xi )), i = n, . . . , n + q , pour une
mthode implicite q pas. Les mthodes correspondantes, dites mthodes d'Adams, sont consistantes par
43. John Couch Adams (5 juin 1819 - 21 janvier 1892) tait un mathmaticien et astronome britannique. Son fait le plus
clbre fut de prdire l'existence de la plante Neptune, dont il calcula en 1845, indpendamment de Le Verrier, la position
en tudiant les irrgularits du mouvement d'Uranus.

273

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

construction et d'ordre maximal relativement au nombre de pas considrs. Elles s'crivent, en utilisant
la forme gnrale (8.55) des mthodes pas multiples linaires,

xn+q xn+q1 = h

q
X

(8.64)

i f (tn+i , xn+i ), n 0.

i=0

On observe que l'on a (z) = z q z q1 , ce qui correspond au choix le plus simple possible de premier
polynme caractristique compte tenu des hypothses (8.56). De plus, la dtermination des coecients
j , i = 0, . . . , q , peut tre considrablement facilite en ayant recours la forme de Newton du polynme
d'interpolation de Lagrange vue au chapitre 6.
Pour le voir, posons [ti ]f = f (ti , xi ), i = n, . . . , n+q 1. Dans le cas des mthodes d'Adams explicites,
encore dites mthodes d'AdamsBashforth 44 , on a q = 0 et, en utilisant (6.11), il vient

q1 (t) = [tn+q1 ]f + (ttn+q1 ) [tn+q1 , tn+q2 ]f + (ttn+q1 )(ttn+q2 ) [tn+q1 , tn+q2 , tn+q3 ]f
+ + (t tn+q1 )(t tn+q2 ) . . . (t tn1 ) [tn+q1 , tn+q2 , . . . , tn ]f.
Lorsque le pas de discrtisation est suppos constant et de longueur gale h, on peut rcrire q1
sous la forme compacte suivante, apparente la formule de Gregory 45 Newton rgressiveformule !de
GregoryNewton rgressive,

q1 (t) =

q1
i
X
i fn+q1 Y
i=0

i! hi

(8.65)

(t tn+q1j ),

j=0

en introduisant les dirences nies rgressives dnies par rcurrence,

0 fi = [ti ]f, m fi = m1 fi m1 fi1 , m 1.


En intgrant entre tn+q1 et tn+q , on trouve alors

xn+q = xn+q1 + h

q1
X

i i fn+q1 ,

i=0

1
i =
i!

i
Y

Z
(u + j) du =

0 j=0


u+i1
du,
i


par dnition de la gnralisation du coecient binomial, kz =
Les valeurs des premiers coecients i sont les suivantes 46
0 = 1, 1 =

z(z1)(z2)...(zk+1)
,
k!

z C, k N.

1
5
3
251
95
19087
, 2 =
, 3 = , 4 =
, 5 =
, 6 =
.
2
12
8
70
288
60480

Une fois ces constantes calcules, les mthodes d'AdamsBashforth sont explicitement obtenues en rexprimant les dirences nies rgressives en termes des valeurs fi . Pour les premires valeurs de q , ceci
conduit aux formules :
44. Francis Bashforth (8 janvier 1819 - 12 fvrier 1912) tait un mathmaticien anglais. Son intrt pour la balistique le
conduisit eectuer plusieurs sries d'expriences avec un chronographe de son invention dans le but de comprendre l'eet
de la rsistance de l'air sur la trajectoire d'un projectile.
45. James Gregory (novembre 1638 - octobre 1675) tait un mathmaticien et astronome cossais. Il publia un descriptif
d'un des premiers modles de tlscope miroir secondaire concave, sans nanmoins parvenir le construire, et dcouvrit
les dveloppements en srie de plusieurs fonctions trigonometriques.
46. Pour les calculer, on utilise le fait que la relation de rcurrence suivante existe entre ces coecients (voir, par exemple,
[HNW93] pour une dmonstration)
0 = 1, m +

m
X
i=1

1
mi = 1, m 1.
i+1

274

8.3. MTHODES NUMRIQUES DE RSOLUTION

q = 1 : xn+1 = xn + h f(tn , xn ) (mthode d'Euler explicite),



3
1
q = 2 : xn+1 = xn + h
f (tn , xn ) f (tn1 , xn1 ) ,
2
2

23
16
5
q = 3 : xn+1 = xn + h
f (tn , xn )
f (tn1 , xn1 ) +
f (tn2 , xn2 ) ,
12
12

 12
59
37
9
55
f (tn , xn )
f (tn1 , xn1 ) +
f (tn2 , xn2 )
f (tn3 , xn3 ) .
q = 4 : xn+1 = xn + h
24
24
24
24
En vertu des thormes 8.26 et 8.32, ces mthodes explicites q pas sont d'ordre q et stables, elles
sont par consquent optimales au sens du thorme 8.33.
Pour les mthodes d'Adams implicites, encore appeles les mthodes d'AdamsMoulton 47 , c'est le
polynme de degr q interpolant les valeurs fn , . . . , fn+q aux nuds tn , . . . , tn+q qu'il faut considrer. En
supposant que le pas de discrtisation est uniforme, on a cette fois

xn+q = xn+q1 + h

q
X

i i fn+q ,

(8.66)

i=0

avec

i =

1
i!

i
Y

Z
(u + j 1) du =

0 j=0


u+i2
du.
i

On en dduit 48 les valeurs des premiers coecients i

1
1
19
3
863
1
, =
, =
, =
.
0 = 1, 1 = , 2 = , 3 =
2
12
24 4
720 5
160 6
60480
Les mthodes d'AdamsMoulton pour les premires valeurs de l'entier q sont alors :


1
1
q = 1 : xn+1 = xn + h
f (tn+1 , xn+1 ) + f (tn , xn ) (mthode de la rgle du trapze),
2

2
8
1
5
f (tn+1 , xn+1 ) +
f (tn , xn )
f (tn1 , xn1 ) ,
q = 2 : xn+1 = xn + h
12
12
 12

9
19
5
1
q = 3 : xn+1 = xn + h
f (tn+1 , xn+1 ) +
f (tn , xn )
f (tn1 , xn1 ) +
f (tn2 , xn2 ) ,
24
24
24
24
q=4:


xn+1 = xn + h

251
646
264
106
f (tn+1 , xn+1 ) +
f (tn , xn )
f (tn1 , xn1 ) +
f (tn2 , xn2 )
720
720
720
720

19

f (tn3 , xn3 ) .
720

Formellement, on observe qu'il est possible de construire une formule d'AdamsMoulton avec q = 0,
choix pour lequel on retrouve la mthode d'Euler implicite (8.27) qui est une mthode un pas... Pour
cette raison, nous considrerons dans la suite que l'entier q est strictement positif, an d'viter toute
confusion lie l'existence de deux mthodes d'AdamsMoulton un pas.
Les mthodes d'AdamsMoulton q pas sont d'ordre q +1 et stables ; elles sont donc optimales lorsque
le nombre de pas est impair.
47. Forest Ray Moulton (29 avril 1872 - 7 dcembre 1952) tait un astronome amricain. Il est, avec Thomas Chrowder
Chamberlin, l'instigateur d'une hypothse selon laquelle la formation d'une plante serait due l'accrtion de corps clestes
plus petits appels plantsimaux.
48. La relation de rcurrence entre ces coecients est

0 = 1, m
+

m
X
i=1

= 0, m 1.
i + 1 mi

275

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Mthodes de Nystrm
Une autre famille de mthodes pas multiples linaires est celle propose par Nystrm dans [Nys25].
Ces mthodes sont obtenues de manire similaire aux mthodes d'AdamsBashforth, mais en se basant
sur la relation intgrale
Z tn+q2
x(tn+q ) = x(tn+q2 ) +
f (t, x(t)) dt, n 1,
(8.67)
tn+q

en lieu de (8.63), ce qui revient faire le choix

(z) = z q z q2
pour le premier polynme caractristique. Le pas de discrtisation tant suppos de longueur constante,
on otient dans ce cas, en utilisant l'expression (8.65) de q1 et en procdant comme prcdemment,

xn+q = xn+q2 + h

q1
X

i i fn+q ,

i=0

 
s
ds.
i
1

i = (1)

Les valeurs des premiers coecients i sont les suivantes

1
1
29
14
1139
, 3 = , 4 =
, 5 =
, 6 =
,
3
3
90
45
3780
Nystrm recommandant dans son article leur usage plutt que celui des coecients i des mthodes
d'AdamsBashforth, les calculs tant eectus l'poque par des calculateurs humains et non des machines.
0 = 2, 1 = 0, 2 =

Exemple de mthode de Nystrm. Pour q = 2 (et aussi q = 1, le coecient 1 tant nul), la mthode
de Nystrm s'crit

xn+1 = xn1 + 2h f (tn , xn ),

et est parfois appele la mthode de la rgle du point milieu par analogie avec la formule de quadrature du mme
nom.

Gnralisations de la mthode de MilneSimpson


Ce groupe de mthodes est constitu des analogues implicites des mthodes de Nystrm que nous
venons de dcrire. Pour une grille uniforme, il vient par consquent

xn+q = xn+q2 + h

q
X

i i fn+q ,

i=0

= (1)


s
ds,
i

les valeurs des premiers coecients i tant

0 = 2, 1 = 2, 2 =

1
1
37
1
, 3 = 0, 4 = , 5 = , 6 =
.
3
90
90
3780

Exemple de la mthode de MilneSimpson. Pour

q = 2, on trouve une mthode dont la rgle de


quadrature associe n'est autre que celle de Simpson (voir la formule (7.11)),


1
4
1
xn+1 = xn1 + h
f (tn+1 , xn+1 ) + f (tn , xn ) + f (tn1 , xn1 ) .
(8.68)
3
3
3

Cette mthode deux pas, introduite par Milne dans [Mil26], est d'ordre quatre, ce qui la rend optimale au sens
du thorme 8.33.

276

8.3. MTHODES NUMRIQUES DE RSOLUTION

Mthodes utilisant des formules de direntiation rtrograde


Chacune des familles de mthodes que nous venons de prsenter sont bases sur une quation intgrale
satisfaite par toute solution de l'quation direntielle (8.1) et tirent parti de l'intgration numrique d'un
polynme d'interpolation de la fonction f (, x()). Une approche  duale  consiste directement approcher
au point tn+q la drive de la solution par celle d'un polynme d'interpolation de Lagrange associ aux
approximations des valeurs x aux points tn + q, . . . , tn . Pour obtenir les coecients de telles mthodes, il
faut ainsi considrer le polynme d'interpolation de Lagrange associ aux valeurs xn+q , . . . , xn . En faisant
appel la formule de GregoryNewton rgressive dans d'une grille uniforme de pas h, il vient
q
X
1
i=1

(8.69)

i xn+q = h f (tn+q , xn+q ),

ce qui conduit 49 aux formules suivantes pour les premires valeurs de q :

q = 1 : xn+1 xn = h f (tn+1 , xn+1 ) (mthode d'Euler implicite),


1
3
q = 2 : xn+1 2 xn + xn1 = h f (tn+1 , xn+1 ),
2
2
11
3
1
q=3:
xn+1 3 xn + xn1 xn2 = h f (tn+1 , xn+1 ),
6
2
3
25
4
1
xn+1 4 xn + 3 xn1 xn2 + xn3 = h f (tn+1 , xn+1 ).
q=4:
12
3
4
Sous les hypothses (8.56), on observe que l'on a, pour une mthode q pas,


1
(z) = z q (1 z 1 ) + + (1 z 1 )q
q
et

(z) = q z q ,

ce qui correspond au choix le plus simple possible pour pour une mthode implicite. Une telle mthode
est d'ordre q .

q
1

0
1

1
1

1
3
2
11
3
25
12
137
10
147

43

9
11
16
25
75
137
72
147

18
11

36
25
200
137
225
147

48
25
300
137
400
147

3
4
5
6

Table 8.2:

1
300
137
450
147

1
360
147

q
1
2
3
6
11
12
25
60
137
60
147

Coecients normaliss des mthodes BDF q pas, 1 q 6.

L'introduction de ces mthodes pas multiples linaires implicites dites BDF (acronyme anglais de
backward dierentiation formula ) remonte l'article de Curtiss et Hirschfelder [CH52]. Si elles sont gn-

ralement ngliges au prot de mthodes implicites comme les mthodes d'AdamsMoulton, plus prcises
nombre de pas gal, leur stabilit suprieure (voir la sous-section 8.4.5) les rendent particulirement
attractives lorsque le systme du problme rsoudre est raide (voir la section 8.7).

8.3.4

Mthodes bases sur des dveloppements de Taylor

Nous concluons cette section sur la prsentation d'une classe de mthodes utilisant non seulement
les valeurs de la drive premire de la solution recherche, mais aussi celles de ses drives d'ordre
49. tant directement issues de (8.69), les formules donnes ne satisfont pas la condition de normalisation q = 1 impose
par (8.56). On se rfrera au tableau 8.2 pour les valeurs des coecients normaliss.

277

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

suprieur. Celle-ci est s'appuie sur un dveloppement de Taylor de la solution, exprim en termes des
drives  totales  de la fonction f , qui doit donc prsenter une certaine rgularit.
Supposons que f soit inniment drivable. C'est alors aussi le cas pour la solution du problme de
Cauchy (8.1)-(8.5) et l'on a

x00 (t) =

f
f
(t, x(t)) + f (t, x(t))
(t, x(t)) = f (1) (t, x(t)),
t
x

2f
2f
2f
(t, x(t)) + 2 f (t, x(t))
(t, x(t)) = f (2) (t, x(t)),
(t, x(t)) + (f (t, x(t)))2
2
t
tx
x2
et cetera... En notant plus gnralement
x000 (t) =

x(k+1) (t) = f (k) (t, x(t)), k 1.


et en posant f (0) (t, x) = f (t, x), le dveloppement de Taylor l'ordre p, avec p un entier strictement
positif, de la solution de l'quation au point tn+1 = tn + hn autour du point tn s'crit

x(tn+1 ) = x(tn ) +

p
X
hn k
k=1

k!

f (k1) (tn , x(tn )) + O(hn p+1 ), n 0,

et l'on en dduit de manire directe le schma suivant

xn+1 = xn +

p
X
hn k
k=1

k!

f (k1) (tn , xn ), n 0.

La mthode obtenue, parfois appele mthode de Taylor, est par construction d'ordre p. Pour p = 1, on
retrouve la mthode d'Euler et son interprtation en termes d'approximation de la courbe intgrale par
sa tangente en un point sur un pas de discrtisation.
Ces mthodes ne sont pas sans inconvnient en pratique. Il faut en eet supposer que la fonction est
a priori trs rgulire et une telle mthode aura toutes les chances d'tre inutilisable en pratique si ce
n'est pas le cas. De plus, pour une mthode d'ordre p, on doit tre en mesure de pouvoir valuer les
drives de f jusqu' l'ordre p 1. Or, mme lorsque des expressions analytiques sont disponibles, leur
complexit crot trs rapidement avec l'ordre de drivation, y compris pour des fonctions simples 50 , ce
qui rend la mise en uvre dicile. De fait, l'usage des mthodes de Taylor est rarement recommand
pour p plus grand que deux, mais il existe nanmoins des approches sophistiques (voir l'article [BWZ71]
et les rfrences qu'il contient) pour construire des programmes gnrant et valuant automatiquement
les dveloppements de Taylor requis par la mthode pour certaines formes particulires de fonctions
(fonctions rationnelles, fonctions trigonomtriques, etc...).

8.4

Analyse des mthodes

Lors de l'tude de la mthode d'Euler dans la sous-section 8.3.1, nous avons introduit les notions de
consistance, d'ordre, de stabilit et de convergence d'une mthode numrique fournissent une approximation de la solution du problme de Cauchy (8.1)-(8.5). L'objectif de cette section est de formaliser
les dnitions donnes au sein d'un cadre mathmatique permettant d'eectuer une analyse a priori des
mthodes prsentes et de dterminer dans quelle mesure les solutions des problmes discrets qui leur
sont associs convergent (dans un sens qui sera prcis) vers la solution du problme de Cauchy lorsque
le pas de discrtisation tend vers zro.
Nous allons traiter de manire trs gnrale le cas des mthodes un pas, qui inclue notamment
les mthodes de RungeKutta, ce procd d'analyse pouvant tre facilement tendu aux mthodes
pas multiples. Nous n'avons cependant pas choisi de nous en tenir cet aspect en anant les rsultats
obtenus dans le cas les mthodes pas multiples linaires au moyen de la thorie associe aux quations
aux dirences linaires, dont les grandes lignes sont rappeles dans la prochaine sous-section.
50. Le lecteur est invit vrier cette armation avec la fonction f (t, x) = t2 + x2 .

278

8.4. ANALYSE DES MTHODES

8.4.1

Rappels sur les quations aux dirences linaires *

Soit un entier q 1. On appelle quation aux dirences linaire (scalaire) d'ordre q tout quation
de la forme
q un+q + q1 un+q1 + + 0 un = n+q , n = 0, . . . ,
(8.70)
dans laquelle les coecients i , i = 0, . . . , q , supposs rels et tels que 0 q 6= 0, peuvent ventuellement
dpendre de l'entier n et le scalaire n+q est donn pour tout valeur de n. Une quation aux dirences
linaire est dite coecients constants lorsque les coecents sont indpendants de n et homogne si son
membre de droite est nul pour tout n 0.
Une telle quation admet une solution ds qu'on lui adjoint q conditions initiales spciant les valeurs
des q premiers termes de la suite {un }n0 , puisque l'on dduit de (8.70) et de l'hypothse sur les coecients
de l'quation que
q1
n+q
1 X
i un+i +
, n 0.
un+q =
q i=0
q
Cette solution est unique, la solution de l'quation aux dirences linaire homogne

q un+q + q1 un+q1 + + 0 un = 0, n 0,

(8.71)

de valeurs initiales identiquement nulles tant la solution triviale.


Considrons prsent les solutions de l'quation homogne (8.71). En raison de la linarit de l'quation, ces solutions forment un espace vectoriel et un ensemble de q solutions linairement indpendantes 51
est appel un ensemble fondamental de solutions de l'quation homogne, toute solution pouvant en eet
s'exprimer sous la forme d'une combinaison linaire des lments de cet ensemble.
Lorsque l'quation est coecients constants, il est possible d'expliciter un ensemble fondamental de
solutions. Pour cela, on introduit le polynme caractristique associ l'quation

(z) = q z q + q1 z q1 + + 0 ,
dont on note les racines i , i = 0, . . . , q 1. Lorsque celles-ci sont simples (et donc distinctes), l'ensemble
des suites des suites linairement indpendantes {i n }n0 , i = 0, . . . , q 1, est un ensemble fondamental
de solutions, car on a

q i n+q + q1 i n+q1 + + 0 i n = i n (i ) = 0, n 0, i = 0, . . . , q 1.
Si au moins une racine est de multiplicit plus grande que un, on peut encore dnir un ensemble
fondamental de solutions. Pour le voir, supposons que le scalaire soit une racine de multiplicit m du
polynme , avec m > 1. Dans ce cas, on remarque que est aussi un zro de multiplicit m de la fonction
g(z) = z n (z), avec n un entier naturel arbitraire. Les m 1 premires drives de g s'annulent donc en
z = et l'on a

q i n+q + q1 i n+q1 + + 0 i n = 0,
q (n + q) i n+q1 + q1 (n + q 1) i n+q2 + + 0 n i n1 = 0,
..
.
q (n + q)(n + q 1) . . . (n + q m + 2) i n+qm+1 + + 0 n(n 1) . . . (n m + 2) i nm+1 = 0
ce qui revient dire que les suites {n n }n0 , . . . , {n(n 1) . . . (n m + 2) n }n0 sont des solutions de
l'quation aux dirences linaire homogne. Les m 1 suites  manquantes  de l'ensemble fondamental
prcdemment construit sont alors obtenues partir de combinaisons linaires de ces solutions {0 n }n0 ,
savoir {n 0 n }n0 , . . . , {nm0 1 0 n }n0 .
(1)

(2)

(r)

51. On dit que des solutions {un }n0 , {un }n0 , . . . , {un }n0 de l'quation (8.71) sont linairement indpendantes si
(1)
(r)
(1)
le fait d'avoir 1 un + 1 un + + r un = 0 pour toute valeur de l'entier n implique que 1 = 2 = = r = 0.

279

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Plus gnralement, en supposant que le polynme caractristique associ l'quation possde r, avec
r q , racines distinctes i , i = 0, . . . , r 1, de multiplicits respectives mi , i = 0, . . . , q 0 1, toute solution
de (8.71) peut s'crire
!
j 1
r1 m
X
X
i
un =
(8.72)
ij n j n , n 0,
j=0

i=0

o les coecients ij sont dtermins par les q conditions initiales imposes. On notera que si une racine de
est complexe, une autre racine se trouve tre son complexe conjugule polynme tant par hypothse
les coecients rels. Ces deux racines complexes peut alors tre utilises pour former une paire de
solutions relles de l'quation homogne.
Une fois connue la forme gnrale des solutions de l'quation homogne, toute solution de l'quation
aux dirences linaire non homogne (8.70) s'obtient en ajoutant une solution particulire quelconque
de l'quation non homogne une solution de l'quation homogne dont les coecients ont t ajusts de
faon ce que la somme des deux satisfasse les q conditions initiales du problme. A REPRENDRE Une
telle solution particulire peut tre trouve en rsolvant l'quation (8.70) avec des valeurs initiales identiquement nulles et reprsente par des solutions de l'quation homogne via un principe de Duhamel 52
discret.
o
n
Thorme 8.18 Soit {u(k)
un ensemble fondamental de solutions de l'quation aux
n }n0
k=0,...,q1

dirences (8.71) dont les lments satisfont respectivement les conditions initiales

u(k)
n = nk , n = 0, . . . , q 1, k = 0, . . . , q 1,
o ik dsigne le symbole de Kronecker. La solution de l'quation (8.70) s'crit alors

un =

q1
X

ui u(i)
n +

i=0
Dmonstration.

n
1 X
(q1)
j unj+q1 , n = 0, 1 . . .
q j=q

A ECRIRE

A VOIR : dire un mot sur le cas coecients non constants ?

8.4.2

Ordre et consistance

Nous allons maintenant tudier la manire dont la solution calcule par les mthodes que nous avons
prsentes approchent la solution d'un problme de Cauchy bien pos.

Cas des mthodes un pas


On notera tout d'abord que toute relation de rcurrence dnissant une mthode un pas explicite 53
peut s'crire
xn+1 = xn + hn f (tn , xn ; hn ), n = 0, . . . , N 1,
(8.73)
la fonction f tant parfois appele la fonction d'incrment de la mthode. Dans toute la suite, nous
supposons que cette fonction est continue par rapport ses trois arguments.
52. Jean-Marie Constant Duhamel (5 fvrier 1797 - 29 avril 1872) tait un mathmaticien et physicien franais. Il est
l'auteur de travaux sur les quations aux drives partielles modlisant la propagation de la chaleur dans un solide, les
cordes vibrantes ou encore la vibration de l'air dans des tubes.
53. Pour une mthode un pas implicite, il faut considrer une relation gnrale de la forme
xn+1 = xn + hn f (tn , xn+1 , xn ; hn ), n = 0, . . . , N 1.

Par exemple, la mthode de la rgle du trapze, dnie par (8.28), a pour fonction d'incrment f (tn , xn+1 , xn ; hn ) =
1
(f (tn + hn , xn+1 ) + f (tn , xn )).
2

280

8.4. ANALYSE DES MTHODES

Exemples de fonction d'incrment de mthode un pas explicite. Pour la mthode d'Euler, la

fonction d'incrment est simplement f (t, x; h) = f (t, x). Pour la mthode d'Euler modie dnie par (8.31), il

vient f (t, x; h) = 12 f t + h2 , x + h2 f (t, x) , et l'on trouve f (t, x; h) = 12 (f (t, x) + f (t + h, x + h f (t, x))) pour
la mthode de Heun de schma (8.40).

An d'tudier la convergence d'une mthode de la forme (8.73), il faut en premier lieu s'intresser
l'erreur commise chaque tape de la rcurrence. Comme nous l'avons vu dans la sous-section 8.3.1, une
telle mesure peut se faire par l'intermdiaire de l'erreur de troncature locale associe la mthode.

Dnition 8.19 (erreur de troncature locale d'une mthode un pas) Pour tout entier n tel
que 0 n N 1, l'erreur de troncature locale au point tn+1 d'une mthode un pas de la forme
(8.73) est dnie par

n+1 = (tn+1 , x; hn ) = x(tn+1 ) x(tn ) hn f (tn , x(tn ); hn ),

(8.74)

o la fonction x dsigne une solution de l'quation (8.1).

On remarque que l'erreur de troncature locale n'est autre que le rsidu 54 obtenu en insrant une
solution exacte de l'quation (8.1) en place d'une solution approche dans la relation de rcurrence (8.73)
dnissant la mthode. On peut alors lgitimement se demander en quel sens ce rsidu rend compte de
l'erreur produite chaque tape par la mthode numrique et, a fortiori, quel est son rapport avec l'erreur
globale, qui est la seule erreur important rellement en pratique.
En explicitant la fonction d'incrment, on peut montrer que l'erreur de troncature locale de la mthode
au point tn+1 est essentiellement 55 gale l'erreur locale x(tn+1 ) x
n+1 de la mthode en ce mme
point, o x
n+1 dsigne l'approximation fournie par le schma de la mthode sous l'hypothse (8.35), dite
localisante, c'est--dire

x
n+1 = x(tn ) + hn f (tn , x(tn ); hn ), n = 0, . . . , N 1.
Par exemple, on a pour la mthode d'Euler

n+1 = x(tn+1 ) (x(tn ) + hn f (tn , x(tn ))) , n = 0, . . . , N 1,


ce qui correspond bien la dnition de l'erreur locale donne plus haut. On voit avec cette interprtation
que, si les erreurs de troncature locales n'ont a priori pas de rapport direct avec elle, leur propagation et
leur accumulation au cours de la rsolution numrique contribuent de manire complexe l'erreur globale.
En ce sens, l'erreur de troncature locale gouverne l'volution de l'erreur globale, motivant la dnition
suivante.

Dnition 8.20 (consistance d'une mthode un pas) Une mthode un pas de la forme (8.73)
est dite consistante avec l'quation direntielle (8.1) si l'on a
lim

h0

1
n+1 = 0, n = 0, . . . , N 1,
hn

o n+1 dsigne l'erreur de troncature locale de la mthode au point tn+1 , dnie par (8.74).

En d'autres mots, une mthode est consistante si les erreurs de troncature locale aux points de la grille
sont des inniment petits en h2 (notation O(h2 )) lorsque la longueur maximale des pas de discrtisation
tend vers zro.
On peut vrier qu'une mthode un pas est consistante en utilisant le rsultat suivant.

Thorme 8.21 (condition ncessaire et susante de consistance d'une mthode un pas)

Une mthode numrique un pas de la forme (8.73) est consistante avec l'quation direntielle (8.1) si
et seulement si

f (t, x; 0) = f (t, x), (t, x) [t0 , t0 + T ] R.

(8.75)

54. Certains auteur dnissent parfois l'erreur de troncature comme ce rsidu divis par la longueur du pas de discrtisation
au point considr.
55. Il y a galit lorsque la mthode est explicite et galit une constante multiplicative prs lorsque la mthode est
implicite (voir par exemple le lemme 8.24 pour les mthodes pas multiples linaires).

281

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES


Dmonstration. La condition (8.75) est ncessaire. En eet, si la mthode est consistante, alors, pour toute
solution x de classe C 1 de l'quation (8.1), on a


Z tn+1
1
1
f (s, x(s)) ds f (tn , x(tn ); hn ) = 0, 0 n N 1.
lim
n+1 = lim
h0 hn
h0
hn tn

Pour tout t dans [t0 , t0 + T ] et toute grille de discrtisation (non ncessairement uniforme) de pas h, il existe un
indice n(h) tel que tn(h) t < tn(h)+1 et l'on a limh0 tn(h) = t. Il vient alors que
Z tn(h)+1
1
lim f (tn(h) , x(tn(h) ); fn(h) ) = lim
f (s, x(s)) ds,
h0
h0 hn(h)
tn(h)
d'o f (t, x(t); 0) = f (t, x(t)). On peut par ailleurs toujours choisir une valeur initiale en t0 pour que le couple
(t, x(t)) prenne une valeur arbitraire dans [t0 , t0 + T ] R, d'o le rsultat.
Montrons maintenant que la condition est aussi susante. On a
1
n+1
hn

=
=
=

1
(x(tn+1 ) x(tn ) hn f (tn , x(tn ), hn ))
hn
Z tn+1
1
(f (s, x(s)) f (tn , x(tn ); hn )) ds
hn tn
Z tn+1
1
(f (s, x(s); 0) f (tn , x(tn ); hn )) ds,
hn tn

d'o

1
|n+1 |
max |f (s, x(s); 0) f (tn , x(tn ); hn )| .
tn stn+1
hn
Le membre de droite de cette ingalit tend vers 0 avec h uniformment en n ; la mthode est donc consistante. 

Exemples de mthode un pas consistante. On a dj vu que f (t, x; h) = f (t, x) pour la mthode

d'Euler, ce qui montre une seconde 56 fois que cette mthode est consistante. Pour une mthode de RungeKutta
P
P
s niveaux, on a, en toute gnralit (voir (8.32)), f (t, x; h) = si=1 bi f (t + ci h, x + h sj=1 aij kj ). On trouve
Ps
P
alors que f (t, x; 0) = f (t, x) i=1 bi et la mthode est par consquent consistante si et seulement si si=1 bi = 1,
ce que l'on l'avait constat lors de la construction de mthodes de RungeKutta explicites un, deux et trois
niveaux dans la sous-section 8.3.2.

Pour avoir une estimation de la prcision de l'approximation oerte par une mthode, il faut savoir
quelle vitesse ses erreurs de troncature locales tendent vers zro avec la longueur du pas de discrtisation,
cette information correspondant la notion d'ordre d'une mthode.

Dnition 8.22 (ordre d'une mthode un pas) Une mthode un pas de la forme (8.73) est dite
d'ordre p, avec p un entier naturel, si
n+1 = O(hp+1 ), n = 0, . . . , N 1,
lorsque h tend vers zro, pour toute solution susamment rgulire de l'quation (8.1). Elle est dite
si le nombre p est le plus grand entier pour lequel la relation ci-dessus est
satisfaite.

exactement d'ordre p

Il dcoule des dnitions 8.20 et 8.22 qu'une mthode d'ordre suprieur ou gal un est consistante.
On peut aner la notion de prcision d'une mthode donne ci-dessus en introduisant la dnition
suivante.

Dnition 8.23 (fonction d'erreur principale d'une mthode un pas) On appelle fonction
d'erreur principale d'une mthode un pas de la forme (8.73) la fonction continue et non identi-

quement nulle telle que

n+1 = (tn , x(tn )) hp+1 + O(hp+2 ), n = 0, . . . , N 1,


pour toute solution x susamment rgulire de l'quation (8.1).
56. On a en eet dj prouv que c'tait le cas dans la sous-section 8.3.1.

282

8.4. ANALYSE DES MTHODES

On voit que la fonction d'erreur principale caractrise le terme d'ordre dominant dans l'erreur de troncature locale, c'est--dire l'entier p apparaissant dans sa dnition donnant l'ordre exact de la mthode.
Elle rend explicite, lorsque la longueur du pas de discrtisation est susamment petite, le comportement
de l'erreur de troncature.

Exemples de fonction d'erreur principale d'une mthode un pas. Pour la mthode d'Euler, il
vient, en eectuant un dveloppement de Taylor de x(tn+1 ) au point tn au second ordre, la solution tant suppose
de classe C 2 ,
n+1 = x(tn ) + hn f (tn , x(tn )) +

hn 2
2


f
f
(tn , x(tn )) + f (tn , x(tn ))
(tn , x(tn )) + O(hn 3 )
t
x
(x(tn ) + hn f (tn , x(tn ))) ,

d'o
1
(t, x) =
2


f
f
(t, x) + f (t, x)
(t, x) .
t
x

Pour la mthode de Heun dnie par (8.40), on doit pousser le dveloppement un cran plus loin (voir (8.37)), et
donc supposer que la solution est de classe C 3 , pour obtenir
(t, x) =

1
12

2f
2f
2f
(t, x) + 2 f (t, x)
(t, x) + (f (t, x))2
(t, x)
2
t
tx
x2
1
+
6

f
f
(t, x) (t, x) + f (t, x)
t
x

f
(t, x)
x

2 !
.

Pour une mthode de Taylor d'ordre p, on trouve (en reprenant la notation introduite dans la sous-section 8.3.4)
(t, x) =

1
f (p) (t, x).
(p + 1)!

La dtermination de l'ordre maximal atteint par une mthode de RungeKutta explicite de nombre
de niveaux x peut se faire par la technique prsente dans la sous-section 8.3.2 pour la construction
eective de telles mthodes. Cette approche est nanmoins trs technique, car l'expression de la fonction
d'erreur principale associe se complique au fur et mesure que le nombre de niveaux augmente. En notant
p (s) l'ordre maximal d'une mthode de RungeKutta explicite vue comme une fonction du nombre s de
niveaux, on sait depuis les travaux de Kutta [Kut01] que p (s) = s pour 1 s 4. Les mthodes explicites
d'ordre suprieur ncessitent systmatiquement plus de niveaux que l'ordre atteint. Plus prcisment, il
a t dmontr par Butcher, au moyen d'une approche algbrique et pour un problme scalaire (voir
[But65]), que
pour 5 s 7,

p (s) = s 1
p (s) = s 2

pour 8 s 9,

p (s) s 2

pour s 10.

Enn, on a vu dans la sous-section 8.3.2 que l'ordre maximal d'une mthode de RungeKutta implicite
s niveaux tait gal 2s.

Cas des mthodes pas multiples linaires *


Pour une mthode pas multiples linaire de la forme (8.55) et une grille de discrtisation de pas de
longueur uniforme, l'erreur de troncature locale prend la forme

n+q =

q
X
i=0

(i x(tn+i ) hi f (tn+i , x(tn+i ))) =

q
X
i=0

283

(i x(tn+i ) hi x0 (tn+i )) , n = 0, . . . , N q.

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Il est dans ce cas commode d'introduire l'oprateur aux dirences associ la mthode, que l'on dnit,
pour toute fonction arbitraire z de classe C 1 sur l'intervalle [t0 , t0 + T ], par

L (z(t), h) =

q
X

(i z(t + i h) hi z 0 (t + i h)) ,

(8.76)

i=0

l'erreur de troncature locale s'crivant alors n+q = L (x(tn ), h), n = 0, . . . , N q . On peut voir cet
oprateur comme un oprateur linaire agissant sur toute fonction direntiable.
En introduisant l'oprateur de dcalage gauche 57 Th et en abusant quelque peu des notations 58 , on
peut rcrire (8.76) de manire compacte en termes de l'oprateur Th et des polynmes caractristiques
associs la mthode :
L (z(t), h) = ((Th ) h (Th )) z(t).

Lemme 8.24 (lien entre l'erreur de troncature locale et l'erreur locale d'une mthode pas
multiples linaire) Soit un problme de Cauchy (8.1)-(8.5) pour lequel la fonction f est continment

direntiable et une mthode pas multiples linaire de la forme (8.55) utilise pour sa rsolution. On a
la relation suivante entre l'erreur de troncature locale et l'erreur locale de la mthode

n+q



f
(tn+q , n+q ) (x(tn+q ) x
n+q ) , n = 0, . . . , N q,
= q hq
x

o x
n+q est l'approximation fournie par la mthode en supposant que xn+i = x(tn+i ), i = 0, . . . , q 1, et
n+q est un rel strictement compris entre x(tn+q ) et x
n+q .
Dmonstration.

q1
X

En utilisant l'hypothse localisante dans (8.55), il vient


(i x(tn+i ) hi f (tn+i , x(tn+i ))) + q x
n+q hq f (tn+q , x
n+q ) = 0,

i=0

d'o

L (x(tn ), h) = q (x(tn+q ) x
n+q ) hq (f (tn+q , x(tn+q )) f (tn+q , x
n+q )) .

Le rsultat dcoule alors du thorme des accroissement nis (voir le thorme B.111).

Supposons prsent la fonction z inniment direntiable. En eectuant des dveloppements de


Taylor au point t de z(t + i h) et z 0 (t + i h), i = 0, . . . , q , dans (8.76) et en regroupant les termes, on
obtient
L (z(t), h) = C0 z(t) + C1 h z 0 (t) + + Ck hk z (k) (t) + . . .
(8.77)
o

C0 =
C1 =
Ck =

q
X
i=0
q
X

i ,

(i i
i=0
q  k
X
i=0

i ) ,


i
ik1
i
i , k 2.
k!
(k 1)!

REPRENDRE Ceci conduit la dnition suivante.

Dnition 8.25 (caractrisation de l'ordre d'une mthode pas multiples linaire) Une mthode pas multiples linaire est d'ordre p, avec p un entier naturel, si l'oprateur aux dirences,
dni par (8.76), qui lui est associ est tel que l'on a C0 = C1 = = Cp = 0 et Cp+1 6= 0 dans le
dveloppement (8.77), la constante Cp+1 tant alors appele la constante d'erreur principale de la
mthode.
57. Cet oprateur associe toute fonction z continue d'une variable relle la fonction Th z = z( + h).
58. On dcide de noter les composes multiples de l'oprateur Th avec lui-mme de la faon suivante : Th 2 = Th Th ,
Th 3 = Th Th 2 , etc...

284

8.4. ANALYSE DES MTHODES

Observons que cette dnition est lgitime. En eet, le dveloppement de Taylor (8.77) est vrai
pour toute fonction susamment rgulire et donc, en particulier, toute solution susamment rgulire
du problme. D'autre part, le calcul montre que le premier coecient non nul, Cp+1 est indpendant
du point t en lequel le dveloppement est eectu (ce qui n'est en revanche pas le cas des coecients
suivants).
En reliant les expressions des constantes Ck , k 0, aux valeurs des polynmes , et 0 , on obtient la
caractrisation analytique suivante de la consistance et de l'ordre d'une mthode pas multiples linaire.

Thorme 8.26 (conditions ncessaires et susantes de consistance et d'ordre d'une mthode


pas multiples linaire) Une mthode pas multiples linaire de la forme (8.55) est consistante si et
seulement si ses polynmes caractristiques premier et second satisfont

(8.78)

(1) = 0 et 0 (1) = (1).


Elle est d'ordre p si et seulement si l'on a de plus


(z)
= ln(z) + O (z 1)p+1 .
(z)

(8.79)

dans un voisinage du point z = 1.


Dmonstration. Par dnition, une mthode pas multiples linaire est consistante si elle est au moins
du premier ordre, c'est--dire si C0 = C1 = 0. On dduit les conditions (8.78), qui ne sont qu'une rcriture des
expressions de ces constantes en termes des polynmes caractristiques de la mthode.
A FINIR


On vient de mettre en vidence un lien entre l'ordre d'une mthode pas multiples linaire et l'ordre
d'approximation de la fonction ln par la fonction rationnelle au voisinage du point z = 1.
REPRENDRE/FINIR

Dtermination de l'ordre de convergence des mthodes d'Adams. compte tenu de leur construction, au moins q explicite (q + 1 implicite), dtermination de la constante d'erreur principale indique que c'est
l'ordre exact
constante de la mthode de la rgle du trapze ? ? ?
Rsum dans le tableau 8.3
nom de la mthode q pas
AdamsBashforth
AdamsMoulton
Nystrm (q = 2)
Nystrm (q > 2)
MilneSimpson (q = 2)

ordre
q
q+1
2
q
4

MilneSimpson (q > 3)
BDF

q+1
q

Table 8.3:

8.4.3

constante d'erreur principale


q

q+1
1
6
q
2
1
180

q+1
2
1
q+1

Ordre et constante d'erreur principale de direntes mthodes q pas linaires.

Zro-stabilit *

La zro-stabilit d'une mthode de rsolution numrique d'un problme de Cauchy bien pos caractrise le comportement de son schma vis--vis de l'accumulation de perturbations lorsque le pas de
discrtisation tend vers zro. Cette proprit de la mthode assure que cette dernire n'est pas trop sensible aux erreurs de reprsentation des donnes ou d'arrondi en arithmtique en prcision nie et qu'elle
fournit une approximation eectivement calculable de la solution. On peut la voir comme un avatar,
285

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

spcique rsolution approche des quations direntielles ordinaires, de celle de stabilit numrique
discute dans la section 1.5.2.
on veut que la solution numrique du problme avec une donne perturbe reste proche de la solution
avec donne non perturbe
REPRENDRE/DEPLACER on va voir que l'on peut dcider du fait qu'une mthode est zro-stable
ou non en considrant simplement son application la rsolution d'un problme trivial dont l'quation
est x0 (t) = 0 d'o le nom du concept de stabilit introduit dans la dnition ref / stabilit dans le cas
limite h 0 d'o le nom (aussi appele stabilit de Dahlquist)

Cas des mthodes un pas


Dnition 8.27 (zro-stabilit d'une mthode un pas) On dit qu'une mthode un pas de la
forme (8.73) pour la rsolution de l'quation direntielle ordinaire (8.1) est zro-stable s'il existe une

constante strictement positive C , indpendante de la longueur des pas de discrtisation, telle que, pour
toutes suites xn et yn dnies respectivement par

xn+1 = xn + hn f (tn , xn ; hn ), n = 0, . . . , N 1,
et

yn+1 = yn + hn (f (tn , yn ; hn ) + n ) , n = 0, . . . , N 1,
les initialisations x0 et y0 et les perturbations n , n = 0, . . . , N 1, tant donns, on a, pour tout h
susamment petit,



max |xn yn | C

0nN

|x0 y0 | +

max

0iN 1

(8.80)

|i | .

DONNER EXPLICATIONS... A VOIR CONDITION SUR h

Thorme 8.28 (condition susante de zro-stabilit d'une mthode un pas) Une mthode
un pas de la forme (8.73) pour la rsolution de l'quation direntielle ordinaire (8.1) est zro-stable
s'il existe une constante strictement positive telle que l'on a

|f (t, x; h) f (t, y; h)| |x y| , t [t0 , t0 + T ], (x, y) (Rd )2 , h [0, h0 ] (ou R+ ).

(8.81)

La preuve de ce thorme utilise le rsultat suivant, que l'on peut voir comme une version discrte de
l'ingalit de Grnwall (voir la proposition 8.12).

Lemme 8.29 Soit une suite relle (en )0nN dont les termes satisfont
(8.82)

en+1 an en + bn , n = 0, . . . , N 1,
avec (an )0nN 1 et (bn )0nN 1 des suites relles avec an > 0. On a alors 59
n1
Y

en

!
ai

e0 +

i=0

n1
X

n1
Y

ak bj , n = 0, . . . , N.

j=0

k=j+1

On observe tout d'abord que


!
n1
n1
n1
n
n
X
Y
Y
X
Y

e0 +
ak bj = an
ai e0 +
ak bj + bn , n = 0, . . . , N 1.

Dmonstration.

n
Y

!
ai

i=0

j=0

i=0

k=j+1

j=0

k=j+1

En soustrayant cette galit l'ingalit (8.82), on trouve

en+1

n
Y
i=0

!
ai

e0 +

n
X

n
Y

j=0

ak bj an en

n1
Y
i=0

k=j+1

!
ai

e0 +

n1
X

n1
Y

j=0

ak bj ,

k=j+1

n = 0, . . . , N 1.
59. On adopte ici la convention usuelle qu'un produit  vide  a pour valeur 1 et qu'une somme  vide  a pour valeur 0.

286

8.4. ANALYSE DES MTHODES

Pour n = 0, le membre de gauche de cette ingalit devient e1 (a0 e0 + b0 ), cette quantit tant ngative en
vertu de (8.82). Un raisonnement par rcurrence permet alors de montrer alors qu'on a plus gnralement

en

n1
Y

!
ai

e0 +

i=0

n1
X

n1
Y

ak bj 0, n = 0, . . . , N.

j=0

k=j+1


Dmonstration du thorme 8.28. Considrons les suites (xn )0nN et (yn )0nN de la dnition 8.27.
Leur dirence satisfait la relation de rcurrence

yn+1 xn+1 = yn xn + hn (f (tn , yn ; hn ) f (tn , xn ; hn )) + hn n , n = 0, . . . , N 1.

Il dcoule alors de l'ingalit triangulaire et la condition de Lipschitz (8.81) que


|yn+1 xn+1 | (1 + hn ) |yn xn | + hn |n | , n = 0, . . . , N 1.

En utilisant le lemme 8.29 en posant en = |yn xn |, n = 0, . . . , N , an = 1+ hn et bn = hn |n |, n = 0, . . . , N 1,


tout en remarquant que
n1
Y

(1 + hk )

k=j+1

n1
Y

N
1
Y

(1 + hk )

k=0

(1 + hk )

k=0

N
1
Y

e hk = e

PN 1
k=0

hk

= e T , j = 0, . . . , n 1,

k=0

on arrive
T

|yn xn | e

|y0 x0 | +

n1
X

!
hj |j | , n = 0, . . . , N,

j=0

d'o
|yn xn | e T


|y0 x0 | + T

qui conduit la condition de zro-stabilit avec C = e

max

1jn1


|j | , n = 0, . . . , N,

max{1, T }.

Les fonctions d'incrment de toutes les mthodes un pas utilises en pratique satisfont une condition
de Lipschitz par rapport x ds que c'est le cas pour la fonction f , la constante du thorme 8.28
pouvant alors s'exprimer en fonction de la constante L de la condition (8.23), comme le montrent les
exemples suivants.

Exemples de mthode un pas zro-stable. Sous l'hypothse que la fonction f est lipschitzienne, on

obtient immdiatement la zro-stabilit de la mthode d'Euler (8.25) puisque l'on a f (t, x; h) = f (t, x), d'o
h
h
= L. De la mme manire,
 pour la mthode d'Euler modie (8.31), on a f (t, x; h) = f t + 2 , x + 2 f (t, x)
1
et il vient L 1 + 2 hL . Pour la mthode de RungeKutta  classique  rsume dans le tableau (8.42), on
obtient, aprs quelques majorations,
|f (t, x; h) f (t, y; h)|

d'o L 1 +

1
2

hL +

1
6

L
6






1
1
1
1 + 2 1 + hL + 2 1 + hL + (hL)2
2
2
4


1
1
+ 1 + hL + (hL)2 + (hL)3
|x y| ,
2
4

(hL)2 +

1
24


(hL)3 .

FAIRE UNE REMARQUE sur le fait que la constante de stabilit C = e T max{1, T } devient trs
grande lorsque T ou L (et donc ) sont grands. Ce rsultat de stabilit de la solution numrique n'est
donc pas d'une relle utilit lorsqu'il s'agit d'tudier la sensibilit par rapport des perturbations en
temps long (T grand) ou quand le systme est raide (L grand).
287

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Cas des mthodes pas multiples linaires


Dnition 8.30 (zro-stabilit d'une mthode pas multiples linaire) Une mthode pas
multiples linaire de la forme (8.55) pour la rsolution de l'quation direntielle ordinaire (8.1) est zrostable s'il existe une constante C > 0, indpendante de la longueur des pas de la grille de discrtisation,
telle que, pour toutes suite xn et yn dnies respectivement par

xn+q = h

q
X

i f (tn+i , xn+i )

q1
X

i=0

et

yn+q = h

q
X

i xn+i , n = 0, . . . , N q,

i=0

!
i f (tn+i , yn+i ) + n+q

i=0

q1
X

i yn+i , n = 0, . . . , N 1,

i=0

xi , yi i = 0, . . . , q 1, et n+q tant donns, on ait, pour tout h susamment petit,




max |xn yn | C
max |xi yi | + max |i | .
0nN

0iN 1

0iq1

(8.83)

zro-stabilit d'une mthode multipas linaire les solutions de l'quation aux dirences sousjacente sont bornes, ce qui est li aux racines du premier polynme caractristique et plus prcisment
leur localisation dans le plan complexe

Dnition 8.31 ( condition de racine ) On dit qu'une mthode pas multiples linaire de la forme
(8.55) pour la rsolution du problme (8.1)-(8.5) satisfait la condition de racine si toutes les racines de

son premier polynme caractristique ont un module infrieur ou gal l'unit et que toutes les racines
de module gal un sont simples.

NOTE : Si la mthode est consistante ((1) = 0) alors 1 est racine du polynme, c'est la racine
principale. les q 1 racines restantes sont dites spurieuses et proviennent de la reprsentation approche
d'un systme direntiel du premier ordre par un systme aux dirences d'ordre q . On note que toute
mthode un pas consistante satisfait automatiquement la condition de racine.
REPRENDRE Comme pour la consistance, il est donc possible de caractriser analytiquement la
stabilit d'une mthode multipas. On a la zro-stabilit si les racines du polynme satisfont la condition
suivante.

Thorme 8.32 (condition ncessaire et susante de zro-stabilit d'une mthode pas


multiples linaire) Une mthode pas multiples linaire est zro-stable si et seulement si elle vrie la
condition de racine.

Dmonstration.
Pour montrer que la condition est ncessaire, nous allons raisonner par l'absurde, en
supposant que la mthode est stable et que la condition nonce dans la dnition 8.31 est viole. L'ingalit (8.83)
tant satisfaite pour tout problme de Cauchy bien pos, elle l'est en particulier pour le problme d'quation
direntielle x0 (t) = 0 et de condition initiale x(0) = 0, dont la solution est identiquement nulle. Pour cette
quation, le schma d'une mthode pas multiples linaire de la forme (8.55) s'crit

q
X

i xn+i = 0, n 0.

i=0

Notons i , i = 1, . . . , r, avec r q , les racines du polynme ; il existe alors une racine j dont le module est
strictement plus grand que l'unit, ou bien de module gal l'unit mais de multiplicit strictement suprieure
un. On sait d'aprs les rsultats rappels dans la sous-section 8.4.1 que la suite A COMPLETER/REPRENDRE
(
j n
si j R
xn =
(j + j )n si j C \ R
dans le premier cas ou

(
xn =

n j n
(j + j )n

288

si j R
si j C \ R

8.4. ANALYSE DES MTHODES

est solution...
La preuve que la condition est galement susante est longue et technique et nous l'omettons pour cette
raison.


On voit une nouvelle fois avec ce rsultat que la vrication d'une proprit cruciale d'une mthode
pas multiples linaire se ramne une question algbrique par l'utilisation de l'analyse complexe. En eet,
si l'on a montr dans la sous-section prcdente que la mthode est consistante si la fonction rationnelle

approche la fonction ln l'ordre deux au voisinage de z = 1, on vient de prouver qu'elle est zro-stable
si les zros de son premier polynme caractristique sont tous contenus dans le disque unit et simples
s'ils appartiennent au cercle unit.

Exemple de mthode pas multiples linaire instable. La mthode explicite deux pas dnie par
le schma


xn+2 = 3 xn+1 2 xn + h


1
3
f (tn+1 , xn+1 ) f (tn , xn ) , n = 0, . . . , N 2,
2
2

(8.84)

a pour polynmes caractristiques (z) = z 2 3 z + 2 et (z) = 21 z 32 . Cette mthode est consistante, car
(1) = 0 et 0 (1) = 1 = (1), et d'ordre deux, car C2 = 0 et C3 6= 0. Elle ne vrie cependant pas la condition de
racine, les racines de tant 1 et 2, et n'est donc pas zro-stable. La gure 8.11 illustre le phnomne d'instabilit
observ en pratique, qui se traduit par une augmentation rapide de l'erreur globale de la mthode lorsque l'on
diminue la longueur du pas de discrtisation.

3
2, 5

2
1, 5

1
0, 5

0, 2

0, 4

0, 6

0, 8

Illustration de l'instabilit de la mthode pas multiples linaire dnie par (8.84) lors de la
rsolution du problme de Cauchy d'quation x0 (t) = x(t) et de condition initiale x(0) = 1, sur l'intervalle
[0, 1]. La courbe reprsente la solution du problme, x(t) = ex , et les points marqus des symboles ,  et  les
valeurs numriques {xn }0nN obtenues sur des grilles de discrtisation uniformes de longueurs de pas respectives
h = 0, 2, h = 0, 1 et h = 0, 05.
Figure 8.11:

Le thorme 8.32 permet de prouver trs simplement la stabilit de plusieurs des familles de mthodes
pas multiples linaires introduites dans la subsection 8.3.3. Dans le cas des mthodes d'Adams, il
vient (z) = z q z q1 = z q1 (z 1), q 1 et la condition de racine est donc satisfaite. Il en va de
mme pour les mthodes de Nstrom et de MilneSimpson gnralises, pour lesquelles on a (z) =
z q z q2 = z q2 (z 2 1). L'analyse de zro-stabilit des mthodes BDF n'est pas aussi n'est pas aussi
immdiate, car leurs premiers polynmes caractristiques ne sont pas de forme triviale. Il apparat que
ces dernires mthodes ne sont stables que pour de valeurs de q infrieures ou gales six, un fait observ
numriquement ds les annes 1950 [MC53] mais seulement prouv de faon rigoureuse 60 prs d'une
vingtaine d'annes plus tard [Cry72, CM75].
Nous terminons cette sous-section par un rsultat important, montrant que l'ordre maximal atteint
60. Une preuve trs courte et lgante de l'instabilit des mthodes BDF pour q 7 est donne dans [HW83].

289

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

par une mthode pas multiples linaire q pas sera de loin infrieur la valeur thoriquement possible 61
de 2q si l'on souhaite qu'elle soit zro-stable.

Thorme 8.33 ( premire barrire de Dahlquist 62  [Dah56]) Il n'existe pas de mthode q

pas linaire zro-stable dont l'ordre est suprieur q + 1 si q est impair et q + 2 si q est pair. Par
ailleurs, si la mthode est explicite, son ordre ne peut tre plus grand que q .
Dmonstration.

A ECRIRE

A VOIR on peut mentionner la thorie des toiles d'ordre (order stars en anglais) de Wanner, Hairer
et Nrsett [WHN78] ici, car il existe une preuve de ce rsultat reposant dessus
REPRENDRE Il dcoule de ce thorme qu'une mthode q pas zro-stable et d'ordre q + 2 est
optimale. On peut montrer que toutes les racines spurieuses du premier polynme caractristique d'une
telle mthode se trouvent sur le cercle unit, ce qui pose d'autres problmes de stabilit (voir la soussection 8.4.5).

8.4.4

Convergence

Munis des proprits de consistance et de zro-stabilit, nous pouvons maintenant prouver que les
mthodes numriques convergent vers la solution du problme de Cauchy.

Cas des mthodes un pas


Dnition 8.34 (convergence d'une mthode un pas) On dit qu'une mthode numrique de la

forme (8.73) est convergente si, pour tout problme de Cauchy (8.1)-(8.5) satisfaisant les hypothses du
thorme 8.10, on a



lim

h0

max |xn x(tn )|

0nN

= 0,

ds que

lim |x0 x(t0 )| = 0.

h0

On remarque que cette dnition impose que la convergence de l'initialisation x0 du schma en plus
de celles construites par ce dernier. REMARQUE SUR LES ERREURS D'ARRONDI MACHINE

Thorme 8.35 Si une mthode un pas de la forme (8.73) est consistante et stable, alors elle est
convergente

Dmonstration. Soit x la solution du problme (8.1)-(8.5). En appliquant l'ingalit de stabilit (8.80) aux
suites (xn )0nN et (x(tn ))0nN , qui satisfont respectivement (8.73) et (8.74), il vient



n+1
.
max |xn x(tn )| C |x0 x(t0 )| + max
0nN
0nN 1
hn

On dduit alors de la condition de consistance la convergence de la mthode.

Corollaire 8.36 Si la fonction d'incrment d'une mthode un pas est continue par rapport ses

variables et satisfait une condition de Lipschitz par rapport x, la mthode est convergente si elle est
consistante.

A VOIR On peut montrer que cette condition susante est galement ncessaire. On va gnraliser
ces rsultats pour les mthodes pas multiples linaires, (auxquelles appartiennent des mthodes un
pas comme la mhtode d'Euler).
61. Pour dnir une mthode q pas linaire, on a 2(q + 1) coecients i et i , i = 0, . . . , q , choisir, parmi lesquels on
pose q = 1 pour satisfaire (8.56). On a donc 2q + 1 paramtres libres (seulement 2q pour une mthode explicite car q = 0
dans ce cas) alors que l'on a p + 1 quations linaires vrier pour que la mthode soit d'ordre p. Par consquent, l'ordre
le plus lev que l'on peut atteindre est 2q si la mthode est implicite et 2q 1 si elle est explicite.
62. Germund Dahlquist (16 janvier 1925 - 8 fvrier 2005) tait un mathmaticien sudois, principalement connu pour ses
contributions l'analyse numrique des mthodes de rsolution des quations direntielles.

290

8.4. ANALYSE DES MTHODES

Cas des mthodes pas multiples linaires


Pour les mthodes pas multiples linaires, la dnition de la convergence doit tre adapte pour
tenir compte de l'initialisation particulire requise par ces mthodes.

Dnition 8.37 (convergence d'une mthode pas multiples linaire) Une mthode pas multiples linaire de la forme (8.55) est dite convergente si, pour tout problme de Cauchy (8.1)-(8.5)
satisfaisant les hypothses du thorme 8.10, on a



lim xd(tt0 )/he x(t) = 0, t [t0 , t0 + T ],

h0

ds que les valeurs d'initialisation xi , i = 0, . . . , q 1, satisfont

lim |xi x(t0 + i h)| = 0, i = 0, . . . , q 1.

h0

Nous allons maintenant donner une condition ncessaire de convergence pour les mthodes pas
multiples linaires. Nous aurons besoin de deux lemmes techniques, le premier servant dmontrer le
second.

Lemme 8.38 Supposons que le polynme (z) = q z q + q1 z q1 + + 0 satisfasse la condition de


racines de la dnition 8.31. Alors, les coecients i , i 0, du dveloppement

1
= 0 + 1 z + 2 z 2 + . . .
0 z q + 1 z q1 + + q
sont borns, i. e.

|i | < +.

= sup
i=0,1,...

Posons (z) = z q (z 1 ). Les racines du polynme rciproque sont les inverses des racines
1
de et la fonction qui a z associe (z)
est donc holomorphe dans le disque unit ouvert {z C | |z| < 1}. Les

racines de de module gal 1, notes 1 , 2 , . . . , m tant simples, les ples de 1 de module gal 1 sont d'ordre
un et il existe des coecients A1 , A2 , . . . , Am tels que la fonction
Dmonstration.

g(z) =

1
A1
A1
A1


,
(z)
z 1 1
z 2 1
z m 1

est aussi holomorphe dans le disque unit ferm {z C | |z| 1}. Cette dernire fonction est donc dveloppable
en srie entire,
+
X
g(z) =
an z n ,
n=0

les coecients an , donns par an =

1
2i

g(z)
|z|=1 z n+1

dz , n N, tant borns indpendamment de n. De la mme

manire, on peut dvelopper en srie chacun des lments simples zAi1 , i = 1, . . . , m, les coecients des
i
dveloppements associs tant galement borns, ce qui achve la preuve.


Le second lemme concerne la croissance des solutions de l'quation aux dirences non homogne
suivante

q z n+q + q1 z n+q1 + + 0 z n = h q z n+q + q1 z n+q1 + + 0 z n + n , n = 0, . . . , N q.
(8.85)

Lemme 8.39 Supposons que le polynme (z) = q z q + q1 z q1 + + 0 satisfasse la condition de


racines et soit B , et des constantes positives telles que
q
X

|i | B , |i | , |i | , i = 0, . . . , N,

i=0

et soit 0 h < |q |

. Alors toute solution de (8.85) pour laquelle |zi | Z , i = 0, . . . , q 1,

|zn | K enhL , n = 0, . . . , N,
Pq

o L = B , K = (N + (

i=0

|i |)Zq), =
291

.
1h |q |1

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Dmonstration.

A ECRIRE

Thorme 8.40 ( thorme d'quivalence de Dahlquist  [Dah56]) Une condition ncessaire et

susante pour qu'une mthode pas multiples linaire pour la rsolution de (8.1)-(8.5) soit convergente
est qu'elle soit consistante et zro-stable.

Dmonstration. Commenons par montrer que la convergence de la mthode implique sa stabilit. Si la


mthode est convergente, elle l'est en particulier lorsqu'on l'utilise pour la rsolution du problme de Cauchy
d'quation x0 (t) = 0 et de condition initiale x(t0 ) = 0, ayant pour solution x(t) = 0. Dans ce cas, le schma de la
mthode se rsume l'quation aux dirences linaire

q
X

(8.86)

i xn+i = 0, n = 0, . . . , N q.

i=0

Raisonnons par l'absurde et supposons que la mthode est instable. En vertu du thorme 8.32, ceci signie que
l'quation (8.86) a pour solution particulire la suite {un }n=0,...,N , avec un = n , || > 1, ou bien un = n xin ,
|| = 1, selon que le polynme caractristique associ la mthode possde une racine de module plus grand
que 1 ou bien de module
gal 1 et de multiplicit suprieure 1. Dans n'importe lequel de ces cas de gure, la
suite dnie par xn = h un , n = 0, . . . , N , est telle que ses q premiers termes tendent vers 0 quand h tend vers
0. En revanche, pour tout t x tel que t0 < t t0 + T , on a que |xn |, avec nh = t t0 > 0, tend vers l'inni
quand h tend vers 0, ce qui est en contradiction avec le fait que la mthode est convergente.
Prouvons maintenant que la convergence de la mthode implique sa consistance. Pour cela, considrons tout
d'abord son application pour la rsolution du problme d'quation x0 (t) = 0 et de condition initiale x(t0 ) = 1,
qui a pour solution x(t) = 1, le schma de la mthode tant une nouvelle fois (8.86). En supposant que les
valeurs d'initialisation sont exactes, la convergence de la mthode implique
que les termes de la suite {xn }n=0,...,N
P
convergent vers 1 lorsque h tend vers 0 et l'on en dduit que (1) = qi=0 i = 0. Considrons ensuite la rsolution
0
du problme d'quation x
= 0 et de condition
initiale x(t0 ) = 1, dont la solution est x(t) = t t0 . Le schma de
P(t)
P
la mthode s'crit alorsn qi=0 i o
xn+i = h qi=0 i , n = 0, . . . , N q . Une solution particulire de cette quation

est donne par la suite

(1)
0 (1)

hn

n=0,...,N

. En eet, puisque (1) = 0, on vrie que

q
q
X

(1) X
(1)
(1)
h

(n
+
i)

h
i = 0
h n (1) + 0 (1) h (1) = 0
h 0 (1) h (1) = 0, n = 0, . . . , N q.
i
0 (1) i=0

(1)

(1)
i=0

D'autre part, les q premiers termes de cette suite tendant vers 0 lorsque h tend vers 0, on dduit de l'hypothse
de convergence de la mthode que, pour tout t x tel que t0 t t0 + T , (1)
0 (1) hn, avec nh = t t0 , tend vers
hn lorsque h tend vers 0, et par consquent 0 (1) = (1). On en conclut que la mthode est consistante par le
thorme 8.26.
REPRENDRE Montrons enn que la consistance et la zro-stabilit de la mthode impliquent sa convergence.
Soit un problme de Cauchy eqref dont la fonction f satisfait les hypothses du thorme ref et la valeur initiale
arbitraire. Considrons la suite de valeurs {xn } solution de l'quation aux dirences eqref (schema) obtenue
partir de q valeurs d'initialisation x0 , . . . , xq1 satisfaisant l'hypothse eqref (a denir). Pour tout n..., on a d'une
part, en vertu du thorme des accroissements nis
x(tn+i ) = x(tn ) + ih x0 (i ), i = ...

avec xn < i < xn+i , et d'autre part, la fonction x0 tant continue sur l'intervalle ferm [t0 , t0 + T ],
x0 (tn+i ) = x0 (tn ) + i (x0 , ih), i = ...

avec (x0 , ) =, |i | < 1, et, en utilisant eqref,


x(tn+i ) = x(tn ) + ih (x0 (tn ) + i0 (x0 , ih)), i = ...
P
P
avec |i0 | < 1. La mthode tant consistante, on a qi=0 i = 0 et qi=0 (ii i ) = 0 et il vient alors
!
q
X
|L (x(tn ), h)|
i |i | + |i | (x0 , qh).
i=0

Par ailleurs,
q
X
i=0

i (xn+i x(tn+i )) h

q
X

i (f (tn+i , xn+i ) f (tn+i , x(tn+i )) = n h

i=0

q
X
i=0

292

!
i |i | + |i |

(x0 , qh),

8.4. ANALYSE DES MTHODES

avec |n | 1. La fonction f vriant une condition


on peut appliquer le lemme

Pq de Lipschitz,
P 8.39 avec zn =
|i | (x0 , qh)h, N = Th et B = L qi=0 |i |. Il s'ensuit
xn x(tn ), Z = max |xi x(t0 + i h)| =
i=0
i=0,...,q1
que
" q
!
!
#
q
X
X
Pq

0
|xn x(tn )|
i |i |
max |xi x(t0 + i h)| + (tn t0 )
i |i | + |i | (x , qh) e(tn t0 )L i=0 |i |
i=0

i=0,...,q1

i=0

... La fonction x tant uniformment continue sur [t0 , t0 + T ] par le thorme de Heine, (x0 , qh) tend vers 0
lorsque h tend vers 0, ce qui entrane, avec les hypothses sur les valeurs d'initialisation, la convergence de la
mthode.

0

On peut symboliquement rsumer ce rsultat dans la devise

convergence = consistance + stabilit


qui s'avre tre d'une porte trs gnrale (on ne manquera pas de le comparer avec le thorme 10.27,
relatif la rsolution numrique d'quations aux drives partielles linaires, dans le chapitre 10).

8.4.5

Stabilit absolue

La zro-stabilit introduite dans une prcdente sous-section n'est pas la seule notion de stabilit
utile qui s'intresse la rsolution numrique d'un problme de Cauchy. Celle-ci caractrise en eet le
comportement de la mthode considre lorsque la longueur du pas de discrtisation tend vers zro, la
taille de l'intervalle sur lequel on eectue la rsolution tant xe. En pratique cependant, on ne peut
eectuer qu'un nombre ni d'oprations, et c'est par consquent des pas de longueur strictement non
nulle que l'on emploie. Il faut alors s'assurer que l'accumulation des erreurs introduites par la mthode
chaque tape ne crot pas de manire incontrle avec le nombre d'tapes eectues.
On tudie pour cela le comportement asymptotique de la solution approche lorsque le nombre de pas
tend vers l'inni, la longueur h dnie par (8.24) tant xe. Puisque ce comportement en temps long
dpend la fois de la mthode numrique et du problme que l'on cherche rsoudre, on convient de
se restreindre un problme de Cauchy modle, bas sur une quation direntielle scalaire, linaire
coecient constant et homogne,
x0 (t) = x(t), x(0) = 1,
(8.87)
o le scalaire est un nombre complexe tel que Re() < 0. La solution de ce problme tant x(t) = e t ,
elle satisfait, compte tenu de l'hypothse sur ,

lim |x(t)| = 0.

t+

Il semble alors naturel de chercher ce que la solution obtenue par une mthode numrique applique
la rsolution du problme (8.87) vrie une proprit similaire, ce qui conduit la dnition suivante 63 .

Dnition 8.41 (stabilit absolue) Une mthode numrique est dite absolument stable si la solution
approche {xn }nN du problme (8.87) qu'elle fournit, pour des valeurs de h < 0 et de donnes, avec
Re() < 0, est telle que
lim |xn | = 0.

n+

(8.88)

La rgion de stabilit absolue d'une mthode numrique est alors le sous-ensemble du plan complexe

S = {h C | la condition (8.88) est satisfaite} .


Sa dtermination est une tape indispensable de l'tude d'applicabilit de la mthode la rsolution de
systmes d'quations direntielles raides (voir la section 8.7).
Nous allons prsent examiner les proprits de stabilit absolue des direntes mthodes introduites
dans la section 8.3. Dans tout le reste de cette sous-section, nous supposerons pour simplier que la grille
de discrtisation utilise est uniforme.
63. On trouve parfois dans la littrature un nonc dirent de celui de la dnition 8.41, qui exige simplement que la
suite (xn )nN soit borne. On dit alors que la mthode est faiblement stable.

293

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Cas des mthodes un pas


L'utilisation d'une mthode un pas pour la rsolution approche du problme (8.87) mne la
relation de rcurrence
xn+1 = R(h) xn , n 0,
dans laquelle R(h) est la fonction de stabilit de la mthode. On en dduit immdiatement qu'une
mthode un pas est absolument stable si et seulement si

|R(h)| < 1.

Dtermination de la rgion de stabilit absolue de quelques mthodes un pas. Considrons

la mthode d'Euler sous sa forme explicite. Nous avons

xn+1 = (1 + h) xn , n 0,

soit encore R(h) = (1 + h). La rgion de stabilit absolue de cette mthode est donc la boule ouverte B(1, 1).
Pour la mthode d'Euler implicite, il vient
R(h) = (1 h)1

et la rgion de stabilit absolue correspondante est le complmentaire dans C de la boule ferme B(1, 1). Enn,
pour la mthode de la rgle du trapze, on trouve
R(h) =

2 + h
.
2 h

La rgion de stabilit absolue correspondante est alors le demi-plan complexe tel que Re(z) < 0. On l'a reprsente,
ainsi que celles des deux mthodes prcdentes, sur la gure 8.12.
2

1, 5

1, 5

1, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1, 5

1, 5

1.5

2
3 2, 5 2 1, 5 1 0, 5

0, 5

2
1 0, 5

0, 5

1, 5

2, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

Rgions de stabilit absolue (en gris) pour quelques mthodes un pas : la mthode d'Euler
explicite, la mthode d'Euler implicite et la mthode de la rgle du trapze (de gauche droite).
Figure 8.12:

Dans le cas d'une mthode de RungeKutta, l'application de la mthode la rsolution du problme


(8.87) conduit la relation de rcurrence

xn+1 = xn + h

s
X

bi ki , ki = (xn + h

i=1

s
X

aij kj ), i = 1, . . . , s, n 0,

j=1

que l'on peut encore crire, en introduisant le vecteur k de composantes ki , i = 1, . . . , s,

xn+1 = xn + h bT k, (Is h A) k = xn e.
On en dduit alors que
d'o

(8.89)



1
xn+1 = 1 + h bT (Is h A) e xn , n 0,
R(h) = 1 + h bT (Is h A)1 e.
294

(8.90)

8.4. ANALYSE DES MTHODES

Une autre forme de la fonction de stabilit est obtenue en faisant appel la rgle de Cramer (voir la
proposition A.145) pour la rsolution du systme linaire de s + 1 quations (8.89) et s'crit

R(h) =

det(Is h (A + ebT ))
det (Is h A)

(8.91)

Ces deux expressions sont complmentaires : il parfois plus facile de travailler avec l'une que l'autre et
vice versa. Lorsque la mthode de RungeKutta est explicite, il est clair que det (Is h A) = 1. On
dduit alors de (8.91) que la fonction de stabilit est polynomiale et la rgion de stabilit absolue est
ncessairement borne.

Dtermination des rgions de stabilit absolue des mthodes de RungeKutta explicites.

On considre une mthode de RungeKutta explicite s niveaux et d'ordre p, avec p s. On a vu plus haut que
la fonction de stabilit d'une telle mthode tait polynomiale et de degr au plus gal s. On sait par ailleurs,
la mthode tant d'ordre p, que la valeur x
n+1 donne par la mthode sous l'hypothse localisante xn = x(tn )
concide avec la somme des p + 1 premiers termes du dveloppement de Taylor
x(tn+1 ) = x(tn ) + h x(tn ) +

1
1
(h)2 x(tn ) + + (h)p x(tn ) + O(hp+1 )
2
p!

de la solution exacte du problme (8.87). Ceci implique, lorsque 64 s = p, que


R(h) = 1 + h +

1
1
(h)2 + + (h)p .
2
p!

(8.92)

Pour 1 s 4, toutes les mthodes de RungeKutta explicites s niveaux d'ordre maximal ont donc la mme
fonction de stabilit. Notons qu'un raisonnement similaire montre que la fonction de stabilit d'une mthode
de Taylor d'ordre p est donne par (8.92). Des exemples des rgions de stabilit absolue correspondantes sont
reprsentes sur la gure 8.13. On observe qu'elles sont bornes (ce qui tait prvisible puisque les fonctions de
stabilit de ces mthodes sont polynomiales), mais que leur taille augmente avec l'ordre.
Si 65 la mthode est d'ordre p < s, la fonction de stabilit est de la forme
R(h) = 1 + h +

s
X
1
1
(h)2 + + (h)p +
j (h)j ,
2
p!
j=p+1

o les scalaires j , j = p + 1, . . . , s, sont des fonctions des coecients de la mthode, que l'on peut dterminer
en identiant les termes en puissance de h, correspondants dans (8.90). Par exemple, pour p = s 1, on a, en
posant d = (Is h A)1 e,
d1

d2

1 + ha21 d1

d2
..
.

1 + ha31 d1 + ha32 d2

ds

1 + has1 d1 + has2 d2 + + has s1 ds1

et l'on trouve, aprs substitution et en utilisant les conditions (8.34),


s = bs as s1 as1 s2 . . . a32 c2 .

Cette technique de calcul se gnralise tout ordre et permet en particulier d'obtenir les fonctions de stabilit
des mthodes de RungeKutta embotes introduites dans la sous-section 8.6.1.

Pour une mthode de RungeKutta implicite ou semi-implicite, la quantit det (Is h A) est ellemme une fonction polynomiale de h et la fonction de stabilit est donc une fonction rationnelle. Il est
dans ce cas tout fait possible que la condition de stabilit absolue soit encore satisfaite lorsque |h|
tend vers l'inni, conduisant alors une rgion de stabilit absolue non borne.
64. On rappelle que ceci n'arrive que si 1 s 4 (voir la sous-section 8.4.3).
65. C'est toujours le cas ds que s > 4 (voir une nouvelle fois la sous-section 8.4.3).

295

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

4
4

Figure 8.13:

s = 1, . . . , 4.

4
4

4
4

4
4

Rgions de stabilit absolue (en gris) pour les mthodes de RungeKutta explicites s niveaux,

Dtermination de la rgion de stabilit absolue d'une mthode de RungeKutta implicite.


fonction pour la mthode implicite de Gauss-Legendre pour s = 2
R(h) =

1+
1

h
2
h
2

+
+

(h)2
12
(h)2
12

Cette fraction rationnelle est l'approximant de Pad 66 de type (2, 2) de la fonction exponentielle 67 COMPLETER
(voir la sous-section 8.7.2 pour plus de dtails)

Cas des mthodes pas multiples linaires *


Si l'on utilise une mthode pas multiple linaire pour la rsolution du problme (8.87), on aboutit
la relation de rcurrence
q
q
X
X
i xn+i h
i xn+i = 0, n 0,
i=0

i=0

qui est une quation aux dirences linaires ayant pour polynme caractristique associ h (z) =
(z) h (z). Grce ce dernier, on peut, comme cela est le cas pour la zro-stabilit, caractriser la
stabilit absolue d'une mthode pas multiples linaire en termes d'une condition de racine.

Thorme 8.42 (condition ncessaire et susante de stabilit absolue d'une mthode pas
multiples linaire) Une mthode pas multiples linaire est absolument stable pour une valeur donne

de si et seulement si toutes les racines de h sont de module infrieur ou gal l'unit et que celles
de module gal un sont simples.
Dmonstration.

A ECRIRE (ou admise ?)

On a respectivement reprsent sur les gures 8.14, 8.15 et 8.16 les rgions de stabilit absolue des
mthodes d'AdamsBashforth de deux cinq pas (la mthode un pas correspondante tant la mthode
d'Euler explicite (voir la gure 8.12)), d'AdamsMoulton de deux quatre pas (la mthode un pas
correspondante tant la mthode de la rgle du trapze (voir la gure 8.12)) et BDF de deux six pas
(la mthode un pas correspondante tant la mthode d'Euler implicite (voir la gure 8.12)).
Au vu de ces gures, il peut sembler que les rgions de stabilit des mthodes implicites sont plus
grandes que celles des mthodes explicites correspondantes, et que la taille de la rgion a tendance
diminuer lorsque l'ordre de la mthode augmente. Si la premire conjecture est vraie, la seconde est en
66. Henri Eugne Pad (17 dcembre 1863 - 9 juillet 1953) tait un mathmaticien franais. Il est surtout connu pour son
dveloppement d'une mthode d'approximation des fonctions analytiques par des fonctions rationnelles.
67. REPRENDRE On dit qu'une fonction rationnelle est l'approximant de Pad de type (m, n) de la fonction exponentielle
si son numrateur a un degr born m, son dnominateur a une degr born n et que ez r(z) = O(z m+n+1 ), z 0.

296

8.4. ANALYSE DES MTHODES

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1
1, 5

0, 5

0, 5

1
1, 5

0, 5

0, 5

1
1, 5

0, 5

0, 5

1
1, 5

0, 5

0, 5

Figure 8.14: Rgions de stabilit absolue (en gris) pour les mthodes d'AdamsBashforth d'ordre deux cinq
(de gauche droite).

gnral fausse, un contre-exemple tant celui des rgions de stabilit absolue des mthodes de Runge
Kutta explicites reprsentes sur la gure 8.13. On observera que les rgions de stabilit absolue des
mthodes BDF sont non bornes.
Pour dterminer graphiquement les rgions de stabilit absolue d'une mthode pas multiples linaires, on peut exploiter la condition de racine du thorme 8.42 en cherchant les racines du polynme
h pour h prenant ses valeurs en des points d'une grille dans le plan complexe et en traant les lignes
de niveaux du module de la racine de plus grand module. Cette manire de faire est cependant coteuse
en calculs. Une autre technique, trs simple mettre en uvre, se fonde sur le fait que les racines d'un
polynme sont des fonctions continues de ses coecients. Elle consiste dterminer la frontire de la
rgion de stabilit par le trac de la courbe du lieu des racines (root locus curve en anglais), d'quation

h =

(ei )
, 0 2.
(ei )

Cette courbe possde la proprit qu'exactement une racine du polynme h touche le cercle unit en
chacun de ses points. Il s'ensuit que la frontire de la rgion de stabilit est un sous-ensemble de cette
courbe (car les autres zros du polynme peuvent se trouver soit l'intrieur du disque unit, soit en
dehors). On dcide alors si chacune des composantes connexes du plan complexe ainsi obtenues appartient
ou pas la rgion de stabilit absolue de la mthode en calculant les racines de h pour une (et une
seule) valeur de h qu'elle contient.

Exemples de trac de courbe du lieu des racines. La gure 8.17 prsente les courbes du lieu des

racines de la mthode d'AdamsBashforth quatre pas, de la mthode de Nstrom trois pas et la mthode de
MilneSimpson gnralise quatre pas. Ce sont trois exemples de mthodes pour lesquelles la frontire de la
rgion de stabilit absolue est strictement incluse dans la courbe du lieu des racines associe. Pour la mthode
d'AdamsBashforth, la comparaison avec la rgion de stabilit trouve sur la gure 8.14 indique en eet que les
4

4
7

4
7

4
7

Rgions de stabilit absolue (en gris) pour les mthodes d'AdamsMoulton d'ordre trois cinq
(de gauche droite).
Figure 8.15:

297

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES


8

8
4

10

12

8
4

20

20

15

15

10

10

10

10

15

15

20
10

10

15

20

25

30

20
10

10

12

8
4

10

15

20

25

10

12

30

Rgions de stabilit absolue (en gris) pour les mthodes BDF d'ordre deux six (de gauche
droite et de haut en bas).
Figure 8.16:

deux lobes appartenant au demi-plan contenant les nombres complexes partie relle positive ne font pas partie
du domaine de stabilit absolue de la mthode. Ceci est conrm par le fait que, pour une valeur de h choisie
arbitrairement dans l'un ou l'autre de ces ensembles, le polynme h possde deux racines de module plus grand
que l'unit. On montre de cette manire que la rgion de stabilit absolue d'un mthode de Nstrom est ] i, i[
pour q = 1 ou 2, {0} pour q 3 (ce qui correspond au minimum possible pour une mthode
zro-stable en vertu
du thorme 8.32), et que celle d'une mthode de MilneSimpson gnralise est ] i 3, i 3[ pour q = 2 ou 3 et
{0} pour q 4.
1

1, 5

1, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1, 5
1
1, 5

0, 5

1, 5
0

0, 5

0, 5

0, 5

Courbes du lieu des racines des mthodes d'AdamsBashforth quatre pas ( gauche), de Nstrom
trois pas (au milieu) et de MilneSimpson gnralise quatre pas ( droite).
Figure 8.17:

Notons que l'on n'est parfois intress que par la dtermination de l'intervalle de stabilit absolue
S R de la mthode (voir la sous-section 8.7.2). Dans ce cas, le paramtre h tant rel, le polynme h
est coecients rels et dire qu'il satisfait la condition de racine du thorme 8.42 signie encore que
c'est un polynme de Schur, c'est--dire un polynme dont toutes les racines sont contenues l'intrieur
du disque unit, ce que l'on peut vrier grce au critre de Routh 68 Hurwitz 69 en faisant appel une
68. Edward John Routh (20 janvier 1831 - 7 juin 1907) tait un mathmaticien anglais. Il t beaucoup pour systmatiser
la thorie mathmatique de la mcanique et introduisit plusieurs ides essentielles au dveloppement de la thorie moderne
du contrle des systmes.
69. Adolf Hurwitz (26 mars 1859 - 18 novembre 1919) tait un mathmaticien allemand. Il dmontra plusieurs rsultats
fondamentaux sur les courbes algbriques, dont son thorme sur les automorphismes, et s'intressa la thorie des nombres.

298

8.4. ANALYSE DES MTHODES

transformation conforme. Ce critre algbrique armant en eet qu'un polynme de degr q coecients
rels aq z q + aq1 z q1 + + a1 z + a0 a toutes ses racines de partie relle strictement ngative si et
seulement si tous les mineurs principaux de la matrice d'ordre q

aq1 aq3 aq5 aq7 . . . 0


aq
aq2 aq4 aq6 . . . 0

0
aq1 aq3 aq5 . . . 0

0
aq
aq2 aq4 . . . 0

..
..
..
..
..
..
.
.
.
.
.
.
0
0
0
0
. . . a0
sont strictement positifs, on doit faire en sorte de ramener le disque unit au demi-plan complexe de
partie relle ngative
pour tre en mesure de l'utiliser, ce que l'on fait en condidrant le polynme

1+z
q
(1 z) h 1z .
EXEMPLE ?
Nous reviendrons sur l'importance de la proprit de stabilit absolue des mthodes dans la section
8.7 consacre la rsolution des systmes d'quations direntielles raides.

8.4.6

Cas des systmes d'quations direntielles ordinaires

Si l'extension au cas des systmes d'quations direntielles ordinaires du premier ordre des direntes
mthodes prsentes et de leur analyse est relativement directe, il faut mentionner que certains des
rsultats tablis en considrant une unique quation scalaire peuvent nanmoins direr.
C'est en particulier le cas pour l'ordre maximal atteint par les mthodes de RungeKutta explicites.
La thorie de Butcher montre que les conditions d'ordre satisfaites par les coecients de ces mthodes
sont, en gnral, moins restrictives dans le cas scalaire que dans le cas vectoriel pour les mthodes d'ordre
suprieur ou gal cinq. De fait, il existe des mthodes dont l'ordre est cinq lorsqu'elles sont appliques
la rsolution d'une quation direntielle scalaire mais seulement quatre pour un systme de plusieurs
quations. Un exemple de mthode six niveaux prsentant cette particularit est donn dans [But95].
La transposition de la dnition de stabilit absolue au cas de la rsolution d'un systme d'quations
direntielles se fait en considrant tout simplement un systme linaire homogne coecients constants

x0 (t) = A x(t),

(8.93)

avec A une matrice d'ordre d, d 2, dont les valeurs propres i , i = 1, . . . , d, sont distinctes et de partie
relle ngative. La solution gnrale d'un tel systme s'crit

x(t) =

d
X

ci ei t vi ,

i=1

o les ci , i = 1, . . . , d, sont des constantes arbitraires et les vecteurs vi , i = 1, . . . , d, sont des vecteurs
propres respectivement associs aux valeurs propres i , i = 1, . . . , d, de la matrice A, et satisfait

lim kx(t)k = 0

t+

pour tout choix d'une norme kk sur Cd . Exiger qu'une mthode soit absolument stable dans ce contexte
revient alors demander ce que l'approximation de toute solution du systme (8.93) qu'elle gnre pour
une valeur de h donne soit telle que
lim kxn k = 0.
n+

Les valeurs propres de la matrice A tant distinctes, celle-ci est diagonalisable et il existe une matrice
inversible P telle que = P 1 AP , avec = diag(1 , . . . , d ). En rcrivant de manire quivalente le
systme (8.93) sous la forme d'un systme d'quations direntielles dcouples,

y 0 (t) = y(t),
dans lequel on a pos y(t) = P 1 x(t), on voit que la thorie dveloppe dans le cas scalaire sut
eectivement pour traiter le cas des systmes d'quations direntielles ordinaires.
299

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

8.5

Mthodes de prdiction-correction

Nous avons dj voqu les dicults pratiques rencontres lors de l'utilisation d'une mthode
pas multiples linaire implicite, lies la rsolution numrique chaque tape de l'quation (8.57),
gnralement non linaire, par une mthode des approximations successives. Bien que l'on puisse garantir,
en prenant une grille de discrtisation susamment ne, que la suite dnie par la relation de rcurrence
(8.59) sera convergente pour toute initialisation arbitraire, on ne sait cependant pas prdire combien
d'itrations  et donc combien d'valuations de la fonction f  seront ncessaires pour atteindre une
prcision voulue. Cette incertitude sur le cot de calcul a priori des mthodes implicites rend l'emploi
de ces dernires dlicat dans certains domaines d'applications, comme l'intrieur d'un systme temps
rel embarqu 70 . On peut videmment chercher rendre cette tape moins coteuse en fournissant une
initialisation raisonnable, mais cela ne permettra pas de  contrler  le nombre d'itrations de point xe
rellement eectues. L'ide des mthodes de prdiction-correction repose sur la prise en compte de ces
deux dernires remarques, en tirant parti d'une mthode explicite, qualie de prdicteur, pour obtenir
(0)
une approximation xn+q de la valeur xn+q , solution de l'quation (8.57), recherche, dont on se sert pour
eectuer un nombre x l'avance d'itrations de point xe associes une mthode implicite, alors
appele le correcteur.
Dans toute la suite, nous distinguerons le correcteur du prdicteur en attachant des astrisques
tout paramtre s'y rapportant, comme son nombre de pas q , son ordre p ou encore ses coecients i ,
i = 0, . . . , q , et i , i = 0, . . . , q . L'implmentation d'une mthode de prdiction-correction comporte
plusieurs phases, que nous allons maintenant dcrire. En supposant que les approximations xn+i , i =
min(0, q q ), . . . , q 1, ont t calcules aux tapes prcdentes (ou font partie des valeurs de dmarrage
de la mthode) et que les quantits fn+i = f (tn+i , xn+i ), i = min(0, q q ), . . . , q 1, sont galement
(0)
connues, la prdiction consiste en l'obtention de la valeur xn+q , donne par
(0)

xn+q =

q1
X

(8.94)

(hi fn+i i xn+i ) .

i=0

Suit une valuation de la fonction f utilisant cette approximation,


(0)

(8.95)

f (tn+q , xn+q ),
qui permet alors une correction
(1)
xn+q

hq

(0)
f (tn+q , xn+q )

qX
1

(hi fn+qq +i i xn+qq +i ) .

(8.96)

i=0

Un moyen mnmotechnique pour dcrire les diverses mises en uvre possibles partir de ces trois phases
est de dsigner ces dernires respectivement par les lettres P, E et C, l'ordre des lettres indiquant leur
enchanement dans la mthode. Par exemple, chaque tape de la rsolution, une mthode de type
(1)
PEC eectue, dans cet ordre, les calculs (8.94), (8.95) et (8.96), suivis des aectations xn+q = xn+q et
(0)

(1)

fn+q = f (tn+q , xn+q ). Remarquons qu'on aurait pu choisir d'utiliser la valeur xn+q pour mettre jour
fn+q en eectuant une nouvelle valuation de la fonction f ,
(1)

fn+q = f (tn+q , xn+q ),


ou mme d'utiliser cette valuation pour faire une seconde itration de correction,
(2)
xn+q

hq

(1)
f (tn+q , xn+q )

qX
1

(hi fn+qq +i i xn+qq +i ) ,

i=0

70. Il s'agit d'un systme lectronique et informatique charg de contrler un procd en oprant avec un temps de rponse
adapt l'volution de ce procd. L'antiblocage de scurit des freins (Antiblockiersystem en allemand), qui quipe de
nombreux vhicules, est un exemple d'un tel systme.

300

8.5. MTHODES DE PRDICTION-CORRECTION


(2)

et alors poser xn+q = xn+q , donnant ainsi respectivement lieu aux modes PECE et PECEC de la mthode
de prdiction-correction. On regroupe l'ensemble des modes ainsi forms par des combinaisons de ces deux
procds sous la notation condense P(EC) E1 , avec un entier naturel 71 et = 0 ou 1.

Exemple de mthode de prdiction-correction. On peut voir la mthode de Heun, dnie par la


relation (8.40), comme une mthode de prdiction-correction en mode PECE, dans laquelle le prdicteur est la
mthode d'Euler explicite,
(0)
xn+1 = xn + h f (tn , xn ),
et le correcteur est la mthode de la rgle du trapze,

h 
h
(0)
xn+1 = xn +
f (tn+1 , xn+1 ) + f (tn , xn ) = xn + (f (tn + h, xn + h f (tn , xn )) + f (tn , xn )) .
2
2

Passons prsent l'tude des mthodes de prdiction-correction. Compte tenu de leur fonctionnement, on conoit facilement que l'erreur de troncature locale des schmas obtenus combine l'erreur de
troncature locale du prdicteur avec celle du correcteur de manire plus ou moins vidente selon le mode
considr. Nous considrerons ici que le mode en question est P(EC) E1 , avec 1 et = 0 ou 1.

Supposons que la solution x du problme de Cauchy est de classe C max(p,p )+1 . Pour le prdicteur,
nous avons, en reprenant les notations utilises dans la sous-section 8.4.2,

L (x(tn ), h) =

q
X

i x(tn+i ) h

i=0

q1
X

i f (tn+i , x(tn+i )) = Cp+1 hp+1 x(p+1) (tn ) + O(hp+2 ).

i=0

En additionnant la seconde galit (8.94) sous l'hypothse localisante


(8.97)

xn+i = x(tn+i ), i = min(0, q q ), . . . , q 1,


il vient

(0)

(8.98)

x(tn+q ) x
n+q = Cp+1 hp+1 x(p+1) (tn ) + O(hp+2 ).

Pour le correcteur, nous avons

L (x(tn+qq ), h) =

q
X

i x(tn+qq +i ) h

i=0

q
X

i f (tn+qq +i , x(tn+qq +i ))

i=0

= Cp +1 hp

+1 (p +1)

(tn ) + O(hp

+2

),

et, en additionnant la seconde galit (8.59) pour k 1 sous l'hypothse localisante (8.97) et en
utilisant le thorme des accroissements nis (voir le thorme B.111), on trouve
(k+1)

x(tn+q ) x
n+q = hq

f
(k)
(tn+q , k )(x(tn+q ) x
n+q ) + Cp +1 hp +1 x(p +1) (tn ) + O(hp +2 ),
x
k = 0, . . . , 1, (8.99)

(k)

o k est un point intrieur du segment joignant x(tn+q ) x


n+q . Pour pouvoir poursuivre, il nous faut
discuter en fonction des valeurs relatives des entiers p et p .
Si p p , on obtient en reportant (8.98) dans (8.99) pour k = 0
(1)

x(tn+q ) x
n+q = Cp +1 hp

+1 (p +1)

(tn ) + O(hp

+2

).

+2

).

En reportant cette nouvelle galit dans (8.99) pour k = 1, il vient


(2)

x(tn+q ) x
n+q = Cp +1 hp

+1 (p +1)

(tn ) + O(hp

71. On observera que le cas = 0 (mode PE) correspond l'emploi de la mthode explicite, alors le cas limite = +
(mode P(EC)+ ) correspond celui de la mthode implicite.

301

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

En ritrant ce procd, on trouve nalement que


()

x(tn+q ) x
n+q = Cp +1 hp

+1 (p +1)

(tn ) + O(hp

+2

).

(8.100)

Par consquent, l'ordre et l'erreur locale de troncature principale de la mthode de prdiction-correction


sont ceux du correcteur pour tout valeur de l'entier .
Si p = p 1, on obtient cette fois pour k = 0



(1)
p +1
f
(p )
(p +1)
(tn+q , k ) Cp x
x(tn+q ) x
n+q = h
q
(tn ) + Cp +1 x
(tn ) + O(hp +2 ).
x
On voit que, dans le cas = 1, l'ordre de la mthode est bien celui du correcteur, mais l'erreur locale
de troncature principale dire. En revanche, si 2, on retrouve, en eectuant des substitutions
successives, une erreur locale de troncature principale identique celle du correcteur.
Si p = p 2, on a
(1)

x(tn+q ) x
n+q = q

f
(tn+q , k ) Cp 1 hp x(p 1) (tn ) + O(hp +1 ),
x

et l'ordre de la mthode est infrieur celui du correcteur si = 1. Pour = 2, on retrouve l'ordre du


correcteur mais une erreur locale de troncature principale dirente,
!

2

f
(2)
q
x(tn+q ) x
n+q = hp +1
(tn+q , k ) Cp 1 x(p 1) (tn ) + Cp +1 x(p +1) (tn ) + O(hp +2 ),
x
alors que l'ordre et l'erreur sont ceux du schma correcteur ds que 3.
La tendance est donc claire : l'ordre d'une mthode de prdiction-correction dpend la fois de l'cart
entre les ordres du prdicteur et du correcteur et du nombre d'tapes de correction (nous laissons le soin
au lecteur de vrier que les modes P(EC) et P(EC) E ont toujours un ordre et une erreur de troncature
locale principale identiques). On peut rsumer ces constatations en nonant le rsultat suivant.

Proposition 8.43 Soit une mthode de prdiction-correction en mode P(EC) ou P(EC) E, avec 1,

base sur une paire de mthodes pas multiples linaires d'ordre p pour le prdicteur et p pour le
correcteur.
Si p p (ou si p < p et > p p), la mthode a le mme ordre et la mme erreur de troncature locale
principale que le correcteur.
Si p < p et = p p, la mthode et le correcteur ont le mme ordre mais des erreurs de troncature
locales principales direntes.
Enn, si p < p et < p p, la mthode est d'ordre p + < p .

Lorsque p = p , il est particulirement intressant de remarquer qu'il vient, en soustrayant (8.100)


(8.98),
 p+1 (p+1)
()
(0)

x
n+q x
n+q = Cp+1 Cp+1
h x
(tn ) + O(hp+2 ),
ce qui fournit, en utilisant de nouveau (8.100), l'estimation



Cp+1
()
(0)
xn+q xn+q

Cp+1 Cp+1

(8.101)

pour l'erreur de troncature locale principale de la mthode de prdiction-correction. Cet estimateur


d'erreur, d Milne [Mil26], est aisment calculable et d'un cot pratiquement nul. Il est un outil essentiel pour l'adaptation du pas de discrtisation des mthodes pas multiples linaires utilises comme
prdicteur-correcteur (voir la sous-section 8.6.2). On remarquera que l'hypothse localisante a t abandonne dans (8.101), l'erreur de troncature principale constituant une mesure acceptable de la prcision
de la mthode.
On voit donc qu'il y a un avantage ce que les mthodes d'une paire de prdicteur-correcteur soient
du mme ordre, ce qui signie que le prdicteur aura, en gnral, plus de pas que pour le correcteur.
302

8.5. MTHODES DE PRDICTION-CORRECTION

Dans ce cas, on a coutume de poser que le nombre de pas de la mthode de prdiction-correction est
gal celui du prdicteur et de lever la condition |0 | + |0 | =
6 0 sur les coecients du correcteur 72 . Les
mthodes d'AdamsBashforthMoulton (ABM en abrg), utilises dans de nombreux codes de rsolution
numrique de systmes d'quations direntielles ordianires non raides, sont bases sur ce principe, la
paire d'une mthode d'AdamsBashforthMoulton q pas (et d'ordre q ) tant compose d'une mthode
d'AdamsBashforth q pas comme prdicteur et d'une mthode d'AdamsMoulton q 1 pas comme
correcteur.
Notons que, au vu des estimations d'erreur obtenues plus haut, une mthode de prdiction-correction
n'a d'intrt que si le correcteur est plus prcis que le prdicteur. Dans le cas d'une paire de mthodes
de mme ordre p, ceci se traduit par le fait qu'il faut que

Cp+1 < |Cp+1 | .
Ceci est eectivement vrai pour les mthodes d'AdamsBashforthMoulton, pour lesquelles on a Cp+1 =

p et Cp+1
= p (voir le tableau 8.3), puisque l'on peut montrer, en utilisant les dnitions donnes dans
la sous-section 8.3.3, que

p < p , p 2.
p1
Terminons l'analyse des mthodes de prdiction-correction en examinant leurs proprits de stabilit
absolue. Pour cela, dterminons le polynme de stabilit de la mthode en mode P(EC) E1 , pour
1 et = 0 ou 1, en appliquant celle-ci la rsolution du problme de Cauchy linaire (8.87).
La phase de prdiction s'crit dans ce cas
(0)

xn+q =

q1 
X


()
i xn+i ,

( )

hi xn+i

(8.102)

i=0

alors que celle de correction devient


(k+1)
xn+q

hq

(k)
xn+q

qX
1 


( )
()
hi xn+qq +i i xn+qq +i , k = 0, . . . , 1.

(8.103)

i=0

En soustrayant deux deux les relations successives de (8.103), on obtient


(k+1)

(k)

(k1)

xn+q (1 + hq ) xn+q + hq xn+q = 0, k = 1, . . . , 1.


En considrant cette dernire relation comme une quation aux dirences coecients constants pour
()
(0)
(k)
(k)
les quantits {xn+q }0k , on peut exprimer tout xn+q , 1 k 1 en fonction de xn+q et xn+q . On
trouve
(hq )k (1 (hq )k ) (0)
1 (hq )k ()
x(k)
, k = 0, . . . , .
xn+q +
x
n =

1 (hq )
1 (hq ) n+q
Pour k = 1, il vient

x(1)
=
n

(hq )1 (1 hq ) (0)
1 (hq )1 ()
+
x
x
n+q
1 (hq )
1 (hq ) n+q
(0)

Cette dernire expression permet d'liminer xn+q de (8.102) et l'on obtient, en utilisant que q = 1,
(1)

(1 (hq ) ) xn+q = (hq )1 (1 hq )(h)

q1
X

( )

i xn+i

()

+ (1 (hq ) ) xn+q

i=0

(hq )1 (1 hq )

q
X
i=0

72. On relira ce titre les remarques faites sur les hypothses (8.56).

303

()

i xn+i

(8.104)

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES


(1)

L'entier ne prenant que les valeurs 0 ou 1, la relation ci-dessus ne fait intervenir que les quantits xi
()
et xi . Une seconde relation portant sur ces quantits est obtenue en prenant k = 1 dans (8.103) et
en utilisant que q = 1

hq

(1)
xn+q

q
X

()
xn+qq +i

(h)

i=0

()
i xn+qq +i

(h)

i=0

q
X
i=0

()
i xn+qq +i

( )

(8.105)

i xn+qq +i .

i=0

Pour = 0, il sut de multiplier (8.104) par


q
X

qX
1

hq
1(hq )

et d'identier avec (8.105) pour trouver

(hq ) (1 hq )
+
1 (hq )

q
X
i=0

()
i xn+i

(h)

q1
X

!
()
i xn+i

= 0.

i=0

En dsignant par et les polynmes caractristiques du prdicteur, par et ceux du correcteur,


on a obtenu le polynme de stabilit absolue

(z) = (z) (h) (z) +

(hq ) (1 hq )
((z) (h) (z)) ,
1 (hq )

(8.106)

pour une mthode de prdiction-correction en mode P(EC) E.


Pour = 1, la drivation est beaucoup moins aise. Cependant, en tendant naturellement l'application de l'oprateur de dcalage gauche Th , introduit dans la sous-section 8.4.2, aux suites de valeurs
aux points de la grille, les relations (8.104) et (8.105) se rcrivent respectivement dans ce cas


(1 (hq ) ) Th q (hq )1 (1 (hq ) )(h) (Th ) xn(1)

= (1 (hq ) ) Th q (hq )1 (1 (hq ) )(h) (Th ) xn()
et
(1)

()

(h) (Th ) xn+qq = (Th ) xn+qq .


L'limination conduit alors au polynme de stabilit absolue suivant

(z) = q z q ( (z) (h) (z)) +

(hq ) (1 hq )
((z) (z) (z)(z))
1 (hq )

(8.107)

pour une mthode de prdiction-correction en mode P(EC) .


On constate que les deux polynmes obtenus sont essentiellement des perturbations d'ordre (h)+1
du polynme de stabilit du correcteur (z) (h) (z), le polynme d'une mthode en mode P(EC) E
possdant une structure plus simple (c'est une combinaison linaire des polynmes de stabilit absolue
du prdicteur et du correcteur) que celui de la mme mthode en mode P(EC) . En se rappelant que
|| L, avec L la constante de Lipschitz de la condition (8.23) et pour h susamment petit, on voit

de plus qu'ils convergent eectivement vers celui du correcteur lorsque tend vers l'inni (le facteur z q
dans (8.107) n'ayant pas d'inuence la limite).
La gure 8.18 prsente les rgions de stabilit absolue de mthodes d'AdamsBashforthMoulton
utilises selon dirents modes. En comparant cette gure avec les gures 8.14 et 8.15, on note, comme
on pouvait s'y attendre, qu'une mthode d'AdamsBashforthMoulton en mode PEC est a priori moins
stable que la mthode d'AdamsBashforth (mode PE) correspondante et qu'une mthode d'Adams
Moulton (mode P(EC)+ ) est toujours plus stable que la mthode d'AdamsBashforthMoulton, tous
modes confondus.
304

8.6. TECHNIQUES POUR L'ADAPTATION DU PAS DE DISCRTISATION

1, 5

1, 5

1, 5

1, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1.5

1.5

1.5

1.5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

1, 5

1, 5

1, 5

1, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1.5

1.5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

1.5
0

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

1, 5

1, 5

1, 5

1, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1.5

1.5

1.5

1.5

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

1, 5

1, 5

1, 5

1, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

0, 5

1.5

1.5

1.5

1.5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

0, 5

1, 5

0, 5

1, 5

0, 5

1, 5

0, 5

1, 5

1.5
0

2
2 1, 5 1 0, 5

0, 5

1, 5

2
2 1, 5 1 0, 5

Rgions de stabilit absolue (en gris) pour dirents modes (de gauche droite : PEC, PECE,
P(EC)2 , P(EC)2 E) des mthodes d'AdamsBashforthMoulton d'ordre un quatre (de haut en bas).
Figure 8.18:

On retiendra des rsultats de cette section que si l'ordre et l'erreur de troncature locale principale
d'une mthode de prdiction-correction base sur des mthodes pas multiples linaires sont gnralement
ceux de son correcteur, ce n'est en revanche pas le cas pour son polynme de stabilit, qui prend d'ailleurs
une forme trs dirente selon que = 0 ou 1.

8.6

Techniques pour l'adaptation du pas de discrtisation

L'erreur locale d'une mthode convergente diminuant avec la longueur du pas discrtisation, on peut
imaginer implmenter dans un code de rsolution numrique d'quations direntielles ordinaires un
mcanisme d'adaptation du pas garantissant que, chaque itration du schma dnissant la mthode
employe, l'erreur commise ne dpasse pas une tolrance prescrite par l'utilisateur. La grille de discrtisation et l'approximation numrique de la solution sont alors gnrees concurremment par le programme.
305

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

Si la mise en uvre de cette ide est beaucoup plus simple pour une mthode pas que pour une
mthode pas multiples pour des raisons dj voques dans la sous-section 8.3.3, on est dans les deux
cas confront au problme pratique de l'estimation ecace de l'erreur locale. Pour le rsoudre, on a en
gnral recours des estimateurs a posteriori de l'erreur locale de troncature (et plus prcisment de
la fonction d'erreur principale), car les estimateurs a priori ont souvent des formes compliques et sont
inemployables en pratique 73 . De tels estimateurs sont essentiellement fonds sur la comparaison de deux
approximations distinctes de la solution du problme et peuvent tre construits de diverses manires.
Indiquons enn que l'adaptation du pas peut galement servir la dtection d'un comportement
singulier de la solution du problme (une explosion en temps ni par exemple) ou encore, lorsqu'une
mthode explicite est utilise, dterminer si le systme du problme que l'on cherche rsoudre est
raide ou non (voir la section 8.7).

8.6.1

Cas des mthodes un pas

Une premire approche possible est celle drivant du procd d'extrapolation de Richardson [RG27],
qui est une technique gnrale d'acclration de convergence applicable nombre de mthodes numriques 74 . Pour la prsenter, nous allons supposer que l'on utilise une mthode un pas d'ordre p (typiquement une mthode de RungeKutta) avec un pas de discrtisation de longueur h, fournissant une
approximation de la solution note xh . On peut crire l'erreur de troncature locale au point tn+1 sous la
forme
n+1 = x(tn+1 ) (
xh )n+1 = (tn , x(tn )) hp+1 + O(hp+2 ),
(8.108)
o la valeur (
xh )n+1 est obtenue sous l'hypothse localisante (xh )n = x(tn ) et dsigne la fonction
d'erreur principale de la mthode, gnralement inconnue.
Admettons prsent que l'on dispose d'une seconde approximation numrique de la solution, note
x2h , calcule par la mme mthode, mais avec un pas de discrtisation de longueur 2h. Sous l'hypothse localisante (x2h )n1 = x(tn1 ) et en eectuant un dveloppement de Taylor au premier ordre de
(tn1 , x(tn1 )) au point tn , on obtient que l'erreur locale au point tn+1 relative cette approximation
s'crit

x(tn+1 ) (
x2h )n+1 = (tn1 , x(tn1 )) (2h)p+1 + O(hp+2 ) = (tn , x(tn )) (2h)p+1 + O(hp+2 ),
En soustrayant cette galit (8.108), il vient


(
x2h )n+1 (
xh )n+1 = 1 2p+1 (tn , x(tn )) hp+1 + O(hp+2 ),
d'o, par substitution de l'expression trouve pour l'erreur de troncature principale dans (8.108),

n+1 = 1 2p+1

1

((
x2h )n+1 (
xh )n+1 ) hp+1 + O(hp+2 ).

(8.109)

En abandonnant les hypothses localisantes, on voit que l'on a obtenu un estimateur de l'erreur de
troncature locale principale eectivement calculable. Si la valeur estime est alors infrieure en valeur
absolue la tolrance xe , l'erreur est juge acceptable et l'on passe l'tape suivante (si la valeur
absolue est infrieure 2(p+1) , la longueur du pas est mme gnralement double). Si ce n'est pas
la cas, on ritre le calcul d'estimation d'erreur en divisant cette fois par deux la longueur du pas de
discrtisation.
Ce procd fonctionne bien en pratique, mais il entrane une importante augmentation du volume
de calculs eectus chaque tape. Pour une mthode de RungeKutta explicite s niveaux, on a a
priori besoin de s 1 valuations supplmentaires de la fonction f (la valeur k1 utilise pour le calcul de
(x2h )n+1 ayant t value lors du calcul de (xh )n l'tape prcdente). De plus, en cas de rduction de
la longueur du pas, la valeur approche de la solution au point de grille courant doit tre recalcule.
73. Dans le cas d'une mthode de RungeKutta par exemple, toute estimation de l'erreur locale en un point ncessite
plus d'valuations de la fonction f que n'en demande la mthode pour le calcul de la valeur approche de la solution en ce
point.
74. Elle est par exemple la base de la mthode de Romberg, mentionne dans le chapitre 7.

306

8.6. TECHNIQUES POUR L'ADAPTATION DU PAS DE DISCRTISATION

Une alternative l'utilisation du procd de Richardson est de faire appel deux mthodes d'ordre
b f et d'utiliser
dirents p et pb (avec typiquement pb = p+1) et de fonction d'incrments respectives f et
la dirence entre les valeurs approches de la solution fournies par ces mthodes,


b f (tn , xn ; h) f (tn , xn ; h)
h
comme estimation de l'erreur de troncature principale. Cette technique peut tre rendue particulirement
ecace lorsqu'elle combine deux mthodes de RungeKutta, respectivement s et sb niveaux (avec s sb)
et d'ordre p et pb (avec p < pb), embotes, ce qui signie que les valeurs ki des mthodes concident pour
i = 1, . . . , s, car l'estimateur d'erreur est dans ce cas donn par la quantit
!
s
s
b
X
X
b
b
h
(bi bi ) ki +
bi ki ,
i=1

i=s+1

dont le calcul demande un total de sb (contre sb + s a priori ) valuations de la fonction f .


Les mthodes de RungeKutta embotes (embedded RungeKutta methods en anglais) se caractrisent
donc par la donne d'un seul jeu de coecients {aij }1i,jbs et de coecients {ci }1ibs et de deux jeux
de coecients {bi }1is et {bbi }1ibs , et donnent lieu des tableaux de Butcher augments de la forme

A
bT .
T
b
b

Lorsque sb = s + 1, il est possible d'viter une valuation (lorsque la longueur du pas courant est
accepte) en faisant concider la valeur de ksb avec celle de k1 l'tape suivante (voir par exemple les
mthodes dnies par les tableaux (8.110) et (8.111)), les mthodes tant dans ce cas dsignes dans la
littrature anglo-saxonne par l'acronyme FSAL (pour rst same as last en anglais).
L'un des premiers essais d'incorporation d'un procd d'embotement dans une mthode de Runge
Kutta explicite semble d Merson [Mer57]. Il repose sur l'utilisation d'une mthode cinq niveaux
d'ordre quatre, de tableau
0
1
3
1
3
1
2

1
3
1
6
1
8
1
2
1
6

1
6

0
0

3
8
32

2
3

1
6

pour laquelle Merson proposa d'estimer l'erreur de troncature locale par la quantit

h
(2 k1 + 9 k3 8 k4 + k5 ) ,
30
ce qui revient comparer la solution approche fournie par la mthode dnie ci-dessus avec celle dont
le tableau de Butcher est le suivant

0
1
3
1
3
1
2

1
3
1
6
1
8
1
2
1
10

1
6

0
0
0

3
8
32
3
10

.
2
2
5

1
5

On a cependant vu dans la sous-section 8.4.2 que l'ordre maximal atteint par une mthode cinq niveaux
ne pouvait tre qu'infrieur ou gal quatre, il n'est par consquent pas possible que la dernire mthode
307

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

soit d'ordre cinq et l'on peut juste raison penser que l'estimateur ainsi construit n'est pas valide 75 . Si la
mthode de Merson n'entre donc pas dans le cadre expos plus haut, elle n'en ft pas moins historiquement
importante et ouvrit la voie au dveloppement des mthodes de RungeKutta embotes.
Il dcoule nanmoins de la prcdente considration qu'une mthode de RungeKutta explicite embote d'ordre quatre requiert au moins six niveaux. C'est le cas de la mthode d'England (4, 5) [Eng69],
rsume dans le tableau augment suivant

0
1
2
1
2

1
2
1
4

1
4

2
3
1
5

7
27
28
625
1
6
1
24

10
27
15

2
0
546
625
2
3

0
0

1
27
54
625
1
6
5
48

378
625
0
27
56

0
125
336

Un intrt de cette mthode est que les coecients b5 et b6 de la mthode d'ordre quatre sont nuls, ce
qui fait que seulement quatre niveaux sont ncessaires si aucune estimation de l'erreur n'est requise. Une
autre mthode embote d'ordre quatre particulirement populaire est la mthode de Fehlberg (4, 5), de
tableau de Butcher augment

0
1
4
3
8
12
13

1
1
2

1
4
3
32
1932
2197
439
216
8
27
25
216
16
135

9
32
7200
2197

8
2
0
0

7296
2197
3680
513
3544
2565
1408
2565
6656
12825

845
4104
1859
4104
2197
4104
28561
56430

11
40

15

9
50

2
55

Cette mthode n'est qu'un exemple d'une classe de paires de schmas, introduite par Fehlberg [Feh69],
dont les ordres et les nombres de niveaux respectifs sont donns dans le tableau 8.4 et dont les coecients
sont choisis pour que la valeur absolue du coecient de l'erreur de troncature principale de la mthode
d'ordre p soit la plus petite possible.

p
3
4
5
6
7
8
Table 8.4:

s
4
5
6
8
11
15

s
5
6
8
10
13
17

Ordre et nombres de niveaux respectifs des  paires de Fehlberg .

En eet, dans les mthodes de Fehlberg, tout comme dans la mthode d'England, c'est la mthode
d'ordre le plus bas qui est utilise pour la construction eective de la solution approche. Dans d'autres
mthodes embotes, c'est celle d'ordre le plus lev qui sert au calcul de cette solution et dont le coecient de l'erreur de troncature principale est optimis, ce qui les rend particulirement appropries pour
75. On trouve de fait que l'ordre de la seconde mthode vaut gnralement trois, mais qu'il est gal cinq lorsque le
systme d'quations direntielles rsoudre est linaire coecients constants.

308

8.6. TECHNIQUES POUR L'ADAPTATION DU PAS DE DISCRTISATION

l'adaptation du pas par extrapolation locale. Parmi celles-ci, on peut citer la mthode de DormandPrince
(5, 4) [DP80], qui est une mthode FSAL sept niveaux d'ordre cinq, de tableau

0
1
5
3
10
4
5
8
9

1
1

1
5
3
40
44
45
19372
6561
9017
3168
35
384
35
384
5179
57600

9
40
56
15
25360
2187
355
33

32
9
64448
6561
46732
5247
500
1113
500
1113
7571
16695

0
0
0

212
729

49
176
125
192
125
192
393
640

5103
18656
2187
6784
2187
6784
92097
339200

11
84
11
84
187
2100

(8.110)

0
1
40

la mthode de BogackiShampine (3, 2) [BS89], mthode FSAL quatre niveaux d'ordre trois et de tableau

0
1
2
3
4

1
2

0
2
9
2
9
7
24

3
4
1
3
1
3
1
4

4
9
4
9
1
3

(8.111)

,
0
1
8

ou encore la mthode de CashKarp (5, 4) [CK90], mthode six niveaux d'ordre cinq et de tableau

0
1
5
3
10
3
5

1
7
8

1
5
3
40
3
10
11
54
1631
55296
2825
27648
37
378

9
40
9
10
5
2
175
512

0
0

6
5
70
27
575
13824
18575
48384
250
621

35
27
44275
110592
13525
55296
125
594

.
253
4096
277
14336

1
4
512
1771

La prsentation des tableaux de Butcher augments n'tant pas toujours standardise, nous avons
pour chacune des prcdentes mthodes fait correspondre la premire ligne de coecients bi , i = 1, . . . , s,
du tableau la mthode d'ordre infrieur, le couple d'entiers apparaissant dans la dnomination de la
mthode embote prcisant les ordres et rles respectifs de chaque mthode individuelle. Ainsi, pour la
mthode de DormandPrince (5, 4), on comprend que la mthode de RungeKutta d'ordre cinq fournit
l'approximation adopter en n d'tape et que celle d'ordre quatre ne sert que pour estimer l'erreur.
On peut dterminer les fonctions de stabilit des mthodes de RungeKutta embotes au moyen
des techniques employes pour les mthodes de RungeKutta pour lesquelles p < s et dcrites dans la
sous-section 8.4.5.

Dtermination des rgions de stabilit absolue de quelques mthodes de RungeKutta embotes. La fonction de stabilit associe une mthode de RungeKutta embote est celle de la mthode

fournissant l'approximation (et non de celle utilise pour l'estimation d'erreur). Pour quelques-unes des mthodes
prsentes, on trouve
1
1
1
1
R(h) = 1 + h + (h)2 + (h)3 +
(h)4 +
(h)5
2
6
24
144
pour la mthode de Merson (s = 5 et p = 4),
R(h) = 1 + h +

1
1
1
(h)2 + (h)3 +
(h)4
2
6
24

309

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

pour la mthode d'England (4, 5) (s = 4 et p = 4, on observe que cette fonction est bien celle des mthodes de
RungeKutta quatre niveaux d'ordre quatre, donne par (8.92) ),
R(h) = 1 + h +

1
1
1
1
(h)2 + (h)3 +
(h)4 +
(h)5
2
6
24
104

pour la mthode de Fehlberg (4, 5) (s = 5 et p = 4), et


R(h) = 1 + h +

1
1
1
1
1
(h)2 + (h)3 +
(h)4 +
(h)5 +
(h)6
2
6
24
120
600

pour la mthode de DormandPrince (5, 4) (s = 6 et p = 5). Les rgions de stabilit absolue correspondantes sont
reprsentes sur la gure 8.19. On note que la rgion pour la mthode DormandPrince (5, 4) est, de manire
surprenante, une union d'ensembles disjoints.
4

4
4

4
4

4
4

4
4

Rgions de stabilit absolue (en gris) pour des mthodes de Merson, d'England (4, 5), de Fehlberg
(4, 5) et de DormandPrince (5, 4) (de gauche droite).

Figure 8.19:

8.6.2

Cas des mthodes pas multiples linaires *

Pour les mthodes pas multiples linaires, toute la dicult d'adaptation du pas de discrtisation
rside dans le changement de longueur du pas, puisque l'on a vu dans la section 8.5 que l'on dispose
avec l'estime de Milne (8.101) d'un estimateur d'erreur de troncature locale principale extrmement peu
coteux et applicable certaines classes de mthodes de prdiction-correction pas multiples linaires,
dont font par exemple partie les mthodes d'AdamsBashforthMoulton. Dans le cas de ces dernires, il
existe deux manires ecaces d'implmenter un mcanisme d'adaptation du pas.
Supposons que l'on travaille avec une mthode d'ordre q , ayant servi obtenir une approximation xn
de la solution du problme au point tn , avec n q , et que la longueur du pas de discrtisation utiliser
pour le calcul de xn+1 soit modie de h h, o est un rel strictement positif. Si l'on veut continuer
utiliser la mthode telle quelle, on a besoin de connatre q valeurs approches antrieures de la solution
aux points quidistants tn , tn h, tn 2h,..., tn (q 1)h, ce qui demande une interpolation des
valeurs disposition.
COMPLETER : ncessite d'interpoler pour obtenir donner les donnes en tn h, etc... voir [Kro73]
lorsque la longueur du pas ne peut tre de double ou divise par deux chaque tape, autre implmentation en exploitant le lien avec les mthodes de Nordsieck pour reformuler le problme
sinon : pas d'interpolation (on utilise les donnes dj obtenues) mais les coecients de la mthode
deviennent variables lorsque le pas varie, voir [Ces61]

8.7

Systmes raides

Nous consacrons cette avant-dernire section la rsolution numrique des quations, ou plus gnralement des systmes d'quations, direntielles ordinaires dits raides. Prcdemment, nous avons en
310

8.7. SYSTMES RAIDES

eet justi plusieurs reprises l'emploi de mthodes de type implicite, autrement considres comme
coteuses en temps de calcul, par le fait qu'elles taient dans ce cas indispensables.
Si tout praticien des mthodes numriques possde une ide intuitive des phnomnes regroups
derrire le concept de raideur, en donner une dnition mathmatique correcte n'est pas une tche aise.
Bien que l'on observe souvent les mmes faits caractristiques sur le plan numrique, les raisons amenant
qualier un systme d'quations direntielles de systme raide peuvent tre diverses. Nanmoins,
l'approche la plus commune de ces dicults se fait par le biais d'une thorie linaire, en lien avec la
notion de stabilit absolue introduite dans la sous-section 8.4.5. Avant d'aborder celle-ci, commenons
par illustrer la problmatique rencontre en pratique au moyen de deux exemples.

8.7.1

Deux expriences numriques

Le premier problme que nous traitons, issu de [Mol08], est celui de la propagation d'une amme de
diusion, c'est--dire de la dtermination de la zone au sein de laquelle une raction de combustion se
produit entre deux ractants  un combustible et un comburant  spars. En guise d'exemple, on peut
penser la combustion d'un solide, comme une allumette ou une bougie, en se rappellant que, juste aprs
son allumage, la amme augmente rapidement de volume jusqu' atteindre une taille critique qu'elle
conserve une fois que la quantit de dioxygne consomme en son intrieur s'est quilibre avec celle
disponible sa surface. On peut modliser de manire grossire 76 ce phnomne en considrant que la
amme a la forme d'une boule dont le rayon l'intant t, not r(t) est solution du problme de Cauchy

r0 (t) = r(t)2 (1 r(t)), t 0, avec r(0) = .

(8.112)

Le rel , suppos strictement positif et  petit , est le rayon de la boule l'instant initial. On est
intress par la dtermination numrique de la solution du problme sur un intervalle de temps de longueur
inversement proportionnelle la valeur de , qui va s'avrer tre un paramtre critique vis--vis de la
raideur de l'quation. On notera qu'il est ici possible de rsoudre analytiquement le problme en faisant
appel la fonction W de Lambert 77 (voir [Cor+96]). En eet, l'quation direntielle ordinaire tant
variables sparables, il trouve, aprs intgration, l'quation implicite

1
+ ln
r(t)

1
r(t) 1

1
= + ln

1
1


t,

dont la solution s'crit

r(t) =
o l'on a pos a =

1
W (a eat )

+1

1, la fonction W satisfaisant W (z) eW (z) = z pour tout nombre complexe z .




On a reprsent sur la gure 8.20 la solution du problme sur l'intervalle 0, 2 pour deux valeurs
1
distinctes du paramtre . On observe que la solution crot lentement jusqu' environ 2
pour alors
atteindre trs brusquement (relativement l'chelle de temps considr pour chaque cas) la valeur 1
qu'elle conserve ensuite.
1

76. On trouvera dans la sous-section 11.1.3 un modle, bas sur une quation aux drives partielles plutt qu'une quation
direntielle ordinaire, plus dle la dynamique de ce phnomne.
77. Jean-Henri Lambert (Johann Heinrich Lambert en allemand, 26 aot 1728 - 25 septembre 1777) tait un mathmaticien, physicien, astronome et philosophe suisse. Auteur prolique, on lui doit notamment l'introduction des fonctions
hyperboliques en trigonomtrie ou la premire preuve de l'irrationalit de , l'invention de plusieurs systmes de projection
cartographique en gographie, ainsi que des travaux fondateurs en photomtrie.

311

1, 2

1, 2

0, 8

0, 8
r(t)

r(t)

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

0, 6

0, 6

0, 4

0, 4

0, 2

0, 2

Figure 8.20:

droite).

50

100
t

150

200

5000

10000
t

15000

20000



Solution du problme (8.112) sur l'intervalle 0, 2 , pour = 102 ( gauche) et = 104 (

1, 2

1, 2

0, 8

0, 8

0, 6

0, 6

rn

rn

Pour la rsolution numrique de ce problme, on a utilis deux mthodes un pas, l'une adapte la
rsolution de systmes raides, l'autre non, couples un mcanisme d'adaptation du pas de discrtisation,
prsentes dans le logiciel Matlab (voir [SR97]). Celles-ci sont d'une part une mthode de RungeKutta
embote base sur la paire (5, 4) de DormandPrince (voir le tableau de Butcher (8.110)), implmente
dans la fonction ode45, et d'autre part une mthode de Rosenbrock 78 modie d'ordre deux, disponible
dans la fonction ode23s. Cette dernire mthode peut tre vue comme une gnralisation d'une mthode
de RungeKutta semi-implicite, ne requrant pas de rsolution d'un systme d'quations non linaires,
mais l'valuation d'une approximation du jacobien de la fonction f et la rsolution d'un systme linaire,
chaque tape (voir par exemple [Zed90] pour une prsentation). Les rsultats obtenus avec les deux
valeurs de prcdemment utilises sont prsents sur les gures 8.21 et 8.22. Dans les deux cas, la
tolrance xe pour l'erreur relative utilise pour adapter le pas est gale 106 .

0, 4

0, 4

0, 2

0, 2

50

100
t

150

200

50

100
t

150

200



Solutions numriques approches du problme (8.112) sur l'intervalle 0, 2 , pour = 102 ,
respectivement obtenues par une mthode de RungeKutta embote ( gauche) et une mthode de Rosenbrock
modie ( droite), combines une stratgie d'adaptation du pas de discrtisation.
Figure 8.21:

Pour = 102 , les deux mthodes ont un comportement de manire similaires, utilisant respectivement
248 pas et 204 pas pour la seconde, cette disparit pouvant tre impute une erreur de troncature locale
78. Howard Harry Rosenbrock (16 dcembre 1920 - 21 octobre 2011) tait un mathmaticien anglais, spcialiste de la
thorie du contrle des systmes. On lui doit l'introduction de mthodes numriques pour la rsolution de problmes
d'optimisation non linaire et de systmes d'quations direntielles.

312

8.7. SYSTMES RAIDES

1, 2

1, 2

0, 8

0, 8

0, 6

0, 6

rn

rn

parfois plus faible pour une mthode implicite. En revanche, pour = 104 , l'quation est raide et les
consquences sur le plan numrique sont immdiatement observables : la premire mthode a maintenant
besoin de 12224 pas pour rsoudre le problme contre 231 pas pour la seconde. La dirence fondamentale
de comportement de la mthode explicite ici utilise (la mthode implicite n'tant pas aecte) pour la
rsolution du problme (8.112) atteste de la raideur de ce dernier lorsque la donne initiale est petite et
l'intervalle d'intgration susamment grand.

0, 4

0, 4

0, 2

0, 2

5000

10000
t

15000

20000

5000

10000
t

15000

20000



Solutions numriques approches du problme (8.112) sur l'intervalle 0, 2 , pour = 104 ,
respectivement obtenues par une mthode de RungeKutta embote ( gauche) et une mthode de Rosenbrock
modie ( droite), combines une stratgie d'adaptation du pas de discrtisation.
Figure 8.22:

Le second exemple, tir de [Lam91], considre la rsolution sur l'intervalle [0, 10] des deux problmes
de Cauchy suivants




 
2 1
2 sin(t)
2
0
x (t) =
x(t) +
, x(0) =
,
(8.113)
1 2
2 (cos(t) sin(t))
3
et

x0 (t) =

2
998




 
1
2 sin(t)
2
x(t) +
, x(0) =
,
999
999 (cos(t) sin(t))
3

(8.114)

ayant tout deux la mme solution, donne par

x(t) = 2 e

  

1
sin(t)
+
,
1
cos(t)

et reprsente sur la gure 8.23.


Pour la rsolution numrique de ces problmes, on a de nouveau utilis une mthode de RungeKutta
embote base sur la paire (5, 4) de DormandPrince, ainsi qu'une mthode pas multiples linaire, issue
d'une modication 79 des mthodes BDF, dite NDF (pour numerical dierentiation formula en anglais)
79. Cette modication consiste en l'ajout d'un terme la relation de rcurrence (8.69), conduisant au schma suivant

q
q
X
X
1 i
1
(xn+q x(0) ),
xn+q = h f (tn+q , xn+q ) +
n+q
i
j
i=1
j=1

dans lequel
(0)

xn+q =

q
X
1 i
xn+q1
i
i=0

est un prdicteur et est un paramtre.


P Cette
  correction  ne diminue pas l'ordre de la mthode et la constante d'erreur
q
1
1
principale associe vaut q+1

j=1 j . Dans [SR97], la valeur du paramtre est choisie de manire rendre la


mthode plus prcise que la mthode BDF correspondante tout en limitant la diminution de l'angle de A()-stabilit.

313

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

3
2, 5
2

x(t)

1, 5
1
0, 5
0
0, 5
1

10

Figure 8.23:

Solution des problmes (8.113) et (8.114) sur l'intervalle [0, 10].

[Klo71], implmente dans la fonction ode15s de Matlab avec des mcanismes d'adaptation du pas
discrtisation et de variation de l'ordre (de un cinq) de la mthode. Si la rsolution du problme (8.113)
a ncessit 100 pas avec la premire et 41 avec la seconde, il a en revanche fallu eectuer respectivement
12060 et 48 pas pour rsoudre le problme (8.114). Les solutions de ces problmes tant identiques, c'est
le fait que l'un de ces deux systmes direntiels, pourtant de mme nature, soit raide et que l'autre non
qui explique de tels carts de comportement entre une mthode explicite et une mthode implicite de
rsolution.

2, 5

2, 5

1, 5

1, 5
x(t)

x(t)

0, 5

0, 5

0, 5

0, 5

10

10

Solutions numriques approches du problme (8.113) sur l'intervalle [0, 10] respectivement obtenues par une mthode de RungeKutta embote ( gauche) et une mthode de Rosenbrock modie ( droite),
combines une stratgie d'adaptation du pas de discrtisation.

Figure 8.24:

8.7.2

Direntes notions de stabilit pour la rsolution des systmes raides


*

Comme l'adjectif  raide  tend le faire entendre (le terme de raideur dsignant galement le coecient mesurant la rsistance d'un corps une dformation lastique), la rsolution numrique d'un
systme raide impose certaines mthodes des restrictions sur la longueur du pas de discrtisation bien
plus svres que la prcision demande ne l'exigerait. Les problmes raides tant omniprsents dans les
problmes issus d'applications, avec pour exemples le problme de propagation de amme (8.112), l'volution de l'oscillateur de van der Pol dans un rgime fortement amorti (  1) modlise par l'quation
314

2, 5

2, 5

1, 5

1, 5
x(t)

x(t)

8.7. SYSTMES RAIDES

0, 5

0, 5

0, 5

0, 5

10

10

Solutions numriques approches du problme (8.114) sur l'intervalle [0, 10] respectivement obtenues par une mthode de RungeKutta embote ( gauche) et une mthode de Rosenbrock modie ( droite),
combines une stratgie d'adaptation du pas de discrtisation..

Figure 8.25:

(8.16) ou encore le problme de Robertson de systme (8.21), il est de toute premire importance de
savoir les rsoudre ecacement.
Il est toutefois dicile d'apprhender le phnomne sous-jacent d'un point de vue mathmatique,
les valeurs propres de la matrice jacobienne f
x , la dimension du systme direntiel, la rgularit de
la solution, la valeur initiale ou la taille de l'intervalle d'intgration pouvant toutes jouer un rle. On
reconnat nanmoins dans bon nombre de cas que les problmes de stabilit constats en pratique sont
ds l'existence de phases de transition rapide de la solution.
Considrons les problmes du second exemple de la sous-section 8.7.1 et tentons de fournir une explication de la dirence consquente du nombre de pas utiliss pour leur rsolution numrique par une
mthode explicite l'aune de la thorie de stabilit absolue des mthodes introduite dans la sous-section
8.4.5 (voir la section 8.4.6 pour son extension au cas des systmes). Pour cela, notons tout d'abord que
les solutions gnrales des systmes direntiels de ces deux problmes sont respectivement
 
  

1
1
sin(t)
x(t) = c1 et
+ c2 e3 t
+
1
1
cos(t)
et

x(t) = c1 et

 

 

1
1
sin(t)
+ c2 e1000 t
+
,
1
998
cos(t)

les valeurs des constantes arbitraires c1 et c2 tant xes par la donne d'une condition initiale. Ces
solutions sont toutes deux composes d'une partie dite transitoire, tendant vers zro lorsque t tend vers
l'inni, et d'une partie stationnaire, qui est par consquent observe en temps long (voir la gure 8.23).
Si l'on est intress par la simulation de la partie stationnaire de la solution, on se trouve confront
aux exigences de stabilit absolue de la mthode numrique utilise, qui impliquent pour les problmes
considrs que les rels h et 3h (resp. h et 1000h) appartiennent l'intervalle de stabilit absolue de
la mthode pour le problme (8.113) (resp. (8.114)). L'intervalle de stabilit de la paire (5, 4) de Dormand
Prince tant approximativement ] 3, 0[ (voir la gure 8.19), la contrainte sur la longueur du pas pour
la rsolution numrique du problme (8.114) est drastique, puisque l'on demande que h < 0, 003, alors
que l'on a h < 1 pour le problme (8.113). En revanche, les mthodes NDF d'ordre un cinq n'imposent
aucune restriction de ce type, leurs intervalles de stabilit respectifs tant tous gaux ] , 0[.
Pour un systme direntiel linaire coecients constants et non homogne de dimension d dont la
matrice possde des valeurs propres complexes i , i = 1, . . . , d, ayant toutes une partie relle strictement
ngative, posons
Re() Re(i ) Re() < 0, i = 1, . . . , d.
315

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

La situation est alors la suivante. Pour toute mthode de rsolution de rgion de stabilit borne, la
longueur du pas de discrtisation sera d'autant plus petite que la valeur |Re()| est grande, cette contrainte
persistant aprs que la composante en question soit devenue ngligeable dans la solution 80 du fait de
sa dcroissance rapide. Le temps de simulation pour atteindre un rgime stationnaire est lui d'autant
plus long que le valeur |Re()| est petite. Ceci conduit proposer une caractrisation de la raideur par
l'introduction d'un quotient de raideur
|Re()|
,
|Re()|
un systme tant considr comme raide lorsque le quotient est grand devant l'unit. Cette premire
dnition n'est cependant pas sans inconvnient. En eet, si |Re()| ' 0, le quotient de raideur peut
tre trs grand sans pour autant que |Re()| le soit et que le systme soit  rellement  raide (au sens
o la longueur du pas ne se trouve pas contrainte par l'exigence de stabilit absolue). D'autre part, on
voit qu'elle ne concerne que des systmes dquations direntielles linaires coecients constants et
se rvle compltement inadapte 81 pour le traitement des systmes non linaires ou mme simplement
linaires mais coecients non constants.
On peut nanmoins formuler la dnition suivante, issue de [Lam91] et largement empirique, qui
condense de manire pragmatique ce que l'on observe gnralement en pratique.

Dnition 8.44 (systme raide) Un systme d'quations direntielles ordinaires est dit raide sur un

intervalle d'intgration s'il force une mthode numrique dont la rgion de stabilit absolue est de taille
nie utiliser un pas de discrtisation excessivement petit compte tenu de la rgularit de la solution
exacte.

Une premire approche pour le choix de mthode adaptes la rsolution numrique des systmes
raides repose sur l'explication du phnomne dans le cas linaire dveloppe plus haut. Elle consiste
exiger que la mthode soit absolument stable pour toute valeur du nombre complexe , tel que Re() < 0,
dans le problme (8.87) et la longueur h du pas de la grille de discrtisation, ce qu'on rsume dans le
concept suivant, initialement introduit pour les mthodes pas multiples linaires.

Dnition 8.45 (A-stabilit d'une mthode [Dah63]) Une mthode numrique pour l'approximation
de la solution de (8.87) est dite A-stable si
S C = C ,

(8.115)

o S dsigne la rgion de stabilit absolue de la mthode et C = {z C | Re(z) < 0}.

Un rapide retour sur les diverses gures prsentant les rgions de stabilit absolue de mthodes dans
la sous-section 8.4.5 et les sections 8.5 et 8.6 permet de voir que les mthodes d'Euler implicite, de la
rgle du trapze et BDF deux et trois pas sont A-stables.
Nous avons relev dans la sous-section 8.4.5 une relation entre la fonction de stabilit de certaines
mthodes de RungeKutta implicites et les approximants de Pad de la fonction exponentielle. Ce lien
peut tre exploit pour dmontrer qu'une mthode un pas est A-stable.

Thorme 8.46 (condition susante de A-stabilit d'une mthode un pas) Si la fonction de


stabilit associe une mthode un pas est l'approximant de Pad de type (m, m) ou (m + 1, m) de la
fonction exponentielle, m = 0, 1, 2, . . . , alors cette mthode est A-stable.
Dmonstration.

A ECRIRE

DONNER application : mthodes de RungeKutta implicites car, pour tout s, il existe une mthode
A-stable et d'ordre 2s.
Pour les mthodes pas multiples linaires, on a la condition ncessaire de A-stabilit suivante.
80. Ceci est encore vrai si la condition initiale est telle que la composante associe la valeur propre n'est pas prsente
dans la solution du problme de Cauchy, comme c'est le cas pour les problmes (8.113) et (8.114).
81. Plusieurs thories ont t dveloppes pour combler ce manque et l'on renvoie le lecteur intress par ce sujet au
dernier chapitre de [Lam91] pour une introduction.

316

8.7. SYSTMES RAIDES

Thorme 8.47 (condition ncessaire de A-stabilit d'une mthode pas multiples linaire)
Si une mthode pas multiples linaire est A-stable, alors


Re

(z)
(z)

(8.116)

> 0 si |z| > 1.

Si les racines de et dirent, cette condition est aussi susante.


Dmonstration. La mthode tant A-stable, toute racine du polynme , avec C, satisfait
|| 1 ds que Re() 0. La ngation de cette application, savoir que || > 1 implique que Re() > 0, fournit
()
.
alors la condition (8.116) puisque l'on a = ()
Supossons prsent que la condition (8.116) soit satisfaite et que les racines des polynme et dirent. Soit
()
, ce qui
0 C tel que Re(0 ) 0 et soit une racine du polynme 0 . On a alors () 6= 0 et 0 = ()
implique que || 1. Pour que la mthode soit A-stable, il reste prouver que est une racine simple si son
module est gal un. Par un simple argument de continuit, il dcoule de (8.116) que les assertions || = 1 et
Re(0 ) < 0 sont contradictoires. Si Re(0 ) = 0A FINIR


Cette notion de stabilit est extrmement restrictive pour les mthodes pas multiples linaires,
comme le montre le rsultat suivant.

Thorme 8.48 ( seconde barrire de Dahlquist  [Dah63]) Il n'existe pas de mthode pas multiples linaire explicite qui soit A-stable. De plus, l'ordre d'une mthode pas multiples linaire implicite
et A-stable est au plus gal deux.
Dmonstration.

A ECRIRE


1
12 .

REPRENDRE De plus, si l'ordre est gal deux, la constante d'erreur de la mthode satisfait C
1
La mthode de la rgle du trapze est le seule mthode A-stable d'ordre deux avec C = 12
Bien qu'il dcoule de ce thorme qu'une majorit de mthodes pas multiples linaires ne sont pas
A-stables, ceci ne signie pas pour autant qu'elles ne peuvent servir la rsolution numrique de systmes
raides. Des versions  aaiblies  de la condition de stabilit (8.115), galement pertinentes, existent en
eet. L'une d'entre elles mne la notion deA()-stabilit suivante, adapte aux systmes raides dont les
valeurs propres incrimines sont situes proximit de l'axe rel ngatif dans le plan complexe.

Dnition 8.49 (A()-stabilit d'une mthode [Wil67]) Une mthode numrique pour l'approximation de la solution de (8.87) est dite A()-stable, avec 0 < < 2 , si
{z C | |arg(z)| , z 6= 0} S,
o S dsigne la rgion de stabilit absolue de la mthode. Elle est dite
pour une valeur de susamment petite.

A(0)-stable si elle est A()-stable

Les mthodes BDF q pas zro-stables, c'est--dire pour 1 q 6, sont A()-stables pour les valeurs
de l'angle indiques dans le tableau 8.5, ce qui les rend particulirement attractives pour la rsolution
de systmes raides.

q
1
2
3
4
5
6
Table 8.5:

A()-stable.

90
90
86, 03
73, 35
51, 84
17, 84

Valeur maximale de l'angle (mesur en degrs) pour laquelle une mthode BDF q pas est

Pour tout < 2 donn et pour tout entier naturel q , il existe une mthode q pas linaires A()stable d'ordre q (voir [JN82]). Il est en revanche illusoire de penser pouvoir s'aranchir aussi facilement
317

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

de la seconde barrire de Dahlquist : pour des ordres levs et des valeurs de proches de
des constantes d'erreur principales de ces mthodes les rend en pratique inutiles.

2,

la grandeur

MENTIONNER les autres concepts introduits : A0 -stabilit, L-stabilit, sti stability...


Comme on peut l'observer sur les gures de la sous-section 8.4.5 et de la section 8.5, ces direntes
proprits de stabilit ne peuvent tre satisfaites par une mthode mthode de RungeKutta explicite,
une mthode pas multiples linaire explicite ou mme une mthode de prdiction-correction de type
P(EC) E1 avec un entier x, ce qui rend l'emploi de mthodes implicites obligatoire. Les dicults
ne se trouvent cependant pas toutes limines, la rsolution des systmes d'quations non linaires dnissant ces mthodes par la mthode des approximations successives imposant une forte restriction 82 sur
la longueur du pas de discrtisation. Cette situation, quelque peu paradoxale puisque c'est ici le caractre
implicite de la mthode (et non sa stabilit) qui pose problme, se rgle par l'utilisation d'une mthode
de NewtonRaphson modie (voir respectivement les relations de rcurrence (8.49) et (8.60) pour les
mthodes de RungeKutta et pas multiples linaires).

8.8

Application la rsolution numrique de problmes aux limites **

8.8.1

Dnition du problme

8.8.2

Mthodes de tir

PARLER ici des mthodes de tir (shooting methods en anglais), qui constituent dans ce cas une
alternative aux mthodes de dirences nies

8.9

Notes sur le chapitre *

En plus des rfrences dj conseilles pour l'ensemble du cours et traitant de la rsolution numrique
des quations direntielles ordinaires, nous renvoyons le lecteur intress l'ouvrage particulirement
abordable de Lambert [Lam91]. Pour de nombreux autres dveloppements, ainsi que des aspects techniques et historiques, on ne peut que recommander les livres de Hairer, Nrsett et Wanner [HNW93,
HW96] et de Butcher [But08].
L'utilisation de la mthode d'Euler pour la rsolution numrique des quations direntielles ordinaires
fut dcrite pour la premire fois de manire dtaille dans le premier volume des Intitutiones calculi
integralis (sectio secunda, caput VII, De integratione aequationum dierentialium per approximationem ),
paru en 1768, pour les quations du premier ordre et dans le second volume (sectio prima, caput XII,
De aequationum dierentio-dierentialium integratione per approximationes ), paru en 1769, pour les
quations du second ordre. D'un point de vue thorique, sa convergence fut prouve constructivement par
Cauchy dans les septime et huitime leons de son cours traitant des quations direntielles ordinaire
l'cole Polytechnique imprim en 1824, fournissant ainsi un rsultat d'existence pour les quations
direntielles ordinaires dans le champ rel 83 , sous l'hypothse que l'application f dnissant l'quation
et ses drives sont continues et bornes. Ce rsultat fut redmontr de manire indpendante par Lipschitz
en 1868 [Lip68], en supposant f continue et satisfaisant la condition (8.7), et constitue le thorme 8.10,
dont la formulation  moderne  est l'uvre de Picard [Pic93] et de Lindelf [Lin94].
L'analyse de mthodes de RungeKutta, eectue par Butcher dans une srie d'articles, a donn
lieu une thorie algbrique d'une certaine classe de mthodes d'intgration numrique des quations
direntielles ordinaires [But72], qui fait apparatre un groupe, le groupe de Butcher, reprsentable par
82. Rappelons que les conditions sur la longueur du pas assurant la convergence de la mthode des approximations
successives sont les ingalits (8.43) (pour une mthode de RungeKutta implicite) et (8.58) (pour une mthode pas
multiples linaire implicite) et que la constante de Lipschitz L, de l'ordre de |Re()| pour un systme direntiel linaire
non homogne, peut tre trs grande pour un systme raide.
83. Il dmontre en eet que, sous certaines conditions de rgularit sur la fonction f , les valeurs calcules par la mthode
tendent, lorsque le pas de discrtisation tend vers zro, vers celles d'une fonction qui est solution, au moins localement, du
problme de Cauchy (8.1)-(8.5).

318

8.9. NOTES SUR LE CHAPITRE *

une famille de fonctions valeurs relles dnies sur l'algbre de Hopf 84 des arbres enracins 85 et dont
l'intrt dpasse largement celui de l'analyse numrique, puisqu'il intervient de manire fondamentale
dans la formulation mathmatique de la renormalisation en thorie quantique des champs [CK99, Bro00].
Le lecteur intress par l'histoire des mthodes de Runge-Kutta pourra consulter l'article [But96].
A FINIR Il existe une alternative la thorie de Butcher, due Albrecht [Alb87, Alb96], pour
dterminer l'ordre des mthodes de RungeKutta, qui consiste voir ces dernires comme des mthodes
composites linaires (A DEFINIR, lien avec mthodes d'intgration utilise chaque tape), avantages
dans le cas des systmes d'edo
Les mthodes d'AdamsMoulton et d'AdamsBashforth sont l'uvre du seul Adams. On en trouve un
expos complet dans un trait sur la thorie de la capillarit de Bashforth [BA83], dans lequel ce dernier
s'intresse la forme prise par une goutte de liquide reposant sur un plan 86 . Le nom de Moulton ne leur
fut associ que lorsque ce dernier ralisa que les mthodes implicites d'Adams pouvaient tre utilises en
conjonction avec leurs contreparties explicites pour former des paires de prdicteur-correcteur [Mou26].
Un rsum dtaill de l'histoire des mthodes pas multiples est propos dans l'article [Tou98].
Une rfrence historique pour le concept de systme raide d'quations direntielles ordinaires est
l'article de Curtiss et Hirschfelder [CH52], dans lequel les mthodes BDF furent introduites.
MENTIONNER AUSSI :
utilisation du jacobien de f dans une mthode niveaux de type RungeKutta : mthodes de Rosenbrock [Ros63]
les mthodes de type Nordsieck [Nor62]
Des mthodes numriques, s'apparentant aux mthodes pas multiples d'Adams et spciques aux
quations direntielles ordinaires d'ordre deux de la forme particulire

x00 (t) = f (t, x(t)),


c'est--dire dans lesquelles aucune drive n'apparat au second membre, qui sont typiques de la modlisation de problmes en mcanique cleste sans dissipation, furent introduites par des astronomes au
dix-neuvime et vingtime sicles. On peut ainsi citer les travaux de Bond 87 [Bon49], de Strmer 88 [St07]
pour expliquer le phnomne des aurores borales, de Cowell 89 et Crommelin 90 pour la dtermination
trajectoire de la comte de Halley, dont les apports sont rsums en dtails dans [Tou98]. ET Nstrom
( ?)
A REPRENDRE (lier avec le paragraphe prcdent ?) Il existe des classes importantes d'quations
direntielles ordinaires prsentant des proprits de structure spciques, souvent de nature gomtrique,
dont la prservation au niveau discret du schma conduit des mthodes de rsolution performantes,
notamment lorsque l'on rsoud numriquement sur de longs intervalles de temps. / Ces derniers systmes
sont des exemples typiques de systmes direntiels pouvant s'crire sous la forme d'quations canoniques
84. Heinz Hopf (19 novembre 1894 - 3 juin 1971) tait un mathmaticien allemand, connu pour ses travaux en topologie
algbrique.
85. Un arbre est un graphe non orient, acyclique et connexe. Il est possible de reprsenter cet objet dans un plan au
moyen d'un plongement, ce qui permet d'orienter ses artes. Une racine d'un arbre plong est la donne d'une orientation
d'une de ses artes. Un arbre plong muni d'une racine est dit enracin.
86. La mise en quation de la surface de la courbe mridienne de la surface conduit une quation direntielle du second
ordre. Bashforth en cona la rsolution numrique Adams, qui pour ce faire appliqua, aprs avoir remplac l'quation en
question par un systme quivalent de deux quations direntielles du premier ordre, une mthode qu'il avait nouvellement
imagine. On notera qu'Adams faisait appel la mthode de NewtonRaphson pour la rsolution numrique de l'quation
non linaire (8.66) lors de l'utilisation de ses mthodes sous leur forme implicite.
87. George Phillips Bond (20 mai 1825 - 17 fvrier 1865) tait un astronome amricain. Il dcouvrit avec son pre,
William Cranch Bond, le satellite de Saturne Hyprion en 1848 et fut l'un des premiers faire usage de la photographie en
astronomie, prenant les premiers clichs d'une toile (Vga) en 1850 et d'une binaire visuelle (Mizar et Alcor) en 1857.
88. Fredrik Carl Mlertz Strmer (3 septembre 1874 - 13 aot 1957) tait un mathmaticien et physicien norvgien. Il est
connu la fois pour ses travaux en thorie des nombres et pour ses tudes sur le mouvement des particules charges dans
la magntosphre et la formation des aurores polaires.
89. Philip Herbert Cowell (7 aot 1870 - 6 juin 1949) tait un astronome britannique. COMPLETER
90. Andrew Claude de la Cherois Crommelin (6 fvrier 1865 - 20 septembre 1939) tait un astronome britannique.
COMPLETER

319

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

de Hamilton 91

p0 (t) =

H
H
(p(t), q(t), t), q 0 (t) =
(p(t), q(t), t),
q
p

dans lesquelles les quantits p(t) et q(t) valeurs dans Rd reprsentent respectivement les positions et
les moments du systme au temps t et la fonction H , de R2d+1 valeurs dans Rd , est l'hamiltonien du
systme, reprsentant son nergie totale. On crit encore

x0 (t) = J H(x(t), t),


 


p
0
Id
en posant x =
et J =
, et l'on dit que le systme est hamiltonien. (A VOIR)
q
Id 0
Par exemple, les systmes dit hamiltoniens, qui sont omniprsents en physique, ont la proprit gomtrique de possder un ot symplectique. / Les systmes hamiltoniens occupent une place de toute
premire importance en mcanique classique, en physique statistique et en mcanique quantique en raison
des proprits remarquables dont ils jouissent. En particulier, le ot engendr par l'volution dynamique
d'un tel systme partir d'une condition initiale x0 au temps t0 , c'est--dire l'application t telle que
t (x0 ) = x(t), t t0 , est symplectique. En d'autres mots, ce ot vrie une relation lie la conservations
des aires dans l'espace des phases, qui se traduit par le fait que la drive Dt satisfait
Dt (x)T JDt (x) = J, x, t tels que t (x) existe.
Cette relation est lie la conservation des aires dans l'espace des phases.
Un intgrateur numrique est dit symplectique s'il conserve la structure hamiltonienne des quations,
i.e. s'il prserve ces proprits gomtriques du ot exact... / En respectant la gomtrie de l'espace des
phases au niveau discret, on change de point de vue pour la mthode en se concentrant non pas sur
l'approximation d'une solution (i.e. d'une trajectoire) mais en considrant plutt la mthode comme un
systme dynamique discret approchant le ot d'une quation direntielle ordinaire, c'est--dire l'application t associant la valeur initiale x0 l'instant initial la valeur de la solution au temps t : t (x0 ) = x(t).
Une mthode numrique un pas est dite symplectique si le ot numrique h est une application
symplectique :
Dh (t, x)T JDh (t, x) = J,
De telles mthodes existent. Par exemple, la mthode obtenue en appliquant la mthode d'Euler explicite
aux variables de position q Rd et de moments p Rd

pn+1 = pn h q H (pn+1 , qn )
qn+1 = qn h pH (pn+1 , qn )
en est un exemple.
si la mthode symplectique, l'quation modie obtenue par analyse d'erreur inverse est elle aussi
hamiltonienne, ce qui permet de prouver la quasi-conservation de l'nergie (en h1 ) sur des temps exponentiellement longs.
Une caractrisation des mthodes de RungeKutta symplectiques, obtenue de manire indpendante
par Lasagni [Las88], Sanz-Serna [SS88] et Suris en 1988, est que les coecients d'une mthode symplectique s niveaux doivent satisfaire

bi aij + bj aji bi bj = 0, i, j = 1, . . . , s,
ce qui implique que cette mthode est implicite. On peut montrer que les mthodes de RungeKutta
implicites bases sur les formules de Gauss satisfont ces conditions.
exemple d'intgrateur symplectique utilis de longue date est la mthode de StrmerVerlet 92 , propose par Verlet pour la dynamique molculaire [Ver67]. hamiltonien : H(p, q) = 21 pT M p + V (q) avec M
91. Sir William Rowan Hamilton (4 aot 1805 - 2 septembre 1865) tait un mathmaticien, physicien et astronome
irlandais, dont les apports la mcanique classique, l'optique et l'algbre furent importants. On lui doit notamment une
formulation alternative et fondamentale de la mcanique dite newtonienne, ainsi que la dcouverte des quaternions.
92. Loup Verlet (n le 24 mai 1931) est un physicien et philosophe franais, pionnier de la simulation par ordinateur des
modles molculaires dynamiques.

320

RFRENCES

une matrice symtrique dnie positive, qui est la mthode explicite donne par

pn+1/2 = pn h/2 V (qn )


qn+1 = qn + hM 1 pn+1/2
pn+1 = pn+1/2 h/2 V (qn+1 )
prcdemment utilise par Strmer en 1907
Note : autres mthodes/techniques d'intgration gomtrique pour conserver d'autres proprits, notamment la symtrie, la conservation d'intgrales premires, la structure de Poisson, etc... pour des classes
particulires de systmes d'edo

Rfrences
[Alb87]

P. Albrecht. A new theoretical approach to RungeKutta methods. SIAM J. Numer. Anal.,


24(2):391406, 1987. doi: 10.1137/0724030 (cited on page 319).

[Alb96]

P. Albrecht. The RungeKutta theory in a nutshell. SIAM J. Numer. Anal., 33(5):17121735,


1996. doi: 10.1137/S0036142994260872 (cited on page 319).

[Ale77]

R.

[Arz95]

C. Arzel. Sulle funzioni di linee. Mem. Accad. Sci. Ist. Bologna Cl. Sci. Fis. Mat., 5(5):5574,
1895 (citato a pagina 246).

[Asc93]

G. Ascoli. Le curve limiti di una variet data di curve. Atti R. Accad. Dei Lincei Memorie Cl.
Sci. Fis. Mat. Nat., 18(3):521586, 1893-1894 (citato a pagina 246).
F. Bashforth and J. C. Adams. An attempt to test the theories of capillary action by comparing
the theoretical and measured forms of drops of uid, with an explanation of the method of integration employed in constucting the tables which give the theoretical forms of such drops. Cambridge

[BA83]

Alexander.

Diagonally implicit Runge-Kutta methods for sti O.D.E.'s. SIAM J. Numer.


doi: 10.1137/0714068 (cited on page 270).

Anal., 14(6):10061021, 1977.

University Press, 1883 (cited on page 319).


[Bon49]

G. P.

Bond.

On some applications of the method of mechanical quadratures. Mem. Amer. Acad.


doi: 10.2307/25058159 (cited on page 319).

Arts Sci., 4(1):189208, 1849.

[Bro00]

C. Brouder. RungeKutta methods and renormalization. European Phys. J. C, 12(3):521534,


2000. doi: 10.1007/s100529900235 (cited on page 319).

[BS89]

P. Bogacki and L. F. Shampine. A 3(2) pair of Runge-Kutta formulas. Appl. Math. Lett.,
2(4):321325, 1989. doi: 10.1016/0893-9659(89)90079-7 (cited on page 309).

[But08]

J. C. Butcher. Numerical methods for ordinary dierential equations. John Wiley & Sons Ltd,
second edition, 2008. doi: 10.1002/9780470753767 (cited on page 318).

[But64a]

J. C. Butcher. Implicit Runge-Kutta processes. Math. Comput., 18(85):5064, 1964.


1090/S0025-5718-1964-0159424-9 (cited on pages 262, 267).

[But64b]

J. C. Butcher. Integration processes based on Radau quadrature formulas. Math. Comput.,


18(86):233234, 1964. doi: 10.1090/S0025-5718-1964-0165693-1 (cited on page 268).

[But65]

J. C. Butcher. On the attainable order of Runge-Kutta methods. Math. Comput., 19(91):408417,


1965. doi: 10.1090/S0025-5718-1965-0179943-X (cited on page 283).

[But72]

J. C. Butcher. An algebraic theory of integration methods. Math. Comput., 26(117):79106, 1972.


doi: 10.1090/S0025-5718-1972-0305608-0 (cited on page 318).

[But76]

J. C. Butcher. On the implementation of implicit Runge-Kutta methods. BIT, 16(3):237240,


1976. doi: 10.1007/BF01932265 (cited on page 267).

[But95]

J. C. Butcher. On fth order RungeKutta methods. BIT, 35(2):202209, 1995.


BF01737162 (cited on page 299).

[But96]

J. C. Butcher. A history of Runge-Kutta methods. Appl. Numer. Math., 20(3):247260, 1996.


doi: 10.1016/0168-9274(95)00108-5 (cited on page 319).

[BWZ71]

D. Barton, I. M. Willers, and R. V. M. Zahar. The automatic solution of systems of ordinary


dierential equations by the method of Taylor series. Comput. J., 14(3):243248, 1971. doi: 10.
1093/comjnl/14.3.243 (cited on page 278).

321

doi:

doi:

10.

10.1007/

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

[Ces61]

F. Ceschino. Modication de la longueur du pas dans l'intgration numrique par les mthodes
pas lis. Chires, 2 :101106, 1961 (cf. page 310).

[CH52]

C. F.

[Chi71]

F. H. Chipman. A-stable RungeKutta processes. BIT, 11(4):384388, 1971.


BF01939406 (cited on page 268).

[CK90]

J. R. Cash and A. H Karp. A variable order Runge-Kutta method for initial value problems
with rapidly varying right-hand sides. ACM Trans. Math. Software, 16(3):201222, 1990. doi:
10.1145/79505.79507 (cited on page 309).

[CK99]

A. Connes and D. Kreimer. Lessons from quantum eld theory: Hopf algebras and spacetime
geometries. Lett. Math. Phys., 48(1):8596, 1999. doi: 10 . 1023 / A : 1007523409317 (cited on
page 319).

[CM75]

D. M. Creedon and J. J. H. Miller. The stability properties of q -step backward dierence


schemes. BIT, 15(3):244249, 1975. doi: 10.1007/BF01933656 (cited on page 289).

[Cor+96]

R. M. Corless, G. H. Gonnet, D. E. G. Hare, D. J. Jeffrey, and D. E. Knuth. On the


Lambert W function. Adv. Comput. Math., 5(1):329359, 1996. doi: 10.1007/BF02124750 (cited
on page 311).

[Cry72]

C. W. Cryer. On the instability of high order backward-dierence multistep methods. BIT,


12(1):1725, 1972. doi: 10.1007/BF01932670 (cited on page 289).

[Dah56]

G. Dahlquist. Convergence and stability in the numerical integration of ordinary dierential equations. Math. Scand., 4:3353, 1956 (cited on pages 290, 292).

[Dah63]
[DP80]

Curtiss

and J. O.

Integration of sti equations. Proc. Nat. Acad. Sci.


10.1073/pnas.38.3.235 (cited on pages 277, 319).

Hirschfelder.

U.S.A., 38(3):235243, 1952.

doi:

doi:

10 . 1007 /

G. G. Dahlquist. A special stability problem for linear multistep methods. BIT, 3(1):2743, 1963.
10.1007/BF01963532 (cited on pages 316, 317).

doi:

J. R.

Dormand

and P. J.

A family of embedded Runge-Kutta formulae. J. Comput.


10.1016/0771-050X(80)90013-3 (cited on page 309).

Prince.

Appl. Math., 6(1):1926, 1980.

doi:

[Ehl69]

B. L. Ehle. On Pad approximation to the exponential function and A-stable methods for the numerical solution of initial value problems. Technical report (CS-RR 2010). Dept. AACS, University
of Waterloo, 1969 (cited on page 268).

[Eng69]

R. England. Error estimates for Runge-Kutta type solutions to systems of ordinary dierential
equations. Comput. J., 12(2):166170, 1969. doi: 10.1093/comjnl/12.2.166 (cited on page 308).

[Feh69]

E. Fehlberg. Low-order classical Runge-Kutta formulas with stepsize control and their application
to some heat transfer problems. Technical report (R-315). NASA, 1969 (cited on page 308).

[Goo67]

R. M.

Goodwin. A growth cycle. In C. H. Feinstein, editor, Socialism, capitalism and economic


growth. Essays presented to Maurice Dobb, pages 5458. Cambridge University Press, 1967 (cited

on page 249).
[Heu00]

K. Heun. Neue Methode zur approximativen Integration der Dierentialgleichungen einer unabhngigen Vernderlichen. Z. Math. Phys., 45:2338, 1900 (siehe Seite 264).

[HNW93]

E.

[Hol59]

C. S. Holling. Some characteristics of simple types of predation and parasitism. Can. Entomol.,
91(7):385398, 1959. doi: 10.4039/Ent9138-7 (cited on page 249).

[Hu56]

A. Hua. Une amlioration de la mthode de RungeKuttaNystrm pour la rsolution numrique


des quations direntielles du premier ordre. Acta Fac. Rerum Natur. Univ. Comenian. Math.,
1(IVVI) :201224, 1956 (cf. page 265).

[HW83]

E. Hairer and G. Wanner. On the instability of the BDF formulas. SIAM J. Numer. Anal.,
20(6):12061209, 1983. doi: 10.1137/0720090 (cited on page 289).

[HW96]

E. Hairer and G. Wanner. Solving ordinary dierential equations. II Sti and dierential-algebraic
problems. Volume 14 of Springer series in computational mathematics. Springer, second revised edi-

Hairer, S. P. Nrsett, and G. Wanner. Solving ordinary dierential equations. I Nonsti


problems. Volume 8 of Springer series in computational mathematics. Springer, second revised edi-

tion, 1993.

doi:

10.1007/978-3-540-78862-1 (cited on pages 274, 318).

tion, 1996 (cited on page 318).


[JN82]

R. Jeltsch and O. Nevanlinna. Stability and accuracy of time discretizations for initial value
problems. Numer. Math., 40(2):245296, 1982. doi: 10.1007/BF01400542 (cited on page 317).

322

RFRENCES

[Klo71]

R. W. Klopfenstein. Numerical dierentiation formulas for sti systems of ordinary dierential


equations. RCA Rev., 32:447462, 1971 (cited on page 314).

[KM27]

W. O. Kermack and A. G. McKendrick. A contribution to the mathematical theory of epidemics.


Proc. Roy. Soc. London Ser. A, 115(772):700721, 1927. doi: 10.1098/rspa.1927.0118 (cited on
page 253).

[Kro73]

F. T. Krogh. Algorithms for changing the step size. SIAM J. Numer. Anal., 10(5):949965, 1973.
doi: 10.1137/0710081 (cited on page 310).

[Kun61]

J. Kuntzmann. Neuere Entwicklungen der Methode von Runge und Kutta. Z. Angew. Math. Mech.,
41(S1):T28T31, 1961. doi: 10.1002/zamm.19610411317 (siehe Seite 267).

[Kut01]

W. Kutta. Beitrag zur nherungsweisen Integration totaler Dierentialgleichungen. Z. Math. Phys.,


46:435453, 1901 (siehe Seiten 261, 265, 283).

[Lam91]

J. D. Lambert. Numerical methods for ordinary dierential systems: the initial value problem. John
Wiley & Sons, 1991 (cited on pages 265, 313, 316, 318).

[Las88]

F. M. Lasagni. Canonical Runge-Kutta methods. Z. Angew. Math. Phys., 39(6):952953, 1988.


10.1007/BF00945133 (cited on page 320).

doi:

[Lin94]

E. Lindelf. Sur l'application de la mthode des approximations successives aux quations direntielles ordinaires du premier ordre. C. R. Acad. Sci. Paris, 118 :454457, 1894 (cf. pages 244,
318).

[Lip68]

R. Lipschitz. Disamina della possibilit d'integrare completamente un dato sistema di equazioni


dierenziali ordinarie. Ann. Mat. Pura Appl. (2), 2(1):288302, 1868. doi: 10.1007/BF02419619
(citato alle pagine 244, 318).

[Lor63]

E. N. Lorenz. Deterministic nonperiodic ow. J. Atmospheric Sci., 20(2):130141, 1963.


10.1175/1520-0469(1963)020<0130:DNF>2.0.CO;2 (cited on page 254).

[Lot10]
[Lot20]

doi:

A. J. Lotka. Contribution to the theory of periodic reaction. J. Phys. Chem., 14(3):271274, 1910.
10.1021/j150111a004 (cited on page 248).

doi:

A. J.

Lotka.

Analytical note on certain rhythmic relations in organic systems. Proc. Nat. Acad.
doi: 10.1073/pnas.6.7.410 (cited on page 248).

Sci. U.S.A., 6(7):410415, 1920.

[MC53]

A. R. Mitchell and J. W. Craggs. Stability of dierence relations in the solution of ordinary


dierential equations. Math. Comput., 7(42):127129, 1953. doi: 10 .1090 / S0025 - 5718 - 1953 0054350-0 (cited on page 289).

[Mer57]

R. H. Merson. An operational method for the study of integration processes. In Proc. Symp. Data
Processing, 1957, pages 110125 (cited on page 307).

[Mil26]

W. E. Milne. Numerical integration of ordinary dierential equations. Amer. Math. Monthly,


33(9):455460, 1926. doi: 10.2307/2299609 (cited on pages 276, 302).

[Mol08]

C. B. Moler. Numerical Computing with


9780898717952 (cited on page 311).

[Mou26]

F. R. Moulton. New methods in exterior ballistics. The University of Chicago Press, 1926 (cited
on page 319).

[MTN08]

P. J. Mohr, B. N. Taylor, and D. B. Newell. CODATA recommended values of the fundamental


physical constants: 2006. Rev. Mod. Phys., 80(2):633730, 2008. doi: 10.1103/RevModPhys.80.633
(cited on page 247).

[Mur02]

J. D. Murray. Mathematical biology. I. An introduction. Volume 17 of Interdisciplinary applied


mathematics. Springer, third edition, 2002. doi: 10.1007/b98868 (cited on page 254).
A. Nordsieck. On numerical integration of ordinary dierential equations. Math. Comput.,

[Nor62]

16(77):2249, 1962.

doi:

Matlab.

SIAM, revised edition, 2008.

doi:

10.1137/1.

10.1090/S0025-5718-1962-0136519-5 (cited on page 319).

[Nys25]

E. J. Nystrm. ber die numerische Integration von Dierentialgleichungen. Acta Soc. Sci. Fennicae,
50(13):155, 1925 (siehe Seite 276).

[Nr76]

S. P.
1976.

[Oli75]

J. Oliver. A curiosity of low-order explicit RungeKutta methods. Math. Comput., 29(132):1032


1036, 1975. doi: 10.1090/S0025-5718-1975-0391514-5 (cited on page 262).

Runge-Kutta methods with a multiple real eigenvalue only. BIT, 16(4):388393,


10.1007/BF01932722 (cited on page 270).

Nrsett.
doi:

323

CHAPITRE 8. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES ORDINAIRES

G.

[Pea90]

G. Peano. Dmonstration de l'intgrabilit des quations direntielles ordinaires. Math. Ann.,


37(2) :182228, 1890. doi : 10.1007/BF01200235 (cf. page 246).

[Phi58]

A. W. Phillips. The relation between unemployment and the rate of change of money wage rates
in the United Kingdom, 1861-1957. Economica, 25(100):283299, 1958. doi: 10.1111/j.14680335.1958.tb00003.x (cited on page 250).

[Pic93]

. Picard. Sur l'application des mthodes d'approximations successives l'tude de certaines quations direntielles ordinaires. J. Math. Pures Appl. (4), 9 :217272, 1893 (cf. pages 244, 318).

[Pol26]

B. van der Pol. On relaxation-oscillations. Philos. Mag., 2(11):978992, 1926.


14786442608564127 (cited on page 252).

[Ral62]

A. Ralston. Runge-Kutta methods with minimum error bounds. Math. Comput., 16(80):431437,
1962. doi: 10.1090/S0025-5718-1962-0150954-0 (cited on page 265).

[RG27]

L. F. Richardson and J. A. Gaunt. The deferred approach to the limit. Part I. Single lattice.
Part II. Interpenetrating lattices. Philos. Trans. Roy. Soc. London Ser. A, 226(636-646):299361,
1927. doi: 10.1098/rsta.1927.0008 (cited on page 306).

[Rob66]

H. H.

[Ros63]

H. H. Rosenbrock. Some general implicit processes for the numerical solution of dierential
equations. Comput. J., 5(4):329330, 1963. doi: 10.1093/comjnl/5.4.329 (cited on page 319).

[Run95]

C. Runge. ber die numerische Ausung von Dierentialgleichungen. Math. Ann., 46(2):167178,
1895. doi: 10.1007/BF01446807 (siehe Seiten 261, 264).

[SR97]

L. F. Shampine and M. W. Reichelt. The MATLAB ODE suite. SIAM J. Sci. Comput., 18(1):1
22, 1997. doi: 10.1137/S1064827594276424 (cited on pages 312, 313).

[SS88]

J. M. Sanz-Serna. Runge-Kutta schemes for Hamiltonian systems. BIT, 28(4):877883, 1988.


10.1007/BF01954907 (cited on page 320).

[St07]

C. Strmer. Sur les trajectoires des corpuscules lectriss dans l'espace sous l'action du magntisme
terrestre avec application aux aurores borales. Arch. Sci. Phys. Nat. Genve (4), 24 :518, 113158,
221247, 1907 (cf. page 319).

[Sun09]

K. F. Sundman. Nouvelles recherches sur le problme des trois corps. Acta. Soc. Sci. Fennicae,
35(9) :327, 1909 (cf. page 247).

[Tou98]

D. Tourns. L'origine des mthodes multipas pour l'intgration numrique des quations direntielles ordinaires. Rev. Histoire Math., 4(1) :572, 1998 (cf. page 319).

[Ver38]

Peano.

Sull'integrabilit delle equazioni dierenziali di primo ordine. Atti Accad. Sci. Torino

[Pea86]

Cl. Sci. Fis. Mat. Natur., 21:677685, 1886 (citato a pagina 246).

Robertson.

The solution of a set of reaction rate equations. In J.

Walsh,

doi:

10.1080/

editor, Numerical

analysis: an introduction, pages 178182. Academic Press, 1966 (cited on page 256).

doi:

P.-F. Verhulst. Notice sur la loi que la population poursuit dans son accroissement. Corresp. Math.

Phys., 10 :113121, 1838 (cf. page 248).

[Ver67]

L. Verlet. Computer experiments on classical uids. I. Thermodynamical properties of LennardJones molecules. Phys. Rev., 159(1):98103, 1967. doi: 10 . 1103 / PhysRev . 159 . 98 (cited on
page 320).

[Vol26]

V.

[Wan91]

Volterra. Variazioni e uttuazioni del numero d'individui in specie animali conviventi. Atti
Accad. Naz. Lincei Rend. Cl. Sci. Fis. Mat. Natur., 2:31113, 1926 (citato a pagina 248).
Q.-D. Wang. The global solution of the n-body problem. Celestial Mech. Dynam. Astronom.,

50(1):7388, 1991 (cited on page 247).

[WHN78]

G. Wanner, E. Hairer, and S. P. Nrsett. Order stars and stability theorems. BIT, 18(4):475
489, 1978. doi: 10.1007/BF01932026 (cited on page 290).

[Wil67]

O. B. Wildlund. A note on unconditionally stable linear multistep methods. BIT, 7(1):6570,


1967. doi: 10.1007/BF01934126 (cited on page 317).

[Wri70]

K. Wright. Some relationships between implicit Runge-Kutta, collocation and Lanczos methods,
and their stability properties. BIT, 10(2):217227, 1970. doi: 10 . 1007 / BF01936868 (cited on
page 269).

[Zed90]

H.

Zedan.

Avoiding the exactness of the Jacobian matrix in Rosenbrock formulae. Comput. Math.
doi: 10.1016/0898-1221(90)90011-8 (cited on page 312).

Appl., 19(2):8389, 1990.

324

Chapitre 9

Rsolution numrique des quations


direntielles stochastiques
Bien qu'tant largement utiliss et tudis, les modles mathmatiques dits dterministes bass sur des
quations direntielles ordinaires ne rendent pas toujours compte de la ralit des phnomnes considrs
de manire satisfaisante. En eet, dans de nombreux domaines d'application, les mesures exprimentales
ne sont que rarement conformes aux solutions prdites, des eets uctuants de l'environnement venant
perturber l'volution, quelque peu idalise par la reprsentation mathmatique, du phnomne considr.
Dans de tels cas de gure, on peut toutefois essayer d'amliorer le modle en le modiant par l'introduction
de processus alatoires dans le systme direntiel.
Un exemple historique de cette approche est celui de l'quation de Langevin 1 [Lan08], issue de l'criture du principe fondamental de la dynamique pour la modlisation du mouvement d'une particule en
suspension dans un uide 2 en quilibre thermodynamique,

dv
= 6r v + ,
(9.1)
dt
dans laquelle le scalaire m dsigne la masse de la particule considre et le vecteur v est son champ de
vitesse un instant donn. Le terme 6r v , avec la viscosit dynamique du uide, dans le membre
de droite de l'quation reprsente une force de frottements visqueux (en accord avec la loi de Stokes 3 ),
tandis que la force complmentaire 4 , rsultant des chocs alatoires incessants, causs par l'agitation
thermique, des molcules constituant le uide contre la particule, est l'origine de ce qu'on appelle le
mouvement brownien.
De manire plus gnrale, la prise en compte d'une composante alatoire dans la modlisation d'un
phnomne mne de manire courante la rsolution d'quations direntielles, qualies de stochastiques ,
de la forme
dX
(t, ) = f (t, X(t, )) + g(t, X(t, )) (t, ),
(9.2)
dt
dans lesquelles l'inconnue X et la quantit , assimile un  bruit , sont des processus alatoires.
Dans le prsent chapitre, nous nous intressons la rsolution approche d'quations direntielles
stochastiques par des mthodes de discrtisation similaires celles tudies dans le chapitre 8 et utilisant
des outils numriques permettant la simulation du hasard. Avant d'entrer dans le vif du sujet, nous allons
dans un premier temps nous attacher prciser la notion mme de solution d'une quation comme (9.2)
en lui donnant un sens mathmatique et fournir quelques exemples concrets de problmes dans lesquels
des quations direntielles stochastiques interviennent.
m

1. Paul Langevin (23 janvier 1872 - 19 dcembre 1946) tait un physicien franais, connu notamment pour sa thorie du
magntisme et l'organisation des Congrs Solvay.
2. On fait l'hypothse que la taille de la particule, suppose sphrique de rayon r, est grande devant celle des molcules
du uide.
3. George Gabriel Stokes (13 aot 1819 - 1er fvrier 1903) tait un mathmaticien et physicien britannique. Il t d'importantes contributions la mcanique des uides, l'optique et la physique mathmatique.
4. Langevin crit propos de cette force  qu'elle est indiremment positive et ngative, et sa grandeur est telle qu'elle
maintient l'agitation de la particule que, sans elle, la rsistance visqueuse nirait par arrter .

325

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

9.1

Rappels de calcul stochastique

Cette section est consacre au rappel de quelques notions de base de calcul stochastique qui permettront de rigoureusement introduire les quations direntielles stochastiques. Dans toute la suite, le
triplet (, A, P ) dsigne un espace de probabilit 5 .

9.1.1

Processus stochastiques en temps continu

Du point de vue de la modlisation, on peut assimiler une suite de variables alatoires relles 6 des
donnes fournies par une srie d'observations eectues au cours du temps. On concrtise mathmatiquement cette notion avec la dnition suivante.

Dnition 9.1 (processus stochastique) tant donn un espace de probabilit (, A, P ), un espace


mesurable (S, S) et un ensemble ordonn I , un processus stochastique (ou alatoire) valeurs dans

S est une famille de variables alatoires, dnies de (, A) dans (S, B), indexe par I .

L'espace S est appel l'espace des tats du processus. Un processus stochastique X = {X(t, ), t I}
est dit en temps discret si l'ensemble I est dnombrable et en temps continu si c'est un intervalle de
R, la variable t tant gnralement interprte comme le temps (et prenant typiquement ses valeurs
dans [0, +[). Dans ce second cas, pour tout vnement de , on appelle trajectoire (sample path en
anglais) du processus la fonction t 7 X(t, ) dnie sur I et valeurs dans S . Dans toute la suite, sauf
mention contraire, nous n'allons considrer que des processus stochastiques temps continu, en posant
I = [0, +[, rels, c'est--dire pour lesquels l'espace des tats est R (que l'on quipe de la tribu B(R)).
De plus, pour davantage de lisibilit, on notera le plus souvent X(t) la variable alatoire X(t, ) associe
tout lment t de I par un processus stochastique X .
tant donn deux processus stochastiques dnis sur un mme espace, on peut entendre en dirents
sens la relation d'galit entre ces processus. Ceci est l'objet des dnitions suivantes.

Dnition 9.2 (version d'un processus stochastique) On dit qu'un processus stochastique Y dni
sur (, A, P ) est une version ou une modication d'un processus X dni sur le mme espace si
P ({ | X(t, ) = Y (t, )}) = 1, t I.

Dnition 9.3 (galit des lois ni-dimensionnelles de deux processus stochastiques) On dit
que deux processus stochastiques X et Y dnis sur (, A, P ) ont mmes lois ni-dimensionnelles

si pour tout entier naturel non nul k et tout k -uplet (t1 , t2 , . . . , tk ) d'lments de I , on a galit des lois
des vecteurs alatoires (Xt1 , . . . , Xtk ) et (Yt1 , . . . , Ytk ).

Dnition 9.4 (processus stochastiques indistinguables) Deux processus stochastiques X et Y


dnis sur (, A, P ) sont dits indistinguables si P ({ | X(t, ) = Y (t, ), t I}) = 1.
Nous concluons cette sous-section en mentionnant quelques proprits particulires que peut possder
un processus stochastique.

Dnition 9.5 (processus stochastique stationnaire) Un processus stochastique X est dit stationnaire si, pour tout entier naturel non nul k, tout k-uplet (t1 , t2 , . . . , tk ) de points de I et tout lment s

de I , la loi du vecteur alatoire (X(t1 ), . . . , X(tk )) est celle du vecteur (X(t1 + s), . . . , X(tk + s)).

5. On rappelle que dsigne un ensemble non vide appel univers (sample space en anglais), que A est une tribu ou
-algbre sur (c'est--dire un ensemble non vide de parties de , stable par passage au complmentaire et par union
dnombrable) dont les lments sont des vnements et que P est une mesure de probabilit sur l'espace mesurable (, A)
(c'est--dire une application dnie sur A valeurs dans [0, 1], telle que la mesure de toute runion dnombrable d'lments
de A deux deux disjoints soit gale la somme des mesures de ces lments et telle que P () = 1).
6. On rappelle qu'une fonction Z de dans R est une variable alatoire relle si c'est une application mesurable de
(, A) dans (R, B(R)), o B(R) est la tribu borlienne de R. Cette condition de mesurabilit assure l'existence d'une mesure
de probabilit PZ sur (R, B(R)), telle que
PZ (B) = P ({ | Z() B}), B B(R),

et qu'on appelle la

loi de probabilit

de la variable alatoire. Enn, la fonction FZ de R dans R, dnie par FZ (z) =


fonction de rpartition de la variable alatoire.

PZ (] , z[) = P ({ | Z() < z}), est la

326

9.1. RAPPELS DE CALCUL STOCHASTIQUE

Dnition 9.6 (processus stochastique accroissements indpendants) Un processus stochastique X est dit accroissements indpendants si, pour tout entier naturel non nul k et tout k -uplet

(t1 , t2 , . . . , tk ) de points de I tels que t1 t2 tk , les variables alatoires X(t1 ), X(t2 ) X(t1 ),...,
X(tk ) X(tk1 ) sont indpendantes.

Dnition 9.7 (processus gaussien) Un processus stochastique rel X est dit gaussien si, pour tout
entier naturel non nul k et tout k -uplet (t1 , t2 , . . . , tk ) de points de I , le vecteur alatoire (X(t1 ), . . . , X(tk ))
est un vecteur gaussien 7 .

9.1.2

Filtrations et martingales *

Nous introduisons prsent une notion utilise pour rendre compte de l'accroissement de la quantit
d'information disponible au cours du temps, notamment celle fournie par l'observation d'un processus
stochastique donn.

Dnition 9.8 (ltration) Une ltration sur un espace mesurable (, A) est une famille croissante
(au sens de l'inclusion) de sous-tribus de A.
On dit qu'une ltration {Ft , t 0} est continue droite (resp. gauche ) si A VERIFIER

Ft =

Ft+ , t 0 (resp. Ft =

>0


Fs , t > 0).

0s<t

Cette mme ltration est dite complte par rapport une mesure de probabilit P si F0 contient l'ensemble
des parties de A ngligeables, c'est--dire de mesure nulle, pour P .
On appelle espace de probabilit ltr, et l'on note (, A, {Ft , t 0}, P ), l'espace de probabilit
(, A, P ) muni de la ltration compatible {Ft , t 0}.
Le concept de ltration permet de dnir une notion de mesurabilit des processus stochastiques
essentielle pour la construction de l'intgrale stochastique aborde dans la sous-section 9.1.4.

Dnition 9.9 (processus stochastique adapt une ltration) On dit qu'un processus stochastique {X(t), t 0} est adapt une ltration {Ft , t 0} si, pour tout t 0, la variable alatoire X(t)
est mesurable par rapport la tribu Ft .

Tout processus stochastique sur (, A, P ) engendre une ltration, qui est la plus petite ltration
rendant ce processus adapt et que l'on peut voir comme la quantit d'information apporte par la
connaissance du processus tout instant.

Dnition 9.10 (ltration naturelle) La ltration naturelle d'un processus stochastique X =


{X(t), t 0}, note F X , est la famille croissante de tribus engendres par {X(s), 0 s t}, t 0,
c'est--dire



F X = FtX = ({X(s), 0 s t}) , t 0 .
REVOIR, UTILE ? L'augmentation/La compltion de la ltration naturelle permet d'armer que si
deux variables alatoires X et Y sont gales presque srement par rapport la mesure P et que Y est
mesurable par rapport la tribu Ft alors X est galement mesurable par rapport Ft .
A DEPLACER ? INTRODUIRE : espaces Lp , moments (esprance, etc...)
REPRENDRE Rappelons prsent la notion d'esprance conditionnelle, que l'on peut interprter
comme la meilleure prvision possible d'une variable alatoire compte tenu de l'information disposition
un moment donn.
7. On rappelle qu'un vecteur alatoire est

gaussien

si toute combinaison linaire de ses composantes


est une variable



alatoire suivant une loi normale, c'est--dire ayant une densit de probabilit gale
et > 0 l'cart type de la loi.

327

1
2

1
2

, avec l'esprance

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

Dnition 9.11 (esprance conditionnelle) Soit Z une variable alatoire et B une sous-tribu de A.
de Z par rapport , ou sachant, B l'unique variable alatoire,

On appelle esprance conditionnelle


note E(Z|B), vriant

E(E(Z|B) 1B ) = E(Z 1B ), B B,
o 1B dsigne la fonction caractristique/indicatrice 8 du sous-ensemble B .

justication existence ? (projection hilbertienne pour le cas L2 , Radon-Nikodym pour L1 )


Nous pouvons prsent rappeler la notion de martingale.

Dnitions 9.12 (martingale, sous-martingale, sur-martingale) Soit (, A, {Ft , t 0} , P ) un

espace de probabilit ltr et {X(t), t 0} un processus stochastique adapt la ltration {Ft , t 0}.
On dit que X est une martingale (resp. sous-martingale, resp. sur-martingale) par rapport
{Ft , t 0} si
E (|X(t)|) < +, pour tout t 0,
E (X(t)|Fs ) = X(s) (resp. E (X(t)|Fs ) X(s), resp. E (X(t)|Fs ) X(s)), pour tout 0 s t.

Il dcoule de sa dnition qu'une martingale est un processus esprance constante. Elle modlise
ainsi est un jeu quitable, c'est--dire un jeu pour lequel le gain que l'on peut esprer faire en tout temps
ultrieur est gal la somme gagne au moment prsent. De la mme faon, une sous-martingale est
un processus esprance croissante (un jeu favorable) et une sur-martingale un processus esprance
dcroissante (un jeu dfavorable).

9.1.3

Processus de Wiener et mouvement brownien *

Les processus de Wiener 9 forment une classe particulirement importante de processus stochastiques
en temps continu. Ils sont une rpresentation mathmatique du phnomne physique de mouvement
brownien et interviennent dans de nombreux modles probabilistes utiliss, par exemple, en nance.

Dnition 9.13 (processus de Wiener standard) Un processus de Wiener standard est un


processus stochastique rel en temps continu {W (t), t 0} issu 10 de 0, dont les accroissements sont
indpendants et tel que, pour 0 s t, la variable alatoire W (t) W (s) suit une loi normale de
moyenne nulle et de variance gale t s.
AJOUTER continuit des trajectoires
REPRENDRE L'indpendance des accroissements d'un processus de Wiener standard se traduit encore par le fait que, pour 0 s t, la variable alatoire W (t) W (s) est indpendante de la tribu
({W (r), 0 r s}). La dernire condition de cette dnition implique la stationnarit des accroissements du processus, au sens o, pour 0 s t, la loi de la variable alatoire W (t) W (s) est celle de
la variable W (t s) W (0). Il en rsulte qu'un processus de Wiener standard est un processus gaussien
centr (E(W (t)) = 0) tel que 11 E(W (s)W (t)) = min(s, t) (autocovariance).
REPRENDRE
Notons qu'il existe diverses faons de prouver rigoureusement l'existence d'un processus de Wiener.
On peut tout d'abord choisir de prescrire des lois ni-dimensionnelles choisies de manire imposer les
(

si B
.
si
/B
9. Norbert Wiener (26 novembre 1894 - 18 mars 1964) tait un mathmaticien amricain, connu comme le fondateur de
la cyberntique. Il fut un pionnier dans l'tude des processus stochastiques et du bruit, contribuant ainsi par ses travaux
l'ingnierie lectronique, aux tlcommunications et aux systmes de commande.
10. Dire qu'un processus {W (t), t 0} est issu du point x signie que P ({W (0) = x}) = 1.
11. En prenant par exemple pour 0 s < t, il vient en eet
8. On rappelle que 1B () =

1
0

E(W (s)W (t)) = E(W (s)(W (s) + W (t) W (s))) = E(W (s)2 ) + E(W (s)(W (t) W (s)))
= s + E(W (s))E(W (t) W (s)) = s,

l'avant-dernire galit dcoulant de l'indpendance des accroissements du processus.

328

9.1. RAPPELS DE CALCUL STOCHASTIQUE

proprits d'indpendance et de normalit des accroissements et de stationnarit du processus EXPLICITER ?. Celles-ci s'avrant alors consistantes 12 , le thorme d'extension de Kolmogorov garantit qu'il
existe un processus stochastique les vriant. Si le processus ainsi obtenu n'est pas unique, il en existe
une version dont les trajectoires sont presque srement continues en vertu du critre 13 de Kolmogorov
Chentsov [Che56]. Une deuxime approche possible est de se rappeler qu'un processus de Wiener est
un processus gaussien et d'exploiter le fait que certains espaces vectoriels gaussiens sont des espaces de
Hilbert. (base hilbertienne de L2 ([0, 1]), fonctions de Haar 14 et approximation par fonctions de Schauder,
qui sont les primitives des fonctions de Haar (convergence uniforme en temps p.s. vers une fonction continue). Cette construction est proche celle originelle de Wiener [Wie23] et due Lvy et Ciesielski [Cie61].
On peut encore obtenir le processus de Wiener comme une limite, en un sens faible, de marches alatoires
normalises sur tout intervalle born. Ce rsultat, qui porte le nom de principe d'invariance de Donsker
[Don52], s'inspire de l'observation que, pour toute famille {i }iN de variables alatoires indpendantes,
de mme loi, centres et de variance gale 2 > 0, la suite des sommes partielles telle que

S0 = 0, Sn =

n
1 X

i , n 1,
n i=1

converge, d'aprs le thorme de la limite centrale, vers une variable alatoire de loi normale centre
rduite. Pour le dmontrer, on introduit la suite (W (n) )nN de processus stochastiques trajectoires
continues dnis par

bntc
X
1
i + (nt bntc) bntc+1 , t [0, +[, n N ,
W (n) (t) =
n i=1
dont les lois ni-dimensionnelles convergent, lorsque l'entier n tend vers l'inni, vers celles d'un processus
possdant toutes les proprits du processus de Wiener. Cette famille de processus tant par ailleurs
tendue 15 , on en dduit la convergence en loi de la suite vers le processus de Wiener.
4 - reprsentation par un dveloppement en srie analogue la reprsentation en srie de Fourier des
fonctions (dveloppement de Karhunen 16 Love 17 ) ?, les coecients du dveloppement sont des variables
12. ON doit vrier que : for all permutations of {1, . . . , k} and measurable sets Fi R,

t(1) ...t(k) F(1) F(k) = t1 ...tk (F1 Fk ) ;

et for all measurable sets Fi Rn , m N


t1 ...tk (F1 Fk ) = t1 ...tk tk+1 ,...,tk+m (F1 Fk Rn Rn ) .

13. REPRENDRE Ce rsultat s'nonce de la manire suivante :


tout

T > 0,

il existe des constantes

et

un processus stochastique

X = {X(t)}t0

tel que, pour

strictement positives telles que

E(|X(t) X(s)| ) C |t s|1+ , 0 s, t T,


possde une modication dont les trajectoires satisfont localement une condition de Hlder dont l'exposant est strictement

compris entre 0 et
. Pour un processus de Wiener, il est facile de montrer que le critre est vrai avec = 4, = 1 et

C = 3. En eet, ... PREUVE ? ? ? ? Par ailleurs, en introduisant une variable alatoire N de loi normale centre et d'cart
type gal 1, on a d'aprs la dnition ref, pour tous s, t 0 et p 1,
p 
 p


E (|W (t) W (s)|p ) = E |t s| N = |t s|p/2 E (|N |p ) .

En faisant alors tendre p vers l'inni, on obtient que l'exposant de la condition de Hlder a pour borne suprieure 1/2.
14. Alfrd Haar (Haar Alfrd en hongrois, 11 octobre 1885 - 16 mars 1933) tait un mathmaticien hongrois. TRADUIRE
His results are from the elds of mathematical analysis and topological groups, in particular he researched orthogonal
systems of functions, singular integrals, analytic functions, partial dierential equations, set theory, function approximation
and calculus of variations.
15. Cette notion de tension est relie celle de compacit relative. tant donn un espace mtrique S , on dit qu'une
famille de variables alatoires dont les lois de probabilit sont dnies sur (S, B(S)) est tendue si, pour tout > 0, il existe
un ensemble compact K S tel que P (K) 1 , pour toute mesure P associe la famille.
16. Kari Onni Uolevi Karhunen (12 avril 1915 - 16 septembre 1992) tait un mathmaticien et statisticien nlandais.
COMPLETER
17. Michel Love (22 janvier 1907 - 17 fvrier 1979) tait un mathmaticien et statisticien franco-amricain. COMPLETER

329

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

alatoires et les fonctions des fonctions trigonomtriques :


+
X
sin
W (t) = 2
Zk
k=0

 
k + 12 t

k + 12

avec {Zk }kN un suite de variables alatoires gaussiennes indpendantes centres rduites.
2, 5

W (t)

1, 5

1
0, 5

0
0, 5
0

0, 2

0, 4

0, 6

0, 8

Figure 9.1:

Simulation numrique d'une ralisation d'un processus de Wiener standard sur l'intervalle [0, 1].

Donnons quelques proprits lmentaires d'un processus de Wiener.

Thorme 9.14 (proprit de martingale d'un processus de Wiener) Un processus de Wiener

est une martingale par rapport la ltration naturelle.


Dmonstration.

VERIFIER et REPRENDRE Pour tout t > s > 0, on a

E(W (t)|Fs ) = E(W (t) W (s)|Fs ) + E(W (s)|Fs ) = E(W (t s)) + W (s) = W (s),

en vertu de la proprit direntielle et de la proprit des incrments indpendants.

dcoule 18

l'ingalit de Jensen 19


2

Il
de
que les processus stochastiques {W (t) , t 0} et, pour tout
rel strictement positif, {e W (t) , t 0} sont des sous-martingales par rapport la ltration naturelle
complte de W . Le rsultat suivant montre qu'en les modiant de manire dterministe, on obtient des
martingales.
exemples de martingales construites partir d'un processus de Wiener

Proposition 9.15 Soit W un processus de Wiener et F W sa ltration naturelle complte. Alors, les
2

processus {W (t) t, t 0} et, pour tout rel strictement positif, {e W (t)


martingales par rapport F W .
Dmonstration.

2
2

, t 0} sont des

REPRENDRE

E(W (t)2 |Fs ) = E(W (s)2 + 2 W (s)(W (t) W (s)) + (W (t) W (s))2 |Fs ) = W (s)2 + 0 + (t s).
E(e W (t) |Fs ) = e W (s) E(e (W (t)W (s)) |Fs ) = e W (s) E(e W (ts) |Fs ),
18. On rappelle en eet que, si est une fonction convexe sur un intervalle ]a, b[ et Z une variable alatoire d'esprance
nie valeurs dans ]a, b[, alors l'ingalit suivante, dite de Jensen,
(E(Z)) E((Z)),

est vraie.
19. Johan Ludwig William Valdemar Jensen (8 mai 1859 - 5 mars 1925) tait un mathmaticien et ingnieur danois. Il
est surtout connu pour l'ingalit et la formule qui portent son nom.

330

9.1. RAPPELS DE CALCUL STOCHASTIQUE

et
E(e W (ts) ) =

x2

2
e 2 (ts)
e x p
dx = e 2
2 (t s)

(ts)

par compltion du carr.

COMPLETER AVEC DEFINITIONS Les trajectoires d'un processus de Wiener ne sont presque
srement nulle part lipschitziennes (voir [PWZ33]), la borne sup obtenue pour l'exposant de rgularit
holdrienne est donc stricte, et donc non direntiables. Il en dcoule ( ?) qu'un processus de Wiener n'est
pas variation borne (DEFINITION), mais seulement variation quadratique borne.

9.1.4

Calcul stochastique d'It o **

Revenons prsent l'quation (9.2), laquelle on adjoint une condition initiale la date t = t0 . On
a coutume d'crire cette quation sous la forme direntielle symbolique

dX(t) = f (t, X(t)) dt + g(t, X(t)) (t) dt, t t0 ,

(9.3)

ou encore, comme dans le cas des quations direntielles ordinaires, sous la forme intgrale suivante
Z t
Z t
g(s, X(s)) (s) ds, t t0 .
(9.4)
f (s, X(s)) ds +
X(t) = X(t0 ) +
t0

t0

En considrant que le bruit qu'il modlise est l'origine d'un mouvement brownien, on peut assimiler 20
le processus stochastique un bruit blanc gaussien, c'est--dire un processus stationnaire et moyenne
nulle, dont la densit spectrale, c'est--dire la transforme de Fourier de son autocovariance C (t) =
E((s) (s + t)), est constante 21 , ce qui signie encore que C (t) = (t), o est une constante et
est la masse de Dirac 22 (une distribution 23 telle que (t) = 0 pour tout t 6= 0 et telle que
Z +
(s) (s) ds = (0),

pour toute fonction continue en 0).


Il dcoule alors du fait qu'un processus de Wiener est une reprsentation mathmatique du mouvement
brownien qu'une relation entre et W , obtenue empiriquement partir de (9.3), est

dW (t) = (t) dt.


Un bruit blanc gaussien apparat par consquent comme la  drive  d'un processus de Wiener. Les
trajectoires de ce dernier n'tant cependant nulle part direntiables, on voit que le bruit blanc n'existe
pas en termes d'une drive au sens classique, mais au sens des distributions, du processus W . En
rcrivant alors formellement (9.4) sous la forme
Z t
Z t
X(t) = X(t0 ) +
f (s, X(s)) ds +
g(s, X(s)) dW (s), t t0 ,
t0

t0

on comprend que toute la dicult pour dnir la solution d'une quation direntielle stochastique se
rsume la question dlicate de donner un sens mathmatique la seconde des deux intgrales crites
20. Les observations du mouvement brownien suggrent en eet que la force complmentaire apparaissant dans l'quation
de Langevin (9.1) est nulle en moyenne et que son temps de corrlation est beaucoup plus court (de l'ordre du temps de
collision de la particule avec les molcules du uide) que le temps caractristique de relaxation du champ de vitesse, donn
m
par 6r
, ce qu'on idalise en postulant que la corrlation est instantane.
21. Cette proprit donne son appellation au processus en raison d'une analogie avec la lumire blanche, dans laquelle
toutes les ondes lectromagntiques visibles l'il nu sont prsentes avec la mme intensit.
22. Paul Adrien Maurice Dirac (8 aot 1902 - 20 octobre 1984) tait un physicien et mathmaticien anglais dont les
contributions la mcanique et l'lectrodynamique quantiques furent fondamentales. Il a notamment formul l'quation
dcrivant le comportement des fermions et a prvu l'existence de l'antimatire. Il ft par ailleurs colaurat avec Schrdinger
du prix Nobel de physique de 1933  pour la dcouverte de formes nouvelles et utiles de la thorie atomique .
23. On rappelle qu'une distribution sur un ouvert born de Rd , d 1, est une application linaire continue sur l'ensemble
des fonctions valeurs relles indniment direntiables et support compact inclus dans .

331

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

ci-dessus. Pour cela, l'utilisation d'une formule d'intgration par parties n'est pas possible, l'application
g n'tant gnralement pas direntiable. Le recours la notion d'intgrale de Stieltjes 24 n'est pas non
plus envisageable puisque l'on a vu que les trajectoires d'un processus de Wiener ne sont pas variation
borne, mais seulement variation quadratique borne. C'est nanmoins cette dernire proprit qui
va permettre la construction de l'intgrale en question, dnissant ainsi la base du calcul stochastique
introduit par It o 25 .

Intgrale stochastique d'It


o
tant donn un processus de Wiener W , ainsi qu'un processus stochastique X , nous allons chercher
dnir l'intgrale stochastique
Z t
X(s) dW (s), 0 t < +.
(9.5)
0

Pour cela, l'ide naturelle prsidant la dnition de l'intgrale stochastique d'It


o [It44] est d'utiliser
un procd de construction similaire celui de l'intgrale de Riemann 26 (voir la section B.4 de l'annexe
B). Ceci suppose de la dnir tout d'abord pour toute une classe de processus  lmentaires , jouant
le rle d'analogues alatoires des fonctions en escalier, et d'en tendre la porte en approchant, en un
sens convenable, tout intgrand par une suite de processus lmentaires. L'intgrale stochastique est ainsi
obtenue par un passage la limite, entendu la encore en un sens appropri (celui de la convergence en
moyenne quadratique des suites de variables alatoires).
Pour parvenir une dnition raisonnable, il va falloir restreindre la classe des intgrands considrs
dans (9.5). Dans toute la suite de cette sous-section, nous faisons l'hypothse que le processus stochastique
X est
 mesurable par rapport B([0, +[)F W , o F W est la ltration naturelle du processus de Wiener
W,
 adapt la ltration F W ,
 tel que
Z

t

X(s) ds

< +, t 0.

On dit encore que ce processus est une fonctionnelle non-anticipative du processus de Wiener, car la
variable alatoire X(t), t 0, ne dpend que de faon causale de la trajectoire de W .
REMARQUE sur la compltion de F W si condition initiale alatoire
Introduisons

Dnition 9.16 (processus simple) Un processus stochastique , adapt une ltration {Ft , t 0},
est dit simple s'il existe une suite relle strictement croissante (ti )iN , avec t0 = 0 et limi+ ti = +,
et une suite (i )iN de variables alatoires bornes, pour laquelle la variable alatoire i est mesurable par
rapport Fti , i N, telles que

(t, ) = 0 () 1{0} (t) +

+
X

i () 1]ti ,ti +1] (t), t 0, .

i=0

Pour tout processus simple adapt F W , on peut dnir l'intgrale stochastique comme un processus donn par
+
X
i (W (min(ti+1 , t)) W (min(ti , t))), t 0,
i=0

24. Thomas Joannes Stieltjes (29 dcembre 1856 - 31 dcembre 1894) tait un mathmaticien hollandais. Il travailla
notamment sur les formules de quadrature de Gauss, les polynmes orthogonaux ou encore les fractions continues.
25. Kiyoshi It o ( en japonais, 7 septembre 1915 - 10 novembre 2008) tait un mathmaticien japonais. Ses apports
la thorie des probabilits et des processus stochastiques, au nombre desquels gurent le calcul stochastique ou la thorie
des excursions browniennes dits d'It o, furent fondamentaux et ont aujourd'hui des applications dans des domaines aussi
divers que la physique et l'conomie.
26. Georg Friedrich Bernhard Riemann (17 septembre 1826 - 20 juillet 1866) tait un mathmaticien allemand. Ses
contributions l'analyse et la gomtrie direntielle eurent une porte profonde, ouvrant notamment la voie aux gomtries
non euclidiennes et la thorie de la relativit gnrale.

332

9.1. RAPPELS DE CALCUL STOCHASTIQUE

soit encore, si t ]tm , tm+1 ],


m
X

i (W (ti+1 ) W (ti )) + m (W (t) W (tm )).

i=0

Dnition 9.17 (intgrale stochastique d'un processus simple) L'intgrale stochastique entre 0 et
t, t T , d'un processus simple (t )0tT est dnie par
Z

(s) dW (s) =,
0

o l'entier m est tel que t [tm , tm+1 [.

L'intgrale d'un processus simple vrie des proprits lmentaires suivante : linarit, continuit par
rapport t p. s., processus adapt,

Z t
Z t
(s) dW (s) = 0 si
E(|(s)|) ds < +
(9.6)
E
0

et (isomtrie d'It
o)

Z
E

2 ! Z t
Z t
=
E((s)2 ) ds si
E((s)2 ) ds < +,
(s) dW (s)
0

proprit de martingale...
rsultat (admis) de densit des processus simples de carr intgrables dans L2F () au sens de la
convergence en norme quadratique
Il est donc naturel de dnir cette intgrale comme une limite

(s) dW (s) = lim

n 0

n1
X

(ti )(W (ti+1 ) W (ti )),

i=0

avec convergence au sens des variables alatoires dans L2 (), en imposant au processus d'tre dans
L2 (, [0, T ]) et d'tre galement F -adapt an que ti soit indpendant de Wti+1 Wti .
rsultat d'existence de cette limite : intgrale stochastique d'It
o
outils : on utilise le rsultat suivant, que l'on admettra.

Lemme 9.18 ( lemme de Borel 27 Cantelli 28  [Bor09, Can17]) Si la somme des probabilits

d'une suite d'vnements (An )n0 est nie, alors la probabilit qu'une innit d'entre eux se ralisent
simultanment est nulle, ce qu'on crit encore


P (An ) < + P

n0

T+ S+
n=0

k=n

= 0,

n0

n0

o lim sup An =


lim sup An


Ak .

+ deux ( ?) lemmes prliminaires dont un de densit des processus simples dans les processus non
anticipatifs
Rt
CONCLURE avec proprits de l'intgrale : linarit, additivit, E( 0 X(s) dW (s)) = 0, l'intgrale
est mesurable par rapport F W (t) et c'est une martingale par rapport FtW
27. Flix douard Justin mile Borel (7 janvier 1871 - 3 fvrier 1956) tait un mathmaticien et homme politique franais.
Il gure parmi les pionniers de la thorie de la mesure et de son application la thorie des probabilits.
28. Francesco Paolo Cantelli (dcembre 1875 - 21 juillet 1966) tait un mathmaticien italien, surtout connu pour ses
travaux en probabilits et en statistiques.

333

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

Exemple de calcul d'une intgrale stochastique d'It


o. Supposons que l'on cherche calculer l'intgrale stochastique

W (s) dW (s)
0

en appliquant la dnition eqref. On a alors


lim

n 0

n1
X

W (ti )(W (ti+1 ) W (ti ))

n1
X

1
(W (ti+1 ) + W (ti ))(W (ti+1 ) W (ti )) (W (ti+1 ) W (ti ))2
lim
2 n 0 i=0

n1
X
1
1
W (t)2
lim
(W (ti+1 ) W (ti ))2 ,
2
2 n 0 i=0

i=0

dont on dduit que

W (s) dW (s) =
0

1
1
W (t)2 t.
2
2

(9.7)

Extensions de la classe d'intgrands : on peut admettre que X(t) dpende de variables alatoires
supplmentaires, indpendantes de W (t). Dans ce cas, il convient d'tendre la ltration F W de manire
adquate, W devant rester une martingale par rapport Rla ltration tendue.
t
2
On peut aussi aaiblir la dernire condition en P ( 0 X(s) ds < +) = 1, mais on n'a plus la
proprit de martingale en gnral

Formule d'It
o
La formule d'It
o est un outil de base du calcul stochastique caractrisant l'eet d'un changement de
variable sur l'volution d'un type particulier de processus, appel processus d'It
o.

Dnition 9.19 ( processus d'It o ) Un processus d'It


o est un processus stochastique X de la
forme

Z
X(t) = X0 +

(s) dW (s), t 0,

(s) ds +
0

(9.8)

o X0 est une variable alatoire F0 -mesurable, et sont des processus adapts F W tels que

t 0,

Z t

|(s)| + |(s)|

ds < + presque srement.

premier terme : la valeur initiale, X0 = x0 , pouvant tre alatoire, le deuxime : une composante
continue voluant lentement (drive), le dernier une composante alatoire continue variations rapides
(diusion), c'est une intgrale stochastique d'It
o par rapport au processus de Wiener W = {W (t), t 0}.
L'quation intgrale (9.8) est souvent crite sous la forme direntielle

dX(t) = (t) dt + (t) dW (t)

(9.9)

qui est appele une quation direntielle stochastique d'It


o.

Proposition 9.20 ( formule d'It


o ) REPRENDRE NOTATIONS ! Pour une fonction de deux
variables t et x de classe C 2 et un processus d'It
o dni par (9.8), on a

Z t
(t, X(t)) = (t0 , X(t0 )) +
t0

1
2
(s, X(s)) + (s)
(s, X(s)) + (s)2
(s,
X(s))
ds
s
x
2
x2
Z t

(s, X(s)) dW (s), (9.10)


+
(s)
x
t0

ce qu'on crit encore sous la forme direntielle suivante


d(t, X(t)) =


2

2
(t, X(t)) + (t)
(t, X(t)) + (t)
(t, X(t)) dt + (t)
(t, X(t)) dW (t).
2
t
x
2
x
x
(9.11)
334

9.1. RAPPELS DE CALCUL STOCHASTIQUE

Dmonstration.

A ECRIRE

On voit que la formule d'It


o constitue une gnralisation stochastique de la formule de drivation
des fonctions composes. Son utilisation permet de calculer simplement certaines intgrales stochastiques
sans revenir la dnition de ces dernires, la manire d'une formule d'intgration par parties.

Exemples d'applications de la formule d'It


o. Retrouvons l'identit (9.7) en utilisant la formule d'It o.
En faisant le choix (t, x) =

1
2

x2 et en posant t0 = 0 dans (9.10), il vient


Z t
Z t
1
1
W (t)2 =
ds +
W (s) dW (s),
2
0 2
0

d'o

1
1
W (t)2 t.
2
2
0
Considrons prsent l'valuation de l'intgrale stochastique
Z t
s dW (s).
W (s) dW (s) =

Pour cela, on pose (t, x) = t x. On trouve alors


Z t
Z t
t W (t) =
W (s) ds +
s dW (s),
0

d'o

Z
s dW (s) = t W (t)

W (s) ds.
0

Intgrale stochastique de Stratonovich


lien intgrale d'It o et somme de Riemann gauche, non anticipatif, le choix du point
milieu donne lieu
P  ti +ti+1 
29
(W (ti+1 )
l'intgrale stochastique de Stratonovich [Str66] : limite des sommes discrtes X
2

W (ti )).
si on intgre une variable dterministe, les deux intgrales fournissent le mme rsultat mais ce n'est
pas forcment le cas lorsqu'elle est alatoire

Exemple de calcul d'une intgrale stochastique de Stratonovich. Supposons que l'on cherche
calculer l'intgrale stochastique

W (s) dW (s).
0

Il vient
lim

n 0

n1
X
i=0


W

ti + ti+1
2


(W (ti+1 ) W (ti )) =
n1
X   ti + ti+1  W (ti+1 ) + W (ti ) 
1
W (t)2 lim
W

(W (ti+1 ) W (ti )),


n 0
2
2
2
i=0

d'o

W (s) dW (s) =
0

1
W (t)2 ,
2

que l'on ne manquera pas de comparer avec (9.7).

La dirence notable avec l'intgrale d'It


o est que la variable alatoire X

ti +ti+1
2

n'est pas ind-

pendante de la somme W (ti+1 ) W (ti ) et l'on n'a alors gnralement plus l'galit (9.6), ce qui peut
29. Ruslan Leontevich Stratonovich (Ruslan Leont~eviq Stratonoviq en russe, 31 mai 1930 - 13 janvier 1997) tait un
physicien et mathmaticien russe. Il est l'inventeur d'un calcul stochastique servant d'alternative celui d'It o et s'appliquant
naturellement la modlisation de phnomnes physiques.

335

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

compliquer certains calculs. En revanche, aucune direction du temps n'est privilgie par ce choix, ce qui
fait que la prescription de Stratonovich est largement utilise en physique statistique car les processus stochastiques qu'elle dnit satisfont des quations direntielles stochastiques invariantes par renversement
du temps.
MENTIONNER les mrites respectifs des deux intgrales
Il faut noter qu'il est possible de passer de l'une l'autre des prescriptions en eectuant des changements de variables simples ce qui les rend quivalentes. Le choix du type d'intgrale stochastique reste
donc avant tout une question de convenance.

9.1.5

quations direntielles stochastiques *

Nous considrons prsent des quations direntielles stochastiques de la forme

dX(t) = f (t, X(t)) dt + g(t, X(t)) dW (t),

(9.12)

avec f et g des fonctions dterministes mesurables, que nous munissons d'une condition initiale

X(0) = Z,

(9.13)

o Z est soit une constante, auquel cas la ltration F est uniquement celle engendre par le processus
de Wiener W , soit une variable alatoire de carr intgrable et indpendante de W , F dsignant alors la
ltration engendre par W et Z .

Dnition 9.21 (solution forte d'une quation direntielle stochastique) Un processus stochastique X est une solution forte de l'quation direntielle stochastique (9.12) sur l'intervalle [0, T ],
satisfaisant la condition initiale (9.13), s'il est adapt la ltration F sur [0, T ], satisfait

Z t

|f (s, X(s))| ds + |g(s, X(s))|

ds < + presque srement, t [0, T ],

et vrie

Z
X(t) = Z +

f (s, X(s)) ds +
0

g(s, X(s)) dW (s) presque srement t [0, T ].

Certaines quations direntielles stochastiques peuvent ne pas possder de solutions fortes, exemple
de l'quation de Tanaka
X(t) = sign(X(t)) dW (t),
(
1
si x 0
avec sign(x) =
(REVOIR la dnition de la fonction signe...)
1 sinon
EXPLICATION (brve) de la notion de solution faible (le processus de Wiener  porteur  n'est plus
spci l'avance, comme dans la notion de solution forte, mais fait partie intgrante de la solution)
unicit faible : les processus solutions ont tous la mme loi/ unicit forte (par trajectoire) : l'espace de
probabilit et le processus porteur tant xs, deux solutions X1 et X2 de l'quation sont indistinguables
(P (t [0, T ] | X1 (t) 6= X2 (t)) = 0)

Thorme 9.22 (existence et unicit d'une solution forte) Soit W un processus de Wiener de
ltration F , f : [0, T ] R R et g : [0, T ] R R des fonctions mesurables pour les tribus produit
de borliens pour lesquelles il existe une constante C > 0 telle que, t [0, T ], (x, y) R2 , on a la
condition de Lipschitz
|f (t, x) f (t, y)| + |g(t, x) g(t, y)| C |x y| ,
et la condition de restriction sur la croissance

|f (t, x)| + |g(t, x)| C (1 + |x|).


336

9.1. RAPPELS DE CALCUL STOCHASTIQUE

Alors, x R, X0 = x, l'quation direntielle stochastique (9.12) possde une unique solution forte,
trajectoires presque srement continues et vriant

Z
E

X(s) ds

< +.

0
Dmonstration.

A ECRIRE

explications + exemples d'quation explicitement intgrable ?

9.1.6

Dveloppements d'It
oTaylor *

Les dveloppements d'It


oTaylor [PW82] font partie des analogues stochastiques des dveloppements
de Taylor dterministes (voir par exemple le thorme B.114). Ils permettent, entre autres applications
en calcul stochastique, de contruire des mthodes numriques d'approximation des solutions d'quations
direntielles stochastiques (voir la section 9.3).
Considrons la solution forte d'une quation direntielle stochastique,
Z t
Z t
X(t) = X(t0 ) +
f (s, X(s)) ds +
g(s, X(s)) dW (s),
t0

t0

avec f et g des fonctions susamment rgulires satisfaisant les hypothses du thorme 9.22. En introduisant les oprateurs

1
2

+f
+ g 2 2 et L1 = g
,
L0 =
t
x 2
x
x
la formule d'It
o (9.10) donne alors, pour toute fonction de [t0 , T ] R dans R deux fois continment
direntiable,
Z t
Z t
(t, X(t)) = (t0 , X(t0 )) +
(L0 )(s, X(s)) ds +
(L1 )(s, X(s)) dW (s).
t0

t0

Si la rgularit de la fonction le permet, on peut de nouveau appliquer la formule d'It


o, en considrant
cette fois les fonctions L0 et L1 en place de . On trouve ainsi
Z t
Z t
(t, X(t)) = (t0 , X(t0 )) + (L0 )(t0 , X(t0 ))
ds + (L1 )(t0 , X(t0 ))
dW (s) + R1 ,
(9.14)
t0

t0

o le reste R1 est gal



Z t Z s
Z s
R1 =
(L0 L0 )(r, X(r)) dr +
(L1 L0 )(r, X(r)) dW (r) ds
t0

t0

Z t Z

t0
s

(L0 L1 )(r, X(r)) dr +


t0

t0


(L1 L1 )(r, X(r)) dW (r) dW (s).

t0

L'galit (9.14) est l'exemple le plus simple de dveloppement d'It


oTaylor non trivial. On peut
poursuivre le dveloppement du reste

Z t Z s 
Z t Z s
R1 = (L0 L0 )(t0 , X(t0 ))
dr ds + (L1 L0 )(t0 , X(t0 ))
dW (r) ds
t0

t0

t0

Z t Z

+ (L0 L1 )(t0 , X(t0 ))

dr
t0

t0

Z t Z

dW (s) + (L1 L1 )(t0 , X(t0 ))

t0

t0


dW (r) dW (s) + R2 ,

t0

pour obtenir le dveloppement d'It


oTaylor au second ordre suivant

(t, X(t)) = (t0 , X(t0 )) + (L0 )(t0 , X(t0 )) I(0) [1]t0 ,t + (L1 )(t0 , X(t0 )) I(1) [1]t0 ,t
+ (L0 L0 )(t0 , X(t0 )) I(0,0) [1]t0 ,t + (L1 L0 )(t0 , X(t0 )) I(1,0) [1]t0 ,t
+ (L0 L1 )(t0 , X(t0 )) I(0,1) [1]t0 ,t + (L1 L1 )(t0 , X(t0 )) I(1,1) [1]t0 ,t + R2 , (9.15)
337

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

dans lequel COMPLETER

R2 = ...
et l'intgrale multiple I [f ()], , avec un multi-indice de longueur l() suprieure ou gale un et
0 () () T , est dnie rcursivement par

I [f ()],

si l() = 0

fR ( )

I [f ()], ds
si l() 1 et l() = 0
=

R
I [f ()], dW (s) si l() 1 et l() = 1

INTRODUIRE NOTATIONS pour multi-indices, etc...


parler de la gnralisation tout ordre
Notons enn que l'on construit par un procd identique des dveloppements de StratonovichTaylor.

9.2

Exemples d'quations direntielles stochastiques

On a vu en dbut de chapitre, avec le cas de l'quation de Langevin et le phnomne du mouvement


brownien, que les quations direntielles stochastiques permettent de modliser des systmes dterministes de grande dimension un niveau microscopique par des systmes stochastiques de moindre
dimension un niveau macroscopique. Ces quations servent videmment dcrire des systmes qui sont
par essence alatoires, comme en mcanique quantique, mais aussi dont la dynamique prsente un comportement extrmement complexe, de type chaotique, et qui sont par consquent imprdictibles. Elles
interviennent encore lorsque l'on ne connat pas de faon prcise le systme dterministe tudi, pour
combler le manque d'information sur les conditions initiales, les conditions aux limites ou les paramtres
du modle, comme en hydrogologie par exemple.

9.2.1

Exemple issu de la physique ***

variantes stochastiques des exemples d'edo ?


Voir l'article de review de Chandrasekhar 30 [Cha43]

9.2.2

Modle de BlackScholes pour l'valuation des options en nance

Le modle de BlackScholes est un modle mathmatique d'volution des actifs nanciers permettant
de dnir le prix des produits drivs que sont les options et qui est aujourd'hui, avec ses diverses
extensions, couramment utilis sur les marchs.

Options
On rappelle qu'en nance, une option d'achat europenne (european call option en anglais) est un
contrat entre un acheteur et un vendeur donnant le droit, mais pas l'obligation, l'acheteur d'acqurir
un actif sous-jacent 31 (underlying asset en anglais) une date (future), dite date d'chance ou maturit
(expiration date ou maturity date en anglais), et un prix d'exercice (exercice price ou striking price en
anglais) tous deux xs l'avance. Ce contrat a lui-mme un prix, appel prime (premium en anglais).
Deux questions naturelles se posent au vendeur d'une option : quel doit tre le prix de ce contrat (on
parle d'valuation (du prix) de l'option, option pricing en anglais) et, une fois un tel produit vendu, quelle
attitude adopter pour se prmunir contre le risque endoss la place de l'acheteur (c'est le problme
de couverture du risque ) ? Cette double problmatique trouve sa rponse dans l'approche de Black 32 ,
30. Subrahmanyan Chandrasekhar (19 octobre 1910 - 21 aot 1995) tait un astrophysicien et mathmaticien amricain
d'origine indienne, co-laurat du prix Nobel de physique de 1983 pour ses tudes thoriques des processus physiques rgissant
la structure et l'volution des toiles.
31. Les actifs sous-jacents sont gnralement des actions, des obligations, des devises, des contrats terme, des produits
drivs ou encore des matires premires.
32. Fischer Sheey Black (11 janvier 1938 - 30 aot 1995) tait un conomiste amricain, connu pour avoir invent, avec
Myron Scholes, une formule d'valuation du prix des actifs nanciers.

338

9.2. EXEMPLES D'QUATIONS DIFFRENTIELLES STOCHASTIQUES

Scholes 33 [BS73] et Merton 34 [Mer73], qui consiste mettre en uvre une stratgie d'investissement
dynamique supprimant tout risque possible dans n'importe quel scnario de march.

Hypothses sur le march


L'incertitude sur le march nancier entre l'instant initial t = 0, correspondant la vente de l'option,
et le temps t = T , qui reprsente sa date d'chance, est modlise par un espace de probabilit ltr
(, A, {Ft , 0 t T }, P ), o l'ensemble contient les tats du monde, la tribu A est l'ensemble de
l'information disponible sur le march, la ltration {Ft , 0 t T } dcrit l'information accessible aux
agents intervenant sur le march au cours du temps et la mesure de probabilit P , dite historique, donne
la probabilit a priori de tout vnement considr.
Sous sa forme la plus simple, le modle de Black-Scholes ne considre que deux titres de base : un
actif sans risque (typiquement une obligation mise par un tat ne prsentant pas de risque de dfaut) et
un actif risqu (une action sous-jacente l'option par exemple), et fait un certain nombre d'hypothses
idalises sur le fonctionnement du march, savoir :
on peut vendre dcouvert sans restriction, ni pnalit,
les actifs sont parfaitement divisibles,
les changes ont lieu sans cot de transaction,
on peut emprunter et prter de l'argent un taux d'intrt sans risque (risk free rate en anglais)
constant r,
les agents ngocient en continu et l'on peut tout moment trouver des acheteurs et des vendeurs
pour les titres du march.
L'volution de la valeur de l'actif sans risque, dont le rendement est connu l'avance, est gouverne
par l'quation direntielle ordinaire suivante

dR(t) = r R(t) dt, t [0, T ],

(9.16)

et l'on a par consquent R(t) = R0 er t , t [0, T ].


On suppose galement qu'aucun dividende sur l'actif sous-jacent n'est distribu durant la vie de
l'option et que l'volution du cours de cet actif est celle d'un processus de Wiener gomtrique, c'est-dire qu'il satisfait l'quation direntielle stochastique suivante

dS(t) = S(t) ( dt + dW (t)) , t [0, T ]

(9.17)

o W est un processus de Wiener standard sous la probabilit P et les coecients et , avec > 0,
sont respectivement la tendance ou drive (drift en anglais) et la volatilit (volatility en anglais) de
l'actif 35 , toutes deux supposes constantes. Ce modle est le plus simple que l'on puisse imaginer pour
la dynamique du cours d'un actif tout en garantissant sa stricte positivit 36 .
L'ala provenant seulement du processus S dans ce cas, on a

Ft = ({S(s), 0 s t}) = ({W (s), 0 s t}), t [0, T ].


Le thorme (9.22) assure que l'quation (9.17), complte par la donne d'une condition initiale en t = 0,
admet une unique solution forte, dont l'expression est


S(t) = S0 e


t+ W (t)

, t [0, T ].

33. Myron Samuel Scholes (n le 1er juillet 1941) est un conomiste amricain d'origine canadienne. Il reut, avec Robert
Merton, le prix de la Banque de Sude en sciences conomiques en mmoire d'Alfred Nobel en 1997 pour ses travaux sur la
valorisation des produits drivs, notamment les options.
34. Robert Carhart Merton (n le 31 juillet 1944) est un conomiste amricain, connu son application d'une approche
mathmatique des processus stochastiques en temps continu l'conomie, et plus particulirement l'tude des marchs
nanciers. Il a reu, avec Myron Scholes, en 1997 le prix de la Banque de Sude en sciences conomiques en mmoire d'Alfred
Nobel pour sa participation la dcouverte du modle de BlackScholes de valorisation des options.
35. Ces deux quantits mesurent respectivement le rendement relatif espr et l'ampleur des variations du cours de l'actif
par unit de temps.
36. La distribution de la variable
 S(t) 2suit
 en eet une loi dite log-normale, c'est--dire que la variable alatoire ln(S(t))
suit une loi normale de moyenne 2 t et d'cart-type 2 t.

339

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

Stratgie de portefeuille autonance


Pour se prmunir contre le risque d'une possible volution dfavorable du cours de l'actif sous-jacent,
le vendeur de l'option va, en investissant sur le march nancier, construire un portefeuille de couverture
(delta neutral portfolio en anglais) rpliquant (parfaitement) le comportement de l'option. Le prix de ce
portefeuille, c'est--dire la somme que l'on doit y placer initialement pour raliser la couverture, dtermine
alors le prix de l'option.
Pour le modle considr, la stratgie nancire correspondante consiste en la donne de deux processus stochastiques et , adapts la ltration {Ft , 0 t T }, qui reprsentent les quantits respectives
d'actifs sans risque et risqu dtenues dans le portefeuille de couverture chaque instant et sont dtermins sur la base des informations disponibles au cours du temps. La valeur du portefeuille un temps
t donn est alors
V (t) = (t) R(t) + (t) S(t), t [0, T ].
(9.18)
La gestion dynamique aprs l'instant initial du portefeuille se faisant sans apport, ni retrait de fonds
extrieurs (on parle de portefeuille autonanant ), la variation instantane de V ne dpend que de la
variation de cours de l'actif risqu et du rendement de la somme place sur l'actif sans risque, c'est--dire
que l'on a
dV (t) = (t) dR(t) + (t) dS(t), t [0, T ],
(9.19)
soit encore, en tenant compte des quations (9.16), (9.17) et de la relation (9.18),

dV (t) = (r V (t) + ( r) (t)S(t)) dt + (t)S(t) dW (t), t [0, T ].

(9.20)

On observera que, pour avoir un sens, la condition d'autonancement (9.19) impose des restrictions sur
les processus et . On suppose donc dans toute la suite que l'on a
T

|(s)| + |(s)|

ds < + presque srement.

(9.21)

En pratique, on travaille gnralement avec des valeurs actualises (discounted values en anglais), par
rapport celle de l'actif sans risque, de l'actif et du portefeuille, c'est--dire les quantits

e = S(t) et Ve (t) = V (t) , t [0, T ].


S(t)
R(t)
R(t)
On trouve, en utilisant la formule d'It
o (9.11), que ces valeurs voluent respectivement selon les quations

e = S(t)
e (( r) dt + dW (t)) , t [0, T ],
dS(t)
et

e
dVe (t) = (t) dS(t),
t [0, T ],
montrant que la stratgie suivie est entirement dtermine par la donne de la somme initialement
investie dans le portefeuille et la connaissance du processus adapt .

Principe d'arbitrage et mesure de probabilit risque-neutre


La classe des stratgies de portefeuille dnies par la condition d'intgrabilit (9.21) reste trop large
pour prvenir les opportunits d'arbitrage, c'est--dire les possibilits de faire, sans aucun investissement
initial, une srie de transactions conduisant de manire certaine un prot 37 . Or, le principe d'absence
d'opportunit d'arbitrage, ncessaire la viabilit du march, interdit de telles stratgies.
37. Mathmatiquement, l'existence d'une opportunit d'arbitrage se traduit par celle d'une stratgie de portefeuille telle
que l'on a
V (0) = 0, P ({V (T ) 0}) = 1 et P ({V (T ) > 0}) > 0.

340

9.2. EXEMPLES D'QUATIONS DIFFRENTIELLES STOCHASTIQUES

On peut montrer que l'existence d'une mesure de probabilit Q, quivalente 38 la mesure P , sous
laquelle le cours de l'actif risqu est une martingale, allie au choix d'une stratgie minore ou vriant
une condition d'intgrabilit de la forme
!
Z T

2
e ds < +,
(s) S(s)
EQ
(9.22)
0

implique l'absence d'opportunit d'arbitrage.


Ici, l'existence d'une telle mesure Q est une consquence du thorme de Girsanov 39 [Gir60], sa densit
de Radon 40 Nikodym 41 par rapport P sur (, FT ) tant donne par

2
dQ
= e 2 T W (T ) ,

dP FT
o = r
est la prime de risque de l'actif, c'est--dire l'cart de rendement espr en contrepartie de
la prise de risque.
On observe que le prix actualis de l'actif risqu est une martingale sous la mesure Q. Ceci dcoule
en eet de la proposition 9.15, le processus Se satisfaisant sous Q l'quation direntielle stochastique

e = S(t)
e dW (t), t [0, T ],
dS(t)
o W est un processus de Wiener par rapport Q tel que W (t) = W (t) + t. Le cours non actualis
de l'actif risqu volue lui selon

dS(t) = S(t) (r dt + dW (t)) , t [0, T ].

(9.23)

Cette dernire quation fournit une interprtation de la mesure de probabilit Q, que l'on peut voir comme
celle qui rgirait le processus de prix de l'actif risqu si l'esprance du taux de rendement de celui-ci tait
le taux d'intrt sans risque, lui donnant le nom de mesure de probabilit risque-neutre (puisque, sous
elle, aucune prime n'est attribue la prise de risque).
Concernant la valeur actualise du portefeuille, il vient sous la mesure Q

e dW (t), t [0, T ],
dVe (t) = (t) S(t)
qui dnit bien une martingale sous la condition d'integrabilit (9.22), et l'on a alors, en vertu de la
dnition 9.12,
er t V (t) = er T EQ (V (T ) | Ft ) , t [0, T ],
avec

dV (t) = r V (t) dt + (t) S(t) (r dt + dW (t)) , t [0, T ].

Rplication et valuation de l'option


Considrons prsent une option d'achat europenne de maturit T et de prix d'exercice K sur un
actif nancier sous-jacent dont le prix l'instant t, 0 t T , est S(t). L'acheteur, aprs avoir pay
la prime C au vendeur l'instant initial t = 0, reoit l'instant t = T le gain (pay-o en anglais)
(S(T ) K)+ = max {S(T ) K, 0}. Pour sa part, le vendeur investit l'intgralit de la prime reue dans
un portefeuille autonanant de valeur V (t) au temps t, 0 t T , son objectif tant de couvrir le risque
en faisant en sorte que la valeur nale V (T ) du portefeuille soit celle du gain (S(T ) K)+ . Si cela est
38. tant donn un ensemble et une tribu A sur , deux mesures de probabilits P et Q dnies sur (, A) sont
si, pour tout A appartenant A, P (A) = 0 si et seulement si Q(A) = 0
39. Igor Vladimirovich Girsanov (Igor~ Vlad&
imiroviq Girsanov en russe, 10 septembre 1934 - 16 mars 1967) tait un
mathmaticien russe, connu pour ses contributions la thorie des probabilits et ses applications.
40. Johann Karl August Radon (16 dcembre 1887 - 25 mai 1956) tait un mathmaticien autrichien. Il uvra en thorie
de la mesure ainsi qu'en analyse fonctionnelle, et introduisit une transforme aujourd'hui couramment utilise pour la
reconstruction d'images en tomographie.
41. Otto Marcin Nikodm (13 aot 1887 - 4 mai 1974) tait un mathmaticien polonais. Il a travaill dans plusieurs
domaines des mathmatiques, comme la thorie de la mesure ou la thorie des oprateurs dans les espaces de Hilbert.

quivalentes

341

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

faisable, l'option est dite rplicable et, en l'absence d'opportunit d'arbitrage, son prix toute date est
bien dni et gal la valeur du portefeuille de couverture cette date. Un march dans lequel toutes
les options, ou plus gnralement tous les actifs contingents, sont rplicables est dit complet. Dans le cas
prsent, la compltude du march dcoule du fait que > 0.
Compte tenu de ces considrations, et en vertu d'une proprit de Markov vrife par le processus S ,
le prix de l'option l'instant t est donn par la quantit

V (t) = er (T t) EQ ((S(T ) K)+ | Ft ) = er(T t) EQ ((S(T ) K)+ | S(t)) = C(t, S(t)), t [0, T ],
qui est une fonction de la variable S(t). En particulier, le juste prix (fair price en anglais) de l'option est

C(0, S0 ) = er T EQ ((S(T ) K)+ ) = er T E ((X(T ) K)+ ) ,


avec

(9.24)

dX(t) = X(t) (r dt + dW (t)) , t [0, T ], X(0) = S0 .

La fonction valeurs relles C ainsi introduite tant rgulire, l'application de la formule d'It
o (9.11)
et l'utilisation de (9.23) donnent


2
C
1
C
2 C
(t, S(t)) dt +
(t, S(t)) + ( S(t))
(t, S(t)) dS(t), t [0, T ],
dC(t, S(t)) =
t
2
x2
x
ce qui permet, par identication avec la condition d'autonancement (9.19), de dterminer la stratgie
de couverture 42


1
2C
C
C
1
(t, S(t)) + ( S(t))2
(t,
S(t))
, (t) =
(t, S(t)).
(t) =
r R(t)
t
2
x2
x

Formule de BlackScholes
Les coecients des quations direntielles rgissant les cours des actifs tant constants, il est possible
d'expliciter la fonction C , dnie sur [0, T ] R+ par

C(t, x) = er (T t) E ((X(T ) K)+ ) ,


o

dX(s) = X(s) (r dt + dW (s)) , s [t, T ], X(t) = x,


en remarquant que la variable alatoire Xs suit une loi log-normale. Il vient alors

C(t, x) = er (T t)

(eu K)

1
2 2 (T
t)

ln(K)


2
2
uln(x)(T t) r 2

p
2 (T t)

du,

dont on dduit, aprs quelques calculs, la fameuse formule de BlackScholes

C(t, x) = x N (d1 (t, x)) K er (T t) N (d2 (t, x)),

(9.25)

o N est la fonction de rpartition de la loi centre rduite


Z x
u2
1
N (x) =
e 2 du,
2
  


1
x
2
d1 (t, x) =
ln
+ (T t) r +
,
K
2
T t
42. La quantit C
(t, S(t)) est appele le delta de l'option l'instant t et reprsente la sensibilit du prix de cette option
x
par rapport la valeur de l'actif sous-jacent cette date. Notons que l'on a encore
(t) =

1
R(t)


C(t, S(t)) S(t)

en vertu de l'quation (11.1).

342

C
(t, S(t))
x

9.2. EXEMPLES D'QUATIONS DIFFRENTIELLES STOCHASTIQUES

et

d2 (t, x) = d1 (t, x)

T t.

On a ainsi tabli que, dans le cadre du modle de BlackScholes, la prime d'une option de prix
d'exercice K et de date de maturit T sur un actif sous-jacent, dont le cours volue selon l'quation
(9.17), est donne par
C(0, x) = x N (d1 (0, x)) K er T N (d2 (0, x)),
o les quantits d1 (0, x) et d2 (0, x) ne dpendent que des prix x et K , de la date T , du taux d'intrt
sans risque r et de la volatilit , ce dernier paramtre tant le seul tre non directement observable.

Extensions et mthodes de Monte-Carlo


Le modle de BlackScholes permet galement l'valuation du prix d'une option de vente (put option
en anglais). Pour le rendre plus raliste, on peut l'tendre de faon prendre en compte un nombre d,
avec d 1, d'actifs risqus (dont les tendances et les volatilits pourront tre des fonctions dterministes
du temps et/ou des cours des actifs ou mme des processus stochastiques), le paiement de dividendes
ou encore l'utilisation de processus de Lvy 43 dont les incrments ne suivent pas une loi normale et les
trajectoires sont seulement des fonctions continues droite et admettant une limite gauche (cdlg en
abrg) en tout point en place de processus de Wiener.
plus ncessairement de formule explicite disposition
L'approche Monte-Carlo applique l'valuation du prix d'une option europenne [Boy77] consiste
en
- la simulation d'un nombre M de ralisations indpendantes de la solution S jusqu' la date de
maturit T (avec taux rendement = taux sans risque),
- le calcul des gains correspondants,
- approximation de l'esprance par une moyenne
M
1 X (k)
(XT K)+ ,
M
k=1

(k)

o XT est (l'approximation d')une ralisation de la valeur la date de maturit d'un processus satisfaisant (9.24).
- actualisation de la valeur en multipliant par er T
estimation du delta ou des autres grecques par dirences nies
+ remarque sur convergence lente, rduction de variance, variables antithtiques

9.2.3

Modle de Vasicek d'volution des taux d'intrts en nance **

INTRO On considre ici, comme ctait le cas avec le modle de BlackScholes dans la section prcdente, un modle continu en temps.
A VOIR

9.2.4

Quelques dnitions

A zero-coupon bond (obligation zro-coupon) price with maturity T is a security that pays 1 at time
T and provides no other cash ows between time t and T . Suppose that for any T there exists a zero
coupon with maturity T . Then, the price at time t of the zero coupon bond with maturity T is denoted
P (t, T ). We have P (T, T ) = 1.
The yield to maturity at time t, denoted Y (t, T ), is dened by

P (t, T ) = exp ((T t) Y (t, T )) .


43. Paul Pierre Lvy (15 septembre 1886 - 15 dcembre 1971) tait un mathmaticien franais, gurant parmi les fondateurs
de la thorie moderne des probabilits. On lui doit d'importants travaux sur les lois stables et sur les fonctions alatoires,
ainsi que l'introduction du concept de martingale.

343

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

the forward spot rate at time t with maturity T is




ln(P )
(t, )
.
f (t, T ) =

=T
we have

1
Y (t, T ) =
T t

f (t, u) du and P (t, T ) = exp

f (t, u) du .
t

the instantaneous spot rate is


R(t) = lim Y (t, T ) =
T t

ln(P )
(t, )


= f (t, t).
=T

The yield curve (courbe des taux) is given by the function 7 Y (t, ).
taux court instantan (limite du taux moyen quand le temps restant maturit tend vers zro, c'est
le taux court terme)
la courbe des taux est la fonction qui donne les dirents taux moyens de la date t en fonction de leur
maturit restante T t. on cherche dcrire la courbe des taux dans le futur en fonction de la courbe
observe aujourd'hui.
Dans le modle de Vasicek 44 [Vas77], on suppose que l'volution du taux court (spot rate en anglais)
S(t) est, sous la probabilit historique P , gouverne par l'quation direntielle stochastique

dS(t) = ( S(t)) dt + dW (t)

(9.26)

o > 0, , > 0 constantes, o est la moyenne long terme du taux, est la vitesse de retour, ou
d'ajustement, du taux court actuel vers sa moyenne long terme, est la volatilit du taux
La moyenne instantane est proportionnelle la dirence entre la valeur de et celle de S(t). Une
 force de rappel  tend ramener S(t) prs de la valeur de .
une solution explicite de (9.26) est
Z t
S(t) = + (S0 )e t + +
e(tu) dWu .
0

processus d'Ornstein 45 Uhlenbeck 46

appele un
si S0 R, alors Sy est une variable alatoire gaussienne de moyenne (S0 ) e t + et de variance
2

2 t
). En particulier, cette variable n'est pas positive. Plus gnralement, si S0 est une variable
2 (1 e
gaussienne indpendante du processus de Wiener W , le processus S est une fonction alatoire gaussienne
d'esprance E(S(t)) = (1 e t ) + e t E(S0 ) et de variance ...
Ce modle autorise donc les taux devenir ngatifs avec une probabilit non nulle, ce qui n'est pas
satisfaisant en pratique. Ceci est corrig par le modle de CoxIngersollRoss [CIR85]
p
dS(t) = ( S(t)) dt + S(t) dW (t), S(0) = 0,
qui prsente le mme eet de retour, mais reste positif.

9.3

Mthodes numriques de rsolution des quations direntielles stochastiques

Comme cela tait le cas pour les quations direntielles ordinaires tudies dans le prcdent chapitre,
on ne connat que rarement une forme explicite de la solution d'une quation direntielle stochastique
44. Oldich Alfons Vaek (n en 1942) est un mathmaticien tchque. Ses travaux sur la courbe des taux d'intrt ont
conduit la thorie  moderne  de ces derniers.
45. Leonard Salomon Ornstein (12 novembre 1880 - 20 mai 1941) tait un physicien hollandais, principalement connu
pour ses travaux en physique statistique.
46. George Eugene Uhlenbeck (6 dcembre 1900 - 31 octobre 1988) tait un physicien amricain d'origine hollandaise. Il
est connu pour avoir propos, avec Samuel Goudsmit, l'hypothse du spin de l'lectron en 1925.

344

9.3. MTHODES NUMRIQUES DE RSOLUTION DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

de la forme (9.9) et l'on fait donc appel une mthode numrique pour approcher cette solution. La
solution d'une quation direntielle stochastique tant un processus stochastique, il est important de
noter que la mthode utilise va calculer des trajectoires approches, c'est- -dire des approximations
de ralisations du processus. Pour cette raison, les dnitions de la consistance et la convergence d'une
mthode dirent (mais concident en l'absence d'ala) de celles donnes dans le cadre dterministe des
quations direntielles ordinaires.
Note : intervalles de temps : hn = tn+1 tn , n, on ne fera aucune considration d'adaptation/de
variation du pas et la grille de discrtisation est uniforme)
Dans toute la suite, {At , t 0} dsigne une ltration donne, gnralement associe au processus d'It
o
que l'on approche ou du procesus de Wiener sous-jacent.

9.3.1

Simulation numrique d'un processus de Wiener *

La possibilit de rsoudre numriquement une quation direntielle stochastique comme (9.9) repose
de manire fondamentale sur le fait de disposer d'une reprsentation numrique de ralisations d'un
processus de Wiener ou bien d'approximations de celles-ci. Nous allons pour celle raison nous intresser
la simulation numrique d'un processus de Wiener en prsentant deux mthodes, dont l'une s'inspire
directement de la dnition 9.13.
Ces techniques sont bases sur l'utilisation pratique d'une source de nombres susceptibles de reprsenter une ralisation d'une suite de variables alatoires indpendantes et de loi de probabilit donne.
La question de la gnration de tels nombres sur un calculateur tant absolument non triviale, nous
commenons par l'aborder dans le dtail.

Gnrateurs de nombres pseudo-alatoires


Pour obtenir une suite de nombres alatoires, une ide naturelle est d'avoir recours l'observation
de mcanismes  physiques  pouvant tre considrs comme imprvisibles, tels le lancer de ds ou de
pices de monnaie, le jeu de roulette, le brassage de billes ou de cartes suivi de tirages au sort, ou encore
la radioactivit, le bruit de Johnson 47 Nyquist 48 gnr par l'agitation thermique de porteurs de charge
dans un conducteur, le bruit de grenaille dans un composant lectronique ou d'avalanche dans un semiconducteur, certains mcanismes de la physique quantique, etc... Ce type de procd prsente cependant
plusieurs inconvnients. Tout d'abord, le phnomne en question et/ou l'appareil de mesure utilis pour
l'apprhender sourent gnralement d'asymtries ou de biais systmatiques qui compromettent le caractre uniformment alatoire des suites produites. Par ailleurs, la gnration des nombres peut s'avrer
trop lente pour certaines applications vises et le dispositif mis en jeu trop coteux et pas toujours able.
Enn, les suites obtenues sont gnralement non reproductibles.
Une alternative cette premire approche rside dans l'utilisation d'un gnrateur de nombres pseudoalatoires (pseudorandom number generator en anglais), qui est un algorithme fournissant une suite de
nombres faite pour prsenter, de manire approche 49 (d'o la prsence du prxe pseudo-), certaines

proprits statistiques du hasard, telles que l'indpendance entre les termes de la suite et une distribution
selon une loi de probabilit donne. Dans la plupart des cas, la gnration de tels nombres est accomplie
en deux temps, avec tout d'abord la gnration de valeurs jouant le rle d'une ralisation d'une suite de
variables alatoires continues, indpendantes et identiquement distribues suivant la loi uniforme sur l'intervalle [0, 1], puis l'application d'une transformation la suite produite de manire nalement obtenir
une suite de variables alatoires simules distribues suivant la loi dsire. Compte tenu de cette observation, nous ne prsenterons ici que des gnrateurs de nombres uniformment distribus, en mentionnant
brivement quelques techniques permettant la simulation de suites de variables alatoires suivant d'autres
lois de probabilit.

47. John Bertrand Johnson (n Johan Erik Bertrand, 2 octobre 1887 - 27 novembre 1970) tait un physicien et ingnieur
amricain d'origine sudoise. Il a t le premier expliquer l'origine du bruit d au passage de courant lectrique dans un
conducteur.
48. Harry Nyquist (n Harry Theodor Nyqvist, 7 fvrier 1889 - 4 avril 1976) tait un physicien et ingnieur amricain
d'origine sudoise. Il fut un important contributeur la thorie de l'information.
49. Sur ce point, on peut reprendre la phrase clbre de John von Neumann : Anyone who considers arithmetical methods
of producing random digits is, of course, in a state of sin. [Neu51].

345

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

Les gnrateurs de nombres pseudo-alatoires tant particulirement simples mettre en uvre et


souvent trs rapides, ils sont aujourd'hui employs dans de nombreux domaines, majoritairement pour la
simulation stochastique par des applications de la mthode de Monte-Carlo, mais aussi dans les machines
automatiques de jeux de hasard ou encore en cryptographie (pour la fabrication de cls de cryptage). Ils
se doivent par consquent de satisfaire une srie de critres quantitatifs et qualitatifs, portant la fois
sur leur fonctionnement et sur les suites qu'ils produisent, au nombre desquels on peut signaler :
l'absence de corrlation ou de dpendance entre les termes des suites et l'adquation des suites
la loi de distribution uniforme (les suites de nombres pseudo-alatoires obtenues doivent tre
en mesure de passer un certain nombre de tests statistiques visant vrier qu'elles ressemblent
des ralisations d'une suite de variables alatoires indpendantes uniformment distribues sur
[0, 1] ; en particulier, des d-uplets de termes, conscutifs ou non, doivent recouvrir uniformment
l'hypercube d-dimensionnel [0, 1]d pour des valeurs  raisonnables  de l'entier d),
la longueur de la priode des suites (les gnrateurs conduisent des suites priodiques, dont les
priodes se doivent d'tre les plus grandes possibles),
la reproductibilit (on doit tre en mesure de produire exactement la mme suite de nombres
pseudo-alatoires partir d'appels rpts d'un mme gnrateur),
la portabilit (on doit pouvoir gnrer exactement les mmes suites de nombres pseudo-alatoires
sur des machines direntes),
l'ecacit (on doit utiliser peu d'oprations arithmtiques et de ressources pour produire chaque
nombre pseudo-alatoire excessives et pouvoir exploiter les possibilits oertes par des processeurs
vectoriels ou l'architecture parallle d'un calculateur).
Le premier gnrateur de nombres pseudo-alatoires, la mthode du carr mdian (middle-square
method en anglais), fut propos par von Neumann 50 en 1949 [Neu51]. Son principe est extrmement
simple : il consiste prendre un nombre entier, appel graine (seed en anglais), t chires, avec t un

entier naturel pair, l'lever au carr pour obtenir un entier 2t chires (des zros non signicatifs
sont ajouts si l'entier obtenu contient moins de 2t chires) dont on retient les t chires du milieu
comme sortie (en divisant l'entier ainsi trouv par 10t , on obtient bien un nombre normalis contenu
dans l'intervalle [0, 1[). Il sut de ritr le procd pour construire une suite, le dernier nombre obtenu
servant de nouvelle graine. Bien que rapide, ce gnrateur ne possde qu'un intrt historique, car il
prsente plusieurs faiblesses rdhibitoires, telle qu'une priode courte (celle-ci ne peut dpasser 8t ) et
l'existence d'tats absorbants 51 .
Aujourd'hui largement rpandue, la classe des gnrateurs congruence linaire (linear congruential
generators en anglais) fut introduite par Lehmer en 1949 [Leh51]. Ces gnrateurs construisent une suite
d'entiers naturels (xn )nN partir d'une graine x0 suivant une relation de rcurrence de la forme

xn = (a xn1 + c)

mod m, n 1,

(9.27)

avec a, le multiplicateur, et m, le module, deux entiers strictement positifs et c, l'incrment, un entier positif
(le gnrateur tant dit multiplicatif lorsque c = 0). Cette suite prenant ses valeurs dans {0, . . . , m1}, on
obtient eectivement une suite de nombres normaliss contenus dans l'intervalle [0, 1[ en divisant chacun
de ses termes par l'entier m. Des choix pratiques de valeurs des entiers a, c et m sont, par exemple,
a = 65539, c = 0 et m = 231 pour le gnrateur RANDU de la bibliothque de programmes scientiques
des machines IBM System/360 fabriques dans les annes 1960 et 1970, a = 1103515245, c = 12345 et
m = 231 pour celui de la fonction rand() du langage ANSI C.
50. John von Neumann (Neumann Jnos Lajos en hongrois, 28 dcembre 1903 - 8 fvrier 1957) tait un mathmaticien
et physicien amricano-hongrois. Il a apport d'importantes contributions tant en thorie des ensembles, en analyse fonctionnelle, en thorie ergodique, en analyse numrique et en statistiques, qu'en mcanique quantique, en informatique, en
sciences conomiques et en thorie des jeux.
51. Si les chires du milieu du nombre lev au carr sont tous gaux 0 une itration donne, cela sera videmment le
cas pour tous les nombres suivants, rendant ainsi la suite constante partir d'un certain rang. Pour t = 4, ce phnomne
se produit galement avec les nombres 100, 2500, 3792 et 7600. Par ailleurs, certaines graines peuvent conduire des
cycles courts se rptant indniment (bbcomme 540-2916-5030-3009 pour t = 4 par exemple). Mentionnons enn que si la
premire moiti des chires d'un des nombre obtenu est uniquement compose de 0, les valeurs des nombres produits par
l'algorithme dcrossent vers 0. C'est le cas, pour t = 4, de la suite issue de l'entier 1926, qui  s'teint  aprs seulement
vingt-six itrations : 7094, 3248, 5495, 1950, 8025, 4006, 480, 2304, 3084, 5110, 1121, 2566, 5843, 1406, 9768, 4138, 1230,
5129, 3066, 4003, 240, 576, 24, 5, 0.

346

9.3. MTHODES NUMRIQUES DE RSOLUTION DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

Une suite de nombres pseudo-alatoires tant produite de faon dterministe une fois xs ces trois
paramtres et la graine, les proprits, et donc la qualit, d'un gnrateur congruence linaire dpend
crucialement des valeurs retenues, de mauvais choix conduisant des gnrateurs ayant de trs mauvaises
proprits statistiques. Un premier critre prendre en compte pour la slection des paramtres est celui
de la longueur de la priode du gnrateur. Lorsque l'incrment est non nul 52 , des conditions ncessaires
et susantes pour que cette longueur soit maximale (et donc gale m) sont donnes par le rsultat
suivant.

Thorme 9.24 (longueur de priode maximale pour un gnrateur congruentiel linaire


d'incrment non nul [HD62]) La suite dnie par la relation de rcurrence (9.27), avec c 6= 0, a une
priode de longueur gale m si et seulement si
 les entiers c et m sont premiers entre eux,
 pour chaque nombre premier p divisant m, l'entier a 1 est un multiple de p (i.e., a 1 mod p),
 si m est un multiple de 4, alors a 1 l'est galement (i.e., a 1 mod 4).

Notons que des considrations d'ordre pratique peuvent s'ajouter ces conditions, notamment pour
le choix de la valeur du module. En eet, sur une machine fonctionnant avec un systme de numration
binaire, il est avantageux de prendre m = 2w , o l'entier w reprsente le nombre de bits servant coder
la valeur absolue d'un entier sign (par exemple w = 31 pour un codage des entiers signs sur 32 bits),
car la division euclienne induite par la relation de congruence est alors ramene une simple troncature
et la division des termes de la suite par le module un dplacement du sparateur. Un inconvnient
majeur de ce choix est que les bits dits de poids faible (c'est--dire ceux situs le plus droite dans
la notation positionnelle) des nombres de la suite produite possdent une priode signicativement plus
courte que celle de la suite elle-mme, mettant ainsi facilement en vidence son caractre non alatoire.
Pour corriger ce problme, on choisit le module comme un nombre premier de Mersenne 53 (par exemple
m = M31 = 231 1 = 2147483647), la division euclidienne pouvant encore tre vite par une astuce
[PRB69].
La faiblesse fondamentale des gnrateurs congruence linaire, identie par Marsaglia 54 [Mar64], ne
provient cependant pas de la longueur de leur priode, mais du fait qu'une suite de d-uplets de nombres
normaliss produits par le gnrateur au cours d'une priode complte ne recouvre pas uniformment
le cube unit de dimension d avec une erreur de discrtisation de l'ordre attendu 55 et se rpartit sur
un nombre limit 56 d'hyperplans parallles et quidistants. Cette structure particulire s'explique par la
linarit ( congruence prs) de la relation de rcurrence (9.27). La corrlation induite est particulirement
catastrophique dans le cas du gnrateur RANDU pour d = 3, puisque l'on peut montrer que les triplets
de nombres successifs appartiennent seulement quinze plans dirents (voir la gure 9.2 pour une
52. Si l'incrment est nul, la longueur maximale de la priode est m 1 (0 tant un tat absorbant). Dans ce cas, le
thorme s'nonce ainsi (et se dduit de rsultats dus Carmichael [Car10]) :
Thorme 9.23 (longueur de priode maximale pour un gnrateur congruentiel linaire multiplicatif ) La
priode de la suite produite par un gnrateur congruentiel linaire multiplicatif est de longueur gale m1 si et seulement
si le module m est un nombre premier et que le multiplicateur a est une racine primitive modulo m.

Le concept de racine primitive modulo un entier est issu de l'arithmtique modulaire en thorie des nombres. Lorsque
le module est un nombre premier impair, il est possible d'expliciter la seconde condition en utilisant une caractrisation
disant que a est une racine primitive modulo m, si et seulement si a(m1)/p 1 est un multiple de m pour tout facteur
premier p de m 1. L'article [FM86] prsente une recherche exhaustive de multiplicateurs vriant cette condition avec
m = M31 . Pour cette valeur du module, le choix a = 75 = 16807 est recommand dans [PM88], donnant lieu au gnrateur
portant le nom de minimal standard (MINSTD).
53. Marin Mersenne (8 septembre 1588 - 1er septembre 1648) est un religieux, rudit, mathmaticien et philosophe franais.
On lui doit les premires lois de l'acoustique, qui portrent longtemps son nom.
54. George Marsaglia (12 mars 1924 - 15 fvrier 2011) tait un mathmaticien et informaticien amricain. On lui doit le
dveloppement de mthodes parmi les plus courantes pour la gnrations de nombres pseudo-alatoires et leur utilisation
pour la production d'chantillons de distributions diverses, ainsi que l'laboration de sries de tests visant mesurer la
qualit d'un gnrateur en dterminant si les suites de nombres qu'il fournit possdent certaines proprits statistiques.
55. Les termes de la suite prenant leurs valeurs dans un sous-ensemble discret de l'intervalle [0, 1] de la forme
1
, . . . , m1
, 1}, une suite de d-uplets peut au mieux recouvrir [0, 1]d avec un rseau rgulier de points dont l'espa{0, m
m
1
cement est de l'ordre de m
.
1
56. Il a t tabli que ce nombre d'hyperplans est major par (d!m) d .

347

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

illustration), ce qui explique pourquoi il est aujourd'hui considr comme l'un des plus mauvais jamais
invent.

1
0, 8
0, 6
0, 4
0, 2
0
1
0, 8
0, 6
0, 4
0, 2
0

0, 2

0, 4

0, 6

0, 8

Reprsentation de 4000 triplets de nombres pseudo-alatoires conscutifs issus d'une suite de 12000
termes construite par le gnrateur RANDU.
Figure 9.2:

Une gnralisation des gnrateurs congruence linaire consiste utiliser plus d'un tat pass pour
obtenir l'tat courant [Gru73], ce qui conduit une relation de rcurrence de la forme

xn = (a1 xn1 + a2 xn2 + + ak xnk + c)

mod m, n k,

l'entier k tant l'ordre du gnrateur. Si c = 0, le gnrateur est de type multiplicatif (on parle en anglais
de multiple recursive multiplicative congruential generator ) et la longueur maximale de sa priode est gale
mk 1 lorsque le module m est un nombre premier et que le polynme z k (a1 z k1 + a2 z k2 + + ak )
satisfait certaines conditions. Les suites qu'il produit ne possdent gnralement pas de bien meilleures
proprits vis--vis de la corrlation que celles issues des gnrateurs simples. Il est nanmoins possible, en
combinant plusieurs gnrateurs de ce type et moyennant un choix adapt de leurs paramtres, d'obtenir
un cot comparable des suites ayant un comportement satisfaisant une quantit raisonnable de tests
statistiques [L'E96].
On remarquera qu'en annulant tous les coecients, sauf deux que l'on prend gaux 1, dans la relation
de rcurrence ci-dessus, on obtient des suites rcurrentes rappelant la suite de Fibonacci, par exemple

xn = xnj + xnk

mod m, 0 < j < k, n k.

Diverses gnralisations de cette relation de rcurrence mnent des familles de gnrateurs, portant en
anglais le nom de lagged Fibonacci generators, dnies par

xn = xnj ? xnk

mod m, 0 < j < k, n k,

(9.28)

o ? dsigne une loi de composition interne parmi l'addition, la multiplication ou encore l'opration bit
bit de ou exclusif (XOR) si le systme de numration est binaire. Dans ce dernier cas, on dit que le
gnrateur est bas sur un registre dcalage rtroaction (feedback shift register en anglais) et fait
partie de la classe de gnrateurs introduite par Tausworthe [Tau65] puis gnralise par Lewis et Payne
348

9.3. MTHODES NUMRIQUES DE RSOLUTION DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

[LP73]. Indiquons que le gnrateur Mersenne twister [MN98], particulirement rput pour ses qualits,
est bas sur une modication de ce dernier type de gnrateur (twisted generalized feedback shift register
generator en anglais). Tirant son nom de la longueur de sa priode, qui est gale au nombre 219937 1,
ce gnrateur produit des suites uniformment distribues sur un trs grand nombre de dimensions (623)
tout en tant gnralement plus rapide que la plupart des autres gnrateurs.
Indiquons pour conclure cette numration que les gnrateurs prsents peuvent s'avrer susants
pour la plupart des applications l'exception de celles relatives la cryptographie. Dans ce domaine,
les gnrateurs doivent en eet pouvoir rsister des attaques en plus de satisfaire les tests statistiques
classiques. Dans ce contexte particulier, la rapidit avec laquelle le gnrateur produit des nombres n'est
pas primordiale et c'est l'imprvisibilit des sorties qui prime. Parmi les gnrateurs que l'on peut qualier
de cryptographiques, c'est--dire particulirement srs, on peut citer Blum Blum Shub [BBS86], dont la
scurit est assure par la complexit thorique du problme de la rsidualit quadratique 57 .
Parlons prsent des tests statistiques empiriques compltant l'analyse mathmatique thorique portant sur la longueur des priodes et l'uniformit de la distribution des termes des suites produites par un
gnrateur de nombres pseudo-alatoires. Ceux-ci vont en eet permettre d'assurer que les suites obtenues
sont de bonnes imitations de ralisations d'une suite de variables alatoires. Pour cela, on formule une
hypothse  nulle , qui postule que toute suite de nombres pseudo-alatoires produite par un gnrateur
est eectivement une ralisation d'une suite de variables alatoires indpendantes et identiquement distribues, de loi uniforme sur l'intervalle [0, 1]. On sait que cette hypothse est formellement fausse et un
test statistique a pour but de le dtecter partir d'un nombre ni de terme de cette suite. S'il est bien
sr formellement impossible qu'un gnrateur passe tous les tests imaginables, un compromis heuristique
est de se satisfaire d'un gnrateur qui russit un certain nombre de tests jugs  raisonnables . Ainsi,
on dira qu'un gnrateur est  mauvais  s'il choue aux tests statistiques les plus simples, alors qu'un
 bon  gnrateur les passera avec succs et ne sera mis en chec que par des tests labors. En pratique,
dirents tests statistiques visent mettre en vidence dirents types de dfauts et des batteries de
tests prdnis ont t ralises, parmi lesquelles on peut citer DIEHARD de Marsaglia et TestU01 de
L'cuyer et Simard [LS07] (on pourra consulter cette dernire rfrence pour une description dtaille de
toute une varit de tests statistiques).
On obtient des distributions autres qu'uniformes par des transformations : v. a. discrtes (A VOIR) :
dcoupage d'intervalles, mthode de rejet (rejection sampling ou acceptance-rejection method en anglais),
dont le principe date du problme de l'aiguille de Buon, amlioration de la complexit : mthode de
Walker [Wal77]
v. a. continues : mthode de la transforme inverse (inverse transform sampling en anglais) utilise
lorsque l'on sait valuer le rciproque de la fonction de rpartition, ce qui n'est pas sans dicult en
pratique, mthode de rejet
mthode pour des lois spciques, reposent sur les proprits des lois en question : Pour une distribution
gaussienne centre, il existe des mthodes algorithmiquement plus ecaces : rectangle-wedge-tail de
Marsaglia [Mar61], la mthode de Box 58 Muller [BM58] (mthode de rejet qui gnre une paire de
nombres alatoires distribution normale centre rduite partir d'une paire de nombres alatoires
distribution uniforme), la mthode polaire de Marsaglia [MB64] (variante de la prcdente mthode qui
vite l'valuation des fonctions trigonomtriques cosinus et sinus) ou encore la mthode ziggourat [MT00]
(dont le nom provient du fait qu'elle revient recouvrir l'aire sous la courbe de la densit de la loi avec des
rectangles empils par ordre de taille dcroissante, produisant une gure ressemblant une ziggourat 59 ).
57. Ce problme est celui de la distinction, l'aide de calculs, des rsidus quadratiques modulo n (c'est--dire des nombres
possdant une racine carre en arithmtique modulaire de module n), avec n un nombre compos (c'est--dire un entier
naturel non nul possdant un diviseur strictement positif autre que 1 ou lui-mme) x. Il est communment admis que ce
problme est  dicile , au sens o sa rsolution ncessite un nombre d'oprations arithmtiques grand par rapport la
taille de l'entier n.
58. George Edward Pelham Box (n le 18 octobre 1919) est un statisticien anglais. Il a apport d'importantes contributions
aux domaines de l'analyse des sries temporelles, de l'infrence baysienne et du contrle qualit.
59. Une ziggourat est un dice religieux msopotamien degrs, constitu de plusieurs terrasses.

349

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

Approximation d'un processus de Wiener


premire mthode : Les variables alatoires Wn sont indpendantes et suivent une loi normale
de moyenne nulle et de variance gale hn = tn+1 tn , i.e. E(Wn ) = 0 et E (Wn )2 = hn ,
n = 0, . . . , N 1.
inconvnient si l'on souhaite raner la subdivision de l'intervalle de temps (tous les calculs doivent
tre refaits)
seconde mthode ne possdant pas ce dfaut : renormalisation de marches alatoires, bas sur Donsker
(A VOIR)

9.3.2

Mthode d'EulerMaruyama

La mthode la plus simple est celle dite d'EulerMaruyama 60 [Mar55].


explications : comme pour les edo, consiste en l'approximation de la solution de l'quation direntielle
stochastique aux instants discrets tn (que l'on interpole si des valeurs des temps intermdiaires sont
requises)

Xn+1 = Xn + f (tn , Xn )(tn+1 tn ) + g(tn , Xn )(W (tn+1 ) W (tn )), n 0,

(9.29)

Obtenue en xant les valeurs des intgrands sur chaque intervalle de discrtisation en temps celle
qu'ils prennent au dbut de celui-ci/ partir d'un dveloppement d'It
oTaylor au premier ordre (UTILISER (9.14))

X(t)
valeur au temps t de l'interpole P1 par morceaux des valeurs approches produites par la
mthode :
t ti

(Xi+1 Xi ), t [ti , ti+1 [.


X(t)
= Xi +
ti+1 ti

9.3.3

Direntes notions de convergence et de consistance

A VOIR erreur globale


E

ou encore E


max |X(ti ) Xi |

i=0,...,N

!




.
sup X(t) X(t)

t[0,T ]

Dnition 9.25 (convergence forte) on a convergence forte avec un ordre p ]0, +] s'il existe une
constante K > 0 et 0 > 0 tels que


E


sup

|X(ti ) Xi |

K hp , h ]0, 0 [

i=0,...,N

NOTER que l'ordre p peut tre fractionnaire car E ((W (tn+1 ) W (tn )2 ) est d'ordre hn .
Dans le cas dterministe (g 0, cette notion de convergence concide avec celle introduite pour les
approximations de solutions d'quations direntielles ordinaires (voir la dnition 8.34). On a la notion
de consistante forte associe suivante.

Dnition 9.26 (consistance forte) c(h) 0 telle que c(h) 0 quand h 0,


E
et


E


2 !



X

X
n+1
n
E
| Atn f (tn , Xn )
c(h)

hn

1
2
|Xn+1 Xn E (Xn+1 Xn | Atn ) g(tn , Xn )(W (tn+1 ) W (tn ))|
h

(9.30)


c(h)

(9.31)

60. Gishir o Maruyama ( en japonais, 4 avril 1916 - 5 juillet 1986) tait un mathmaticien japonais. Il est
connu pour ses contributions l'tude des processus stochastiques.

350

9.3. MTHODES NUMRIQUES DE RSOLUTION DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

La condition (9.30) exprime que la moyenne des incrments de l'approximation converge vers celle
du processus d'It
o lorsque la longueur du pas de discrtisation tend vers 0. En l'absence d'ala, ceci
correspond la condition de consistance d'une mthode un pas dterministe (ESSAYER DE FAIRE
LE LIEN avec h1n n+1 ).
La condition (9.31) dit que la variance de la dirence entre la partie alatoire de l'approximation et
celle du processus d'It
o tend vers 0 avec h.
Cette notion de consistance traduit donc la proximit des trajectoires des approximations de celles du
processus d'It
o.

Lemme 9.27 La mthode d'EulerMaruyama est fortement consistante.


Dmonstration.

A ECRIRE

Dans de nombreuses applications cependant, il n'est pas ncessaire d'avoir une approximation dle
des trajectoires du processus d'It
o. On n'est souvent intress que par la valeur d'une certaine fonction
2
du processus l'instant nal, comme celle des moments E(X(T )), E(|X(T )| ) ou, plus gnralement,
E ((X(T ))) pour une fonction donne dans une classe particulire. Dans ce cas, il sut de seulement
bien approcher la distribution de probabilit de la variable alatoire XT et la convergence requise pour
l'approximation est alors entendue dans un sens plus faible que celui vu plus haut.

Dnition 9.28 (convergence faible) On dit qu'on a convergence faible avec un ordre p ]0, +[
2(p+1)

quand h tend vers 0 si, pour toute fonction appartenant l'espace CP


(Rd , R) des fonctions 2(p +
1) fois continment direntiables qui ont, avec leurs drives jusqu' l'ordre 2(p + 1), une croissance
polynomiale, il existe des constantes K > 0 et 0 > 0 telles que

|E ((X(T ))) E ((XN ))| K hp , h ]0, 0 [.

Dnition 9.29 (consistance faible) c(h) 0 telle que c(h) 0 quand h 0, que (9.30) est vrie
et

2 !




1
E
c(h)
(Xn+1 Xn )2 | Atn (g(tn , Xn ))2

hn

(9.32)

La condition (9.32) traduit le fait que la variance de l'approximation doit tre proche de celle du
processus d'It
o.
? ? ? Une manire naturelle de classer les mthodes numriques pour la rsolution des quations direntielles stochastiques est de les comparer avec des approximations fortes et faibles obtenues en tronquant
des formules d'It
oTaylor.
un schma pouvant converger en deux sens, il peut donc avoir deux ordres de convergence distincts.
L'ordre de convergence forte est cependant parfois moindre
dans le cas stochastique (par rapport au cas
p
dterministe), essentiellement parce que les quantits E((W (tn ))) sont d'ordre h1/2 (voir plus bas).
Nous allons ainsi montrer que la mthode d'EulerMaruyama converge fortement l'ordre 12 et faiblement
l'ordre 1
cas autonome
preuve de convergence forte sous l'hypothse de l'existence d'une unique solution forte du problme
continu considr

Thorme 9.30 (convergence


forte de la mthode d'EulerMaruyama) sous hypothses :
q
2

E(|X(t0 )| ) < +,

E(|X(t0 ) X0 | ) C1

h, condition de Lipschitz

|f (t, x) f (t, y)| + |g(t, x) g(t, y)| C2 |x y| ,


croissance linaire

|f (t, x)| + |g(t, x)| C3 (1 + |x|),


|f (t, x) f (s, x)| + |g(t, x) g(s, x)| C4 (1 + |x|)
351

|t s|,

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

t, s [t0 , t0 +T ], x, y Rd , o les constantes C1 , . . . , C4 ne dpendant pas de h. Alors, on a l'estimation





E
sup |X(ti ) Xi | C5 h,
i=0,...,N

avec C5 indpendante de h, et la mthode d'EulerMaruyama converge donc fortement l'ordre


Dmonstration.

1
2.

A ECRIRE

Note : lorsque le bruit est additif, i.e. g(t, x) = g(t), on a, en faisant des hypothse de rgularit sur
f et g un rsultat de convergence forte l'ordre 1
Concernant la convergence faible de la mthode d'EulerMaruyama, on a le rsultat suivant dans le
cas autonome.

Thorme 9.31 (convergence faible de la mthode d'EulerMaruyama) sous hypothses ..., la


mthode d'EulerMaruyama converge faiblement l'ordre un.
Dmonstration.

A ECRIRE

A VOIR : Talay-Tubaro [TT90] (article sur la mise en uvre de l'extrapolation la Richardson via
une expression pour le coecient d'erreur principal d'E-M) ?
L'cart entre l'ordre de convergence forte de la mthode d'EulerMaruyama et l'ordre de convergence
de son analogue dterministe s'explique en observant qu'on utilise le calcul direntiel  habituel , et non
le calcul d'It
o, dans l'tablissement du schma (9.29) partir de l'quation eqref. Ce faisant, on ne tient
pas compte du fait que le mouvement brownien n'est pas variation quadratique borne, de qui conduit
ngliger un terme d'ordre h, rendant ainsi impossible l'obtention d'un schma fortement convergent
l'ordre un. Le prise en compte de ce terme conduit l'obtention d'une mthode convergeant un ordre
suprieur (voir la section 9.3.5).
2, 5

2, 5

1, 5

1, 5

0, 5
0

0, 2

0, 4

0, 6

0, 8

0, 5
1

0, 2

0, 4

0, 6

0, 8

Simulation d'une ralisation de la trajectoire du processus d'It


o solution du problme eqref, avec
a = 1, 5, b = 1 et X0 = 1, sur l'intervalle de temps [0, 1] (en noir) et approximations numriques par les mthodes
d'EulerMaruyama (en rouge) et de Milstein (en bleu) pour h = 24 ( gauche) et h = 26 ( droite).
Figure 9.3:

ILLUSTRER ORDRE DE CONVERGENCE, par mthode de Monte-Carlo : on eectue M calculs de


trajectoires approches pour direntes simulations/ralisation du mouvement brownien et on approche
l'erreur globale par la moyenne empirique
M 


1 X

(k)
sup X(ti )(k) Xi .
M
i=0,...,N
k=1

352

9.3. MTHODES NUMRIQUES DE RSOLUTION DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

on doit en thorie tenir compte de l'erreur statistique (dcrot en 1M ), des erreurs inhrentes au
gnrateur de nombres pseudo-alatoires (problme d'indpendance des tirages quand h diminue), des
erreurs d'arrondi propres tout calcul numrique ralis en arithmtique en prcision nie



P

(k)
sup E(X(ti)) M1 M
k=1 Xi

100

100

101

101

102

sup M1


PM
(k)
(k)
Xi
k=1 X(ti )

101

102 3
10

102
h

Figure 9.4:

9.3.4

103 3
10

101

102
h

101

illustration de la convergence forte et faible de la mthode d'EulerMaruyama.

Stabilit

A ECRIRE
notion(s) de stabilit absolue pour ces mthodes
thorie linaire comme pour les edo : on considre l'quation direntielle stochastique dX(t) =
X(t) dt + dW (t), avec Re() < 0

9.3.5

Mthodes d'ordre plus lev

INTRO A ECRIRE, mthodes de Taylor

Mthode de Milstein
ce schma est bas sur un dveloppement d'It
oTaylor l'ordre un : faire le calcul en conservant tous
les termes d'ordre un et en dduire la mthode de Milstein [Mil75], faire aussi le lien avec les mthodes
de Taylor pour les edo (voir la sous-section 8.3.4)

Xn+1 = Xn + f (tn , Xn )(tn+1 tn ) + g(tn , Xn ) (W (tn+1 ) W (tn ))




1
g
2
+ g(tn , Xn )
(tn , Xn ) (W (tn+1 ) W (tn )) (tn+1 tn )
(9.33)
2
x
Rsultat de convergence l'ordre 1 fort et faible ( dmontrer)

Thorme 9.32 (convergence forte de la mthode de Milstein) sous hypothses, la mthode de


Milstein converge fortement l'ordre un.
Dmonstration.

A ECRIRE

Thorme 9.33 (convergence faible de la mthode de Milstein) sous hypothses, la mthode de


Milstein converge faiblement l'ordre un.
Dmonstration.

A ECRIRE

353

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

100



P

(k)
sup E(X(ti)) M1 M
k=1 Xi

100

101

102

101

102

sup M1


PM
(k)
(k)
Xi
k=1 X(ti )

101

103 3
10

102
h

Figure 9.5:

103 3
10

101

102
h

101

illustration de la convergence forte et faible de la mthode de Milstein (M = 100000).

Mthodes de RungeKutta stochastiques


il ne sut pas d'tendre formellement des mthodes de RungeKutta dnies pour des quations
direntielles ordinaires pour obtenir des mthodes convergeant vers la solution attendue... Application
formelle peut conduire des mthodes convergeant vers des limites qui ne sont pas solution au sens d'It
o
de l'quation (voir [Wri74, R82])

Mthodes multipas stochastiques


drives de manire heuristique et d'intrt limit (a voir)...
A DEPLACER Remarques sur les schmas implicites : on n'implicite pas la partie brownienne
mthode d'EulerMaruyama implicite

Xn+1 = Xn + f (tn+1 , Xn+1 )(tn+1 tn ) + g(tn , Xn )(W (tn+1 ) W (tn )), n 0,

9.4

Notes sur le chapitre

L'ouvrage de rfrence sur ce chapitre est sans nul doute le livre de Kloeden et Platen [KP99]. Cependant, on recommande galement l'article de Higham [Hig01], pour une introduction rapide et pdagogique
la rsolution numrique des quations direntielles stochastiques, et celui de Burrage, Burrage et Tian
[BBT04], pour un tour d'horizon relativement complet et rcent des dveloppements de mthodes un
pas dans ce domaine.
Brown 61 fut l'un des premiers observer le mouvement brownien, lors de l'tude de grains de pollen
en suspension dans l'eau, en 1827 [Bro28]. En 1900, Bachelier 62 , ayant peru le caractre alatoire des
uctuations des cours de la bourse, proposa dans sa thse [Bac00] la premire thorie mathmatique de
ce mouvement. Voulant tester la thorie cintique molculaire de la chaleur dans les liquides, Einstein 63 ,
dans une srie de trois articles publis en 1905 et 1906 [Ein05, Ein06a, Ein06b], donna une thorie du
mouvement brownien et montra comment ses mesures pouvaient conduire une dtermination prcises
61. Robert Brown (21 dcembre 1773 - 10 juin 1858) tait un botaniste cossais. Il t de nombreuses contributions la
taxinomie des plantes. Son usage pionnier du microscope le conduisit dcouvrir le noyau des cellules et la cyclose, ainsi
qu' faire une des premires observations du mouvement portant aujourd'hui son nom.
62. Louis Jean-Baptiste Alphonse Bachelier (11 mars 1870 - 26 avril 1946) tait un mathmaticien franais. Il est aujourd'hui considr comme le fondateur des mathmatiques nancires, ayant introduit dans sa thse l'utilisation du mouvement
brownien en nance.
63. Albert Einstein (14 mars 1879 - 18 avril 1955) tait un physicien thoricien ayant eu diverses nationalits. Il contribua
de faon considrable au dveloppement de la mcanique quantique et de la cosmologie par l'introduction de sa thorie de
la relativit restreinte en 1905, qu'il tendit en une thorie de la gravitation en 1915. Il reut le prix Nobel de physique en
1921, notamment pour son explication de l'eet photolectrique.

354

RFRENCES

des dimensions molculaires et du nombre 64 d'Avogadro 65 ; ce programme, ralis exprimentalement


par Perrin 66 en 1908 [Per09], permit d'tablir dnitivement l'existence des atomes et des molcules. De
manire indpendante, von Smoluchowski 67 mis prot sa conception du mouvement brownien en termes
d'une thorie cintique pour le dcrire comme une limite de promenades alatoires [Smo06]. Ce n'est que
prs d'une vingtaine d'annes plus tard que Wiener construisit de manire rigoureuse, en s'appuyant sur
la thorie de la mesure et l'analyse harmonique, un objet mathmatique dcrivant le phnomne [Wie23].
Le nom de mthode de Monte-Carlo, qui fait allusion aux jeux de hasard pratiqus dans le clbre casino d'un des quartiers de la cit-tat de la principaut de Monaco, a t invent en 1947 par Metropolis 68
et publi pour la premire fois en 1949 dans un article crit avec Ulam 69 [MU49].
Une rfrence incontournable sur les gnrateurs de nombres pseudo-alatoires est le second volume
de la monographie The art of computer programming de Knuth 70 [Knu97].

Rfrences
[Bac00]
[BBS86]
[BBT04]

[BM58]
[Bor09]
[Boy77]

L. Bachelier. Thorie de la spculation. Ann. Sci. cole Norm. Sup. (3), 17 :2186, 1900 (cf.
page 354).
L. Blum, M. Blum, and M. Shub. A simple unpredictable pseudo-random number generator. SIAM
doi: 10.1137/0215025 (cited on page 349).

J. Comput., 15(2):364383, 1986.

K. Burrage, P. M. Burrage, and T. Tian. Numerical methods for strong solutions of stochastic
dierential equations: an overview. Proc. Roy. Soc. London Ser. A, 460(2041):373402, 2004. doi:
10.1098/rspa.2003.1247 (cited on page 354).
G. E. P.

Box

and M. E.

Muller.

Math. Statist., 29(2):610611, 1958.

A note on the generation of random normal deviates. Ann.


10.1214/aoms/1177706645 (cited on page 349).

doi:

. Borel. Les probabilits dnombrables et leurs applications arithmtiques. Rend. Circ. Mat. Palermo, 27(1) :247271, 1909. doi : 10.1007/BF03019651 (cf. page 333).
P. P. Boyle. Options: a Monte Carlo approach. J. Finan. Econ., 4(3):323338, 1977. doi:

10.1016/0304-405X(77)90005-8 (cited on page 343).

[Bro28]

R. Brown. A brief account of microscopical observations made in the months of June, July and
August, 1827, on the particles contained in the pollen of plants ; and on the general existence of
active molecules in organic and inorganic bodies. Edinburgh New Philos. J., 5:358371, 1828 (cited
on page 354).

[BS73]

F. Black and M. Scholes. The pricing of options and corporate liabilities. J. Polit. Economy,
81(3):637654, 1973. doi: 10.1086/260062 (cited on page 339).

[Can17]

F. P.

Cantelli.

Sulla probabilit come limite della frequenza. Atti Accad. Naz. Lincei Rend. Cl.

Sci. Fis. Mat. Natur., 26(1):3945, 1917 (citato a pagina 333).

64. Ce nombre est le nombre d'entits lmentaires (des atomes, des molcules, des ions par exemple) dans une mole de
matire et correspond au nombre d'atomes contenus dans douze grammes de carbone 12 (un isotope stable du carbone de
masse atomique gale 12 u). Dans le systme international d'units, sa valeur recommande est 6, 02214179(30) 1023 mol1
[MTN08].
65. Lorenzo Romano Amedeo Carlo Avogadro, comte de Quaregna et de Cerreto, (9 aot 1776 - 9 juillet 1856) tait un
physicien et chimiste italien. Il est connu pour ses contributions la thorie atomique et molculaire de la matire.
66. Jean Baptiste Perrin (30 septembre 1870 - 17 avril 1942) tait un physicien, chimiste et homme politique franais. Il
reut le prix Nobel de physique en 1926 pour ses travaux sur la discontinuit de la matire et sa dcouverte de l'quilibre
de sdimentation.
67. Marian von Smoluchowski (28 mai 1872 - 5 septembre 1917) tait un physicien polonais, pionnier de la physique
statistique. On lui doit d'importants travaux sur la thorie cintique des gaz, au nombre desquels gurent notamment une
description du mouvement brownien et une explication du phnomne d'opalescence critique.
68. Nicholas Constantine Metropolis (11 juin 1915 - 17 octobre 1999) tait un physicien amricain. Il est connu pour son
dveloppement des mthodes de Monte-Carlo.
69. Stanisaw Marcin Ulam (13 avril 1909 - 13 mai 1984) tait un mathmaticien amricain d'origine polonaise, l'origine
de l'architecture des bombes thermonuclaires. Il t des contributions la thorie des ensembles, la thorie ergodique,
la topologie algbrique.
70. Donald Ervin Knuth (n le 10 janvier 1938) est un informaticien amricain. Il est un des pionniers de l'algorithmique et on lui doit de nombreuses contributions dans plusieurs branches de l'informatique thorique. Il est aussi l'auteur
de l'interprteur et langage TEX et du langage METAFONT, qui permettent la composition de documents, notamment
scientiques.

355

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

[Car10]

R. D. Carmichael. Note on a new number theory function. Bull. Amer. Math. Soc., 16(5):232
238, 1910. doi: 10.1090/S0002-9904-1910-01892-9 (cited on page 347).

[Cha43]

S. Chandrasekhar. Stochastic problems in physics and astronomy. Rev. Mod. Phys., 15(1):189,
1943. doi: 10.1103/RevModPhys.15.1 (cited on page 338).

[Che56]

N. N. Chentsov. Weak convergence of stochastic processes whose trajectories have no discontinuities


of the second kind and the heuristic approach to the KolmogorovSmirnov tests. Theory Probab.
Appl., 1(1):140144, 1956. doi: 10.1137/1101013 (cited on page 329).

[Cie61]

Z. Ciesielski. Hlder conditions for realizations of gaussian processes. Trans. Amer. Math. Soc.,
99(3):403413, 1961. doi: 10.1090/S0002-9947-1961-0132591-2 (cited on page 329).

[CIR85]

J. C.

Cox,

J. E.

Ingersoll, Jr.,

and S. A. Ross. A theory of the term structure of interest rates.


doi: 10.2307/1911242 (cited on page 344).

Econometrica, 53(2):385407, 1985.

[Don52]

M. D. Donsker. Justication and extension of Doob's heuristic approach to the KolmogorovSmirnov theorems. Ann. Math. Statist., 23(2):277281, 1952. doi: 10.1214/aoms/1177729445
(cited on page 329).

[Ein05]

A. Einstein. ber die von der molekularkinetischen Theorie der Wrme geforderte Bewegung von
in ruhenden Flssigkeiten suspendierten Teilchen. Ann. Physik, 322(8):549560, 1905. doi: 10.1002/
andp.19053220806 (siehe Seite 354).

[Ein06a]

A.

Eine neue Bestimmung der Molekldimensionen. Ann. Physik, 324(2):289306, 1906.


10.1002/andp.19063240204 (siehe Seite 354).

Einstein.

doi:

[Ein06b]

A. Einstein. Zur Theorie der Brownschen Bewegung. Ann. Physik, 324(2):371381, 1906.
1002/andp.19063240208 (siehe Seite 354).

[FM86]

G. S. Fishman and L. R. Moore, III. An exhaustive analysis of multiplicative congruential random


number generators with modulus 231 1. SIAM J. Sci. Statist. Comput., 7(1):2445, 1986. doi:
10.1137/0907002 (cited on page 347).

[Gir60]

I. V. Girsanov. On transforming a certain class of stochastic processes by absolutely continuous


substitution of measures. Theory Probab. Appl., 5(3):285301, 1960. doi: 10.1137/1105027 (cited
on page 341).

[Gru73]

A. Grube. Mehrfach rekursiv-erzeugte Pseudo-Zufallszahlen. Z. Angew. Math. Mech., 53(12):T223


T225, 1973. doi: 10.1002/zamm.197305312116 (siehe Seite 348).

[HD62]

T. T. Hull and A. R. Dobell. Random number generators. SIAM Rev., 4(3):230254, 1962.
10.1137/1004061 (cited on page 347).

[Hig01]

D. J. Higham. An algorithmic introduction to numerical simulation of stochastic dierential equations. SIAM Rev., 43(3):525546, 2001. doi: 10.1137/S0036144500378302 (cited on page 354).

[It44]

K. It. Stochastic integral. Proc. Imp. Acad., 20(8):519524, 1944.


(cited on page 332).

[Knu97]

D. E Knuth. Seminumerical Algorithms. Volume 2 of The art of computer programming. AddisonWesley, third edition, 1997 (cited on page 355).

[KP99]

P. E. Kloeden and E. Platen. Numerical solution of stochastic dierential equations. Volume 23


of Applications of mathematics. Springer, corrected third printing edition, 1999. doi: 10.1007/9783-662-12616-5 (cited on page 354).

[L'E96]

P. L'Ecuyer. Combined multiple recursive random number generators. Operations Res., 44(5):816
822, 1996. doi: 10.1287/opre.44.5.816 (cited on page 348).

[Lan08]

P. Langevin. Sur la thorie du mouvement brownien. C. R. Acad. Sci. Paris, 146 :530532, 1908
(cf. page 325).

[Leh51]

D. H.

doi:

doi:

10.

doi:

10.3792/pia/1195572786

Lehmer. Mathematical methods in large-scale computing units. In Proceedings of a second


symposium on large-scale digital calculating machinery. volume 26 of the annals of the computation

laboratory of Harvard University. Harvard University Press, 1951, pages 141146 (cited on page 346).

[LP73]
[LS07]

T. G. Lewis and W. H. Payne. Generalized feedback shift register pseudorandom number algorithm.
doi: 10.1145/321765.321777 (cited on page 349).

J. ACM, 20(3):456468, 1973.

P. L'Ecuyer and R. Simard. TestU01: a C library for empirical testing of random number generators. ACM Trans. Math. Software, 33(4), 2007. doi: 10 . 1145 / 1268776 . 1268777 (cited on
page 349).

356

RFRENCES

[Mar55]
[Mar61]

G. Maruyama. Continuous Markov processes and stochastic equations. Rend. Circ. Mat. Palermo,
4(1):4890, 1955. doi: 10.1007/BF02846028 (cited on page 350).
G.

Marsaglia.

Expressing a random variable in terms of uniform random variables. Ann. Math.


doi: 10.1214/aoms/1177704983 (cited on page 349).

Statist., 32(3):894898, 1961.

[Mar64]

G. Marsaglia. Random numbers fall mainly in the planes. Proc. Nat. Acad. Sci. U.S.A., 61(1):25
28, 1964. doi: 10.1073/pnas.61.1.25 (cited on page 347).

[MB64]

G. Marsaglia and T. A. Bray. A convenient method for generating normal variables. SIAM Rev.,
6(3):260264, 1964. doi: 10.1137/1006063 (cited on page 349).

[Mer73]

R. C. Merton. Theory of rational option pricing. Bell J. Econ. Manage. Sci., 4(1):141183, 1973.
doi: 10.2307/3003143 (cited on page 339).

[Mil75]

G. N.

Mil'shtejn.

Approximate integration of stochastic dierential equations. Theory Probab.


doi: 10.1137/1119062 (cited on page 353).

Appl., 19(3):557562, 1975.

[MN98]

M. Matsumoto and T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniform


pseudo-random number generator. ACM Trans. Model. Comput. Simul., 8(1):330, 1998. doi:
10.1145/272991.272995 (cited on page 349).

[MT00]

G.

[MTN08]

P. J. Mohr, B. N. Taylor, and D. B. Newell. CODATA recommended values of the fundamental


physical constants: 2006. Rev. Mod. Phys., 80(2):633730, 2008. doi: 10.1103/RevModPhys.80.633
(cited on page 355).

[MU49]

N. Metropolis and S. Ulam. The Monte Carlo method. J. Amer. Statist. Assoc., 44(247):335
341, 1949. doi: 10.1080/01621459.1949.10483310 (cited on page 355).

[Neu51]

Marsaglia

and W. W.

Tsang.

The ziggurat method for generating random variables. J.

Statist. Software, 5(8):17, 2000 (cited on page 349).

J. von

Neumann.

Various techniques used in connection with random digits. In A. S. HouseG. E. Forsythe, and H. H. Germond, editors, Monte Carlo Method. Volume 12, in
Applied mathematics series, pages 3638. National Bureau of Standards, 1951 (cited on pages 345,
346).

holder,

[Per09]

J. Perrin. Mouvement brownien et ralit molculaire. Ann. Chim. Phys. (8), 18 :5114, 1909 (cf.
page 355).

[PM88]

S. K. Park and K. W. Miller. Random number generators: good ones are hard to nd. Comm.
ACM, 31(10):11921201, 1988. doi: 10.1145/63039.63042 (cited on page 347).

[PRB69]

W. H. Payne, J. R. Rabung, and T. P.


generator. Comm. ACM, 12(2):8586, 1969.

[PW82]

E.

Platen

and W.

Wagner.

Bogyo.

doi:

Coding the Lehmer pseudo-random number


10.1145/362848.362860 (cited on page 347).

On a Taylor formula for a class of It processes. Probab. Math.

Statist., 3(1):3751, 1982 (cited on page 337).

[PWZ33]

R. E. A. C. Paley, N. Wiener, and A. Zygmund. Notes on random functions. Math. Z.,


37(1):647668, 1933. doi: 10.1007/BF01474606 (cited on page 331).

[R
82]

W. Rmelin. Numerical treatment of stachastic dierential equations. SIAM J. Numer. Anal.,


19(3):604613, 1982. doi: 10.1137/0719041 (cited on page 354).

[Smo06]

M. von Smoluchowski. Zur kinetischen Theorie der Brownschen Molekularbewegung und der Suspensionen. Ann. Physik, 326(14):756780, 1906. doi: 10.1002/andp.19063261405 (siehe Seite 355).

[Str66]

R. L. Stratonovich. A new representation for stochastic integrals and equations. SIAM J. Control,
4(2):362371, 1966. doi: 10.1137/0304028 (cited on page 335).

[Tau65]

R. C. Tausworthe. Random numbers generated by linear recurrence modulo two. Math. Comput.,
19(90):201209, 1965. doi: 10.1090/S0025-5718-1965-0184406-1 (cited on page 348).

[TT90]

D. Talay and L. Tubaro. Expansion of the global error for numerical schemes solving stochastic differential equations. Stochastic Anal. Appl., 8(4):483509, 1990. doi: 10.1080/07362999008809220
(cited on page 352).

[Vas77]

O. Vasicek. An equilibrium characterisation of the term structure. J. Finan. Econ., 5(2):177188,


1977. doi: 10.1016/0304-405X(77)90016-2 (cited on page 344).

[Wal77]

A. J. Walker. An ecient method for generating discrete random variables with general distributions. ACM Trans. Math. Software, 3(3):253256, 1977. doi: 10.1145/355744.355749 (cited on
page 349).

357

CHAPITRE 9. RSOLUTION NUMRIQUE DES QUATIONS DIFFRENTIELLES STOCHASTIQUES

[Wie23]
[Wri74]

N.

Wiener.

D. J.

Dierential space. MIT J. Math. Phys., 2:131174, 1923 (cited on pages 329, 355).

Wright.

The digital simulation of stochastic dierential equations. IEEE Trans. Automat.


doi: 10.1109/TAC.1974.1100468 (cited on page 354).

Control, 19(1):7576, 1974.

358

Chapitre 10

Mthodes de rsolution des systmes


hyperboliques de lois de conservation
COMPLETER INTRO
on s'intresse la rsolution de problmes de Cauchy composs d'un systme d'quations aux drives
partielles de la forme


d 
X
u
u
(t, x) +
Aj (u)
(t, x) = 0, x Rd , t > 0,
t
x
j
j=1

(10.1)

avec Aj , 1 j d, fonction rgulire d'un sous-ensemble de Rp valeurs dans Mp (R), complt par la
donne d'une condition initiale
u(0, x) = u0 (x), x Rd .
bien que systmes d'EDP, proches des systmes d'EDO

10.1

Gnralits sur les systmes hyperboliques

Dnition 10.1 (systme hyperbolique) Le systme d'quations (10.1) est dit hyperbolique dans
Pd
un ensemble U de Rp si et seulement si la matrice A(u, ) = j=1 j Aj (u) ne possde que des valeurs

propres relles et est diagonalisable pour tout vecteur u de U et tout de Rd . Il est dit
hyperbolique si toutes les valeurs propres de A(u, ) sont de plus distinctes.

strictement

Le sens du qualicatif  hyperbolique  n'apparat pas clairement dans cette dnition, qui concerne
des systmes d'quations aux drives partielles d'ordre un. Il provient en eet d'une classication particulire des quations aux drives partielles linaires d'ordre deux, que l'on rappelle dans le prambule
de cette partie. Nous aurons l'occasion de donner d'illustrer le lien entre ces deux types d'quations avec
l'exemple de l'quation des ondes dans la sous-section 10.2.7.
IMPORTANCE de l'hyperbolicit pour le caractre bien pos 1 d'un problme de Cauchy
EXEMPLE deux quations linaires (p = 2 et A(u) A) en une dimension d'espace (d = 1). :
Considrons le cas o la matrice A n'est pas diagonalisable dans R mais dans C : A = P 0 0 . On
peut supposer sans perte de gnralit que Im() < 0 et on note q un vecteur propre associe la
valeur propre . En prenant u0 (x) = eikx q , on obtient que la solution du problme est donne par
u(t, x) = eIm()kx ei(Re()ktkx) q . Il est clair que l'amplitude de la solution crot avec le temps t alors que
la donne u0 est borne dans L2 (R) : on n'a pas dpendance continue par rapport la donne.
dnition systme hyperbolique linaire/non-linaire
De trs nombreux exemples de systmes hyperboliques rsultent de l'criture d'une loi de conservation
(conservation law en anglais). Pour le voir, considrons un domaine arbitraire de Rd , de frontire
1. renvoyer la section 1.4.2 du premier chapitre

359

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

susamment rgulire pour que le vecteur normal n, unitaire et orient vers l'extrieur de , existe en
tout point du bord. Soit alors l'intgrale
Z
u(t, x) dx,

avec u une fonction de [0, +[Rd valeurs dans Rp , reprsentant la quantit d'un champ (masse,
quantit de mouvement, nergie...) contenue dans un instant donn t 0. tout moment, la
variation de cette quantit est gale au ux de u travers la frontire, ce que l'on rsume dans l'quation
de bilan
Z
d Z
X
d
u(t, x) dx +
f j (u)(t, x)nj dS = 0, t > 0,
dt
j=1
avec f j C 1 (Rp , Rp ). Le thorme de la divergence (ou thorme d'Ostrogradski 2 ) permet de recrire
l'intgrale sur la frontire sous la forme d'une intgrale sur le domaine, conduisant

d
dt

Z
u(t, x) dx +


d Z 
X

f j (u) (t, x) dx = 0, t > 0.


xj
j=1

(10.2)

En supposant la fonction u est susamment rgulire, on a alors en tout point


d 
X

u
(t, x) +
f (u) (t, x) = 0, x , t > 0,
t
xj j
j=1

(10.3)

ce que l'on peut encore crire


d 
X
u
u
(t, x) +
f j (u)
(t, x) = 0, x , t > 0.
t
xj
j=1

(10.4)

On retrouve alors un systme hyperbolique de la forme (10.1) en posant Aj (u) = f j (u).


La loi de conservation dcrite par l'quation (10.3) est dite sous forme conservative, par opposition
celle, dite forme non conservative, de l'quation (10.4). Dans la suite de ce chapitre, l'accent sera mis sur
l'tude et la rsolution numrique approche de lois de conservation scalaires en une dimension d'espace,
c'est--dire pour p = d = 1.
AJOUTER : systmes symtriques, mentionner proprits

10.2

Exemples de systmes d'quations hyperboliques et de lois


de conservation *

ondes de diverses natures, particules, etc...


De nombreux modles de la physique ou de la mcanique des milieux continus font intervenir des
quations hyperbolique non-linaires sous forme conservative. Celles-ci traduisent en eet de manire
fondamentale la conservation d'une quantit macroscopique (masse, quantit de mouvement, nergie
totale... d'un uide ou d'un solide) lorsque l'on nglige des phnomnes ayant lieu une petite chelle
microscopique (ds la viscosit, la capillarit ou encore la conduction thermique). COMPLETER les
non-linarits entranent l'apparition de singularits (ondes de choc) en temps ni...
2. Mikhail Vasilyevich Ostrogradski (Mihail Vasil~eviq Ostrogradski@
i en russe, 24 septembre 1801 - 1er janvier
1862) tait un mathmaticien et physicien russe. Ses travaux portrent notamment sur le calcul intgral, l'algbre, la
physique mathmatique et la mcanique classique.

360

10.2. EXEMPLES DE SYSTMES D'QUATIONS HYPERBOLIQUES ET DE LOIS DE CONSERVATION *

10.2.1

quation d'advection linaire **

Dans sa version linaire en une dimension d'espace, l'quation de transport est une l'une des quations
de type hyperbolique les plus simples

u
u
(t, x) + a
(t, x) = 0, x R, t > 0,
t
x
loi de conservation avec f (u) = a u, a : vitesse de propagation
A VOIR : intervient, seule ou couple d'autres quations, dans de nombreux modles en physique :
modle de trac routier, quations cintiques, dmographie ou renouvellement cellulaire...

10.2.2

Modle de trac routier *

REPRENDRE modle macroscopique : On considre la partie d'une section d'autoroute correspondant


l'un des sens de parcours, et plus particulirement une section sans bretelle d'accs ou de sortie. Le
domaine d'tude tant suppos grand devant la taille des vhicules, on assimile le trac au mouvement
d'un milieu continu monodimensionnel. On dsigne par (t, x) la densit de vhicules au temps t et au
point d'abscisse x, et par v()(t, x) la vitesse moyenne des vhicules en ce point.
Un modle de trac routier consiste relier via une loi la densit de voitures et leur vitesse moyenne.
On suppose que les conducteurs adaptent leur vitesse aux conditions de circulation de sorte que la vitesse
est une fonction dcroissante de la densit, et qu'il existe une valeur de saturation max pour laquelle v
s'annule : l'espace des tats est l'intervalle [0, max ]. La densit satisfait une loi de conservation dont le
ux est f () = v() qui est une fonction concave.
DONNER une forme typique en citant le modle de Lighthill 3 WhithamRichards [LW55, Ric56],
correspondant au choix



v() = vmax 1
max
A FAIRE : analyse qualitative
This model does not respect the fact that a car  in contrast to gas particles  is only stimulated by
the trac ow situation in front of it, whereas a gas particle is also inuenced by the situation behind
it. MODELE PLUS REALISTE [AR00]

10.2.3

quation de Boltzmann en mcanique statistique **

En thorie cinrique des gaz, l'quation de Boltzmann 4 [Bol72] est une quation intgro-dierentielle
linaire de type hyperbolique, dcrivant l'volution statistique d'un uide (gaz) peu dense hors d'quilibre
thermodynamique. Elle s'crit

f
f
(t, x, v) + v
(t, x, v) + (x, v) f (t, x, v) (K f )(t, x, v) = 0,
t
x
o f est la fonction de distribution une particule du gaz, t est la variable de temps, x la variable
d'espace, v la vitesse
terme de collisions, etc...

10.2.4

quation de Burgers pour la turbulence

L'quation de Burgers 5 non visqueuse,

u
u
(t, x) + u(t, x)
(t, x) = 0,
t
x
3. Sir Michael James Lighthill (23 janvier 1924 - 17 juillet 1998) tait un mathmaticien anglais, connu pour ses travaux
de recherche novateurs sur les ondes en dynamique des uides, et plus particulirement dans le domaine de l'aroacoustique.
4. Ludwig Eduard Boltzmann (20 fvrier 1844 - 5 septembre 1906) tait un physicien autrichien. Il est l'un des initiateurs
de la mcanique statistique et fut un fervent dfenseur de la thorie atomique de la matire.
5. Johannes Martinus Burgers (13 janvier 1895 - 7 juin 1981) tait un physicien nerlandais. On lui attribue notamment
l'invention d'une quation aux drives partielles en mcanique des uides et celle d'un vecteur caractrisant la dformation
d'un cristal engendre par une dislocation.

361

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

ici crite en une dimension d'espace et dans laquelle le champ u dsigne la vitesse d'un uide, constitue un
prototype d'quation hyperbolique scalaire non linaire. Elle correspond un cas particulier de l'quation

u
2u
u
(t, x),
(t, x) + u(t, x)
(t, x) =
t
x
x2
tudie par Burgers dans le cadre de la modlisation de la turbulence [Bur48], pour lequel la viscosit
cinmatique du uide a t nglige.

10.2.5

Systme des quations de la dynamique des gaz en description eulrienne

Le systme d'quations aux drives partielles gouvernant l'volution d'un coulement compressible
de uide non visqueux et sans conductivit thermique s'crit, en description eulrienne et sous forme
conservative,
3
X

(t, x) +
( uj )(t, x) = 0
t
x
j
j=1
3
X

( ui )(t, x) +
( ui uj + p ij )(t, x) = 0, i = 1, 2, 3,
t
x
j
j=1
3
X
E

(t, x) +
((E + p)ui ) (t, x) = 0,
t
x
j
j=1


 2
+
e
dsignant respectivement la masse volumique, la vitesse, la
les champs , u, p et E = kuk
2
pression et l'nergie totale par unit de volume du uide, avec e l'nergie interne par unit de masse du
uide. Ces quations, tablies par Euler en 1755 et publies en 1757 [Eul57], expriment la conservation
de la masse, de la quantit de mouvement et de l'nergie totale du uide au sein de l'coulement. Pour
fermer ce systme (on a en eet seulement cinq quations pour six inconnues), il faut prescrire une relation
constitutive, une quation d'tat, entre les variables dcrivant les tats d'quilibre du uide vu comme un
systme thermodynamique. Dans le cas d'un gaz parfait, on utilise la relation
p = e( 1),
drivant de la loi des gaz parfaits, la constante > 1 tant le rapport des chaleurs spciques pression
constante CP et volume constant CV du gaz. Le systme alors obtenu est hyperbolique.

10.2.6

Systme de Saint-Venant **

version 1D de shallow-water equations

10.2.7

quation des ondes linaire *

INTRO
en dimension 1 :

2u
2u
(t, x) c2 2 (t, x) = 0, x R, t > 0,
2
t
x

(10.5)

+ u(0, x) = et u
t (0, x) = ...
Cette quation constitue le premier modle de corde vibrante, nonc par D'Alembert 6 en 1747
[D'A49].
...
6. Jean le Rond D'Alembert (16 novembre 1717 - 29 octobre 1783) tait un mathmaticien, physicien, philosophe,
encyclopdiste et thoricien de la musique franais. Il est clbre pour avoir dirig avec Denis Diderot l'Encyclopdie ou
Dictionnaire raisonn des sciences, des arts et des mtiers.

362

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE

On peut se ramener un systme du premier ordre en posant v =

u
t

et w = c u
x , car on a alors

v
w

c
=0
t
x

w c v = 0
t
x
donc A =

10.2.8


0 c
, premier exemple de systme hyperbolique linaire
c 0

Systme des quations de Maxwell en lectromagntisme *

REPRENDRE ET COMPLETER Les quations de Maxwell 7 sont un systme d'quations aux drives partielles traduisant les lois de base de l'lectromagntisme qui rgissent l'lectrodynamique et
l'optique classiques. Elles dcrivent les interactions entre l'induction magntique B , le champ lectrique
E , le dplacement lectrique D et le champ magntique H via
loi de Faraday 8

B
(t, x) + rot (E(t, x)) = 0
t

(10.6)

D
(t, x) rot (H(t, x)) = 0
t

(10.7)

loi d'Ampre 9

dnition de l'oprateur rotationnel


on ferme le systme avec des relations constitutives. Par exemple, pour un conducteur parfait, on a

D = E et B = B,
avec la permittivit dilectrique et la permabilit magntique du milieu.

10.3

Problme de Cauchy pour une loi de conservation scalaire

Cette section est consacre la construction et l'tude de solutions du problme de Cauchy suivant,
base sur une loi de conservation scalaire en une dimension d'espace 10 ,

u
f (u)
(t, x) +
(t, x) = 0, t > 0, x R,
t
x
u(0, x) = u0 (x), x R,

(10.8)
(10.9)

les fonctions relles f et u0 tant donnes, pour lequel la thorie mathmatique est aujourd'hui quasiment
complte, la dirence de celle pour les systmes de lois de conservation que nous ne ferons qu'voquer
dans ces pages. Indiquons que ce modle peut tre rendu plus gnral en considrant une dpendance
explicite par rapport aux variables t et x du ux f ou encore un terme source de la forme g(u(t, x), t, x)
dans l'quation (10.8) (on parle dans ce dernier cas de balance law en anglais).
An de simplier la prsentation tout en facilitant l'introduction des principales notions, nous traitons
dans un premier temps le cas d'une quation linaire, avant de dvelopper la thorie dans le cadre gnral.
7. James Clerk Maxwell (13 juin 1831 - 5 novembre 1879) tait un physicien et mathmaticien cossais. Il est principalement connu pour avoir uni les quations de l'lectricit, du magntisme et de l'optique au sein d'une thorie consistante
de l'lectromagntisme et pour avoir dvelopp une mthode statistique de description en thorie cintique des gaz.
8. Michael Faraday (22 septembre 1791 - 25 aot 1867) tait un physicien et chimiste britannique, connu pour ses travaux
fondamentaux dans le domaine de l'lectromagntisme et de l'lectrochimie.
9. Andr-Marie Ampre (20 janvier 1775 - 10 juin 1836) tait un mathmaticien et physicien franais. Il inventa le premier
tlgraphe lectrique et est gnralement considr comme le principal initiateur de la thorie de l'lectromagntisme avec
ses travaux sur l'lectrodynamique.
10. L'ensemble des rsultats noncs reste valable pour des problmes poss en plusieurs dimensions d'espace.

363

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

10.3.1

Le cas linaire

Pour un problme linaire, la fonction f est de la forme f (u) = a u, avec a un rel non nul, et l'on est
ramen l'tude du problme de Cauchy suivant :

u
u
(t, x) + a
(t, x) = 0, t > 0, x R,
t
x
u(0, x) = u0 (x), x R.

(10.10)
(10.11)

Supposons la donne initiale u0 de classe C 1 sur R. La fonction u donne par

u(t, x) = u0 (x a t)

(10.12)

est alors de classe C 1 sur [0, +[R et satisfait la fois l'quation (10.11), puisque l'on a

u
u
(t, x) = a u00 (x a t) et
(t, x) = u00 (x a t),
t
x
et la condition initiale (10.11). Nous verrons dans la sous-section 10.3.2 que cette solution est l'unique
solution classique du problme. Dans l'immdiat, nous allons simplement nous contenter de remarquer
qu'elle vrie un certain nombre de proprits.
Tout d'abord, cette solution est globale, c'est--dire qu'elle est dnie pour toute valeur positive
de la variable t, et constante sur chacune des droites (parallles disjointes) du plan (x, t), d'quation
x = a t + x0 , x0 R. Elle prserve de plus la rgularit de la donne initiale et, le cas chant, sa norme
Lq , 1 q +, au sens o
ku(t, )kLq (R) = ku0 kLq (R) , t > 0,
cette dernire proprit dcoulant de l'invariance par translation de l'intgrale. On peut s'attendre ce
qu'il en soit de mme pour une donne initiale moins regulire, la question tant alors de donner une
signication approprie la notion de solution, l'quation (10.11) ne pouvant plus tre entendue au sens
habituel (voir la sous-section 10.3.3). Enn, l'information (lie la solution) se propage vitesse nie.
La formule (10.12) montre en eet que, en tout point (t, x), la valeur u(t, x) de la solution du problme
dpend uniquement de la valeur de la donne initiale au point x a t.
Le cas d'un systme de p quations linaires,

u
u
(t, x) + A
(t, x) = 0, t > 0, x R,
t
x
u(0, x) = u0 (x), x R,

(10.13)
(10.14)

avec u une fonction valeurs dans Rp et A une matrice d'ordre p, se traite de manire analogue en
supposant que le systme satisfait la proprit d'hyperbolicit introduite dans la dnition 10.1, c'est-dire que la matrice A est diagonalisable et ne possde que des valeurs propres relles. Il existe alors une
matrice P inversible telle que A = P P 1 , o est une matrice diagonale contenant les valeurs propres
i , i = 1, . . . , p, de A. En faisant le changement d'inconnue v = P 1 u, on obtient le problme

v
v
(t, x) +
(t, x) = 0, t > 0, x R,
t
x
v(0, x) = P 1 u0 (x), x R,
dont le systme contient p quations linaires dcouples, que l'on peut rsoudre explicitement par la
technique prcdente COMPLETER ?

v1 (0, x 1 t)

..
u(t, x) = P
.
.

vp (0, x p t)
Lorsque le systme est strictement hyperbolique, les valeurs propres de A sont distinctes et la valeur
u(t, x) de la solution dpend alors des valeurs de la condition initiale en p points eux aussi distincts. On
364

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE

donne cet ensemble le nom de domaine de dpendance de la solution du systme hyperbolique linaire
et on le note
D(t, x) = {z R | z = x i t, i = 1 . . . , p} .
(10.15)
DEFINITION dans un cas plus gnral (non linaire) : ensemble des points d'espace en lesquels un
changement dans la donne initiale est susceptible d'aecter la valeur de u(t, x). Ce domaine est born
(dlimit par des caractristiques) pour les quations hyperbolique car l'information se propage vitesse
nie
A VOIR : possibilit d'imposer des condition aux limites de type Dirichlet

10.3.2

Solutions classiques

Revenons prsent l'tude du problme de Cauchy pour une loi de conservation scalaire gnrale.
Nous supposons partir de maintenant la fonction f rgulire (au moins de classe C 2 ) et la donne
initiale u0 borne, c'est--dire qu'elle appartient l'espace L (R).
Nous commenons par donner une signication prcise la notion de solution telle qu'elle a t
sous-entendue jusqu' prsent.

Dnition 10.2 (solution classique) On dit que u est une solution classique de l'quation (10.8)

dans un ouvert O de [0, +[R si c'est une fonction de classe C 1 satisfaisant (10.8) point par point
dans O .

videmment, on ne peut avoir de solution classique du problme de Cauchy (10.8)-(10.9) que si la


donne initiale est au moins de classe C 1 . Cependant, mme lorsque c'est cas, il n'y a pas ncessairement
existence globale de ce type de solution ds que l'quation prsente une non-linarit. Pour le voir, nous
allons gnraliser la technique de construction de solution prcdemment propose, en montrant que celleci reste valable, au moins sur un intervalle de temps born. Nous introduisons tout d'abord la notion de
caractristique.

Dnition 10.3 (caractristique) Soit u une solution classique de l'quation (10.8). On appelle caractristique associe l'quation (10.8) toute courbe du plan (x, t) dnie par une courbe intgrale de
l'quation direntielle ordinaire

x0 (t) = f 0 (u(t, x(t))), t > 0.

Le point (x0 , 0) en lequel une telle courbe coupe l'axe des abscisses du plan (x, t) est appel le
caractristique.

(10.16)

pied

de la

On notera que l'on a existence et unicit, au moins localement, de solutions des problmes dnissant
les caractristiques ds que les hypothses du thorme de CauchyLipschitz (voir le thorme 8.10) sont
vries. On voit l un lien fort entre la thorie des quations direntielles ordinaires, rappele dans le
chapitre 8, et la rsolution des lois de conservation.
Le fait que les caractristiques dpendent de la solution du problme que l'on cherche rsoudre
semble a priori constituer une obstruction leur dtermination. La proprit suivante, qui repose sur
une observation dj faite dans le cas linaire, montre qu'il n'en est rien.

Proposition 10.4 Une solution classique de l'quation (10.8) est constante le long de toute caractristique dnie par (10.16).
Dmonstration.

Soit u une solution classique de l'quation (10.8). Le long d'une caractristique, il vient

u
u
u
u
d
(u(t, x(t))) =
(t, x(t)) + x0 (t)
(t, x(t)) =
(t, x(t)) + f 0 (u(t, x(t)))
(t, x(t))
dt
t
x
t
x
f (u)
u
=
(t, x(t)) +
(t, x(t)), t > 0,
t
x
qui est nulle en vertu de (10.8).


On dduit de ce rsultat que les caractristiques associes l'quation (10.8) sont des droites, dont
les pentes dpendent des valeurs initiales de la solution et, par consquent, de la donne initiale u0 . Le
long d'une caractristique, on a en eet

u(t, x(t)) = u(0, x(0)), t 0,


365

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

d'o

x0 (t) = f 0 (u(0, x(0))) = f 0 (u0 (x(0)), t > 0,

la caractristique issue de (x0 , 0) ayant alors pour quation

x(t) = x0 + f 0 (u0 (x0 )) t, t 0.


Pour rsoudre le problme (10.8)-(10.9), il sut donc de dterminer les caractristiques qui lui sont
associes, la valeur d'une solution classique u en un point (t, x) tant celle de la donne initiale au pied
de la caractristique passant par (t, x).
Ce procd de construction explicite de solutions classiques porte le nom de mthode des caractristiques . On remarque que pour que solution soit dnie sans ambigut, il faut qu'une, et une seule,
caractristique passe en chaque point du plan. Or, pour une fonction f quelconque, ces caractristiques
ne sont pas forcment parallles 11 . En eet, supposons qu'il existe deux rels x1 et x2 tels que x1 < x2
et
1
1
< 0
.
f 0 (u0 (x1 ))
f (u0 (x2 ))
On sait d'aprs la prcdente proposition que la solution est constante sur toute caractristique et donc,
en particulier, sur les droites d'quations respectives

x(t) = x1 + f 0 (u0 (x1 )) t et x(t) = x2 + f 0 (u0 (x2 )) t, t 0.


Or, ces deux droites se croisent (voir la gure 10.1), ce qui implique que la solution doit prendre la fois
la valeur u0 (x1 ) et la valeur u0 (x2 ) en leur point d'intersection. Elle ne peut donc y tre continue et cesse
alors d'tre une solution classique.

0
Figure 10.1:

linaire.

x1

x2

Exemple de caractristiques se croisant pour un problme de Cauchy (10.8)-(10.9) de ux non

Insistons sur le fait que ce phnomne d'apparition de discontinuits en temps ni est de nature purement non linaire et n'est pas li la rgularit de la donne initiale. On peut rsumer ces constatations
dans la proposition suivante.

Proposition 10.5 (existence d'une solution classique globale) Supposons que la fonction f soit de
classe C 2 et que la fonction u0 soit de classe C 1 , borne ainsi que sa drive premire. Il existe un temps
maximal T > 0 tel que le problme (10.8)-(10.9) admet une unique solution classique sur [0, T [R,
donne par la mthode des caractristiques. De plus, on a

T = +
si la fonction f 00 (u0 ) u0 0 est positive sur R,

T = inf

xR

1
f 00 (u0 (x)) u00 (x)

sinon.
11. On se rappelle en eet qu'il en tait au contraire ainsi pour les caractristiques associes l'quation linaire (10.11).

366

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE


Dmonstration. A REPRENDRE Les caractristiques associes au problme existent, les hypothses du
thorme de CauchyLipschitz tant vrifes. On a donc x(t) = x0 + f 0 (u0 (x0 )) t pour toute caractristique issue
de x0 et par consquent u(t, x) = u0 (x0 ) avec x0 solution de x = x0 + f 0 (u0 (x0 )) t. Considrons alors, pour tout
t R+ , la fonction t : y 7 y + f 0 (u0 (y)) t. Celle-ci est drivable sur R et 0t (y) = 1 + f 00 (u0 (y))u00 (y). Si
f 00 (u0 (y))u00 (y) 0 pour tout y R, t est strictement croissante sur R et, u0 tant borne et f 0 continue, telle
que lim t (y) = , t. Elle dnit donc une bijection sur R et les caractristiques ne peuvent se croiser.

1
Sinon, il existe au moins une valeur de y telle que t = f 00 (u0 (y))u
est
0 (y) annulant t et le temps maximal T
0
alors donn par eqref
UNICITE
Pour tout t 0, l'application + f 0 (u0 ()) t dnit une bijection R dans R. En eet, sa drive 1 +
00
f (u0 ()) u00 () est, par hypothse, strictement positive et elle a pour limite en . Par consquent,
(t, x), il existe un unique (t, x) tel que

x = (t, x) + a(u0 ((t, x))) t.

(10.17)

Si la solution classique existe, elle est donne par u(t, x) = u0 ((t, x)) et l'on a


u

u
u
(t, x) + a(u(t, x))
(t, x) = u0 ((t, x))
(t, x) + f 0 (u0 ((t, x))
(t, x) .
t
x
t
x
En drivant (10.17), il vient


(t, x) 1 + a0 (u0 ((t, x)))u00 ((t, x)) = a(u0 ((t, x))),


t


(t, x) 1 + a0 (u0 ((t, x)))u00 ((t, x)) = 1,


x
et a0 (u0 ((t, x)))u00 ((t, x)) 0 par hypothse. L'quation (10.8) est donc bien vrie le long d'une caractristique
pour tout t 0.


Dans le cas o la fonction f est suppose convexe, la condition d'existence globale nonce ci-dessus
devient simplement la croissance de la fonction u0 .

10.3.3

Solutions faibles

Nous venons de voir qu'il peut ne pas exister de solution classique de l'quation (10.8) pour tout
temps. Pour prolonger l'existence d'une solution du problme au del de l'instant d'apparition d'une
discontinuit, il s'avre donc ncessaire d'tendre le concept de solution. Pour cela, nous allons faire appel
au formalisme des distributions, an de donner un sens plus  faible  cette notion. Ce faisant, nous
rendrons aussi possible la prsence de discontinuits dans la donne initiale.
Pour justier ce procd, il faut voir l'quation (10.8) comme l'expression d'une loi de conservation,
qui est elle-mme la consquence d'une relation intgrale de la forme (10.2) et qui reste valable pour une
fonction discontinue. L'ide est par consquent de dnir une solution du problme en faisant porter les
drives partielles dans l'quation (10.8) non pas sur la fonction u, mais sur un ensemble de fonctions tests
rgulires. Dans toute la suite, on dsigne par L
loc l'ensemble des fonctions valeurs relles mesurables
localement bornes 12 .

Dnition 10.6 (solution faible) Soit u0 une fonction de L


(R). Une fonction u de L
([0, +[R)
loc
loc
est appele une solution faible du problme (10.8)-(10.9) si elle satisfait
Z
0

Z 
R


Z

u(t, x)
(t, x) + f (u)(t, x) (t, x) dx dt +
u0 (x)(0, x) dx = 0,
t
x
R

(10.18)

pour toute fonction test de classe C 1 support 13 compact dans [0, +[R.
12. Pour tout ouvert de Rd , on dnit cet ensemble par


L
loc () = v : R mesurable | v|K L (K), K , K compact .

13. On rappelle que le


nulle.

support

d'une fonction est l'adhrence de l'ensemble des points en lesquels cette fonction est non

367

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

On voit immdiatement que la notion de solution faible permet d'tendre directement l'utilisation de
la mthode des caractristiques au cas d'une donne initiale discontinue, la solution rsultante satisfaisant
le problme au sens de la relation (10.18).
De plus, on remarque, en choisissant la fonction test dans l'ensemble C0 ([0, +[R) des fonctions
indniment drivables support compact dans [0, +[R, que toute solution faible du problme (10.8)(10.9) satisfait l'quation (10.8) au sens des distributions. Cette observation permet d'tablir le rsultat
suivant, qui montre que la notion de solution faible tend celle de solution classique.

Lemme 10.7 (lien entre les notions de solution classique et de solution faible) Une solution
classique du problme (10.8)-(10.9) est aussi une solution faible de ce problme. Rciproquement, une
solution faible du problme appartenant C 1 (]0, +[R) C 0 ([0, +[R) est une solution classique.

Soit u une solution classique du problme (10.8)-(10.9) et une fonction de classe C 1


support compact dans [0, +[R. Multiplions l'quation (10.8) par et intgrons par parties sur [0, +[R. Il
vient alors, en utilisant (10.9),
Dmonstration.

Z 

0=
0


f (u)
u
(t, x) +
(t, x) (t, x) dx dt
t
x

Z + Z 
Z

=
u(t, x)
(t, x) + f (u)(t, x)
(t, x) dx dt
u0 (x)(0, x) dx,
t
x
0
R
R

de sorte que u est une solution faible du problme.


Rciproquement, si u est une solution faible du problme appartenant C 1 (]0, +[R) C 0 ([0, +[R), on a,
pour toute fonction test de C0 (]0, +[R),
+

Z
0

Z 
R

(t, x) + f (u)(t, x)
(t, x)
u(t, x)
t
x


dx dt = 0,

ce qui signie encore que u satisfait l'quation (10.8) au sens des distributions dans ]0, +[R, et donc point par
point puisqu'elle est de classe C 1 sur ce domaine. Soit alors une fonction de Cc1 ([0, +[R). En ralisant une
intgration par parties dans (10.18) et se servant de la prcdente conclusion, on obtient
Z
(u0 (x) u(0, x))(0, x) dx = 0.
R

Le choix de la fonction tant arbitraire et la fonction u tant continue, on en dduit que la condition initiale
(10.9) est vrie point par point.


Nous allons maintenant nous intresser une classe particulire de solutions faibles.

Dnition 10.8 (fonction de classe C 1 par morceaux) Une fonction u dnie sur [0, +[R est
dite de classe C 1 par morceaux si, sur tout ouvert born O de [0, +[R, il existe un nombre ni de

courbes 1 , . . . , p , de paramtrisations respectives (t, i (t)), t ]t+


i , ti [, i = 1, . . . , p, avec i une fonction
1
1
de classe C , telles que u est de classe C dans chaque composante connexe de O\(1 p ).

Nous allons voir que cet ensemble de fonctions permet de construire des solutions faibles du problme
(10.8)-(10.9) en utilisant la mthode des caractristiques. Nous supposons prsent que la donne initiale
u0 est de classe C 1 par morceaux sur R.

Thorme 10.9 (conditions ncessaires et susantes de caractrisation d'une solution faible


de classe C 1 par morceaux) Une fonction u de classe C 1 par morceaux dans R [0, +[ est une
solution faible du problme (10.8)-(10.9) si et seulement si
c'est une solution classique de (10.8)-(10.9) dans tout domaine o elle est de classe C 1 ,
elle satisfait la condition

0 (u+ u ) = f (u+ ) f (u )

(10.19)

le long de toute courbe de discontinuit de la fonction u paramtre par la fonction , la valeur


u (resp. u+ ) dsignant la limite de u gauche (resp. droite) de .

368

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE


Dmonstration. Considrons un ouvert D de [0, +[R que la courbe de discontinuit partage en deux
parties (voir la gure 10.2), respectivement notes D et D , avec

D = {(t, x) D | x < (t)} et D+ = {(t, x) D | x > (t)} .

On note n le vecteur normal unitaire , orient dans la direction des valeurs croissantes de la variable x. Compte
tenu de la paramtrisation de la courbe , on a
 
 0
1
nt

= p
n=
.
nx
1
1 + ( 0 )2

D
D+
D
n
x

Reprsentation dans le plan (x, t) de la courbe de discontinuit , des ouverts D, D et D+ ,


ainsi que du vecteur normal unitaire n introduits dans la preuve du thorme 10.9.
Figure 10.2:

Soit une fonction de C0 (D). Si la fonction u est une solution faible du problme, on a

Z 

(t, x) + f (u)(t, x)
(t, x) dx dt = 0.
u(t, x)
t
x
D
Dcomposons cette intgrale en la somme de deux intgrales, l'une sur D , l'autre sur D+ . La fonction u tant
rgulire sur ces sous-ensembles, on a




Z
Z
f (u)

(t, x) + f (u)(t, x)
(t, x) dx dt =
(t, x) +
(t, x) (t, x) dx dt
u(t, x)
t
x
t
x

D
Z D

+
u (t, x)nt (t, x) + f (u )(t, x)nx (t, x) (t, x) d,
D

et


u(t, x)
D+

(t, x) + f (u)(t, x)
(t, x)
t
x

Z
dx dt =
Z

D+


f (u)
u
(t, x) +
(t, x) (t, x) dx dt
t
x

+
u (t, x)nt (t, x) + f (u+ )(t, x)nx (t, x) (t, x) d.

On dduit alors que





Z 
Z
f (u)

u
u(t, x)
(t, x) + f (u)(t, x)
(t, x) dx dt =
(t, x) +
(t, x) (t, x) dx dt
t
x
t
x
D
D D +
Z


(u+ u )(t, x)nt (t, x) + (f (u+ ) f (u ))(t, x)nx (t, x) (t, x) d,

(10.20)

d'o


(u+ u )(t, x)nt (t, x) + (f (u+ ) f (u ))(t, x)nx (t, x) (t, x) d = 0,
D

puisque u vrie l'quation (10.8) au sens classique dans D et D+ . Cette galit tant vraie quelle que soit la
fonction test , on en dduit, en utilisant les expressions des composantes du vecteur normal n, que
0 (t)(u+ u )(t, (t)) = (f (u+ ) f (u ))(t, (t)).

369

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

Rciproquement, si la fonction u de classe C 1 par morceaux satisfait les deux conditions du thorme, on
vrie qu'elle est solution du problme au sens des distributions.


Ce rsultat montre que, pour tre admissibles, les discontinuits d'une solution faible doivent satisfaire
l'quation (10.19). Cette dernire est appele condition de Rankine 14 Hugoniot 15 , par analogie avec une
condition connue de longue date en dynamique des gaz [Ran70, Hug87]. On la rsume souvent, en notant
respectivement [u]| = u+ u et [f (u)]| = f (u+ ) f (u ) les sauts des fonctions u et f (u) au travers
de la courbe et en posant = 0 , par la relation
(10.21)

[u]| = [f (u)]| ,

vrie en tout point de . On interprte alors la fonction comme la vitesse de propagation de la


discontinuit.

Exemple de construction d'une solution faible de l'quation de Burgers non visqueuse.


Considrons le problme de Cauchy compos de l'quation de Burgers non visqueuse
 2

u
u
(t, x) +
(t, x) = 0, t > 0, x R,
t
x 2
et d'une condition initiale dont la donne est une fonction continue

1 x si x < 0,
si 0 x ,
u(0, x) = u0 (x) = 1

0
si x > ,

(10.22)

(10.23)

avec un rel strictement positif. Nous allons construire une solution faible de ce problme.
Commenons par dterminer le temps maximal d'existence d'une solution continue. La caractristique issue du
pied (x0 , 0) a pour quation

x(t) = t + x0
si x0 0,


x0 
x(t) = 1
t + x0 si 0 x0 ,

x(t) = x
si x0 ,
0
et l'on a un croisement de caractristiques au temps T = (voir la gure 10.3). Nous pouvons alors obtenir la
solution (classique) du problme pour 0 t < T en utilisant la mthode des caractristiques. Si x t, on a
xt
x0 = x t 0 et alors u(t, x) = u0 (x0 ) = 1. Si t x , il vient x0 = 1
t . On a donc 0 x0 , d'o

. Enn, si x , on a x0 , d'o u(t, x) = u0 (x0 ) = 0.


u(t, x) = u0 (x0 ) = x
t
Il nous reste prolonger cette solution classique au del de l'instant T . Pour t = T = , la solution est
discontinue et vaut u = 1 si x < et u+ = 0 si x > . En utilisant la relation de RankineHugoniot (10.21), on
trouve que la courbe de discontinuit issue du point (, ) est une demi-droite ayant pour pente = 21 et donc
pour quation (t) = 2 + 2t , t (voir la gure 10.3).
On a donc trouv

1
si x t,

x
1 si x < + ,
2
2
si t x , pour t < et u(t, x) =
u(t, x) =
pour t > .

t
0 si x > + t ,

0
si x ,
2
2

Indiquons que la classe des fonctions de classe C 1 par morceaux n'est pas assez grande pour dcrire
l'ensembles des solutions faibles des systmes de lois de conservation gnraux, un cadre plus appropri
tant celui des fonctions variation borne 16 en espace. Ce dernier dpassant les objectifs d'un cours
14. William John Macquorn Rankine (5 juillet 1820 - 24 dcembre 1872) tait un ingnieur et physicien cossais. Pionnier
de la thermodynamique, il labora une thorie complte de la machine vapeur et plus gnralement des moteurs thermiques.
15. Pierre-Henri Hugoniot (5 juin 1851 - 1887) tait un physicien et mathmaticien franais. On lui doit une thorie,
base sur la conservation de la masse, de la quantit de mouvement et de l'nergie, qui permit l'amlioration des tudes des
coulements de uides.
16. Pour tout ouvert de Rd , l'espace des fonctions variation borne sur est


BV() = v L1loc () | T V (v, ) < + ,

370

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE

0
Figure 10.3:

(10.23).

Caractristiques et droite de discontinuit de la solution faible du problme de Cauchy (10.22)-

introductif, nous renvoyons le lecteur intress vers la rfrence [GR96]. Pour de nombreux systmes issus
de la physique cependant, les solutions pertinentes sont eectivement rgulires par morceaux.
Si l'existence d'une solution faible du problme (10.8)-(10.9) est toujours assure, on observera que
celle-ci n'est pas ncessairement unique, comme le montre l'exemple suivant.

Contre-exemple l'unicit des solutions faibles de l'quation de Burgers non visqueuse.


Considrons le problme de Cauchy compos de l'quation de Burgers non visqueuse
 2
u

u
(t, x) +
(t, x) = 0, t > 0, x R,
t
x 2
et d'une condition initiale de donne triviale
u(0, x) = u0 (x) = 0, x R.

Ce problme possde une solution classique, triviale, u 0. Une solution faible non triviale (en fait une famille
innie de solutions faibles dpendant d'un paramtre rel) est donne par la fonction

0
si x < t,

2 si t < x < 0,
u(t, x) =

2
si 0 < x < t,

0
si x > t,
avec > 0, qui satisfait bien la condition de RankineHugoniot le long des lignes de discontinuit de la solution,
d'quations respectives x = 0 et x = t.

10.3.4

Solutions entropiques

Pour parer au problme de non unicit des solution faibles du problme que nous venons d'voquer, il
nous faut trouver un critre discriminant. Or, il est apparu avec certains des exemples de la section 10.2,
que les lois de conservation correspondaient un reet quelque peu idalis de la ralit physique 17 , ngligeant les mcanismes de dissipation ou de diusion. An de slectionner parmi l'ensemble des solutions
la

variation totale

de la fonction v sur tant dnie par


Z


v(x) div()(x) dx, Cc1 (, Rd ), kkL () 1 ,

T V (v, ) = sup

Cc1 (, Rd )

Rd .

est l'ensemble des fonctions continment direntiables support compact contenu dans et valeurs dans

17. C'est le cas lorsque les systmes de lois de conservation sont utiliss pour dcrire des transformations irrversibles,
comme en dynamique des gaz par exemple. On voit en eet que l'quation (10.8) ne contient aucune trace d'un tel phnomne,
puisque l'application (t, x) 7 u(t, x) est solution si et seulement (t, x) 7 u(t, x) l'est.

371

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

faibles la solution possdant une pertinence  physique , on va requrir qu'elle satisfasse une condition
supplmentaire, base sur concept d'entropie 18 mathmatique, qui la rend admissible en un sens que l'on
prcisera.

Dnition 10.10 (paire d'entropie-ux d'entropie 19 ) On appelle paire d'entropie-ux d'entropie pour l'quation (10.8) tout couple (S, F ) de fonctions de R dans R telles que
la fonction S est continue et convexe,
on a F 0 = S 0 f 0 , ventuellement au sens des distributions.

Exemple de paire d'entropie-ux d'entropie. Un choix possible de famille de paires d'entropie-ux


d'entropie dpendant d'un paramtre est celui, considr par Vol'pert [Vol67] et Kruzkov [Kru70], des fonctions
S(u) = |u k| et F (u) = sign(u k) (f (u) f (k)) , k R.

(10.24)

o sign est la fonction signe dnie par

1
sign(v) = 0

si v < 0,
si v = 0,
si v > 0.

Ces paires jouent un rle important dans la thorie des solutions entropiques dans le cas scalaire, li au fait que
le cne convexe ferm engendr par l'ensemble des fonctions anes et des fonctions S donnes par (10.24) est
l'ensemble des fonctions convexes.

A VOIR : cas des systmes symtriques (Aj (u) = fj (u) symtriques), alors S(u) =

1
2

Pp

i=1

ui 2

Il est facile de voir qu'une solution classique u de l'quation (10.8) satisfait aussi la loi de conservation

S(u)
F (u)
(t, x) +
(t, x) = 0, t > 0, x R,
t
x
pour toute paire d'entropie-ux d'entropie (S, F ) rgulire, mais ce n'est gnralement pas le cas pour
une solution faible, en raison de la possible prsence de discontinuits. On peut en revanche montrer, et
c'est l'objet du prochain thorme, qu'une solution particulire du problme s'obtient par passage la
limite (au sens des distributions) sur la solution 20 du problme perturb

f (u )
2 u
u
(t, x) +
(t, x) =
(t, x), t > 0, x R,
t
x
x2
u (0, x) = u0 (x), x R,

(10.25)
(10.26)

lorsque le paramtre tend vers 0, jouant le rle d'une viscosit articielle vanescente comme suggr
dans [Gel59]. C'est de cette solution limite que sera tir le critre de slection recherch.

Thorme 10.11 Soit une paire d'entropie-ux d'entropie (S, F ) pour l'quation (10.8) et une suite
(u )>0 de solutions rgulires du problme (10.25)-(10.26), telle que
ku kL ([0,+[R) C , > 0,

18. La terminologie est emprunte la dynamique des gaz, dans laquelle (l'oppos de) la densit d'entropie thermodynamique joue le rle d'une entropie mathmatique (VOIR la sous-section 10.2.5 ?).
19. La dnition donne ici est spcique un systme d'une seule loi de conservation scalaire en une dimension d'espace.
Dans le cas d'un  vritable  systme de lois de conservation, c'est--dire pour p > 1, en dimension d'espace quelconque
d 1, une fonction convexe S d'un ensemble convexe de Rp valeurs dans R est une entropie pour le systme s'il existe des
fonctions ux d'entropie Fj , j = 1, . . . , d, de Rp valeurs dans R, telles que l'on a Fj (u)T = S(u)T f j (u). Trouver
une telle paire revient donc dterminer d + 1 fonctions satisfaisant un systme de dp quations aux drives partielles,
ce qui peut tre compliqu, voire impossible, lorsque p > 1, ce systme tant en gnral surdtermin. On n'est donc pas
toujours assur de pouvoir d'exhiber des paires d'entropie-ux d'entropie (et encore moins l'ensemble de ces dernires) pour
un systme quelconque, alors que, pour une loi de conservation scalaire, toute fonction S convexe dnit une entropie.
L'existence d'une entropie pour un systme de lois de conservation est donc une proprit importante et il est remarquable
que la plupart des systmes de lois de conservation issus de la physique ou de la mcanique possde une paire d'entropie-ux
d'entropie associe, qui a de plus une signication physique.
20. REPRENDRE Le problme (10.25)-(10.26) possde une unique solution appartenant L ([0, +[R), qui est de
plus trs rgulire sur ]0, +[R (REF !).

372

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE

u tend vers une limite u lorsque tend vers 0 presque partout dans [0, +[R,
avec C > 0 une constante indpendante de . Alors, la fonction u est une solution faible du problme
(10.8)-(10.9), satisfaisant l'ingalit d'entropie
S(u) F (u)
+
0
t
x

(10.27)

au sens des distributions dans [0, +[R, c'est--dire


+

Z 
S(u)(t, x)


Z

(t, x) + F (u)(t, x) (t, x) dx dt +


S(u0 )(x)(0, x) dx 0,
t
x
R

pour toute fonction de C0 ([0, +[R) valeurs positives.

Soit une fonction de C0 ([0, +[R) ; en multipliant (10.25) par et en intgrant par
partie sur [0, +[R, on obtient
Dmonstration.

Z
0

Z
R

u (t, x)

(t, x) dt dx +
t

(t, x) dt dx
x
Z + Z
2
+
u (t, x) 2 (t, x) dt dx = 0.
x
0
R

f (u )(t, x)

u0 (x)(0, x) dx +
R

Il dcoule alors des hypothses sur la suite (u )>0 et du thorme de convergence domine de Lebesgue (REF !)
que
Z + Z
Z + Z

(t, x) dt dx
u(t, x)
(t, x) dt dx,
u (t, x)
t
t
0
R
0
R
Z + Z
Z + Z

(t, x) dt dx
(t, x) dt dx
f (u)(t, x)
f (u )(t, x)
x
x
0
R
0
R
et
Z + Z
2
u (t, x) 2 (t, x) dt dx 0
x
0
R
quand 0. On en conclut que u est une solution faible du problme (10.8)-(10.9) par densit de C0 ([0, +[R)
dans C01 ([0, +[R) (REF !).
Considrons prsent une entropie S de classe C 2 et multiplions l'quation (10.25) par S 0 (u ). Par proprit des
paires d'entropie-ux d'entropie, il vient
!
 2
S(u )
F (u )
2 S(u )
u
00

(t, x) +
(t, x) =
(t, x) S (u )(t, x)
(t, x) , t > 0, x R,
t
x
x2
x
d'o

S(u )
F (u )
2 S(u )
(t, x) +
(t, x)
(t, x), t > 0, x R.
t
x
x2
Multiplions maintenant cette ingalit par une fonction test de C0 ([0, +[R) valeurs positives et intgrons
par parties sur [0, +[R. Nous arrivons



Z + Z 
Z

2

S(u )(t, x)
(t, x) +
(t,
x)
+
F
(u
)
(t,
x)
dt
dx
+
S(u0 )(x)(0, x) dx 0,
t
x2
x
0
R
R

et, par passage la limite sur ,



Z + Z 
Z

S(u)(t, x)
(t, x) + F (u)
(t, x) dt dx +
S(u0 )(x)(0, x) dx 0,
t
x
0
R
R

(10.28)

qui n'est autre que l'criture (10.27) au sens des distributions.


Il reste passer d'une entropie de classe C 2 une entropie gnrale. Pour cela, on introduit, pour toute
entropie S , une suite (Sn )nN de fonctions dnies par le produit de convolution Sn = S (n(n )), avec une
fonction de C0 (R). La suite des ux d'entropie associs est alors donne par
Z v
Fn (v) =
f 0 (y)Sn 0 (y) dy, n N.
0

373

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

On a
Fn (v) = f 0 (v)Sn (v) f 0 (0)Sn (0)

f 00 (y)Sn (y) dy, n N,

dont on dduit que la suite (Fn )nN converge uniformment vers la fonction continue
Z v
F (v) = f 0 (v)S(v) f 0 (0)S(0)
f 00 (y)S(y) dy,
0

par convergence uniforme de la suite (Sn )nN vers S . L'ingalit (10.28) tant vraie pour les paires (Sn , Fn ), on
montre qu'elle le reste pour le couple (S, F ) en faisant tendre n vers l'inni.


Ce rsultat conduit l'introduction de la notion de solution entropique.

Dnition 10.12 (solution entropique) Une fonction u de L ([0, +[R) est une solution entropique du problme (10.8)-(10.9) si elle satisfait l'ingalit d'entropie (10.27), au sens des distributions
dans [0, +[R, pour toute paire d'entropie-ux d'entropie pour l'quation (10.8).

Le rsultat suivant est immdiat.

Proposition 10.13 Une solution entropique du problme (10.8)-(10.9) est une solution faible de ce pro-

blme.

Dmonstration.

dans l'ingalit (10.27).

La preuve est directe, en faisant successivement les choix S(u) = u et F (u) = f (u)


La notion de solution entropique vise donner, en lui demandant de satisfaire une condition additionnelle, une solution faible du problme un caractre irrversible. Si u est une solution faible de
(10.8)-(10.9), on voit en eet que la fonction (t, x) 7 u(s t, x) est une solution faible dans la bande
]0, s[R pour la donne initiale u(s, x), mais qu'elle n'est une solution entropique que si l'ingalit
d'entropie (10.27) est une galit. On note par ailleurs qu'il y a quivalence entre les notions de solution
faible et de solution entropique dans le cas linaire.
Nous allons maintenant donner une premire caractrisation des solutions entropiques de classe C 1
par morceaux.

Thorme 10.14 Une solution faible u du problme (10.8)-(10.9) de classe C 1 par morceaux est une

solution entropique si et seulement si elle satisfait, pour tout couple d'entropie-ux d'entropie associ
(10.8), l'ingalit

(10.29)

[S(u)]| [F (u)]|
le long de toute courbe de discontinuit .
Dmonstration.

La preuve tant en tout point similaire celle du thorme 10.9, elle est laisse en exercice.


Il existe d'autres formes, plus exploitables en pratique, de la condition (10.29), dues Oleinik 21 .

Lemme 10.15 ( conditions d'entropie d'Oleinik  [Ole59]) Une solution faible u du problme

(10.8)-(10.9) de classe C 1 par morceaux vrie l'ingalit (10.29) pour toute paire d'entropie-ux d'entropie (S, F ) si et seulement si l'une des trois conditions suivantes est vrie,

f (u+ ) f (k)
pour tout rel k compris entre u
u+ k
f (u ) f (k)

pour tout rel k compris entre u


u k

f ( u + (1 ) u+ ) f (u ) + (1 ) f (u+ )
f ( u + (1 ) u+ ) f (u ) + (1 ) f (u+ )

et u+ ,

(10.30)

et u+ ,

(10.31)

si u+ > u
, 0 1,
si u+ < u

(10.32)

en tout point d'une courbe de discontinuit , la fonction dsignant la vitesse de propagation de la


discontinuit considre.

& l~ga Ars&en~evna Ol&ei@nik en russe, 2 juillet 1925 - 13 octobre 2001) tait une math21. Olga Arsenievna Oleinik (O
maticienne russe. Elle t de remarquables contributions la gomtrie algbrique, l'tude des quations aux drives
partielles et la thorie mathmatique des milieux lastiques inhomognes et des couches limites.
374

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE

Il sut de prouver le rsultat pour les paires de Kruzkov (10.24) (EXPLIQUER 22 ). Dans
ce cas, l'ingalit (10.29) se rcrit
Dmonstration.

(|u+ k| |u k|) sign(u+ k) (f (u+ ) f (k)) sign(u k) (f (u ) f (k)) ,

cette ingalit devant tre vrie pour tout nombre rel k.


Suppose que u+ > u , le cas u+ < u se traitant de manire similaire. On obtient alors successivement
(u+ u ) f (u+ ) f (u )

pour k u+ et
(u+ u ) f (u+ ) f (u )

pour k u , qui, prises ensemble, expriment simplement le fait que la solution satisfait la condition de Rankine
Hugoniot (10.21). Il reste considrer le cas u < k < u+ , c'est- -dire k = u + (1 ) u+ , [0, 1]. On
a
(u+ + u 2k) f (u+ ) + f (u ) 2 f (k).
(10.33)
En additionnant (10.33) (10.21), il vient
2 (u+ k) 2 (f (u+ ) f (k)) ,

dont on dduit (10.31), alors qu'on trouve (10.32) en soustrayant (10.33) (10.21). Enn, on a, en utilisant de
nouveau (10.21),
(u+ + u 2k) = (2 1)(u+ u ) = (2 1) (f (u+ ) f (u )) ,
et on obtient alors, en substituant dans (10.33),
(2 1) (f (u+ ) f (u )) f (u+ ) + f (u ) 2 f ( u + (1 ) u+ ),

qui n'est autre que la premire ingalit de (10.32). On a donc montr que les conditions de l'nonc sont ncessaires. Leur susance est aisment tablie et laisse en exercice.


Une interprtation gomtrique de la condition (10.32) est la suivante : une discontinuit admissible
est telle que le graphe de l'application f sur le segment [u , u+ ] (resp. [u+ , u ]) est situ au-dessus (resp.
en dessous) de la corde joignant les points (u , f (u )) et (u+ , f (u+ )) (resp. (u+ , f (u+ )) et (u , f (u )))
lorsque u < u+ (resp. u+ < u ). Ainsi, dans le cas d'une fonction f strictement convexe, cette condition
est satisfaite si et seulement si
u+ < u ,
(10.34)
ou, de manire quivalente (il sut d'utiliser la condition de RankineHugoniot (10.19), le thorme des
accroissements nis et le thorme des valeurs intermdiaires), si et seulement si

f 0 (u+ ) < < f 0 (u ),

(10.35)

en tout point d'une courbe de discontinuit . Cette condition, qui dans le cas gnral d'un systme 23 de
lois de conservation porte le nom de condition d'entropie de Lax 24 [Lax57], traduit le fait les caractristiques convergent vers une courbe de discontinuit de la solution (voir par exemple la gure 10.3). Dans
le cas de la dynamique des gaz, cette condition traduit en termes mathmatiques une consquence du
second principe de la thermodynamique exprimant le fait que l'entropie thermodynamique des particules
crot la traverse d'une discontinuit (appele dans ce contexte un choc ).
REMARQUE sur les rsultats d'existence de solutions entropiques : l'approximation visqueuse, solution de (10.25)-(10.26), fournit une possibilit
Nous terminons cette section par un rsultat important de Kruzkov [Kru70].
22. DEBUT a prciser : On a vu quel sens il fallait donner l'ingalit d'entropie pour des entropies continues dans la
dmonstration du thorme 10.11. Il sut ensuite
P de remarquer que pour toute fonction S continue et convexe, il existe
une suite (S ) dnie par S (s) = b0 + b1 s + j aj |s kj |, aj > 0, qui converge uniformment vers S (il en va de mme
pour le ux d'entropie associ).
23. Une condition, plus stricte que celle de Lax, galement employe pour les systmes de lois de conservation est le critre
introduit par Liu [Liu76].
24. Peter David Lax (Lax Pter Dvid en hongrois, n le 1er mai 1926) est un mathmaticien amricain d'origine hongroise.
Ses nombreuses contributions recouvrent plusieurs domaines d'tude des mathmatiques et de la physique, parmi lesquels
on peut citer les quations aux drives partielles, les systmes hyperboliques de lois de conservation, les ondes de choc en
mcanique des uides, les systmes intgrables, la thorie des solitons, la thorie de la diusion, l'analyse numrique et le
calcul scientique.

375

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

Thorme 10.16 Soit u et v deux solutions entropiques du problme (10.8)-(10.9) respectivement associes aux donnes initiales u0 et v0 de L (R). On pose M = sup {|f 0 (s)| | s [inf(u0 , v0 ), sup(u0 , v0 )]}.
Pour tout R > 0 et (presque) tout t > 0, on a
Z

Z
|u(t, x) v(t, x)| dx

|x|R
Dmonstration.

|u0 (x) v0 (x)| dx.


|x|R+M t

A ECRIRE

Une consquence immdiate de cette estimation a priori est l'unicit d'une solution entropique d'une
loi de conservation scalaire 25 , mais elle permet encore d'tablir un certain nombre d'autres assertions.

Corollaire 10.17 Soit une solution entropique u du problme (10.8)-(10.9) associe une donne initiale
u0 de L (R). On a les assertions suivantes.
1. La fonction u est unique.
2. Si u0 appartient L1 (R), alors u(t, ) appartient L1 (R) et ku(t, )kL1 (R) ku0 kL1 (R) .
3. Si u0 appartient L1 (R) et que la fonction v est une solution entropique du problme (10.8)-(10.9)
associe une donne initiale v0 de L (R) L1 (R) telle que u0 v0 presque partout sur R, alors,
pour presque tout t > 0, u(t, ) v(t, ) presque partout sur R.
Dmonstration.

A ECRIRE

Indiquons que ce rsultat reste valable pour une loi de conservation scalaire en plusieurs dimensions
d'espace, dont le ux dpend explicitement du temps et de l'espace et en prsence d'un terme source
(moyennant des hypothses de rgularit sur ces derniers). Le cas des systmes (p 2) ne possde pas
de thorie aussi avance et ce rsultat y reste une conjecture.

10.3.5

Le problme de Riemann

Un exemple particulirement clairant sur la nature des solutions discontinues d'une loi de conservation
est, malgr sa simplicit, celui du problme de Cauchy en une dimension d'espace suivant, appel problme
de Riemann par analogie avec un problme tudi en dynamique des gaz 26 [Rie60],

f (u)
u
(t, x) +
(t, x) = 0, t > 0, x R,
t
x (
ug si x < 0,
u(0, x) = u0 (x) =
ud si x > 0,

(10.36)
(10.37)

o f est une fonction relle de classe C 2 et ug et ud sont deux constantes donnes. Dans ce cas, l'existence
et unicit d'une solution entropique du problme est assure par le corollaire 10.17. Nous cherchons
construire explicitement cette solution.
Pour cela, nous allons tout d'abord tablir une proprit satisfaite par la solution du problme (10.37)(10.37), qui dcoule du fait que ce dernier est invariant par tout changement de variables homothtique
(t, x) 7 ( t, x), avec > 0.

Lemme 10.18 La solution du problme (10.37)-(10.37) est auto-semblable, c'est--dire qu'elle est de
la forme

u(t, x) = v

x
t

25. Pour une autre preuve, base sur un argument de dualit, de ce rsultat dans le cas d'une fonction ux f strictement
convexe, on pourra consulter l'article [Ole57].
26. Dans le problme en question, on considre un gaz au repos, contenu dans un tube cylindrique long et n que l'on
suppose divis en deux parties par une membrane, le uide possdant une densit et une pression plus leves dans une
partie que dans l'autre. l'instant initial, la membrane est dchire et l'on s'intresse l'coulement qui s'ensuit.

376

10.3. PROBLME DE CAUCHY POUR UNE LOI DE CONSERVATION SCALAIRE


Dmonstration. Soit u l'unique solution entropique du problme (10.37)-(10.37) et un rel strictement
positif ; la fonction u( , ) est alors une solution de l'quation (10.37), satisfaisant la condition d'entropie et
une condition initiale ayant pour donne la fonction u0 ( ). La fonction u0 dnie par (10.37) tant telle que

u0 ( ) = u0 ,

il vient, par unicit de la solution entropique, que


u( , ) = u, > 0,

ce qui signie exactement que u est auto-semblable.

Sur tout domaine o la solution est de classe C 1 , on a

u
f (u)
x x
1   x  0  x 
et
v
,
(t, x) = 2 v 0
(t, x) = f 0 v
t
t
t
x
t
t
t
l'quation (10.37) est donc satisfaite dans un tel domaine si et seulement si
 x  h   x  x i
v0
f0 v

= 0.
t
t
t

(10.38)

En excluant les tat constants, correspondant au cas


x
v0
= 0,
t
la fonction v est obtenue en rsolvant

  x  x
f0 v
= ,
t
t

(10.39)

ce qui est possible si f 0 est monotone, ce qui revient ce que f soit convexe ou concave sur le domaine
considr. On dit alors que deux tats ug et ud sont lis par une onde de rarfaction ou de dtente (rarefaction wave en anglais) si f 0 (ug ) < f 0 (ud ) et qu'il existe une fonction v de [f 0 (ug ), f 0 (ud )] valeurs dans
R vriant l'quation (10.39), la solution u, continue pour tout temps strictement positif, correspondante
tant donne par

0
ug

 x  si x f (ug ) t,
si f 0 (ug ) t x f 0 (ud ) t
u(t, x) = (f 0 )1

u
si x f 0 (ud ) t.
d
Une autre solution de l'quation (10.37) liant deux tats ug et ud est fournie par la fonction discontinue,
portant le nom d'onde de choc (shock wave en anglais),
(
ug si x < t,
u(t, x) =
ud si x > t,
o

f (ud ) f (ug )
ud ug

d'aprs la condition de RankineHugoniot (10.21), satisfaisant de plus la condition d'entropie.


Il reste dterminer la solution entropique du problme de Riemann. Supposons dans un premier
temps que la fonction f soit strictement convexe, ce qui couvre un bon nombre de situations rencontres
en pratique 27 . Trois cas se prsentent suivant la monotonie de la donne initiale u0 .
Si ug = ud , l'tat constant u(t, x) = ug = ud , t 0, x R, est l'unique solution entropique du
problme.
Si ug > ud , la discontinuit de la donne initiale est admissible (car elle satisfait la condition
(10.34)) et la solution entropique est une onde de choc entropique (voir la gure 10.4 pour un
exemple).
377

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

u(t, )

ug

ud
x

Trac de caractristiques ( gauche) et reprsentation de l'onde de choc entropique solution (


droite) du problme de Riemann deux tats pour l'quation de Burgers avec ug = 1 et ud = 0.
Figure 10.4:

u(t, )

ud

ug
0

f 0 (ug ) t

f 0 (ud ) t

Trac de caractristiques ( gauche) et reprsentation de l'onde de rarfaction solution du problme de Riemann deux tats pour l'quation de Burgers avec ug = 0 et ud = 1.
Figure 10.5:

Enn, si ug < ud , la discontinuit de la donne initiale n'est pas admissible et donne lieu une
onde de rarfaction. Il faut rsoudre l'quation (10.39), qui admet une unique solution, puisque l'on
a suppos la fonction f strictement convexe. Cette solution est une fonction continue et croissante
en espace (voir la gure (10.5) pour un exemple).
Pour une fonction f gnrale mais possdant un nombre ni de points d'inexion, la structure de la
solution du problme de Riemann demeure la mme, consistant en deux tats constants spars par une
combinaison d'ondes de rarfaction et/ou de choc de manire satisfaire la condition d'entropie.

10.4

Mthodes de discrtisation par dirences nies **

Nous allons prsent nous intresser des mthodes de rsolution numrique du problme de Cauchy
scalaire (10.8)-(10.9). Pour cela, nous ne considrons que des mthodes de discrtisation bases sur une
approximation des oprateurs direntiels par la mthode des dirences nies. Cette approche fut historiquement la premire utilise pour la rsolution des systmes hyperboliques de lois de conservation et
reste communment employe aujourd'hui, aprs avoir connu de nombreux ranements et amliorations.
D'autres techniques de discrtisation, toutes aussi adaptes aux discontinuits que peuvent prsenter les
solutions, existent par ailleurs. Elles seront mentionnes dans la section 10.5.
Dans l'ensemble de cette section, nous supposons que la fonction de ux f est de classe C 2 et que la
donne initiale u0 appartient L (R).
27. On traite de manire symtrique le cas d'un problme pour lequel la fonction de ux est strictement concave.

378

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

OU PARLER de la gnralisation des schmas plusieurs dimensions d'espace, aux systmes et de


l'extension des rsultats ? ? ?

10.4.1

Principe

Commenons par revenir sur la description de la mthode des dirences nies pour l'approximation
de solutions d'quations aux drives partielles, dj esquisse dans la sous-section 2.1.2 du chapitre 2.
Cette mthode consiste en premier lieu en une discrtisation du plan {(x, t) | x R, t [0, +[},
domaine sur lequel est pos le problme, par une grille rgulire (voir la gure 10.6), obtenue par le choix
de la longueur t d'un pas de temps, celle x d'un pas d'espace et la dnition de points de grille par la
donne des couples (xj , tn ), j Z, n N, tels que

tn = n t et xj = j x.
x
t

xj1

xj xj+1

tn+1
tn
tn1

Figure 10.6: Grille de discrtisation rgulire du plan R [0, +[. On a reprsent en rouge le domaine de
dpendance numrique Dt (tn , xj ) pour un schma aux dirences nies explicite trois points.

En pratique, la grille n'est pas ncessairement rgulire, mais, mme lorsqu'elles sont variables, on a
coutume de supposer que les longueurs des pas en temps et en espace sont lies entre elles, c'est--dire qu'il
existe une fonction rgulire telle que x = (t), avec (0) = 0. Pour les problmes hyperboliques
t
par exemple, on suppose en gnral que le rapport = x
reste constant lorsque les longueurs t et x
tendent vers zro. Nous reviendrons plus en dtail sur ce point.
Ensuite, l'quation aux drives partielles du problme que l'on cherche rsoudre est remplace
chacun des points de la grille par une quation algbrique, encore appele schma, obtenue en substituant
aux valeurs des oprateurs direntiels en ces points des quotients, ou dirences nies, les approchant.
La solution du systme d'quations ainsi obtenu doit alors fournir une approximation des valeurs de la
solution du problme aux points de la grille.
Pour cela, l'approximation par dirences nies de la drive d'une fonction en un point de grille
repose sur l'utilisation de dveloppements de Taylor de cette fonction en d'autres points de grille bien
choisis. Soit en eet une fonction v d'une variable relle de classe C 2 sur R. Pour tout rel x, il existe, en
vertu de la formule de TaylorLagrange (voir le thorme B.114), un rel + , strictement compris entre
0 et 1, tel que

v(x + x) = v(x) + x v 0 (x) +

(x)2 00
v (x + + x), x > 0, + ]0, 1[
2

dont on dduit l'approximation dite dcentre droite

v 0 (x) '

v(x + x) v(x)
.
x

Observons qu'en utilisant le dveloppement

v(x x) = v(x) x v 0 (x) +

(x)2 00
v (x x), x > 0, ]0, 1[,
2
379

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

on peut obtenir une approximation dite dcentre gauche,

v 0 (x) '

v(x) v(x x)
,
x

ou encore une approximation centre

v 0 (x) '

v(x + x) v(x x)
,
2 x

toutes deux aussi lgitimes. On peut donc approcher la drive d'une fonction en un point de direntes
faons. Toutefois, le choix eectu pour la rsolution d'une quation aux drives partielles par rapport
au temps et l'espace n'est absolument pas anodin, que ce soit en termes de prcision de l'approximation
obtenue ou de stabilit de la mthode.
Dans la suite, nous n'allons essentiellement considrer que des schmas explicites un pas de temps,
au sens o l'approximation de la solution au temps tn+1 sera obtenue de manire explicite partir de
l'approximation l'instant tn .
A VOIR : remarques sur les schmas pas multiples en temps (exemples en n de chapitre), l'implicitation,
etc...
L'application de cette technique la rsolution de l'quation (10.8) conduit, pour une mthode explicite un pas en temps et 2k pas en espace, k N , des schmas de la forme

un+1
= H(unjk , . . . , unj+k ), n N, j Z,
j

(10.40)

o H est une fonction de R2k+1 dans R continue et la quantit unj dsigne une approximation de u(tn , xj ),
n N, j Z. tant donn une approximation u0j de la donne initiale aux points de grille, ce schma
permet de calculer une approximation de la solution pour tout temps tn , n 0.

Un premier exemple de schma pour une loi de conservation scalaire. De manire relativement

naturelle, on peut chercher approcher la solution de l'quation (10.8) en remplaant la drive en temps par
une dirence nie dcentre progressive et la drive en espace par une dirence nie centre. Le schma ainsi
obtenu est explicite et trois points en espace. On a
n
un+1
un
f (un
j
j+1 ) f (uj1 )
j
+
= 0, j Z, n N,
t
2 x

d'o la forme

n
f (un
(10.41)
j+1 ) f (uj1 ) , j Z, n N.
2
En anglais, on utilise souvent l'acronyme FTCS (forward in time, centered in space ) pour dsigner ce schma,
par analogie avec un schma utilise pour l'quation de la chaleur (voir le schma (11.5)).
un+1 = un
j

Dans la suite, il nous sera utile d'introduire l'oprateur St , associant toute suite v = (vj )jZ la
suite St (v) dnie par
(St (v))j = H(vjk , . . . , vj+k ), j Z,
(10.42)
en remarquant qu'il permet d'crire le schma (10.40) de manire compacte suivante :

un+1 = St (un ), n N.

(10.43)

DECIDER DE LA NOTATION : Pour justier le fait que la notation de cet oprateur ne fait intervenir
que la quantit t, rappelons que les longueurs des pas de discrtisation en temps et en espace sont lies
lorsqu'elles tendent vers zro.
l'instar des lois de conservation qu'ils visent approcher, les schmas de certaines mthodes peuvent
tre crits sous une forme conservative, via l'introduction d'un ux numrique.

Dnition 10.19 (forme conservative d'un schma aux dirences nies) On dit que le schma
aux dirences nies (10.40) pour la rsolution numrique de l'quation (10.8) peut tre mis sous forme
conservative s'il existe une fonction continue h de R2k dans R, appele ux numrique, telle que
H(vjk , . . . , vj+k ) = vj

t
(h(vjk+1 , . . . , vj+k ) h(vjk , . . . , vj+k1 )) , j Z.
x
380

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

Il est clair que le ux numrique d'un schma est dni une constante additive prs. On a coutume
d'introduire la notation

hnj+ 1 = h(unjk+1 , . . . , unj+k ) et hnj 1 = h(unjk , . . . , unj+k1 ), n N, j Z,


2

la forme conservative du schma (10.40) devenant alors



t  n
hj+ 1 hnj 1 , n N, j Z.
un+1
= unj +
j
2
2
x
exemple du schma FTCS : ux numrique h(vj , vj+1 ) =

1
2

(10.44)

(f (vj ) + f (vj+1 ))

Tous les schmas ne peuvent tre mis sous la forme (10.44). On a la caractrisation suivante.

Proposition 10.20 Le schma (10.40) peut tre crit sous forme conservative si et seulement si l'on a,
pour toute suite v = (vj )jZ de `1x (Z) telle que la suite St (v), dnie par (10.42), appartient `1x (Z),
X

H(vjk , . . . , vj+k ) =

jZ
Dmonstration.

vj .

jZ

A ECRIRE

On voit avec ce rsultat que les solutions approches obtenues avec des mthodes dont les schmas
peuvent tre crits sous forme conservative possdent une proprit analogue la proprit ref des solutions d'une loi de conservation. On voit en eet que l'oprateur St prserve l'intgrale discrte ref...
TERMINER
Nous verrons plus loin, notamment avec le thorme 10.28, l'importance des mthodes dont le schma
peut tre crit sous forme conservative.
NOTER enn qu'en pratique, on ne peut eectuer les calculs que sur un nombre ni de points alors
que le problme est pos sur un domaine non born (R) en espace (noter que le domaine en temps ne
pose pas de dicult puisque que l'on rsoud le problme de Cauchy sur un intervalle de temps donn).
Pour contourner cette dicult, on peut rsoudre sur un domaine born [a, b] en imposant des conditions
de priodicit
u(t, a) = u(t, b), t 0.
Ceci revient considrer un problme de Cauchy dont la donne de la condition initiale est priodique :
la solution du problme tant priodique, on peut se restreindre ne la calculer que sur une priode en
utilisant la priodicit dans la mthode des dirences nies.
AJOUTER que supposer de telles les conditions de priodicit est aussi utile pour l'analyse des schmas
(cf. analyse de von Neumann)

10.4.2

Analyse des schmas

Si l'obtention d'un schma d'approximation pour une loi de conservation est une chose facile (c'est
l l'une des principales caractristiques de la mthode des dirences nies), nous allons voir que la
drivation d'un schma ecace et prcis demande un certain travail...
Dans la mesure du possible, les dnitions donnes ici seront gnrales, au sens o elles peuvent
s'appliquer des schmas pour d'autres quations aux drives partielles que celles considres dans ce
chapitre.
On cherche mesurer comment les quantits unj approchent la solution u du problme de Cauchy
lorsque t et x tendent vers 0. Pour cela, on va dnir une erreur globale entre la solution et l'approximation numrique partir de l'erreur ponctuelle

E (tn , xj ) = u(tn , xj ) unj


pour une solution classique, dnie en tout point,

Z x 1
j+
1
2
u(tn , x) dx unj
E (tn , xj ) =
x x 1
j

381

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

pour une solution faible prsentant des discontinuits. On peut encore tendre ces dnitions de l'erreur
ponctuelle tout point (t, x) est construisant une fonction constante par morceaux u partir des valeurs
unj en posant
u (t, x) = unj pour (t, x) [tn , tn+1 [[xj 21 , xj+ 12 [.
On dit alors que la mthode converge lorsque l'erreur globale au temps t, E (t, ), tend vers 0 lorsque t,
x tendent vers 0 et que u0 tend vers la donne initiale, pour toute valeur de t et toute donne initiale
u0 dans une certaine classe, pour un certain choix de norme.
Idalement, on souhaiterait obtenir la convergence en norme L , c'est--dire pour la norme discrte

kvk,x = x max |vj |


jZ

pour toute suite v = (vj )jZ de valeurs dnies aux nuds xj , j Z, mais ceci est irraliste lorsque
la solution est discontinue car l'erreur ponctuelle ne tend gnralement pas vers zro uniformment au
voisinage des discontinuits quand t tend vers 0 alors que les rsultats numriques sont par ailleurs
satisfaisants.
Pour une loi de conservation, un choix naturel de norme est celui de la norme L1 , de norme discrte
associe
X
kvk1,x = x
|vj | ,
jZ

car celle-ci requiert seulement d'avoir une solution intgrable, la loi de conservation permettant en principe
de donner un sens l'intgrale (A VOIR, relier aux proprits des solutions dans la sous-section 10.3.1
par exemple).
Pour les problmes linaires, une norme particulirement intressante est la norme L2

kvk2,x


 21
X
2
,
= x
vj
jZ

car elle permet de faire appel l'analyse de Fourier, simpliant ainsi considrablement l'tude comme
nous allons le voir. AJOUTER que cette norme est aussi relie une nergie associe la solution
L'analyse directe de la convergence d'une mthode n'est gnralement pas chose aise. Fort heureusement, la notion de convergence est lie deux autres notions bien plus simples vrier qui sont celles
de consistance et de stabilit.
Comme cela tait le cas pour les mthodes de rsolution numrique des quations direntielles ordinaires du chapitre 8, l'analyse d'un schma de discrtisation de l'quation (10.8) comporte deux tapes
fondamentales, qui sont d'une part l'tude de sa consistance, visant mesurer l'erreur commise en substituant aux oprateurs direntiels des oprateurs aux dirences nies, et d'autre part l'tude de sa
stabilit, assurant que l'oprateur discret mis en jeu est bien inversible et que la norme de son inverse est
borne indpendamment des pas de discrtisation choisis.

Consistance
La consistance d'un schma aux dirences nies pour la rsolution de l'quation (10.8) repose naturellement sur la notion d'erreur de troncature locale. Celle-ci quantie comment le schma approche
l'quation localement. Pour l'obtenir, on insre la solution de l'quation, que l'on suppose rgulire, dans
le schma, qu'elle ne vrie que de manire approche.

Dnition 10.21 (erreur de troncature locale d'un schma aux dirences nies) Pour tout
entier n de N et tout entier j de Z, l'erreur de troncature locale au point (tn+1 , xj ) du schma aux
dirences nies (10.40) pour la rsolution de l'quation (10.8) est dnie par
n+1
= u(tn+1 , xj ) H (u(tn , xjk ), . . . , u(tn , xj+k )) ,
j
o u est une solution rgulire de (10.8).

382

(10.45)

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

erreur de troncature = rsidu obtenu lorsque l'on introduit une solution rgulire de l'quation dans
le schma
Le schma est consistant si
n+1
/t 0 quand t, x 0.
j
ORDRE DU SCHEMA :
le schma est d'ordre p en temps et q en espace, p, q N , si

n+1
/t = O(tp ) + O(xq ),
j
quand t, x 0.
On obtient l'ordre en eectuant des dveloppements de Taylor de la fonction u et de H(u, . . . , u). Un
schma est consistant s'il est au moins d'ordre un en temps et en espace.
exemple FTCS : ce schma est d'ordre un en temps et d'ordre deux en espace, il est donc consistant
Cette dnition de l'ordre du schma n'est pas entirement satisfaisante. En eet, il se peut dans
certains cas que des termes de la forme O(xp tq ) apparaissent et on ne peut alors appliquer la
dnition (voir l'exemple du schma de LaxFriedrichs plus loin).
On introduit dans ce cas la dnition, de porte plus gnrale, suivante.

Dnition 10.22 (consistance et ordre d'un schma aux dirences nies) Le schma aux
dirences nies (10.40) pour la rsolution de l'quation (10.8) est dit consistant si l'erreur de troncature

dnie par (10.45) est un O(t2 ) lorsque le pas de discrtisation en temps tend t tend vers zro, le
t
tant suppos constant. On dit que ce mme schma est d'ordre p, avec p un entier
rapport = x
naturel, si, pour toute solution susamment rgulire, les longueurs t et x tant lies, on a

u(t + t, x) H (u (t, x k x) , . . . , u (t, x + k x)) = O(tp+1 ), t 0, x R,


quand le pas t tend vers 0.

Pour un schma pouvant s'crire sous forme conservative, on a le rsultat suivant.

Proposition 10.23 (condition ncessaire et susante de consistance d'un schma crit sous
forme conservative) Le schma aux dirences nies (10.44) est consistant avec l'quation (10.8) si
l'on a

h(v, . . . , v) = f (v), v R,
une constante additive prs.
Dmonstration.

A ECRIRE

exemple du schma FTCS : h(v, v) = 21 (f (v) + f (v)) = f (v).


A VOIR : un schma consistant dont le ux numrique est une fonction de classe C 1 est au moins
d'ordre un, expression pour l'erreur de troncature d'un schma consistant ?

Stabilit
On introduit l'espace `px (Z) l'ensemble des suites de norme nie, p = 1, 2, . . . , +,

`px (Z) = {v = (vj )jZ | kvkp,x < +} .

Dnition 10.24 (stabilit en norme Lp ) Le schma aux dirences nies est dit stable en norme

Lp s'il existe une constante C(T ) indpendante de t et x telle que, pour toute donne initiale u0
p
appartenant `x (Z), on a
kun kp,x C(T ) ku0 kp,x , n 0, nt T.

(10.46)

Note : la condition de stabilit peut n'tre satisfaite que pour certaines valeurs des pas t et x.
En utilisant l'oprateur St introduit dans la sous-section 10.4.1, on peut reformuler la condition de
stabilit (10.46) dans une norme donne par le fait que, pour T donn, il existe une constante C > 0 telle
que
kSt n k C,
pour tout n et t tels que 0 nt T .
383

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

Proposition 10.25 (condition ncessaire et susante de stabilit en norme Lp ) le schma est

stable en norme Lp si, (ventuellement pour des valeurs de t et x particulires),

kSt kL (`px (Z)) 1 + O(t)


quand t 0.
Dmonstration.

A ECRIRE

On voit qu'on a donc besoin de connatre une expression de kSt kL (`px (Z)) .
A VOIR : a priori seulement utilise pour des problmes dans lesquels un mcanisme de croissance de
la solution existe. Condition susante : que la norme soit infrieure ou gale 1.
stabilit en norme L et lien avec un principe du maximum discret/ Certains schmas ne vrient
pas le principe du maximum discret mais sont nanmoins de  bons  schma d'approximation.
A REVOIR Pour une quation non linaire, il n'existe pas de technique gnrale d'analyse de stabilit. Des notions de stabilit heuristiques ont cependant t introduites, notamment en considrant une
linarisation de l'quation autour d'une solution ( ?). On vrie alors la stabilit en norme L2 dans le cas
linaire : ne garantit pas la stabilit dans le cas gnral mais vise a liminer les schmas linairement
instables. Cette dernire se prte bien l'tude de stabilit en domaine inni ou lorsque les conditions
aux limites sont priodiques, via l'analyse de Fourier, ou de ingalit d'nergie pour d'autres conditions
aux limites...
On peut facilement obtenir une condition stabilit en norme L2 , si l'on considre un problme linaire
coecients constants comme (10.8)-(10.9) et le schma numrique (10.40) tant dans ce cas de la forme

vin+1 =

k
X

n
cj vi+j

j=k

au moyen de l'analyse de Fourier, cette technique tant due von Neumann [CFN50]. Pour cela, introduisons la transforme de Fourier v d'une suite (vj )jZ de `2x (Z), dnie par
h
i
x X ijx
,
.
(10.47)
e
vj ,
v() =
x x
2 jZ
 
Cette fonction appartient L2 x
, x , l'espace des classes de fonctions mesurables (au sens de

Lebesgue) sur 28 l'intervalle x


, x
dont la norme
! 12
Z
x

k
v k2 =

|
v ()| d

est nie et sa transforme inverse est donne par

Z x
1
vj =
eijx v() d, j Z.

2 x
De manire classique 29 , les normes k
v k2 et kvk2,x sont lies par l'galit de Parseval 30 suivante
(10.48)

k
v k2 = kvk2,x .

28. A priori, la fonction donne par (10.47) est dnie pour toute valeur du nombre rel . On observe cependant
 qu'elle

2

est x
-priodique (on parle de repliement de spectre (aliasing en anglais)) et l'on se restreint donc l'intervalle x
, x
pour la dnition de la transforme.
29. On a en eet
2

k
v k2 =

|
v ()| d =

X
x X ijx
v()
e
vj d = x
2 jZ
jZ
= x

X
jZ

!
ijx

v() d

eijx v() d vj = x

vj

vj vj = kvk2,x 2 ,

jZ

EN JUSTIFIANT l'change des signes somme et intgrale.


30. Marc-Antoine Parseval des Chnes (27 avril 1755 - 16 aot 1836) tait un mathmaticien franais, clbre pour sa
dcouverte d'une formule fondamentale de la thorie des sries de Fourier.

384

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **


t = 0, 04

t = 0, 1

1
2

1
2

t = 0, 2
2

t = 0, 4

1
2

1
2

simulation avec le schma FTCS, equation de transport a = 1, donne initiale de type crneau,
condition aux limites priodiques, c = 0, 5. On observe que l'instabilit du schma se traduit par l'apparition et
la croissance rapide d'oscillations haute frquence au voisinage des discontinuits.

Figure 10.7:

Appliquons la transformation de Fourier la relation (10.43). Compte tenu des proprits de la


transforme de Fourier et aprs quelques manipulations, on trouve
h
i
,
,
u
n+1 () = g() u
n (),
x x
et l'on a

kSt kL (`2x (Z)) =

max

|g()| ,

[ x
, x
]

g() tant appele le facteur d'amplication de la composante de Fourier de nombre d'onde de v .


une procdure quivalente pour driver g() est de remplacer dans le schma unj par un () eixj et de
chercher une relation de rcurrence pour la suite (un ())n .

Analyse de von Neumann du schma FTCS. On trouve


g() = 1


t  ix
t
a e
eix = 1 i
a sin(x)
2x
x

t
il est inconditionnellement instable si le rapport = x
est constant (voir gure)
t
Note : stabilit si (x)2 constant, pas intressant en pratique

Remarques : analyse rserve aux quations linaires coef. constants, possibilit de prendre en compte
des conditions aux limites priodiques (car quivalence en gnral avec problme pos sur la droite avec
une condition initiale de donne priodique). Thorie de stabilit (linaire) avec des conditions plus
gnrales est souvent diciles (relation subtile entre les discrtisations de l'edp et des conditions aux
limites)

Proposition 10.26 CNS de stabilit en norme L2 pour les schmas consistants trois points que l'on

peut crire sous forme conservative ? ? ?

Note : cette proposition va faire apparatre le condition CFL


A VOIR : notion de dissipation et de dispersion numriques d'un schma
A VOIR : schma dissipatif au sens de Kreiss [Kre64] (surtout important pour les systmes)
385

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

Convergence
La rsolution approche du problme (10.8)-(10.9) par une mthode numrique passe tout d'abord
par l'approximation de la condition initiale (10.9). On suppose dans la suite que l'on procde comme suit
pour construire la donne initiale u0 = (u0j )jZ pour le schma

u0j = u0 (xj ), j Z,
si la fonction u0 est continue,

u0j =

1
x

xj+ 1

u0 (x) dx, j Z,

xj 1
2

sinon.
rsultat fondamental pour les quations linaires

Thorme 10.27 ( thorme de LaxRichtmyer 31  ou  thorme d'quivalence de Lax 


[LR56]) Une condition ncessaire et susante la convergence d'une approximation de la solution d'un
problme linaire et bien pos par une mthode aux dirences nies consistante est que la mthode soit
stable.

Dmonstration. A ECRIRE
On montre d'abord que la stabilit de la mthode implique sa convergence. On montre ensuite qu'un schma
instable ne peut converger, ce qui complte la preuve.


On retrouve ici un rsultat du mme type que le thorme d'quivalence de Dahlquist pour les mthodes pas multiples (voir le thorme 8.40).
L'analyse de convergence pour des problmes non linaires est bien plus dicile. Pour des solutions
rgulires, la stabilit d'une linarisation d'un schma consistant sut pour pour prouver sa convergence
(voir [Str64]).
Rsultat important relatif la convergence vers une solution faible (mais pas forcment entropique)
d'un schma sous forme conservative convergent

Thorme 10.28 ( thorme de LaxWendro 32  [LW60]) Si un schma sous forme conservative

et consistant converge dans L1loc , c'est vers une solution faible (pouvant ventuellement violer la condition
d'entropie).
Dmonstration.

A ECRIRE

REMARQUE sur la convergence de schmas qui ne sont pas sous forme conservative

La condition de CourantFriedrichsLewy
introduction de la condition de CourantFriedrichs 33 Lewy 34 [CFL28] (une traduction anglaise de
cet article est disponible [CFL67]) qui est une condition ncessaire de convergence pour un schma
EXPLICATIONS : le domaine de dpendence de la solution de l'quation au point (x, t), avec t > 0,
est l'ensemble des points en espace en lesquels la donne initiale t = 0 aecte la valeur u(t, x) de
la solution. Pour une quation hyperbolique, ce domaine est born pour tout (x, t). Par exemple, pour
l'equation d'advection linaire cet ensemble est le singleton {x a t}, mais il peut tre plus gnralement
contenu entre des caractristiques.
31. Robert Davis Richtmyer (10 octobre 1910 - 24 septembre 2003) tait un physicien et mathmaticien amricain. Il
s'intressa notamment la rsolution numrique de problmes d'hydrodynamique et ralisa quelques-unes des premires
applications grande chelle de la mthode de Monte-Carlo sur le calculateur SSEC d'IBM.
32. Burton Wendro (n le 10 mars 1930) est un mathmaticien amricain, connu pour ses contributions au dveloppement
de schmas numriques de rsolution des quations aux drives partielles hyperboliques.
33. Kurt Otto Friedrichs (28 septembre 1901 - 31 dcembre 1982) tait un mathmaticien germano-amricain. L'essentiel
de ses travaux fut consacr l'tude thorique des quations aux drives partielles, leur rsolution numrique et leurs
application en physique quantique, en mcanique des uides et en lasticit.
34. Hans Lewy (20 octobre 1904 - 23 aot 1988) tait un mathmaticien amricain, connu pour ses travaux sur les
quations aux drives partielles et sur la thorie des fonctions de plusieurs variables complexes.

386

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

nonc heuristique : L'approximation numrique de la solution possde aussi un domaine de dpendence en tout point (xj , tn ). Avec un schma explicite, l'approximation l'instant tn dpend d'un nombre
ni de valeurs obtenues aux instants prcdents. Dans ce cas, le domaine de dpendence numrique est
constitu de l'ensemble des nuds en espace appartenant la base d'un triangle issu du point (xj , tn )
et contenant tous les points de grille en lesquels la valeur de la solution intervient dans le calcul de unj
(note : ce triangle est isocle pour certaines formules). Pour tout t, cet ensemble est discret, mais ce qui
importe est l'ensemble limite lorsque t 0. Cet ensemble limite est un sous-ensemble ferm de l'espace,
t
pour
c'est--dire un intervalle. Discussion sur la taille de l'intervalle en fonction de la valeur de = x
un schma explicite trois points
FAIRE UN DESSIN
(note pour un schma implicite : domaine non born)
condition de CFL : un schma ne peut converger s'il ne prend en compte toutes les donnes ncessaires :
la limite le domaine de dpendance numrique doit contenir le domaine de dpendance de la solution
Exemple pour une quation linaire et un schma trois points :

|a|

t
1
x

(10.49)

Un schma ne satisfaisant pas cette condition ne peut converger et donc, en vertu du thorme 10.27,
tre stable. Il n'est donc nullement tonnant de retrouver en (10.49) la condition de stabilit obtenue
dans la proposition 10.26.
VOIR Aussi : Strang (1962) : lien entre CFL et stabilit de von Neumann

A VOIR : Consistance avec une condition d'entropie

DEFINITION
Sous les conditions du thorme de LaxWendro, un schma consistant avec toute condition d'entropie (schma dit entropique ? ? ?) converge vers l'unique solution entropique du problme

Monotonie lien avec un principe du maximum satisfait par la solution que l'on peut retrouver au

niveau discret

Dnition 10.29 (schma monotone) Un schma est dit monotone si, n N,


{unj vjn , j Z} {un+1
vjn+1 , j Z}
j

Proposition 10.30 (condition ncessaire et susante de monotonie d'un schma) Un schma


de la forme (10.40) est monotone si et seulement si la fonction H est une fonction croissante de chacun
de ses arguments.
Dmonstration.

A ECRIRE

condition ralise en pratique sous condition type CFL

Lemme 10.31 (proprits d'un schma monotone) A ECRIRE


Dmonstration.

A ECRIRE

A VOIR : lien entre schmas entropiques et monotones : un schma sous forme conservative, consistant
et monotone est entropique
aussi : dans le cas scalaire, un schma monotone convergent converge vers la solution entropique
[HHLK76]
Le rsultat suivant concerne l'ordre d'un schma monotone.

Thorme 10.32 ( thorme de Godunov 35  [God59]) Un schma sous forme conservative,

consistant avec l'quation (10.8) et monotone est exactement d'ordre un.


Dmonstration.

A ECRIRE

35. Sergei Konstantinovich Godunov (Serg&ei


@ Konstant&inoviq Godun&ov en russe, n le 17 juillet 1929) est un mathmaticient russe. Il est connu pour ses apports fondamentaux aux mthodes d'approximation utilises en mcanique des uides
numrique.

387

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

10.4.3

Mthodes pour les quations hyperboliques linaires **

INTRO On va ici traiter majoritairement de la rsolution numrique de l'quation d'advection. On


prsentera aussi quelques schmas pour l'quation des ondes (edp hyperbolique d'ordre deux)
t
est x
INTRODUIRE quelques exemples de schmas et les analyser en supposant que = x
classe de schmas trois points

Mthode de LaxFriedrichs
Le problme d'instabilit de la prcdente mthode peut tre aisment rsolu. La mthode de Lax
Friedrichs [Lax54] fait en eet le choix de remplacer la quantit un
j dans le schma (10.41) par la moyenne

de unj+1 et unj1 , ce qui conduit

un+1
=
j



t
1 n
uj+1 + unj1
a unj+1 unj1 .
2
2 x

(10.50)

nous verrons que cette modication correspond l'ajout d'un terme de viscosit articielle au schma
FTCS, assurant sa stabilit sous CFL.
rsultat via analyse von Neumann

g() =



1 ix
t
t
e
eix
a eix eix = cos(x) i
a sin(x)
2
2x
x

+ stabilit en norme Lp
au nal : conservatif, consistant, linairement stable sous condition CFL, monotone
hautement dissipatif (voir equation equivalente)

Schma dcentr amont


schma dcentr amont (upwind en anglais) [CIR52], particulier au cas linaire (ou pour f monotone
dans le cas non-linaire)

un+1
unj
unj+1 unj1
unj+1 2 unj + unj1
j
+a
|a|
=0
t
2 x
2 x

(10.51)

soit encore

n+1
uj unj
unj unj1

+a
= 0 si a > 0

t
x
n+1
n
n
n

uj uj + a uj+1 uj = 0 si a < 0
t
x
facteur d'amplication pour a > 0
g() = 1 a

t
t ix
+a
e
x
x

t
d'o stabilit si a x
1

Mthode de LaxWendro
Le schma de la mthode de LaxWendro [LW60] peut se construire en utilisant un dveloppement
de Taylor en t = tn tronqu au second ordre, etc...
on trouve

un+1
= unj
j



t
(t)2 2 n
a unj+1 unj1 +
a uj+1 2 unj + unj1
2 x
2 (x)2

(10.52)

A VOIR : autre drivation du schma par rsolution d'un problme de Riemann avec ux numrique
conservatif, consistant, linairement stable, non entropique (voir simulation)
388

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

t = 0, 2

t=0
2

1
2

1
2

t = 0, 4
2

1
2

t = 0, 8
2

t=1

1
2

t = 0, 6

1
2

1
2

simulation avec la mthode de LaxFriedrichs, equation de transport c = 1, donne initiale de


type crneau, condition aux limites priodiques, c = 0, 5

Figure 10.8:

389

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

t = 0, 2

t=0
2

1
2

1
2

t = 0, 4
2

1
2

t = 0, 8
2

t=1

1
2

t = 0, 6

1
2

1
2

simulation avec le schma dcentr amont, equation de transport c = 1, donne initiale de type
crneau, condition aux limites priodiques, c = 0, 5

Figure 10.9:

390

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

stabilit sous CFL

g() = 1



(t)2 2 ix
t
a e
2 + eix
a eix eix +
2
2x
2(x)
t
(t)2 2
=1i
a (cos(x) 1)
a sin(x) +
x
(x)2

on utilise alors que cos(x) 1 = 2 sin2


2

|g()| = 1 4

(t)2 2 2
a sin
(x)2

en appliquant l'identit sin2 () = 4 sin2

x
2

x
2


+4

cos2

(t)2 2
a
|g()| = 1 + 4
(x)2
2

(t)
2
et le schma est donc stable si 4 (x)
2 a

(t)2
(x)2

pour trouver

(t)4 4 4
a sin
(x)4

= 4 sin2

(t)2 2
a 1
(x)2

x
2


+

sin4

sin

(t)2 2 2
a sin (x)
(x)2



x
2

au dernier terme, on trouve


,




a2 1 sin4 x
prend une valeur ngative pour toute
2

t
valeur de , ce qui est le cas si |a| x
1.
ce schma approche l'quation (quivalente) dispersive

u
3u
u
(t, x) + a
(t, x) = 3 (t, x)
t
x
x
avec =

x2
6 a



t 2
a2 x
1

oscillations au voisinage des discontinuits (voir la gure 10.10), illustration que ce schma ne vrie
pas le principe du maximum discret

Autres schmas
A VOIR : schma de BeamWarming : version dcentre vers l'amont du schma de LaxWendro
schma centr implicite

t
n+1
un+1
= unj
a un+1
(10.53)
j
j+1 uj1
4 x
ou

un+1
= unj
j


t
n+1
n
n
a (un+1
j+1 + uj+1 ) (uj1 + uj1 )
4 x

schma plusieurs pas de temps : schma dit  saute-mouton  (leapfrog en anglais)

un+1
= ujn1
j


t
a unj+1 unj1
x

requiert une procdure de dmarrage particulire (deux donnes)


schma de Carlson [Car59], dit  diamant 

un+1
unj+ 1
j+ 1
2

n+ 1

n+ 12

uj+12 uj
+a
x
n+ 1

n+ 12

un+1
+ unj+ 1 = uj+12 uj
j+ 1
2

(10.54)

= 0,
n+ 1

= 2 uj+ 12 .
2

(utilis pour la simulation du transport de neutrons par une quation linaire)


391

(10.55)

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

t = 0, 2

t=0
2

1
2

1
2

t = 0, 4
2

1
2

t = 0, 8
2

t=1

1
2

t = 0, 6

1
2

1
2

simulation avec la mthode de LaxWendro, equation de transport c = 1, donne initiale de


type crneau, condition aux limites priodiques, c = 0, 5

Figure 10.10:

392

10.4. MTHODES DE DISCRTISATION PAR DIFFRENCES FINIES **

Cas de l'quation des ondes ***


Pour la rsolution de l'quation du second ordre (10.5)
schma saute-mouton
2


t
n+1
n1
n
uj 2 uj + uj
= c
unj+1 2 unj + unj1
x
mthode de Newmark [New59]

un+1
unj
j
vjn+1 vjn

 

t 2
= (t)vjn + c x
wjn+1 + 21 wjn


1
t 2
= t
c x
wjn+1 + (1 ) wjn

avec wj = uj+1 2 uj + uj1 et o les paramtres et satisfont 0 12 , 0 1.

10.4.4

Mthodes pour les lois de conservation non linaires

INTRO cas passablement plus compliqu que pour les quations linaires, notamment en raison des
notions de solutions entropiques. On va exiger que le schma satisfasse davantage de proprits, par
exemple pour l'approximation de lois de conservation.

Extensions des schmas prcdemment introduits


Le schma FTCS pour la rsolution d'une quation non-linaire est

un+1
= unj
j


t
f (unj+1 ) f (unj1 )
2 x

La gnralisation de la mthode de LaxFriedrichs la rsolution d'une quation non-linaire prend


la forme


1 n
t
uj+1 + unj1
f (unj+1 ) f (unj1 ) .
(10.56)
un+1
=
j
2
2 x
Ce schma peut tre crit sous forme conservative en posant

h(uj , uj+1 ) =

1
x
(f (uj ) + f (uj+1 )) +
(uj uj+1 )
2
2 t

mthode de CourantIsaacsonRees [CIR52], dont dcoule le schma dcentr amont (10.51) dans le
cas linaire

t 0 n
un+1
= unj
f (uj ) unj unj1 si f 0 (unj ) > 0
j
x
permet approximation naturelle d'une loi de conservation sous forme non conservative

u
u
+ f 0 (u)
=0
t
x
mais pas adapt aux problmes pour lesquels la solution prsente des discontinuits (car non crit sous
forme conservative sauf si f est monotone)
nous prsenterons dans la suite plusieurs schmas pour lesquels on retrouve le schma dcentr dans
le cas linaire/qui tendent de manire conservative ce schma au cas non linaire.
gnralisations de la mthode de LaxWendro pour le non-linaire : on peut procder de plusieurs
manires :
extension conservative du schma :
  n



uj+1 + unj
(t)2
t
n+1
n
n
0
n
f (uj+1 ) f (uj1 ) +
f
f (unj+1 ) f (unj )
uj
= uj
2
2 x
2 (x)
2


 n

uj + unj1
0
n
n
f (uj ) f (uj1 )
f
2
deux approches de type prdicteur-correcteur qui vitent d'utiliser f 0 :
393

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

mthode deux tapes de Richtmyer (Richtmyer two-step LaxWendro method en anglais) [Ric63]
prdiction :


1 n
t
n+ 1
uj+ 12 =
uj + unj+1 +
f (unj ) f (unj+1 )
2
2
2 x
correction :

t 
n+ 1
n+ 1
f (uj+ 12 ) f (uj 12 )
un+1
= unj
j
2
2
x
mthode de MacCormack [Mac69], plus simple mettre en uvre ( ?)
prdiction (forward dierencing) :
un+1
= unj
j


t
f (unj+1 ) f (unj )
x

correction (backward dierencing) :




1  n+1
t 
n+1
n+1
n
u
f
(u
un+1
=
+
u
)

f
(u
)

j
j
j
j
j1
2
2 x
On peut aussi renverser l'ordre (backward puis forward dierencing) dans les tapes.
Les deux derniers schmas sont sous forme conservative ( vrier).
Pour chacune de ces trois mthodes, on retrouve le schma (10.52) dans le cas f (u) = a u. Elles sont
d'ordre deux.

Mthode de Godunov
schma reposant sur la rsolution exacte de problmes de Riemann locaux [God59]
la solution au centre d'une cellule en espace u(t, xj+ 12 ) est approche par unj+ 1 pour t ]tn , tn+1 [ o
2
unj+ 1 est la valeur au point xj+ 12 de la solution (exacte) du problme de Riemann local suivant
2

w f (w)
+
= 0, t ]tn , tn+1 [
t
x(
unj
x < xj+ 12
w(tn , x) =
n
uj+1 x > xj+ 21
COMPLETER
trs diusif, amlioration par monte en ordre, voir les notes de n de chapitre

mthode de MurmanRoe
MurmanRoe [Mur74, Roe81] (conservatif, consistant, linairement stable dans certains cas, non entropique)
ux-dierence splitting leading to an approximate solution of a Riemann problem (see Steger and
Warming)

Mthode d'EngquistOsher
EngquistOsher [EO80] (conservatif, consistant, linairement stable, monotone)
schma bas sur la rsolution exacte de problmes de Riemann approchs

un+1
j

unj


t
t

f (unj+1 ) f (unj1 ) +
2x
2x

un
j+1

un
j

|a(v)| dv
un
j

!
|a(v)| dv

un
j1

ux numrique

1
g(vj , vj+1 ) =
2

vj+1

f (vj ) + f (vj+1 )

|a(v)| dv
vj

dans les domaines o le signe de f 0 est constant, on retrouve le schma dcentr amont
394

10.5. NOTES SUR LE CHAPITRE **

Autres schmas
REPRENDRE autres schmas d'ordre deux de construction analogue (VERIFIER) : schma de Beam
Warming (version explicite du schma dans [BW76] ?), avec utilisation d'une formule dcentre vers
l'amont en espace



t
1
n
n
n
n
n
n
un+1
=
u

f
(u
)

f
(u
)
+
f
(u
)

2
f
(u
)
+
f
(u
)
j
j+1
j1
j
j1
j2
j
x
2


2
t
2 t
erreur plus faible ( = x
6 a 2 3a x + a x ), oscillations en aval des discontinuits, l'avantage de
ce schma est qu'il permet de prendre des pas de temps deux fois plus grands que les schmas dcentr
amont, de Lax-Friedrichs ou de Lax-Wendro, tout en restant explicite.
et schma de Fromm [Fro68] (utilisation d'une formule dcentre vers l'amont trois pas en espace)



1
t
n
n
n
n
n
n
n
f
(u
f
(u
)

f
(u
)
+
)

f
(u
)

f
(u
)
+
f
(u
)
un+1
=
u

j+1
j1
j+1
j
j1
j2
j
j
x
4
(le ux numrique de ce schma peut tre vu comme la demi-somme des ux de LaxWendro et de
BeamWarming)
autres approches prdicteur-correcteur : LeratPeyret

10.4.5

Analyse par des techniques variationnelles **

en domaine born, avec condition aux limites.


reprendre notamment l'exemple du schma de Carlson

10.4.6

Remarques sur l'implmentation

pour la rsolution d'un problme priodique, il est utile de stocker les valeurs aux points x0 et xM ,
mme si elles sont identiques compte tenu de la condition de priodicit.

10.5

Notes sur le chapitre **

ouvrages de rfrence sur ce chapitre : [LeV92, GR96, Str04], pour les aspects non numriques : [Ser96]
A DEPLACER ? : ouverture sur des modles faisant intervenir des quations cintiques : quation
de Vlasov 36 Poisson 37 , quation aux drives partielles non linaire limite de  champ moyen  (i.e.
N +) du problme N corps (voir la sous-section 8.2.1) l'volution de systmes stellaires sur de
grandes chelles de temps.
problme des schmas d'ordre lev prserver la positivit des quantits approches du fait des
oscillations, le thorme de Godunov montrant la limitation des schmas linaires monotones en terme
d'ordre.
Pour corriger ce dfaut, il faut avoir recours des schmas pour lesquels l'inconnue l'instant tn+1 n'est
pas obtenue comme une combinaison linaire (A VOIR si l'EDP est non linaire) de ses valeurs aux temps
prcdents. Diverses approches existent. La famille des schmas MUSCL (acronyme anglais de Monotone
Upstream-centered Schemes for Conservation Laws ), introduite par van Leer [Lee79], repose sur le choix
d'un limiteur de pente (slope limiter en anglais) pour la construction du ux numrique au moyen d'une
combinaison non linaire de deux approximations distinctes de la fonction ux.
EXPLICATIONS
choix des limiteurs : van Leer, minmod, superbee...
36. Anatoly Alexandrovich Vlasov (Anat&oli@
i Aleks&androviq Vl&asov en russe, 20 aot 1908 - 22 dcembre 1975) tait
un physicien thoricien russe dont les avances dans les domaines de la mcanique statistique, de la physique des cristaux
et de la physique des plasmas furent particulirement marquantes.
37. Simon Denis Poisson (21 juin 1781 - 25 avril 1840) tait un mathmaticien et physicien franais. Il est l'auteur de
nombreux travaux, notamment sur les intgrales dnies, les sries de Fourier et les probabilits en mathmatiques, sur la
mcanique cleste, la thorie de l'lectricit et du magntisme ainsi que celle de l'lasticit en physique.

395

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

AUSSI : schmas ENO [HEOC87] et WENO [LOC94] (acronymes anglais respectifs de Essentially

Non-Oscillatory et Weighted Essentially Non-Oscillatory )

Autres mthodes de rsolution numrique : la dirence de la mthode des dirences nies, qui
discrtise la loi de conservation crite sous une forme locale, la mthode des volumes nis, introduite dans
les articles [TS62, TS63], considre le problme sous forme intgrale. COMPLETER
lien entre les lois de conservation scalaires et les quations d'HamiltonJacobi
De nombreux schmas numriques pour ces quations sont donc issus de ceux dvelopps pour les lois
de conservation (voir par exemple [CL84])

Rfrences
[AR00]

A. Aw and M. Rascle. Resurrection of second order models of trac ow. SIAM J. Appl. Math.,
60(3):916938, 2000. doi: 10.1137/S0036139997332099 (cited on page 361).

[Bol72]

L.

Boltzmann. Weitere Studien ber das Wrmegleichgewicht unter Gasmoleklen. Sitzungsberichte der Kaiserlichen Akademie der Wissenschaften. Mathematisch-Naturwissenschaftliche Classe,

66(1):275370, 1872 (siehe Seite 361).


[Bur48]

J. M. Burgers. A mathematical model illustrating the theory of turbulence. In. Advances in applied
mechanics. R. von Mises and T. von Krmn, editors. Volume 1. Academic Press Inc., 1948,
pages 171199.

doi:

10.1016/S0065-2156(08)70100-5 (cited on page 362).

[BW76]

R. M. Beam and R. F. Warming. An implicit nite-dierence algorithm for hyperbolic systems in


conservation-law form. J. Comput. Phys., 22(1):87110, 1976. doi: 10.1016/0021-9991(76)901108 (cited on page 395).

[Car59]

B. Carlson. Numerical solution of transient and steady-state neutron transport problems. Technical
report (LA-2260). Los Alamos scientic laboratory, 1959. doi: 10.2172/4198642 (cited on page 391).

[CFL28]

R. Courant, K. Friedrichs und H. Lewy. ber die partiellen Dierenzengleichungen der mathematischen Physik. Math. Ann., 100(1):3274, 1928. doi: 10.1007/BF01448839 (siehe Seite 386).

[CFL67]

R. Courant, K. Friedrichs, and H. Lewy. On the partial dierence equations of mathematical


physics. IBM J., 11(2):215234, 1967. doi: 10.1147/rd.112.0215 (cited on page 386).

[CFN50]

J. G. Charney, R. Fjrtoft, and J. von Neumann. Numerical integration of the barotropic


vorticity equation. Tellus, 2(4):237254, 1950. doi: 10.1111/j.2153-3490.1950.tb00336.x (cited
on page 384).

[CIR52]

R. Courant, E. Isaacson, and M. Rees. On the solution of nonlinear hyperbolic dierential


equations by nite dierences. Comm. Pure Appl. Math., 5(3):243255, 1952. doi: 10.1002/cpa.
3160050303 (cited on pages 388, 393).

[CL84]

M. G.

Crandall

and P.-L.

Lions.

Two approximations of solutions of Hamilton-Jacobi equations.


doi: 10 . 1090 / S0025 - 5718 - 1984 - 0744921 - 8 (cited on

Math. Comput., 43(167):119, 1984.


page 396).

[D'A49]

J. D'Alembert. Recherches sur la courbe que forme une corde tendu mise en vibration. In. Tome 3
(anne 1747). In Histoire de l'Acadmie royale des sciences et belles lettres. Haude et Spener, Berlin,
1749, pages 214219 (cf. page 362).

[EO80]

B. Engquist and S. Osher. Stable and entropy satisfying approximations for transonic ow calculations. Math. Comput., 34(149):4575, 1980. doi: 10.1090/S0025-5718-1980-0551290-1 (cited
on page 394).

[Eul57]

L. Euler. Principes gnraux du mouvement des uides. Hist. Acad. Roy. Sci. Belles-Lettres Berlin,
11 :274315, 1757 (cf. page 362).

[Fro68]

J. E. Fromm. A method for reducing dispersion in convective dierence schemes. J. Comput. Phys.,
3(2):176189, 1968. doi: 10.1016/0021-9991(68)90015-6 (cited on page 395).

[Gel59]

I. M. Gel'fand. Some problems in the theory of quasi-linear equations (russian). Uspekhi Mat.
Nauk, 14(2(86)):87158, 1959 (cited on page 372).

[God59]

S. K. Godunov. A dierence scheme for numerical solution of discontinuous solution of uid


dynamics (russian). Math. Sb., 47(89):271306, 1959 (cited on pages 387, 394).

396

RFRENCES

[GR96]

E. Godlewski and P.-A. Raviart. Numerical approximation of hyperbolic systems of conservation


laws. Volume 118 of Applied mathematical sciences. Springer, 1996 (cited on pages 371, 395).

[HEOC87]

A. Harten, B. Engquist, S. Osher, and S. R. Chakravarthy. Uniformly high order accurate


essentially non-oscillatory schemes, III. J. Comput. Phys., 71(2):231303, 1987. doi: 10.1016/00219991(87)90031-3 (cited on page 396).

[HHLK76]

A. Harten, J. M. Hyman, P. D. Lax, and B. Keyfitz. On nite-dierence approximations and


entropy conditions for shocks. Comm. Pure Appl. Math., 29(3):297322, 1976. doi: 10.1002/cpa.
3160290305 (cited on page 387).

[Hug87]

H. Hugoniot. Sur la propagation du mouvement dans les corps et spcialement dans les gaz parfaits.

J. cole Polytechnique, 57 :398, 1887 (cf. page 370).

[Kre64]

H.-O. Kreiss. On dierence approximations of the dissipative type for hyperbolic dierential equations. Comm. Pure Appl. Math., 17(3):335353, 1964. doi: 10.1002/cpa.3160170306 (cited on
page 385).

[Kru70]

S. N. Krukov. First order quasilinear equations in several independent variables. Math. USSR-Sb.,
10(2):217243, 1970. doi: 10.1070/SM1970v010n02ABEH002156 (cited on pages 372, 375).

[Lax54]

P. D.

Lax.

Weak solutions of nonlinear hyperbolic equations and their numerical computation.


doi: 10.1002/cpa.3160070112 (cited on page 388).

Comm. Pure Appl. Math., 7(1):159193, 1954.

[Lax57]

P. D. Lax. Hyperbolic systems of conservation laws II. Comm. Pure Appl. Math., 10(4):537566,
1957. doi: 10.1002/cpa.3160100406 (cited on page 375).

[Lee79]

B. van Leer. Towards the ultimate conservative dierence scheme. V. A second-order sequel to
Godunov's method. J. Comput. Phys., 32(1):101136, 1979. doi: 10.1016/0021-9991(79)90145-1
(cited on page 395).

[LeV92]

R. J.

[Liu76]
[LOC94]
[LR56]

LeVeque. Numerical methods for conservation laws. Of Lectures in Mathematics. ETH


Zrich. Birkhuser, second edition, 1992 (cited on page 395).
T.-P. Liu. The entropy condition and the admissibility of shocks. J. Math. Anal. Appl., 53(1):7888,

1976.

doi:

X.-D.

Liu,

10.1016/0022-247X(76)90146-3 (cited on page 375).


S.

Osher,

and T.

Phys., 115(1):200212, 1994.


P. D.

Lax

and R. D.

Weighted essentially non-oscillatory schemes. J. Comput.


10.1006/jcph.1994.1187 (cited on page 396).

Chan.

doi:

Richtmyer.

Survey of the stability of linear nite dierence equations.


doi: 10.1002/cpa.3160090206 (cited on page 386).

Comm. Pure Appl. Math., 9(2):267293, 1956.

[LW55]

M. J. Lighthill and G. B. Whitham. On kinematic waves II. A theory of trac ow on long
crowded roads. Proc. Roy. Soc. London Ser. A, 229(1178):317345, 1955. doi: 10.1098/rspa.
1955.0089 (cited on page 361).

[LW60]

P. D. Lax and B. Wendroff. Systems of conservation laws. Comm. Pure Appl. Math., 13(2):217
237, 1960. doi: 10.1002/cpa.3160130205 (cited on pages 386, 388).

[Mac69]

R. W. MacCormack. The eect of viscosity in hypervelocity impact cratering. In AIAA hypervelocity impact conference. AIAA paper 69-354. Cincinnati, Ohio, 1969 (cited on page 394).
E. M. Murman. Analysis of embedded shock waves calculated by relaxation methods. AIAA J.,

[Mur74]

12(5):626633, 1974.

doi:

10.2514/3.49309 (cited on page 394).

[New59]

N. M. Newmark. A method of computation for structural dynamics. J. Engrg. Mech. Div.,


85(7):6794, 1959 (cited on page 393).

[Ole57]

O. A. Oleinik. Discontinuous solutions of non-linear dierential equations (russian). Uspekhi Mat.


Nauk, 12(3(75)):373, 1957 (cited on page 376).

[Ole59]

O. A. Oleinik. Uniqueness and stability of the generalized solution of the Cauchy problem for a
quasi-linear equation (russian). Uspekhi Mat. Nauk, 14(2(86)):165170, 1959 (cited on page 374).

[Ran70]

W. J. M.
page 370).

[Ric56]

Rankine.

On the thermodynamic theory of waves of nite longitudinal disturbances.


doi: 10.1098/rstl.1870.0015 (cited on

Philos. Trans. Roy. Soc. London, 160:277288, 1870.

P. I. Richards. Shock waves on the highway. Operations Res., 4(1):4251, 1956.


opre.4.1.42 (cited on page 361).

397

doi:

10.1287/

CHAPITRE 10. MTHODES DE RSOLUTION DES SYSTMES DE LOIS DE CONSERVATION

[Ric63]

R. D. Richtmyer. A survey of dierence methods for non-steady uid dynamics. Technical report
(NCAR technical note 63-2). Boulder, Colorado: National Center for Atmospheric Research, 1963
(cited on page 394).

[Rie60]

B. Riemann. Ueber die Fortpanzung ebener Luftwellen von endlicher Schwingungsweite. Verlag der
Dieterichschen Buchhandlung, 1860 (siehe Seite 376).

[Roe81]

Roe. Approximate riemann solvers, parameter vectors, and dierence schemes. J. Comput.
Phys., 43(2):357372, 1981. doi: 10.1016/0021-9991(81)90128-5 (cited on page 394).
D. Serre. Systmes de lois de conservation I. Hyperbolicit, entropies, ondes de choc. De Fondations.

[Ser96]

P. L.

Diderot diteur, arts et sciences, 1996 (cf. page 395).

[Str04]

J. C. Strikwerda. Finite dierence schemes and partial dierential equations. SIAM, second edition, 2004. doi: 10.1137/1.9780898717938 (cited on page 395).

[Str64]

G. L. Strang. Accurate partial dierence methods ii. non-linear problems. Numer. Math., 6(1):37
46, 1964. doi: 10.1007/BF01386051 (cited on page 386).

[TS62]

A. N.

[TS63]

A. N.

Tikhonov

and A. A.

Math. Phys., 1(1):567, 1962.


Tikhonov

and A. A.

doi:

Samarskii.

Homogeneous dierence schemes on non-uniform nets.


doi: 10.1016/0041- 5553(63)90505- 6

USSR Comput. Math. Math. Phys., 2(5):927953, 1963.


(cited on page 396).

[Vol67]

Homogeneous dierence schemes. USSR Comput. Math.


10.1016/0041-5553(62)90005-8 (cited on page 396).

Samarskii.

A. I. Vol'pert. The spaces BV and quasilinear equations. Math. USSR-Sb., 2(2):225267, 1967.
doi: 10.1070/SM1967v002n02ABEH002340 (cited on page 372).

398

Chapitre 11

Rsolution numrique des quations


paraboliques
Nous intressons prsent des quations aux drives partielles rendant compte mathmatiquement
de phnomnes de diusion. Dans le cas linaire 1 et pour une inconnue scalaire en l'absence de source,
celles-ci prennent la forme gnrale

u
(t, x) + (Lu)(t, x) = 0
t
l'oprateur L tant dni par

d
d
d
X
u X u
X
aij
+
bi
Lu =
+ c u,
xi j=1
xj
xi
i=1
i=1
avec A = (aij ), b = (bi )...
COMPLETER

11.1

Quelques exemples d'quations paraboliques *

REPRENDRE Les quations paraboliques sont dans de nombreux cas issus d'une description macroscopique de phnomnes dont la description microscopique est essentiellement de nature alatoire,
comme le transfert de chaleur dans un solide li la cession de l'nergie cintique, provenant de l'agitation thermique, d'un atome ou d'une molcule ses voisins, les forces visqueuses dans un uide lies aux
mouvements molculaires, etc...

11.1.1

Un modle de conduction thermique *

L'quation de la chaleur est une quation aux drives partielles parabolique, initialement introduite
par Fourier [Fou22] pour dcrire le phnomne physique de distribution de la chaleur dans un milieu
continu.
pour un matriau homogne, elle prend la forme

2u
u
(t, x) 2 (t, x) = 0
t
x
u : temprature, : diusivit thermique 2 (en m2 s1 ).
Note : l'analyse de Fourier fut introduite pour la rsolution de cette quation
1. Quelques exemples d'quations paraboliques seront donns dans la section 11.1.
2. Cette grandeur physique dpend des capacits du matriau conduire et accumuler la chaleur. On a la formule
=

,
cp

399

CHAPITRE 11. RSOLUTION NUMRIQUE DES QUATIONS PARABOLIQUES

11.1.2

Retour sur le modle de BlackScholes *

Dans cette sous-section, une approche dterministe de rsolution du problme de couverture d'une
option d'achat europenne dans le cadre du modle de BlackScholes, dj prsent dans la sous-section
9.2.2, est propose. Celle-ci repose sur une quation aux drives partielles dcrivant l'volution du prix
de l'option.
On rappelle que le prix d'une option un instant t est gal la valeur Vt de son portefeuille de
couverture, qui est une fonction du temps et de la valeur de l'actif risqu sous-jacent, modlis par le
processus S . En notant C cette fonction, que l'on suppose de classe C 1 par rapport sa premire variable
et de classe C 2 , il vient par utilisation de la formule d'It
o (voir la proposition 9.20)


C
C
1
2C
C
(t,
S
)
dt + St
(t, St ) + St
(t, St ) + 2 St 2
(t, St ) dWt .
dC(t, St ) =
t
2
t
x
2
x
x
En identiant alors avec l'quation (9.20), on obtient

C
C
1
2C
(t, St ) = r C(t, St ) + ( r)t St ,
(t, St ) + St
(t, St ) + 2 St 2
t
x
2
x2
et

St

C
(t, St ) = t St ,
x

dont on dduit l'quation de BlackScholes

C
1
C
2C
(t, St ) + 2 St2
(t, St ) + rSt
(t, St ) r C(t, St ) = 0, 0 < t < T,
2
t
2
x
x

(11.1)

que l'on munit de la condition terminale

C(T, ST ) = (ST K)+ ,


ces deux relations tant vries presque srement par rapport la mesure de probabilit historique P .
Le support de la loi de probabilit de la variable St tant, pour tout t 0, [0, +[, l'quation reste
satisfaite lorsque l'on remplace St par la variable x, avec x > 0. On en dduit alors que la fonction C est
solution du problme

C
1
2C
C
(t, x) + 2 x2
(t, x) + rx
(t, x) r C(t, x) = 0, 0 < t < T, x ]0, +[,
t
2
x2
x
C(T, x) = (x K)+ , x ]0, +[.

(11.2)
(11.3)

EXPLICATIONS pour les CONDITIONS AUX LIMITES

C(t, 0) = 0, C(t, x) x quand x , t.


- si St = 0 t, le bnce terme est nul et il n'y a aucun intrt exercer l'option, d'o C(t, 0) = 0 t.
- si le prix augmente considrablement au cours du temps (St +), l'option sera exerce et le prix
d'exercice de l'option sera ngligeable, d'o C(t, x) x, x +.
Il dcoule d'une extension de la formule de Feynman 3 Kac 4 [Kac49] que la solution de ce problme
peut tre crite sous la forme d'une esprance conditionnelle,

C(t, x) = er (T t) E ((XT K)+ | Xt = x) ,


dans laquelle dsigne la

conductivit thermique
(en J kg1 K1 ).

(en W m1 K1 ), est la

capacit thermique massique

masse volumique

(en kg m3 ) et cp est la

3. Richard Phillips Feynman (11 mai 1918 - 15 fvrier 1988) tait un physicien amricain, comptant parmi les scientiques
les plus inuents de la seconde moiti du vingtime sicle. Il est l'auteur de travaux sur la reformulation de la mcanique
quantique l'aide d'intgrales de chemin, l'lectrodynamique quantique relativiste, la physique des particules ou encore la
superuidit de l'hlium liquide.
4. Mark Kac (Marek Kac en polonais, 3 aot 1914 - 26 octobre 1984) tait un mathmaticien amricain d'origine
polonaise, spcialiste de la thorie des probabilits. Sa question, devenue clbre et laquelle la rponse est en gnral
ngative,  Peut-on entendre la forme d'un tambour ?  donna lieu d'importants dveloppements dans le domaine de la
gomtrie spectrale.

400

11.1. QUELQUES EXEMPLES D'QUATIONS PARABOLIQUES *

o le processus X est solution de l'quation direntielle stochastique

dXs = rXs (ds + dWs ), s [t, T ].


On retrouve alors le rsultat, obtenu dans la sous-section 9.2.2, conduisant la formule de BlackScholes
(9.25). On peut cependant driver cette formule sans faire appel au calcul stochastique. En eet, en
introduisant le changement de variables

x 
2
+ r
= T t, y = ln
, u(, y) = C(t, x) er ,
K
2
l'quation de BlackScholes s'crit alors

u
2 2 u
(, y) = 0, 0 < < T, y R,
(, y)

2 y 2
la condition terminale devenant une condition initiale

u(0, y) = K (emax{0,y} 1).


METHODES DE RESOLUTION :
Par une mthode standard (convolution noyau de Green) de rsolution, il vient


Z
1
(y z)2
u(, y) =
K (emax{z,0} 1) exp
dz,
2 2
2
d'o, aprs quelques manipulations,

u(, y) = K ey+
avec

d1 =

(y +

2
2

2
2

) +

2
2

N (d1 ) K N (d2 )

, d2 = d1 .

Le retour aux variables originelles dans l'expression de cette solution conduit alors la formule de
BlackScholes.
extension pour options europnnes payant des dividendes, rsolution numrique, etc...

11.1.3

Systmes de raction-diusion **

modles mathmatiques dcrivant l'volution des concentrations d'une ou plusieurs substances spatialement distribues et soumises deux processus : un processus de ractions chimiques locales, dans lequel
les direntes substances se transforment, et un processus de diusion qui provoque une rpartition de
ces substances dans l'espace. Ils sont utiliss en chimie, chaque composante de l'inconnue u tant alors
la concentration d'une substance en un point donn un instant donn, mais ils dcrivent aussi des
phnomnes de nature dirente ayant lieu dans des systmes biologiques, cologiques ou sociaux.
systmes non linaires :
une composante (et une dimension d'espace), quation de Kolmogorov-Petrovsky-Piskounov ( ?)

2u
u
= D 2 + R(u)
t
x
R(u) = u(1 u) : quation de Fisher 5 [Fis37] (originellement utilise pour simuler la propagation d'un
gne dans une population)
5. Ronald Aylmer Fisher (17 fvrier 1890 - 29 juillet 1962) tait un statisticien et biologiste britannique. Il introduisit
dans le domaine des statistiques de nombreux concepts cls parmi lesquels on peut citer le maximum de vraisemblance,
l'information portant son nom et l'analyse de la variance. Il est galement l'un des fondateurs de la gntique moderne, son
approche statistique de la gntique des populations contribuant la formalisation mathmatique du principe de slection
naturelle.

401

CHAPITRE 11. RSOLUTION NUMRIQUE DES QUATIONS PARABOLIQUES

R(u) = u(1u2 ) : quation de NewellWhiteheadSegel [NW69, Seg69] (dcrit la convection de Rayleigh


Bnard 6 )
R(u) = u(1 u)(u ) avec 0 < < 1 : quation de Zeldovich 7 (apparat en thorie de la combustion
comme modle de propagation de amme), dont un cas dgnr est R(u) = u2 u3 ( comparer avec
(8.112))
quation d'Allen-Cahn (modlise le processus de sparation de phase dans les alliages ferreux)
A VOIR : quation de Ginzburg 8 Landau 9 complexe
- deux composante, plusieurs (deux ?) dimensions d'espace citer (avec explications) l'article prcurseur
de Turing [Tur52] sur la fondation chimique du phmonne de morphognse, poursuivre sur le modle
de Schnakenberg [Sch79]
u
t
v
t

u a u + u2 v

d v + b u2 v

le modle de GrayScott [GS83]

u
t
v
t

= Du u u v 2 + F (1 u)
= Dv v + u v 2 (F + k) v

avec Du > 0 et Dv > 0 des paramtres de diusion et F et k peuvent tre vus comme des paramtres de
bifurcation
simulations numriques partir de ce derniers modle conduisant la formation de motifs observs
dans la nature [Pea93]

11.1.4

Systmes d'advection-raction-diusion **

quations de Fokker 10 Planck 11 [Fok14] (encore appele quation forward de Kolmogorov dans la

communaut probabiliste, since they were highlighted in his 1931 foundational work [Kol31])

11.2

Existence et unicit d'une solution, proprits **

INTRODUIRE le problme rsoudre en domaine born ]0, +[]0, L[ avec condition initiale

u
2u
(t, x) 2 (t, x) = 0, t > 0, 0 < x < L,
t
x

(11.4)

u(0, x) = u0 (x) 0 < x < L.


6. Henri Bnard (25 octobre 1874 - 29 mars 1939) tait un physicien franais. Il est connu pour ses travaux de recherche
sur les phnomnes de convection dans les liquides.
& kov Bor&isoviq Zel~d&oviq en russe, 8 mars 1914 - 2 dcembre 1987) tait un physicien
7. Yakov Borisovich Zeldovich (
russe. Il joua un rle important dans le dveloppement des armes nuclaire et thermonuclaire sovitiques et t d'importantes
contributions dans les domaines de l'adsorption et de la catalyse, des ondes de chocs, de la physique nuclaire, de la physique
des particules, de l'astrophysique, de la cosmologie et de la relativit gnrale.
8. Vitaly Lazarevich Ginzburg (Vit&ali@
i L&azareviq G&inzburg en russe, 4 octobre 1916 - 8 novembre 2009) tait un
physicien et astrophysicien russe, considr comme l'un des pres de la bombe hydrogne sovitique.
9. Lev Davidovich Landau (L&ev Dav&
idoviq Land&au en russe, 22 janvier 1908 - 1er avril 1968) tait un physicien
thoricien russe. COMPLETER
10. Adriaan Danil Fokker (17 aot 1887 - 24 septembre 1972) tait un physicien et musicien nerlandais. Il a a apport
plusieurs contributions la relativit restreinte, en particulier pour la prcession godtique. Il a galement conu et construit
divers claviers permettant de jouer de la musique microtonale.
11. Max Karl Ernst Ludwig Planck (23 avril 1858 - 4 octobre 1947) tait un physicien allemand, souvent considr comme
le fondateur de la mcanique quantique. Il est d'ailleurs laurat du prix Nobel de physique de 1918 pour ses travaux en
thorie des quanta.

402

11.3. RSOLUTION APPROCHE PAR LA MTHODE DES DIFFRENCES FINIES

et conditions aux limites (homognes). Plusieurs choix sont possibles : Dirichlet 12 , Neumann 13 , Robin 14
(voir [GA98] propos de l'appellation de cette condition), priodiques ou toute combinaison compatible
de celles-ci
Il existe plusieurs faons de dmontrer l'existence d'une solution du problme eqref. Certaines sont
abstraites, comme celles fondes sur la thorie des semi-groupes ou utilisant une approche variationnelle.
technique via base hilbertienne
Rsultats (conditions de Dirichlet homognes, pas de source, mais on peut adapter la thorie) :

Thorme 11.1 Si u0 L2 (]0, L[), il existe une unique solution du problme u telle que



u C [0, +[; L2 (]0, L[) C ]0, +[; H 2 (]0, L[H01 (]0, L[) , u C 1 ]0, +; L2 (]0, L[) .
De plus, > 0, u C ([, T ] [0, L]).
Dmonstration.

A ECRIRE

COMMENTAIRES : eet fortement rgularisant de l'quation sur la donne initiale : mme si u0 est
discontinue, la solution est de classe C ds que t > 0)
cet eet a pour consquence la non rversibilit de l'quation : on ne peut gnralement pas rsoudre
le problme avec condition terminale (il est impossible de retrouver la condition initiale partir de la
connaissance de la solution un instant donn t > 0).

Thorme 11.2 Si u0 L (]0, L[), f = 0, alors u L (]0, T []0, L[) et kuk ku0 k (principe du

maximum/stabilit L , note : aussi vrai pour quations de transport)

Corollaire 11.3 Si u0 0, f 0 (rgularit ?) alors u(t, ) 0, t 0 (principe de positivit).


enn, si u0 6= 0, u0 0 presque partout et f 0 alors u(t, x) > 0 x ]0, L[, t > 0 (propagation
vitesse innie, limitation du modle)
Ces proprits sont tout fait direntes de celles des solutions des quations hyperboliques du
chapitre prcdent

11.3

Rsolution approche par la mthode des dirences nies

INTRODUCTION

11.3.1

Analyse des mthodes **

consistance
stabilit, faire lien avec la stabilit pour les edo
domaine en espace tant born, on peut raliser l'analyse de stabilit dans le cas des conditions de
Dirichlet via un calcul de rayon spectral
Remarque sur le principe du maximum discret

11.3.2

Prsentation de quelques schmas **

mthodes un pas en temps


FTCS (forward in time, centered in space) : Euler explicite en temps + dirences centres en espace

un+1
unj
unj+1 2 unj + unj1
j
=
t
(x)2

(11.5)

12. Johann Peter Gustav Lejeune Dirichlet (13 fvrier 1805 - 5 mai 1859) tait un mathmaticien allemand. On lui doit
des contributions profondes la thorie analytique des nombres et la thorie des sries de Fourier, ainsi que divers travaux
en analyse ; l'introduction du concept moderne de fonction lui est notamment attribu.
13. Carl Gottfried Neumann (7 mai 1832 - 27 mars 1925) tait un mathmaticien allemand. Il travailla sur le principe de
Dirichlet et fut l'un des pionniers de la thorie des quations intgrales.
14. Victor Gustave Robin (17 mai 1855 - 1897) tait un mathmaticien et physicien franais, connu pour ses contributions
la thorie du potentiel et la thermodynamique.

403

CHAPITRE 11. RSOLUTION NUMRIQUE DES QUATIONS PARABOLIQUES

ordre un en temps et deux en espace, stable si

t
(x)2

1
2

BTCS (backward in time, centered in space) : Euler implicite en temps + dirences centres en
espace
n+1
un+1
unj
un+1
+ un+1
j
j+1 2 uj
j1
=
t
(x)2
ordre un en temps et deux en espace, inconditionnellement stable
mthode de Crank 15 Nicolson 16 [CN47]

un+1
unj
1
j
=
t
2

n+1
un+1
+ un+1
unj+1 2 unj + unj1
j+1 2 uj
j1
+
(x)2
(x)2

inconditionnellement stable
Plus gnralement : classe des -schmas
n+1
un+1
unj
un+1
+ un+1
unj+1 2 unj + unj1
j
j+1 2 uj
j1
+
(1

)
, [0, 1].
=
t
(x)2
(x)2

= 0 : FTCS, = 1 : BTCS, = 21 : CrankNicolson


analyse de von Neumann : on trouve


2 x
t
1 4(1 ) (x)
2 sin
2


g() =
2 x
t
1 + 4 (x)
2 sin
2
On doit distinguer deux cas : la mthode est stable sous la condition
est inconditionnellement stable sinon.

t
(x)2

1
2(12)

si 0 < 21 , elle

Lien avec les mthodes pour la rsolution des edo : aprs semi-discrtisation en espace, on est conduit
rsoudre le systme direntiel linaire

du
(t) = A u(t)
dt
que l'on rsoud par l'une des mthodes introduites au chapitre 8. On voit alors que la mthode Euler
explicite correspond alors (8.25), Euler implicite (8.27) et le schma de CrankNicolson au choix de
la mthode de la rgle du trapze (8.28).
mthodes deux pas de temps (mentionner le problme pratique de l'initialisation de la relation de
rcurrence : deux valeurs tant ncessaires et la condition initiale du problme n'en fournissant qu'une,
on doit avoir recours une mthode un pas pour obtenir la valeur manquante)
mthode de Richardson [Ric11] (explicite, second ordre)

un+1
un1
unj+1 2 unj + unj1
j
j
=
, n N , j Z.
2 t
(x)2

(11.6)

analyse de von Neumann :

n+1

t
() + 8
sin2
(x)2

x
2

u
n () u
n1 () = 0, n N .

L'analyse de stabilit doit tre conduite en utilisant les rsultat de la sous-section 8.4.1.Les racines
du

64 (t)2
4 x
polynme caractristique associ sont relles et distinctes (discriminant gal (x)4 sin
+4 > 0)
2
15. John Crank (6 fvrier 1916 - 3 octobre 2006) tait un mathmaticien anglais, connu pour ses travaux sur la rsolution
numrique des quations aux drives partielles pour des problmes de conduction de la chaleur.
16. Phyllis Nicolson (21 septembre 1917 - 6 octobre 1968) tait une physicienne britannique. Elle est, avec John Crank,
l'origine d'une mthode de rsolution numrique stable de l'quation de la chaleur.

404

11.3. RSOLUTION APPROCHE PAR LA MTHODE DES DIFFRENCES FINIES

et de produit gal 1. L'une d'entre elles est donc de valeur absolue strictement plus grande que l'unit
et la mthode est donc inconditionnellement instable.
On peut remdier cet inconvnient de taille en remplaant dans (11.6) la quantit unj par la moyenne
un+1
+un1
j
j
2

. On obtient ainsi la mthode de Du FortFrankel [DFF53], dont le schma s'crit

un+1
un1
un1
+ unj1
unj+1 un+1
j
j
j
j
, n N , j Z.
=
2 t
(x)2

(11.7)

La mthode reste explicite puisque l'on a

un+1
=
j

t
2 (x)
2
t
1 + 2 (x)
2

t
 1 2 (x)
2
unj+1 + unj1 +
un1 , n N , j Z.
t
1 + 2 (x)2 j

et elle est inconditionnellement stable. En eet, l'analyse de von Neumann conduit






t
t
t
n+1
n
u

cos ( x) u
() 1 2
u
n1 () = 0, n N .
1+2
() 2
(x)2
(x)2
(x)2
Le produit des racines du polynme caractristique associ cette quation aux dirences linaire vaut

et le discriminant vaut


4

14

t
1 2 (x)
2
t
1 + 2 (x)
2


(t)2
2
sin
(
x)
.
(x)4

Si ce dernier est strictement ngatif, les racines sont complexes conjugues, ce qui implique alors qu'elles
sont de module strictement infrieur un (il en va de mme si le discriminant est nul et qu'il n'y a qu'une
unique racine relle de multiplicit double). Si le discriminant est strictement positif, les racines sont
relles distinctes et il sut alors d'observer que l'on a dans ce cas

0<14

(t)2
sin2 ( x) 1,
(x)4

d'o
t
2 (x)
2 1
t
1 + 2 (x)
2

t
2 (x)
2 cos ( x)

q
(t)2
2
1 4 (x)
4 sin ( x)

t
1 + 2 (x)
2

t
2 (x)
2 + 1
t
1 + 2 (x)
2

Les racines sont donc comprises entre 1 et 1.


En revanche, elle n'est que conditionnellement consistante. Pour le montrer, il sut de voir le schma
(11.7) comme une perturbation du schma de la mthode de Richardson, c'est--dire
n+1
n1
un+1
un1
unj+1 2 unj + unj1
(t)2 uj 2 unj + uj
j
j
=

= 0, n N , j Z.
2 t
(x)2
(x)2
(t)2

L'erreur de troncature du schma est donc celle de la mthode de Richardson perturbe par le terme


(t)3 2 u
(t)5
.
(t
,
x
)
+
O
n
j
(x)2 t2
(x)2
t
La mthode n'est donc consistante que que si le rapport x
tend vers zro avec t et x. La mthode
est dans ce cas d'ordre deux en temps et en espace. Bien qu' premire vue surprenant, ce rsultat
tait prvisible. La mthode tant explicite, elle ne propage l'information qu' une vitesse nie, gale
en l'occurrence x
t . Pour que la solution approche qu'elle fournit puisse converger vers la solution de
l'quation, il faut donc que cette vitesse tende vers l'inni lorsque les longueurs des pas de discrtisation
tendent vers zro.

405

CHAPITRE 11. RSOLUTION NUMRIQUE DES QUATIONS PARABOLIQUES

11.3.3

Remarques sur l'implmentation de conditions aux limites **

PLACER ici des rsultats numriques

Rfrences
[CN47]

J. Crank and P. Nicolson. A practical method for numerical evaluation of solutions of partial
dierential equations of the heat-conduction type. Math. Proc. Cambridge Philos. Soc., 43(1):50
67, 1947. doi: 10.1017/S0305004100023197 (cited on page 404).

[DFF53]

E. C. Du Fort and S. P. Frankel. Stability conditions in the numerical treatment of parabolic


dierential equations. Math. Tables Aids Comp., 7(43):135152, 1953. doi: 10.1090/S0025-57181953-0059077-7 (cited on page 405).

[Fis37]

R. A. Fisher. The wave of advance of advantageous genes. Ann. Eugenics, 7(4):335369, 1937.
10.1111/j.1469-1809.1937.tb02153.x (cited on page 401).

doi:

[Fok14]

A. D. Fokker. Die mittlere Energie rotierender elektrischer Dipole im Strahlungsfeld. Ann. Physik,
348(5):810820, 1914. doi: 10.1002/andp.19143480507 (siehe Seite 402).

[Fou22]

Thorie analytique de la chaleur. Firmin Didot, pre et ls, 1822 (cf. page 399).
K. Gustafson and T. Abe. The third boundary condition  Was it Robin's? Math. Intelligencer,

[GA98]

J.

Fourier.

20(1):6371, 1998.

doi:

10.1007/BF03024402 (cited on page 403).

[GS83]

P. Gray and S. K. Scott. Autocatalytic reactions in the isothermal, continuous stirred tank
reactor: Isolas and other forms of multistability. Chem. Engrg. Sci., 38(1):2943, 1983. doi:
10.1016/0009-2509(83)80132-8 (cited on page 402).

[Kac49]

M. Kac. On distributions of certain Wiener functionals. Trans. Amer. Math. Soc., 65(1):113,
1949. doi: 10.1090/S0002-9947-1949-0027960-X (cited on page 400).

[Kol31]

A. Kolmogoroff. ber die analytischen Methoden in der Wahrscheinlichkeitsrechnung. Math. Ann.,


104(1):415458, 1931. doi: 10.1007/BF01457949 (siehe Seite 402).

[NW69]

A. C.

Newell

and J. A.

Mech., 38(2):279303, 1969.

Finite bandwidth, nite amplitude convection. J. Fluid


10.1017/S0022112069000176 (cited on page 402).

Whitehead.
doi:

[Pea93]

J. E. Pearson. Complex patterns in a simple system. Science, 261(5118):189192, 1993.


10.1126/science.261.5118.189 (cited on page 402).

[Ric11]

L. F. Richardson. The approximate arithmetical solution by nite dierences of physical problems


involving dierential equations, with an application to the stresses in a masonry dam. Philos. Trans.
Roy. Soc. London Ser. A, 210(459-470):307357, 1911. doi: 10.1098/rsta.1911.0009 (cited on
page 404).

[Sch79]

J. Schnakenberg. Simple chemical reaction systems with limit cycle behaviour. J. Theor. Biol.,
81(3):389400, 1979. doi: 10.1016/0022-5193(79)90042-0 (cited on page 402).

[Seg69]

L. A.

[Tur52]

A. M. Turing. The chemical basis of morphogenesis. Philos. Trans. Roy. Soc. London Ser. B,
237(641):3772, 1952. doi: 10.1098/rstb.1952.0012 (cited on page 402).

Segel.

doi:

Distant side-walls cause slow amplitude modulation of cellular convection. J. Fluid


doi: 10.1017/S0022112069000127 (cited on page 402).

Mech., 38(1):203224, 1969.

406

Quatrime partie

Annexes

407

Annexe A

Rappels et complments d'algbre


linaire
On rappelle dans cette annexe un certain nombre de dnitions et de rsultats relatifs l'algbre
linaire en dimension nie et l'analyse matricielle. La plupart des notions abordes sont supposes dj
connues du lecteur, l'exception peut-tre des normes matricielles. Comme dans le reste du document,
on dsigne par N l'ensemble des nombres entiers naturels, par Z l'ensemble des nombres entiers relatifs
et par Q l'ensemble des nombres rationnels, Q = { pq | p Z, q Z\{0}}, par R l'ensemble des nombres
rels et par C l'ensemble des nombres complexes.

A.1

Ensembles et applications

Nous commenons par rappeler, de manire intuitive, des notions relatives aux ensembles et aux
applications en adoptant le point de vue de la thorie nave des ensembles.

A.1.1

Gnralits sur les ensembles

En mathmatiques, on tudie des objets de dirents types : des nombres, des points ou encore des
vecteurs par exemple. Ces lments forment, en vertu de certaines proprits, des collections appeles
ensembles. Dans la suite, on dsignera gnralement un lment par une lettre minuscule (l'lment x
par exemple) et un ensemble par une lettre majuscule (l'ensemble E par exemple). L'appartenance d'un
lment un ensemble est par ailleurs noe par le symbole (on a ainsi x E ) et la non-appartenance
par
/.
Un ensemble peut tre ni ou inni, selon que le nombre d'lments qui le constituent est ni ou
inni (voir la sous-section A.1.4). S'il est ni, il peut tre donn en extension, c'est--dire par la liste (non
ordonne) de ses lments, a priori supposs distincts. S'il est inni (ou mme ni), l'ensemble peut tre
donn en comprhension, c'est--dire par une ou des proprits caractrisant ses lments.

Exemple d'ensemble ni. Un cas particulier d'ensemble ni est le singleton, qui est form d'un unique
lment. Si cet lment est not x, on dsigne l'ensemble par {x}.
Une premire notion essentielle est celle d'galit entre ensembles.

Dnition A.1 (galit entre ensembles) On dit qu'un ensemble E est gal un ensemble F , et

l'on note E = F , si tout lment de E est un lment de F et si tout lment de F est un lment de E .
Lorsque les ensembles E et F ne sont pas gaux, ils sont dits distincts et l'on note E 6= F .

Une autre notion importante, la relation d'inclusion, se dnit de la manire suivante.

Dnition A.2 (inclusion entre ensembles) On dit qu'un ensemble E est inclus dans un ensemble
F , ce que l'on note E F , si et seulement si tout lment de E appartient F ,
E F (x E, x F ).
409

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

L'inclusion d'un ensemble E dans un ensemble F peut encore se noter F E tandis que la ngation
de cette relation se note E 6 F . Lorsque E F et qu'il existe au moins un lment de F qui n'appartient
pas E , on dit que E est un sous-ensemble propre de F , ce qui est not E
F . Pour tout ensemble
E , on a E E , et si E , F et G trois ensembles tels que E F et F G, alors E G. On dit que
l'inclusion est une relation transitive (voir la sous-section A.1.2).
Le rsultat suivant est immdiat. Il permet de dmontrer l'galit entre deux ensembles par un principe
de double inclusion.

Proposition A.3 tant donn deux ensembles E et F , on a E = F si et seulement si l'on a simultanment E F et F E .

Dnition A.4 (partie d'un ensemble) Soit E un ensemble. On appelle partie (ou sous-ensemble)
de E tout ensemble A vriant A E .

Exemple de partie d'un ensemble. On nomme ensemble vide, et l'on note , l'ensemble n'ayant aucun

lment. C'est une partie de tout ensemble E . En eet, si cela ntait pas le cas, il existerait au moins un lment
appartenant qui n'appartiendrait pas E . Or, ceci est impossible, puisque l'ensemble vide n'a pas d'lment.
L'assertion E est donc vraie.

Toutes les parties d'un ensemble E constituent un nouvel ensemble, not P(E), que l'on nomme

ensemble des parties de E . Pour tout ensemble E , E et appartiennent P(E).

Dnition A.5 (partition d'un ensemble) Soit E un ensemble et P une partie de P(E). On dit
que P est une partition de E si et seulement si
A P , A 6= ,
A P , B P , (A 6= B A B = ),
x E , A P , x A.

Nous introduisons prsent des oprations sur les parties d'un ensemble, en commenant par dnir
deux lois de composition internes dans l'ensemble de ses parties.

Dnition A.6 (intersection d'ensembles) Soit E un ensemble et A et B deux parties de E . On


appelle intersection des ensembles A et B l'ensemble des lments qui appartiennent la fois A
et B . On le note not A B . Lorsque A B = (c'est--dire lorsque A et B n'ont aucun lment
commun), on dit que A et B sont disjoints.
Dnition A.7 (runion d'ensembles) Soit E un ensemble et A et B deux parties de E . On appelle
runion des ensembles A et B l'ensemble des lments qui appartiennent A ou B . Cet ensemble

est not A B .

Soit A, B et C trois sous-ensembles d'un ensemble E . L'intersection et la runion d'ensembles sont


des lois sont commutatives,
A B = B A, A B = B A,
et associatives,

A (B C) = (A B) C, A (B C) = (A B) C.
Elles sont galement distributives l'une pour l'autre,

A (B C) = (A B) (A C), A (B C) = (A B) (A C).
Pour prouver ces proprits, on fait appel aux tableaux de vrit et aux synonymies utiliss en logique.
Si l'on dnit la proposition (P (x)) (resp. (Q(x)), resp. (R(x))) comme tant vraie si et seulement si x A
(resp. x B , resp. x C ), la proposition x B C est alors quivalente (P (x) et Q(x)) et x B C
(P (x) ou Q(x)). Ainsi, x A(B C) est quivalente (P (x) ou (Q(x) et R(x))), ce qui est quivalent
((P (x) ou Q(x)) et (P (x) ou R(x))), ou encore x (A B) (A C). On procde de manire identique
pour dmontrer les autres assertions.
Nous continuons avec les notions de dirence d'ensembles et de complmentaire d'une partie d'un
ensemble.
410

A.1. ENSEMBLES ET APPLICATIONS

Dnition A.8 (dirence de deux ensembles) Soit A et B deux parties d'un ensemble E . On
appelle dirence de A et de B , et on note A\B , l'ensemble des lments de E appartenant A mais
pas B .

Dnition A.9 (complmentaire d'une partie) Soit A une partie d'un ensemble E . On appelle
complmentaire de A dans E , et l'on note CE (A), l'ensemble des lments de E qui n'appartiennent
pas A.

Les dmonstrations des proprits suivantes sont laisses en exercice au lecteur. Soit A et B deux
parties d'un ensemble E . On a
A = , AA = A, AE = A (on dit que E est l'lment neutre pour ), AB = B A B ,
A = A (on dit que est l'lment neutre pour ), AA = A, AE = E , AB = B A B .
A (A B) = A (A B) = A,
CE () = E , CE (E) = , CE (CE (A)) = A, A CE (A) = , A CE (A) = E (on dduit de ces
deux dernires galits que {A, CE (A)} est une partition de E ),
CE (A B) = CE (A) CE (B), CE (A B) = CE (A) CE (B) (ce sont les lois de De Morgan 1 ),
E\A = CE (A), A\B = A B , A\B = A CE (B) = A\(A B).
tant donn deux ensembles E et F , on peut associer tous lments x E et y F le nouvel objet
(x, y) appel couple ordonn. Ce couple est un lment d'un nouvel ensemble, que l'on nomme ensemble
produit de E par F .

Dnition A.10 (ensemble produit) Soit E et F deux ensembles. On appelle ensemble produit de
E par F , et l'on note E F , l'ensemble dni par
E F = {(x, y) | x E et y F }.
L'ensemble produit de deux ensembles est encore appel produit cartsien, en hommage Descartes 2
qui gnralisa l'usage des coordonnes en posant les bases de la gomtrie analytique. L'galit entre
couples d'un mme ensemble produit est dnie par l'quivalence logique suivante

(a, b) = (c, d) (a = c et b = d).


Lorsque E = F , on note E F = E 2 . Par extension, tant donns un entier n 1 et des ensembles
E1 ,. . . , En , on appelle produit de E1 ,. . . , En l'ensemble
Qnde tous les n-uplets (x1 , . . . , xn ) tels que x1
E1 ,. . . , xn En , que l'on note E1 En , ou encore i=1 Ei . Lorsque E1 = = En = E , l'ensemble
produit rsultant est not E n .

A.1.2

Relations

Nous allons prsent formaliser et gnraliser la notion de relation prcdemment introduite avec
l'inclusion.

Dnitions A.11 Soit E et F deux ensembles non vides. Une relation binaire, ou correspondance,
R de E vers F (dans E lorsque E = F ) est dnie par une partie R, appele le graphe de la relation,
de l'ensemble produit E F . Pour tout couple (x, y) appartenant R, on dit que l'lment x de E est en
relation par R avec l'lment y de F , ce que l'on note encore xRy . Enn, l'ensemble de dnition
de la relation R est la partie de E dnie par
{x E | y F, xRy}
et son

ensemble image

est la partie de F dnie par

{y F | x E, xRy} .
1. Augustus De Morgan (27 juin 1806 - 18 mars 1871) tait un mathmaticien britannique. Il est considr comme l'un
des fondateurs de la logique moderne.
2. Ren Descartes (31 mars 1596 - 11 fvrier 1650) tait un mathmaticien, physicien et philosophe franais. Il introduisit
la gomtrie analytique et est considr l'un des fondateurs de la philosophie moderne.

411

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Notons que l'on n'utilise gnralement pas une notation ensembliste pour dcrire une relation binaire
mais plutt la notation xRy introduite avec les dernires dnitions.

Dnition A.12 (relation compose) Soit E , F et G trois ensembles non vides, R (resp. S ) une
relation de E vers F (resp. de F vers G). On dnit la relation compose de S avec R, note S R,
de E vers G par

(x, z) E G, (xS Rz (y F, xRy et ySz)).


On a le rsultat d'associativit suivant.

Proposition A.13 Soit E , F , G et H des ensembles non vides et R, S et T des relations, respectivement
de E vers F , de F vers G et de G vers H . On a
(T S) R = T (S R).
Dmonstration. On remarque tout d'abord que les relations (T S) R et T (S R) ont le mme ensemble
de dpart (E ) et d'arrive (H ). Pour un couple (x, t) de E H , on a alors

x(T S) Rt

(y F, (xRy et yT St))

(y F, z G, (xRy et ySz et zT t))

(z G, (xS Rz et zT t))

xT (S R)t.


Dnition A.14 (relation rciproque) Soit E et F deux ensembles non vides et R une relation de E
relation rciproque de R, note R1 , de F vers E par

vers F . On dnit la

(x, y) E F, (yR1 x xRy).

Proposition A.15 On a les assertions suivantes.


1. Pour toute relation R, on a (R1 )1 = R.
2. Soit E , F , G trois ensembles et R (resp. S ) une relation de E vers F (resp. de F vers G). On a
(S R)1 = R1 S 1 .
Dmonstration.

1. C'est immdiat.
2. On a, (x, z) E G,
z(S R)1 x x(S R)z (y F, (xRy et ySz)) (y F, (zS 1 y et yR1 x)) zR1 S 1 x.


Dnitions A.16 Une relation binaire R dans un ensemble E est dite


rexive si et seulement si x E, xRx,
symtrique si et seulement si (x, y) E 2 , (xRy yRx),
antisymtrique si et seulement si (x, y) E 2 , ((xRy et yRx) x = y),
transitive si et seulement si (x, y, z) E 3 , ((xRy et yRz) xRz).
Dnition A.17 (relation induite) Soit E un ensemble, R une relation binaire sur E et A une partie
de E . La relation binaire dans A, note RA , dnie par (xRA y xRy), (x, y) A2 , est appele
relation induite par R sur A.

Dnition A.18 (relation d'quivalence) Soit R une relation binaire dans un ensemble E . On dit
que R est une relation d'quivalence si et seulement si elle est rexive, symtrique et transitive.
tant donne une relation d'quivalence, on identie les lments qui sont en relation en introduisant
le concept de classe d'quivalence.
412

A.1. ENSEMBLES ET APPLICATIONS

Dnitions A.19 (classe d'quivalence et ensemble quotient) Soit R une relation d'quivalence
dans un ensemble E . Pour chaque x de E , on appelle classe d'quivalence de x (modulo R) le sousensemble de E dni par C(x) = {y E | xRy}. Tout lment de C(x) est appel un reprsentant de
la classe C(x). L'ensemble des classes d'quivalence modulo R se nomme ensemble quotient de E
par R et se note E/R.
Thorme A.20 toute relation d'quivalence R dans un ensemble E correspond une partition de E
en classes d'quivalence et rciproquement, toute partition de E dnit sur E une relation d'quivalence
R, dont les classes concident avec les lments de la partition donne.
Dmonstration. Soit R une relation d'quivalence dans E . Pour tout lment x de E , C(x) est non vide
car x appartient C(x). Soit un couple (x, y) de E 2 tel que C(x) C(y) 6= ; il existe donc un lment z dans
C(x) C(y). On a alors xRz et yRz , d'o (par symtrie et transitivit de la relation) xRy . On en dduit que
C(x) C(y). Soit en eet t de C(x), on a xRt et xRy , d'o yRt et t appartient C(y). Les lments x et y
jouant des rles symtriques, on a C(x) = C(y). Puisque chaque lment x de E appartient C(x), la runion des
lments de E/R est E .
Rciproquement, soit P une partition de E et R la relation dnie dans E par

(x, y) E 2 , (xRy (P P, (x P et y P ))).

Par dnition, il existe, pour chaque x de E , un lment P de P auquel x appartient, on a donc xRx et R est
rexive.
Pour tout (x, y) de E 2 , on a
xRy (P P, (x P et y P )) (P P, (y P et x P )) yRx,

et donc R est symtrique.


Soit (x, y, z) E 3 tel que xRy et yRz . Il existe P et Q dans P tels que
((x P et y P ) et (y Q et z Q)) .

Comme P Q 6= et que P est une partition, on a P = Q, donc (x P et z P ), d'o xRz . Ainsi, R est
transitive.
Enn, soit x un lment de E . Il existe P de P tel que x appartienne P et l'on a alors C(x) = P . En eet,
pour tout y de P , (x P et y P ) donc xRy .
Pour tout lment y de C(x), il existe Q appartenant P tel que (x Q et y Q) et Q = P (pour les mmes
raisons que prcdemment) et donc y P . Ceci prouve que E/R P .
Rciproquement, soit P P . Il existe x appartenant P et l'on a alors C(x) = P . Ceci montre que P E/R.


Dnition A.21 (relation d'ordre) Soit R une relation binaire dans un ensemble E . On dit que R
est une relation d'ordre si et seulement si R est rexive, antisymtrique et transitive.
Une relation d'ordre est souvent note . Le couple (E, ), o E dsigne un ensemble et est une
relation d'ordre, est appel un ensemble ordonn. Ajoutons que la relation (x y et x 6= y) est note
x < y.

Dnitions A.22 (relation d'ordre total et d'ordre partiel) Soit (E, ) un ensemble ordonn. La
relation est dite relation d'ordre total si deux lments quelconques de E sont comparables,
(x, y) E 2 , (x y ou y x).
Dans le cas contraire, l'ordre est dit

partiel.

Soit (E, ) un ensemble (totalement) ordonn et A une partie de E . La relation induite par dans
A est une relation d'ordre (total) appele relation d'ordre induite par sur A.
L'introduction d'une relation d'ordre sur un ensemble rend certains lments des parties de cet ensemble remarquables. Ils sont l'objet des dnitions suivantes.

Dnitions A.23 Soit (E, ) un ensemble ordonn et A une partie de E .


413

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Un lment x de E est appel un majorant (resp. minorant) de A dans E si et seulement si


a A, a x

(resp. a A, x a).

On dit que A est majore (resp. minore) dans E si et seulement si cette partie admet au moins
un majorant (resp. minorant) dans E , c'est--dire
x E, a A, a x

(resp. x E, a A, x a).

Un lment x de E est appel un plus grand (resp. plus petit) lment de A si et seulement s'il
appartient A et majore (resp. minore) A, c'est--dire
(x A et (a A, a x))

(resp. (x A et (a A, x a))).

Un lment x de A est dit maximal (resp. minimal) si et seulement si


a A, (x a x = a)

(resp. a A, (a x x = a)).

Dnition A.24 (bornes suprieure et infrieure) Soit (E, ) un ensemble ordonn et A une partie
de E . On dit qu'un lment M de E est la borne suprieure de A dans E , note sup A, si l'ensemble
des majorants de A dans E admet M comme plus petit lment. Un lment m de E sera appel la borne
infrieure de A dans E , note inf A, si l'ensemble des minorants de A dans E admet m comme plus
grand lment.

A.1.3

Applications

Nous allons prsent nous intresser des relations particulires nommes applications.

Dnitions A.25 On appelle fonction d'un ensemble E dans un ensemble F une relation qui un

lment de E associe au plus un lment de F . L'ensemble des lments de E auxquels une fonction
associe exactement un lment dans F est appel l'ensemble, ou le domaine, de dnition de cette
fonction.

Dnitions A.26 Soit E et F deux ensembles et f une fonction de E dans F . Tout lment y de F
associ par la fonction f un lment x de E est appel l'image de x par f , ce que l'on note y = f (x),
tandis que x est un antcdent de y par f . On dit encore que E (resp. F ) est l'ensemble de dpart
(resp. l'ensemble de d'arrive) de f . Enn, le graphe de la fonction est l'ensemble des couples (x, f (x))
lorsque x parcourt E .

Dnition A.27 (application) Une fonction de E dans F est une


domaine de dnition est gal E .

application si et seulement si son

On utilise la notation f : E F pour indiquer que f est une application d'un ensemble E dans un
ensemble F . La dnition de l'galit entre deux ensembles (voir la dnition A.1) implique que deux
applications f et g de E dans F sont gales si, pour chaque lment x de E , on a f (x) = g(x).

Dnition A.28 (restriction d'une application) Soit E et F deux ensembles, f une application de
E dans F et A une partie de E . On appelle restriction de f A l'application, note f|A , dnie par
f|A : A
x

F
7

f (x).

Dnition A.29 (prolongement d'une application) Soit E et F deux ensembles, f une application
de E dans F et G un ensemble tel que E G. On appelle prolongement de f G toute application
fe : G F telle que

x E, fe(x) = f (x).

Dnition A.30 (stabilit par une application) Une partie A d'un ensemble E est dite stable par
une application f de E dans E si et seulement si on a f (a) A, a A.

414

A.1. ENSEMBLES ET APPLICATIONS

Dnition A.31 (surjectivit d'une application) Une application f d'un ensemble E dans un ensurjective (on dit encore que f est une surjection) si et seulement si

semble F est dite

y F, x E, y = f (x),
c'est--dire si tout lment de F est l'image par f d'au moins un lment de E .

Dnition A.32 (injectivit d'une application) Une application f d'un ensemble E dans un ensemble F est dite injective (on dit encore que f est une injection) si et seulement si
(x1 , x2 ) E 2 , f (x1 ) = f (x2 ) x1 = x2 ,
c'est--dire si deux lments distincts de E ont des images distinctes.

Dnition A.33 (bijectivit d'une application) Une application est dite bijective (on dit encore
bijection) si et seulement si elle est la fois surjective et injective.

qu'elle est une

Une bijection d'un ensemble E dans lui-mme est appele une permutation et l'ensemble des permutations de E est not S(E).

Proposition A.34 Une application f d'un ensemble E dans un ensemble F est bijective si et seulement
si tout lment de F possde un unique antcdent par f dans E , c'est--dire
y F, !x E, f (x) = y.
Dmonstration. Si l'application f est bijective, alors elle est surjective. Par consquent, tout lment y
appartenant F admet au moins un antcdent x par f dans E . Supposons maintenant que y ait deux antcdents
x1 et x2 . On a alors y = f (x1 ) = f (x2 ), d'o x1 = x2 puisque f est injective. On en dduit que y admet un seul
antcdent.
Rciproquement, si tout lment y de F admet un unique antcdent x par f dans E , alors f est surjective de E
dans F . Soit x1 et x2 des lements de E tels que f (x1 ) = f (x2 ). Posons y = f (x1 ) = f (x2 ), alors x1 et x2 sont
deux antcdents de y . Par unicit de l'antcdent, on a x1 = x2 , ce qui prouve l'injectivit de f . L'application f
est donc bijective de E dans F .


Introduisons maintenant les notions d'application compose et d'application rciproque.

Dnition A.35 (application compose) Soit E , F et G trois ensembles, f une application de E

dans F et g une application de F dans G. L'application g f de E dans G dnie par g f (x) = g(f (x))
est appele compose de g et de f .

Pour pouvoir dnir l'application compose g f , il est ncessaire que l'ensemble de dpart de g soit
gal l'ensemble d'arrive de f . L'ordre de composition est galement important. Mme dans le cas o
l'on peut composer dans les deux sens, on a en gnral g f 6= f g .

Proposition A.36 Soit E , F , G et H quatre ensembles, f une application de E dans F , g une application
de F dans G et h une application de G dans H . On a

(h g) f = h (g f ).
On se rfrera la preuve de la proposition A.13 pour une dmonstration de ce dernier rsultat.

Proposition A.37 La compose de deux injections (resp. surjections, resp. bijections) est une injection
(resp. surjection, resp. bijection).
Dmonstration. Soit f une application d'un ensemble E dans un ensemble F et g une application de F
dans un ensemble G, que l'on suppose dans un premier temps f et g injectives. On a, pour tout couple (x1 , x2 )
de E 2 ,
(g f )(x1 ) = (g f )(x2 ) g(f (x1 )) = g(f (x2 )) f (x1 ) = f (x2 ) x1 = x2 ,

d'o g f est injective.

415

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

On suppose prsent que f et g sont simplement surjectives. Soit z un lment de G. Puisque l'application
g est surjective, il existe un lment y de F tel que z = g(y). L'application f {etant surjective, il existe alors un
lment x de E tel que y = f (x). On a donc z = g(f (x)) = (g f )(x), ce qui montre que g f est surjective.
Enn, on a, en se servant des deux assertions qui viennent d'tre dmontres,


f et g injectives
g f injective
(f et g bijectives)

(g f bijective).
f et g surjectives
g f surjective


Proposition A.38 Soit E , F et G trois ensembles, f une application de E dans F et g une application
de F dans G. Si g f est injective (resp. surjective), alors f est injective (resp. g est surjective).
Dmonstration.

Supposons que g f est injective. On a, pour tout couple (x1 , x2 ) de E 2 ,

f (x1 ) = f (x2 ) g(f (x1 )) = g(f (x2 )) (g f )(x1 ) = (g f )(x2 ) x1 = x2 ,

ce qui montre que f est injective.


Supposons maintenant que g f surjective. Pour tout lment z de G, il alors existe un lment x de E tel
que z = (g f )(x) = g(f (x)). L'application g est donc surjective.


Dnition A.39 (application rciproque) Soit f une application d'un ensemble E dans un ensemble
F . On appelle application rciproque (ou inverse) de f toute application g de F dans E telle que
x E, g(f (x)) = x, y F, f (g(y)) = y.

Proposition A.40 Toute application admet au plus une application rciproque.


Dmonstration. Soit f une application d'un ensemble E dans un ensemble F , g1 et g2 deux applications
de F dans E satisfaisant aux conditions de la dnition A.39. En particulier, on a, pour tout lment y de
F , f (g1 (y)) = y et, pour tout lment x de E , g2 (f (x)) = x. En composant la premire de ces relations par
l'application g2 et en posant x = g1 (y) dans la seconde, il vient alors g2 (y) = g2 (f (g1 (y))) = g1 (y).


Si f est une application d'un ensemble E dans un ensemble F admettant application rciproque, on
note f 1 cette dernire. Dans ce cas, l'application f 1 est elle-mme inversible et l'on a que (f 1 )1 = f .

Proposition A.41 Une application d'un ensemble E dans un ensemble F admet une application rciproque si et seulement si elle est bijective.

Dmonstration. Soit f une application de E dans F admettant une application rciproque. Pour tout
lment y de F , on a f (f 1 (y)) = y et f est donc surjective. Soit deux lments x1 et x2 de E tels que f (x1 ) =
f (x2 ). Il vient alors x1 = f 1 (f (x1 )) = f 1 (f (x2 )) = x2 , dont on dduit que l'application f est injective.
Considrons maintenant une application f bijective et g l'application de F dans E dnie de la faon suivante :
pour tout lment y de F , on pose g(y) = x o x est l'unique antcdent de y par f . On vrie alors de manire
immdiate que f (g(y)) = y , y F , et g(f (x)) = x, x E , d'o g = f 1 .


La proposition suivante est une consquence directe des propositions A.37 et A.15.

Proposition A.42 Soit E , F et G trois ensembles, f une application de E dans F et g une application
de F dans G, toutes deux bijectives. L'application g f est alors bijective et l'on a (g f )1 = f 1 g 1 .
Dnition A.43 (involution) Soit E un ensemble. On appelle involution de E toute application f
de E dans E telle que f f = IE .

Dnitions A.44 (images directe et rciproque d'une partie par une application) Soit E et
F deux ensembles, A une partie de E , B une partie de F et f une application de E dans F . L'image
directe de A par f , ou, plus simplement, l'image de A par f , note f (A), est le sous-ensemble de F
contenant l'image des lments de A par f ,

f (A) = {y F | x A, y = f (x)} .
L'image rciproque de B
des lments de B par f ,

par f ,

note f 1 (B), est le sous-ensemble de E contenant les antcdents

f 1 (B) = {x E | f (x) B} .
416

A.1. ENSEMBLES ET APPLICATIONS

Pour toute application f d'un ensemble E dans un ensemble F , il est toujours possible de dnir
f 1 (B), mme si l'application n'est pas bijective. Lorsque c'est cependant le cas, c'est--dire si f 1
existe, on pourra vrier que l'image directe d'une partie B de F par f 1 est aussi l'image rciproque
f 1 (B) de B par f . En eet, dire que x est un lment de f 1 (B) signie que f (x) appartient B et
rciproquement, si l'on pose y = f (x), on aura x = f 1 (y) avec y un lment de B , ce qui quivaut
dire que x appartient f 1 (B).
La proposition qui suit est utile en pratique pour dterminer si une application est surjective ou non.

Proposition A.45 Soit f une application d'un ensemble E dans un ensemble F . Elle est surjective si
et seulement si f (E) = F .

Dmonstration. On a toujours f (E) F . Par ailleurs, l'ensemble F est inclus dans f (E) si et seulement si
tout lment de F est l'image d'au moins un lment de E par l'application f , ce qui signie que f est surjective.


La dnition suivante constitue une gnralisation de la notion de suite que nous tudierons notamment dans dans la section B.2 consacre aux suites numriques.

Dnition A.46 (famille) Soit E et I des ensembles. On appelle famille d'lments de E toute
application de I valeurs dans E , les lments de I tant appels les indices.
Une famille (xi )iI est dite nie ou innie, selon que l'ensemble I de ses indices est ni ou inni (voir
la sous-section A.1.4). On note (xi )iI la famille d'lments xi d'un ensemble E indexe par les lments
i d'un ensemble I . On veillera ne pas confondre la famille (xi )iI et l'ensemble {{xi } | i I}, qui est
l'ensemble image de l'application en question.

Dnitions A.47 (runion et intersection de parties) Soit E un ensembleSet (Ai )iI uneTfamille
de parties de E . La runion (resp. l'intersection) de la famille (Ai )iI , note iI Ai (resp. iI Ai )
est dnie par

Ai = {x E | i I, x Ai } (resp.

iI

Ai = {x E | i I, x Ai }).

iI

Dnition A.48 Soit E un ensemble. Une famille (Ai )iI de parties de E est appele partition de E
si et seulement si
aucun des ensembles Ai n'est vide, I , Ai 6= ,
les ensembles Ai sont disjoints deux deux,S(i, j) I 2 , (i 6= j Ai Aj = ),
la runion des ensembles Ai est gale E ,
Ai = E .
iI

Il est retenir de cette dnition que tout lment de un ensemble appartient un unique lment
de sa partition. On notera par ailleurs que cet nonc est cohrent avec la dnition A.5, car pour que la
famille (Ai )iI soit une partition au sens ci-dessus, il faut, et il sut, que l'ensemble image {Ai | i I}
soit une partition de E au sens de cette dnition.

A.1.4

Cardinalit, ensembles nis et innis

Nous terminons en rappelant quelques proprits lmentaires relatives aux ensembles nis, souvent
considres comme intuitivement videntes.

Dnition A.49 (relation d'quipotence) On dit qu'un ensemble E est quipotent un ensemble
F si et seulement s'il existe une bijection de E sur F .

La relation d'quipotence contitue une relation d'quivalence entre ensembles. Elle va permettre de
formaliser la dnombrabilit et la nitude d'un ensemble.

Dnition A.50 (ensemble dnombrable) On dit qu'un ensemble est dnombrable si et seulement
s'il est quipotent l'ensemble des entiers naturels N.

417

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Dnition A.51 (ensembles nis et innis) On dit qu'un ensemble E est ni si et seulement s'il
existe un entier naturel n tel que E est quipotent {1, . . . , n}. Il est dit inni si et seulement s'il n'est
pas ni.

Nous admettrons la proposition suivante, dont la preuve s'appuie sur les proprits de l'ensemble des
entiers naturels.

Proposition A.52 Soit (n, p) un couple d'entiers naturels. On a les assertions suivantes.
1. Il existe une injection de {1, . . . , n} dans {1, . . . , p} si et seulement si n p.
2. Il existe une surjection de {1, . . . , n} sur {1, . . . , p} si et seulement si n p.
3. Il existe une bijection de {1, . . . , n} dans {1, . . . , p} si et seulement si n = p.

La dernire assertion de cette proposition amne la dnition suivante.

Dnition A.53 (cardinal d'un ensemble) Soit E un ensemble ni. Il existe alors un entier naturel
n, appel le cardinal de E et not card(E), tel que E soit quipotent {1, . . . , n}.
Par convention, le cardinal de l'ensemble vide est gal 0.

Proposition A.54 Si E est un ensemble ni, toute partie F de E est nie, et l'on a card(F ) card(E).
Proposition A.55 Si E et F sont deux ensembles nis, alors l'ensemble E F est ni et l'on a
card(E F ) + card(E F ) = card(E) + card(F ).
Dmonstration. tablissons tout d'abord un rsultat prliminaire. Soit A et B deux ensembles nis disjoints ; notons a = card(A), b = card(B). Il existe des bijections : {1, . . . , a} A et : {1, . . . , b} B . Il est
clair que l'application : {1, . . . , a + b} A B dnie par

(n)
si 1 n < a
n {1, . . . , a + b}, (n) =
(n a) si a + 1 n a + b

est une bijection. Il en rsulte que l'ensemble A B est ni et que card(A B) = card(A) + card(B).
En appliquant ce rsultat aux ensembles E et E\F , il vient que l'ensemble E F est ni et
card(E F ) + card(E F ) = card(E (F \E)) + card(E F ) = (card(E) + card(F \E)) + card(E F )
= card(E) + (card(F \E) + card(E F )) = card(E) + card(F ).


Corollaire A.56 Soit E un ensemble ni et F une partie de E . Si card(F ) = card(E) alors F = E .
Dmonstration. Si card(F ) = card(E), comme card(E) = card(F )+card(E\F ), on en dduit card(E\F ) =
0, d'o E\F = , E = F .


Cette dernire proprit est particulirement importante. Nous en verrons une analogue portant sur
des dimensions d'espaces vectoriels en algbre linaire.

Proposition A.57 Soit E et F des ensembles nis ayant mme cardinal et f une application de E dans
F . Les assertions suivantes sont deux deux quivalentes.
i) L'application f est injective.
ii) L'application f est surjective.
iii) L'application f est bijective.
Dmonstration.

Montrons tout d'abord que i implique ii et iii. Si l'application f est injective, alors la

corestriction f |f (E) : E f (E) qui un lment x de E associe f (x) est bijective, donc card(f (E)) = card(E) =

card(F ) et f (E) = F d'aprs le corollaire A.56, d'o f est surjective et par consquent bijective.
Prouvons prsent que ii implique i et iii. Supposons l'application f est surjective mais non injective. Il
existe dans ce cas un couple (x1 , x2 ) de E 2 tel que x1 6= x2 et f (x1 ) 6= f (x2 ). L'application g : E\{x2 } F
qui un lment x de E dirent de x2 associe f (x) est surjective, d'o card(E\{x2 }) card(F ). Mais on a
card(E\{x2 }) = card(E) 1 et card(E) = card(F ), d'o une contradiction.
Enn, l'assertion iii implique i et ii de manire triviale.


418

A.2. STRUCTURES ALGBRIQUES

A.2

Structures algbriques

Nous allons maintenant tudier des exemples de structures, c'est--dire des ensembles munis d'une ou
de plusieurs  oprations  appeles lois de composition et satisfaisant un certain nombre d'axiomes.

A.2.1

Lois de composition

Commenons par introduire les applications particulires que sont les lois de composition. Tout
d'abord, tant donns trois ensembles E , F et G non vides, toute application de l'ensemble produit
E F valeurs dans l'ensemble G est appele loi de composition de E F dans G. Cependant, dans
toute la suite, nous aurons systmatiquement E = F = G ou bien encore E = G 6= F . Ces deux cas
particuliers de loi de composition sont l'objet des dnitions suivantes.

Dnition A.58 (loi de composition interne) Soit E un ensemble non vide. On appelle loi de
composition interne sur E toute application de E E dans E .
Les oprations d'addition et de multiplication sur l'ensemble des entiers naturels N sont deux exemples
de loi de composition interne.

Dnition A.59 (loi de composition externe) Soit E et F des ensembles non vides. On appelle loi
de composition externe sur E oprateurs dans F toute application de F E valeurs dans E .
On dit encore d'une telle loi qu'elle est une action de l'ensemble F sur l'ensemble E . Dans la dnition
ci-dessus, on remarque que l'on a choisi de placer le domaine d'oprateurs F en premier dans le produit
F E , c'est--dire qu'on a considr, de manire implicite, que la loi de composition tait externe
gauche, mais des lois de composition externes droite sont galement possibles. Ajoutons que lorsque les
oprateurs externes, c'est--dire les lments de l'ensemble F , sont des nombres rels ou complexes (ou,
plus gnralement, les lments d'un corps ), ceux-ci sont appels scalaires et l'on a coutume de noter la
loi de composition externe multiplicativement en utilisant le symbole  .
Donnons prsent un tout premier exemple de structure et nonons quelques proprits des lois de
composition internes.

Dnition A.60 (magma) Soit E un ensemble non vide et ? une loi de composition interne sur E . On
magma le couple (E, ?).

appelle

Dnitions A.61 (associativit et commutativit d'une loi interne) Soit (E, ?) un magma. La
loi ? est dite associative (et le magma (E, ?) associatif) si
(x, y, z) E 3 , (x ? y) ? z = x ? (y ? z).
Elle est

commutative

(et le magma (E, ?)

commutatif)

si

(x, y) E 2 , x ? y = y ? x.

Dnition A.62 (lment neutre) Soit (E, ?) un magma. Un lment e de E est un lment neutre
(resp. neutre gauche, resp. neutre droite) pour la loi ? si
x E, e ? x = x ? e = x (resp. e ? x = x, resp. x ? e = x).
Un magma possdant un lment neutre est dit unifre.

Proposition A.63 Si un magma possde un lment neutre alors ce dernier est unique.
Un deuxime exemple de structure est fourni par la dnition suivante.

Dnition A.64 (monode) On appelle monode un magma associatif unifre.


419

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Dnition A.65 (lment symtrique) Soit (E, ?) un magma pour lequel la loi de composition interne
? admet un lment neutre e. On dit qu'un lment x de E possde un lment symtrique (resp.
lment symtrique gauche, resp. lment symtrique droite) pour la loi ? s'il existe un
lment y de E tel que

x ? y = y ? x = e (resp. y ? x = e, resp. x ? y = e).


En gnral, un lment donn d'un magma unifre peut avoir plusieurs lments symtriques gauche
ou droite et mme plusieurs lments symtriques gauche et droite. Cependant, si l'on travaille sur
un monode, c'est--dire si la loi de composition interne considre est associative, et qu'un lment
possde la fois un lment symtrique droite et un lment symtrique gauche, ceux-ci sont gaux
et l'lment symtrique est unique. Dans ce cas, l'lment symtrique d'un lment x est gnralement
not x lorsque la loi de composition est l'addition, x1 ou x1 si c'est la multiplication.
Lorsque un ensemble est muni de deux lois de composition, une proprit particulirement intressante
est la distributivit.

Dnition A.66 (distributivit) Soit E un ensemble non vide muni de deux lois de composition
distributive gauche (resp. distributive droite) par rapport la

internes ? et . La loi ? est dite


loi si

(x, y, z) E 3 , x ? (y z) = (x ? y) (x ? z) (resp. (y z) ? x = (y ? x) (z ? x)).


On dit que la loi ? est distributive par rapport la loi si elle est distributive gauche et droite
par rapport . Ces dnitions restent valables lorsque ? est une loi de composition externe oprateurs
dans un ensemble F non vide et une loi de composition interne sur E , condition que l'lment x
appartienne F .

A.2.2

Structures de base

Dans cette section, nous introduisons des structures qui, comme les magmas, ne sont munies que de
lois de composition internes et, comme les monodes, satisfont des axiomes.

Groupes
Parmi les structures algbriques les plus simples se trouve la notion de groupe. Elle occupe une place
centrale dans les mathmatiques et en physique en raison du lien troit qu'elle possde avec la notion de
symtrie.

Dnition A.67 (groupe) On appelle groupe tout magma (E, ?) vriant les proprits suivantes :
la loi ? est associative : (x, y, z) E 3 , (x ? y) ? z = x ? (y ? z),
il existe un lment neutre pour la loi ? : e E , x E , e ? x = x ? e = x,
tout lment possde un lment symtrique pour la loi ? : x E , y E , x ? y = y ? x = e.

Lorsque la loi de composition interne d'un groupe est commutative, on dit que le groupe est commu-

tatif, ou encore ablien.

Les ensembles Z, Q, R et C munis de l'addition usuelle sont des groupes. Il en est de mme des
ensembles Q , R et C munis de la multiplication ou de l'ensemble des bijections d'un ensemble E dans
lui-mme muni de la composition des applications de E dans E .

Anneaux
Un autre exemple de structure jouant un rle fondamental en mathmatiques est celui des anneaux,
qui interviennent notamment dans l'tude des quations algbriques et des nombres algbriques.

Dnition A.68 (anneau) On appelle anneau tout ensemble E non vide muni deux lois de composition
internes + et tel que
(E, +) est un groupe commutatif, c'est- dire que
 la loi + est associative : (x, y, z) E 3 , x + (y + z) = (x + y) + z ,
420

A.2. STRUCTURES ALGBRIQUES

 il existe un lment neutre, not 0E , pour la loi + : x E , x + 0E = 0E + x = x,


 tout lment possde un lment symtrique pour la loi + : x E , (x) E , x + (x) =
(x) + x = 0E ,
(E, ) est un monode, c'est- dire que
 la loi est associative : (x, y, z) E 3 , x (y z) = (x y) z ,
 il existe un lment neutre, not 1E , pour la loi : x E , x 1E = 1E x = x,
la loi est distributive par rapport la loi + : (x, y, z) E 3 , x (y + z) = x y + x z) et
(y + z) x = y x + z x.

Les lois + et sont traditionnellement appeles addition et multiplication (on remarquera que les notations utilises dans cette dnition pour les lments unitaires pour l'addition et la multiplication, ainsi
que pour le symtrique d'un lment pour l'addition, sont, bien purement conventionnelles, intuitives).
Ajoutons que l'on parle d'anneau commutatif lorsque la multiplication est de plus commutative.
Les ensembles Z, Q, R et C munis de l'addition et de la multiplication usuelles sont des anneaux.

Corps
La structure algbrique qui nous servira en algbre linaire est le corps.

Dnition A.69 (corps) On appelle corps tout anneau (E, +, ) tel que (E\{0E }, ) est un groupe.
On dit qu'un corps est commutatif si la multiplication est commutative.
Des exemples de corps commutatifs sont les ensembles Q, R et C munis de l'addition et de la multiplication usuelles.

A.2.3

Structures oprateurs externes

Nous allons maintenant nous intresser des structures possdant la fois des lois de composition
internes et externes. Elles peuvent tre aussi bien considres d'un point vue algbrique que gomtrique.
Dans toute la suite de cette annexe, on notera simplement K un corps commutatif (K, +, ) appel le
corps des scalaires, avec K = R (corps des nombres rels) ou bien K = C (corps des nombres complexes)
et o les lois + et sont respectivement l'addition et la multiplication usuelles.

Espaces vectoriels *
L'espace vectoriel est la structure de base en algbre linaire. Elle permet, en autres choses, d'eectuer
des combinaisons linaires de ses lments.

Dnition A.70 (espace vectoriel) Un espace vectoriel sur un corps commutatif K est un
ensemble non vide E muni d'une loi de composition interne, appele addition et note +, et d'une loi de
composition externe oprateurs dans K, appele multiplication par un scalaire et note , possdant
les proprits suivantes :
(E, +) est un groupe commutatif,
(, ) K2 et x E , ( + )x = x + x,
K et (x, y) E 2 , (x + y) = x + y ,
(, ) K2 et x E , (x) = ()x,
x E , 1K x = x,
le scalaire 1K tant l'lment unitaire du corps K.
Les lments de d'un espace vectoriel sont appels des vecteurs.
Dans cette dnition, on observera qu'on a employ, par abus, le mme symbole  +  pour les lois
additives sur K et E . On a galement omis d'crire le symbole   lorsqu'on multiplie un vecteur par un
scalaire. Ajoutons qu'on utilisera dans la suite la seule lettre E pour dsigner un espace vectoriel (E, +, ),
comme c'est souvent le cas dans la pratique.

Dnition A.71 (sous-espace vectoriel) On dit qu'une partie non vide F d'un espace vectoriel E est
un sous-espace vectoriel de E si et seulement si
(x, y) F 2 , K, x + y F.
421

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

On dit encore qu'un sous-espace vectoriel d'un espace vectoriel E est un sous-ensemble de E stable
par les lois de composition interne et externe dont est muni E .
proprietes ? (intersection de sev, somme ?)
petit plan :
- def. combinaison lineaire
- def. famille libre, generatrice, base
REPRENDRE

Dnitions A.72 Une famille de vecteurs {xi }i=1,...,p d'un espace vectoriel E est dite libre si les vecteurs
x1 , . . . , xp sont linairement indpendants, c'est--dire si la relation
1 x1 + + p xp = 0,
o 0 est l'lment nul de E et i K, i = 1, . . . , p, implique que 1 = = p = 0. Dans le cas contraire,
la famille est dite lie.

En particulier, l'ensemble des combinaisons linaires d'une famille {xi }i=1,...,p de p vecteurs de E est
un sous-espace vectoriel de E , appel sous-espace engendr par la famille de vecteurs. On le note

Vect{x1 , . . . , xp } = {v = 1 x1 + + p xp , avec i K, i = 1, . . . , p} .
La famille {v i }i=1,...,p est alors appele famille gnratrice de ce sous-espace.
On appelle base de l'espace vectoriel E toute famille libre et gnratrice de E . Si la famille {ei }i=1,...,n
est une base de E , tout vecteur de E admet une dcomposition unique de la forme

x=

n
X

i ei , v E,

i=1

les scalaires i , i = 1, . . . , n, tant appels les composantes du vecteur v dans la base {ei }i=1,...,n . On a
de plus les rsultats suivants.

Thorme A.73 Si E est un espace vectoriel de dimension nie n, alors toute famille libre (et donc
toute base) est nie et de cardinal au plus gal n.

Dmonstration. On va montrer par rcurrence sur n 1 que si G = {g 1 , . . . , g n } est une famille gnratrice
de E et si F = {f 1 , . . . , f n , f n+1 } est une famille de n + 1 lments de E , alors cette dernire famille est lie.
Pour n = 1, on a f 1 = 1 g 1 et f 2 = 2 g 1 . On en dduit que F est lie, car ou bien f 1 = 0, ou bien f 2 = 12 f 1 .
On suppose maintenant n 2. Il existe alors une famille {aij }i=1,...,n+1, j=1,...,n de scalaires telle que

f1
f2
..
.
fn
f n+1

=
=
=
=

a11 g 1
a21 g 1
..
.
an1 g 1
an+11 g 1

+
+

...
...

+
+

+
+

...
...

+
+

a1n1 g n1
a2n1 g n1
..
.
ann1 g n1
an+1n1 g n1

+
+
+
+

a1n g n ,
a2n g n ,
..
.
ann g n ,
an+1n g n .

Si les coecients ain , 1 i n + 1, sont nuls, alors les vecteurs f i , 1 i n + 1, sont dans Vect{g i }i=1,...,n1 ;
de l'hypothse de rcurrence, on dduit que la famille {f i }i=1,...,n est lie et donc que F est lie.
Sinon, il existe
un entier i comprisentre 1 et n + 1, disons i = n + 1 tel que ain 6= 0. On peut alors remplacer g n

P
ajn
1
par an+1n f n+1 n1
j=1 an+1j g j , de sorte que les vecteurs hj = f j an+1n f n+1 , 1 j n sont encore dans
Vect{g i }i=1,...,n1 . Par hypothse de rcurrence, la famille {h1 , . . . , hn } est lie : il existe des scalaires 1 , . . . , n
P
P
non tous nuls tels que ni=1 i hi = ni=1 i f i + f n+1 = 0E . On en dduit que F est lie.


A PLACER QUELQUE PART :


Dans un espace vectoriel, toute famille gnratrice contient au moins une base de l'espace vectoriel. tant donne une famille libre, il existe au moins une base qui la contient ( thorme de la base
incomplte )
422

A.3. MATRICES

Si I est un ensemble, l'ensemble KI des applications de I dans K est naturellement muni d'une
structure d'espace vectoriel. La famille de vecteurs {ei }iI de KI dnie par
(
0 i 6= j
(ei )j =
, i I, j I,
1 i=j
forme une base de KI appele base canonique.
- sous-espace engendre
- dimension

Dnition A.74 (dimension d'un espace vectoriel) Le cardinal d'une base quelconque d'un espace
vectoriel E de dimension nie s'appelle la dimension de E et se note dim E .
Dnition A.75 Un espace vectoriel sur K est dit de dimension nie s'il admet une famille gnratrice
de cardinal ni. Sinon, il est dit de dimension innie.
Corollaire A.76 Si E est un espace vectoriel de dimension nie, alors toutes ses bases sont nies et ont
le mme cardinal.

Si B et B 0 sont deux bases, alors B est libre et B 0 est gnratrice, donc cardB cardB 0
par le thorme prcdent. On obtient l'autre ingalit en changeant B et B 0 .

Dmonstration.

Dans toute la suite, nous ne considrons que des espaces vectoriels de dimension nie.

Algbres *
Dnition A.77 (algbre) On appelle algbre sur un corps commutatif K tout ensemble E non vide
muni de deux lois de composition internes + et et d'une loi de composition externe oprateurs dans
K tels que
(E, +, ) est un anneau,
(E, +, ) est un espace vectoriel sur K,
K et (x, y) E , (x y) = (x) y = x (y).
Lorsque la loi est commutative, l'algbre est dite commutative.

A.3

Matrices

Soit m et n deux entiers strictement positifs. Une matrice (matrix en anglais) A m lignes et n
colonnes coecients dans un corps K une application dnie sur {1, . . . , m} {1, . . . , n} valeurs dans
K, reprsente par le tableau suivant

a11 a12 . . . a1n


a21 a22 . . . a2n

A= .
..
.. .
..
.
.

am1

am2

...

amn

Les mn scalaires aij , i = 1, . . . , m, j = 1, . . . , n, sont appels coecients, ou lments, de la matrice A, le


premier indice i tant celui de la ligne de l'lment et le second j tant celui de la colonne. Ainsi, l'ensemble
des coecients ai1 , . . . , ain est la iime ligne (row en anglais) de la matrice et l'ensemble a1j , . . . , amj est
la j ime colonne (column en anglais). Les lments d'une matrice A sont nots (A)ij , ou plus simplement
aij lorsque qu'aucune confusion ou ambigut n'est possible.
On note Mm,n (K) l'ensemble des matrices m lignes et n colonnes dont les coecients appartiennent
K. Une matrice est dite relle ou complexe selon que ses lments sont dans R ou C. Si m = n, la
matrice est dite carre d'ordre n et on note Mn (K) l'ensemble correspondant. Lorsque m 6= n, on parle
de matrice rectangulaire.
On appelle diagonale d'une matrice A d'ordre n l'ensemble des coecients aii , i = 1, . . . , n. Cette
diagonale divise la matrice en une partie sur-diagonale, compose des lments dont l'indice de ligne est
423

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

strictement infrieur l'indice de colonne, et une partie sous-diagonale forme des lments pour lesquels
l'indice de ligne est strictement suprieur l'indice de colonne.
tant donn A Mm,n (R), on note AT Mn,m (R) la matrice transpose 3 de A telle que

(AT )ij = (A)ji , 1 i n, 1 j m.


On a alors (AT )T = A. De mme, tant donn A Mm,n (C), on note A Mn,m (C) la matrice adjointe
de A telle que
(A )ij = (A)ji , 1 i n, 1 j m,
le scalaire z dsignant le nombre complexe conjugu du nombre z , et on (A ) = A.
On appelle vecteur ligne (resp. vecteur colonne ) une matrice n'ayant qu'une ligne (resp. colonne).
Nous supposerons toujours qu'un vecteur est un vecteur colonne, c'est--dire que l'on reprsentera le
vecteur v dans la base {ei }i=1...,n par

v1
v2

v = . ,
..

vn
et que le vecteur tranpos v T (resp. vecteur adjoint v ) de v sera alors reprsent par le vecteur ligne
suivant


v T = v1 v2 . . . vn (resp. v = v1 v2 . . . vn ).
Enn, dans les dmonstrations, il sera parfois utile de considrer un ensemble constitu de lignes et
de colonnes particulires d'une matrice. On introduit pour cette raison la notion de sous-matrice.

Dnition A.78 (sous-matrice) Soit A une matrice de Mm,n (K). Soient 1 i1 < < ip m et
1 j1 < < jq n deux ensembles d'indices. La matrice S de Mp,q (K) ayant pour coecients
skl = aik jl , 1 k p, 1 l q,
est appele une

sous-matrice

de A.

Il est aussi trs courant d'associer une matrice une dcomposition en sous-matrices.

Dnition A.79 (dcomposition par blocs d'une matrice) Une matrice A de Mm,n (K) est dite
dcompose par blocs si elle s'crit

o les

A11
A21

A= .
..

A12
A22
..
.

...
...

A1N
A2N
..
.

AM 1

AM 2

...

AM N

blocs AIJ , 1 I M , 1 J N ,

sont des sous-matrices de A.

L'intrt de telles dcompositions par blocs rside dans le fait que certaines oprations dnies sur
les matrices restent formellement les mmes (sous rserve que les oprations entre sous-matrices soient
possibles, on parle alors de dcompositions par blocs compatibles ), les coecients de la matrice tant
remplacs par ses sous-matrices.

A.3.1

Oprations sur les matrices

Nous rappelons prsent quelques oprations essentielles dnies sur les matrices.

Dnition A.80 (galit de matrices) Soit A et B deux matrices de Mm,n (K). On dit que A est
gale B si aij = bij pour i = 1, . . . , m, j = 1, . . . , n.
3. On peut aussi dnir la matrice transpose d'une matrice complexe, mais cette notion n'a en gnral que peu d'intrt
dans ce cas.

424

A.3. MATRICES

Dnition A.81 (somme de matrices) Soit A et B deux matrices de Mm,n (K). On appelle somme

des matrices A et B la matrice C de Mm,n (K) dont les coecients sont cij = aij + bij , i = 1, . . . , m,
j = 1, . . . , n.

L'lment neutre pour la somme de matrices est la matrice nulle, note 0, dont les coecients sont
tous gaux zro. On rappelle que l'on a par ailleurs

(A + B)T = AT + B T et (A + B) = A + B , A, B Mm,n (K).

Dnition A.82 (multiplication d'une matrice par un scalaire) Soit A une matrice de Mm,n (K)
et un scalaire. Le rsultat de la multiplication de la matrice A par le scalaire est la matrice C
de Mm,n (K) dont les coecients sont cij = aij , i = 1, . . . , m, j = 1, . . . , n.

On a

( A)T = AT et ( A) = A , K, A Mm,n (K).

Muni des deux dernires oprations, l'ensemble Mm,n (K) est un espace vectoriel sur K (la vrication
est laisse en exercice). On appelle alors base canonique de Mm,n (K) l'ensemble des mn matrices Ekl ,
k = 1, . . . , m, l = 1, . . . , n, de Mm,n (K) dont les lments sont dnis par
(
0 si i 6= k ou j 6= l
(Ekl )ij =
, 1 i m, 1 j n.
1 si i = k et j = l

Dnition A.83 (produit de matrices) Soit A une matrice de Mm,p (K) et B une matrice de Mp,n (K).
Le produit des matrices A et B est la matrice C de Mm,n (K) dont les coecients sont donns par
cij =

p
X

(A.1)

aik bjk , i = 1, . . . , m, j = 1, . . . , n.

k=1

Le produit de matrices est associatif et distributif par rapport la somme de matrices.


Dans le cas de matrices carres, on dit que deux matrices A et B commutent si AB = BA. Toujours
dans ce cas, l'lment neutre pour le produit de matrices d'ordre n est la matrice carre, appele matrice
identit, dnie par
In = (ij )1i,jn ,
avec ij le symbole de Kronecker 4 ,

(
1 si i = j ,
ij =
0 sinon.

(A.2)

Cette matrice est, par dnition, la seule matrice d'ordre n telle que AIn = In A = A pour toute matrice
A d'ordre n. Muni de la multiplication par un scalaire, de la somme et du produit de matrices l'ensemble
Mn (K) est une algbre sur K, en gnral non commutative comme le montre l'exemple suivant.

Exemple de non-commutativit du produit de matrices.



AB =

1
0

2
0


6=

1
0

4
0


1
Soit A =
0

2
1


1
et B =
0


2
. On a
0


= BA.

Si A est une matrice d'ordre n et p un entier, on dnit la matrice Ap comme tant le produit de A
par elle-mme rpt p fois, en posant A1 = A et A0 = In . On rapelle enn que l'on a

(AB)T = B T AT et (AB) = B A , A Mm,p (K), B Mp,n (K).


Terminons en indiquant que toutes ces oprations peuvent s'tendre au cas de matrices dcomposes
par blocs, pourvu que la taille de chacun des blocs soit telle que les oprations soient bien dnies. On a
notamment le rsultat suivant.
4. Leopold Kronecker (7 dcembre 1823 - 29 dcembre 1891) tait un mathmaticien et logicien allemand. Il tait persuad
que l'arithmtique et l'analyse doivent tre fondes sur les  nombres entiers  et apporta d'importantes contributions en
thorie des nombres algbriques, en thorie des quations et sur les fonctions elliptiques.

425

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Lemme A.84 (produit de matrices dcomposes par blocs) Soient A et B deux matrices de tailles
compatibles pour eectuer le produit AB . Si A admet une dcomposition en blocs (AIK )1IM, 1KN
de formats respectifs (rI , sK ) et B admet une dcomposition compatible en blocs (BKJ )1KN, 1JP
de formats respectifs (sK , tJ ), alors le produit C = AB peut aussi s'crire comme une matrice par blocs
(CIJ )1IM, 1JP , de formats respectifs (rI , tJ ) et donns par
CIJ =

N
X

AIK BKJ , 1 I M, 1 J P.

K=1

Exemple. Soit les matrices A et B d'ordre n admettant les dcompositions par blocs compatibles

A=

On a alors


AB =

A11
A21

A12
A22

et B =

B11
B21


B12
.
B22


A11 B12 + A12 B22
.
A21 B12 + A22 B22

A11 B11 + A12 B21


A21 B11 + A22 B21

Dnition A.85 ( produit de Kronecker  de matrices) Soit A une matrice de Mm,n (K) et B
une matrice de Mp,q (K). Le produit de Kronecker des matrices A et B est la matrice C , encore note
A B , de Mmp,nq (K), dnie par blocs (CIJ )1Im,

1Jn

de format (p, q), donns par

CIJ = aIJ B, 1 I m, 1 J n.

A.3.2

Liens entre applications linaires et matrices

Dans cette sous-section, on va tablir qu'une matrice est la reprsentation d'une application linaire
entre deux espaces vectoriels, chacun de dimension nie, relativement des bases donnes. Pour cela,
quelques rappels sont ncessaires.

Dnition A.86 (application linaire) Soient E et F deux espaces vectoriels sur le mme corps K et
f une application de E dans F . On dit que f est une application linaire si
f ( v + w) = f (v) + f 0 w), (v, w) E 2 , K.
L'ensemble des applications linaires de E dans F est not L (E, F ).

Dnitions A.87 Soit f une application de L (E, F ). On appelle noyau (kernel en anglais) de f , et
l'on note Ker (f ), l'ensemble

Ker (f ) = {x E | f (x) = 0} .
On dit que f est injective si Ker (f ) = {0}.
On appelle image (range en anglais) de f , et l'on note Im (f ), l'ensemble

Im (f ) = {y F | x E, y = f x)} ,
et le

rang

(rank en anglais) de f est la dimension de Im (f ). L'application f est dite

Im (f ) = F .
Enn, on dit que f est

bijective,

ou que c'est un

isomorphisme,

surjective

si

si elle est injective et surjective.

Le rsultat suivant permet de relier les dimensions du noyau et de l'image d'une application linaire.

Thorme A.88 ( thorme du rang ) Soit E et F deux espaces vectoriels sur K de dimension
nie. Pour toute application f de L (E, F ), on a

dim(Ker (f )) + dim(Im (f )) = dim(E).


426

A.3. MATRICES
Dmonstration. Notons n = dim(E). Le sous-espace vectoriel Ker (f ) de E admet au moins une base
{ei }i=1,...,p que l'on peut complter en une base {ei }i=1,...,n de E . Nous allons montrer que {f (ep+1 ), . . . , f (en )}
est une base de Im (f ). Les vecteurs f (ei ), p + 1 i n, sont l'vidence des lments de Im (f ). Soit l'ensemble
{p+1 , . . . , n } Knp tel que
n
X
i f (ei ) = 0.

i=p+1

P

i ei = 0, et donc i=p+1 i ei Ker (f ).


On a alors f
Pp
Pn
Il existe donc un ensemble {1 , . . . , p } Kp tel que
i=1 i ei , d'o 1 e1 + + p ep
i=p+1 i ei =
p+1 ep+1 n en = 0. Comme la famille {e1 , . . . , ep } est libre, on en dduit que p+1 = = n = 0, ce
qui montre que {f (ep+1 ), . . . , f (en )} est libre.
Soit maintenant y Im (f ). Par dnition, il existe x E tel que y = P
f (x). Puisque {e1 , . . . , en } engendre E ,
on peut trouver une famille {1 , . . . , n } d'lments de K telle que x = ni=1 i ei . On a alors
!
n
n
n
X
X
X
y = f (x) = f
i ei =
i f (ei ) =
i f (ei ),
n
i=p+1

Pn

i=1

i=1

i=p+1

puisque les vecteurs ei , 1 i p, appartiennent au noyau de f . La famille {f (ep+1 ), . . . , f (en )} engendre donc
Im (f ) et c'est une base de ce sous-espace de F . On conclut alors
dim(Im (f )) = n p = dim E dim(Ker (f )).


Supposons prsent que E et F sont deux espaces vectoriels, tous deux de dimension nie avec
dim(E) = m et dim(F ) = n. Soit des bases respectives {ei }i=1,...,n une base de E et {f i }i=1,...,m une
base de F . Pour toute application linaire f de E dans F , on peut crire que

f (ej ) =

m
X

aij f i , 1 j n,

(A.3)

i=1

ce qui conduit la dnition suivante.

Dnition A.89 (reprsentation matricielle d'une application linaire) On appelle reprsentation matricielle de l'application linaire f de L (E, F ), relativement des bases {ei }i=1,...,n et
{f i }i=1,...,m , la matrice A de Mm,n (K) ayant pour coecients les scalaires aij , 1 i m, 1 j n,
dnis de manire unique par les relations (A.3).

Une application de L (E, F ) tant compltement caractrise par la donne de la matrice A et d'une
couple de bases, on en dduit que L (E, F ) est isomorphe Mm,n (K). Cet isomorphisme n'est cependant
pas intrinsque, puisque la reprsentation matricielle dpend des bases choisies pour E et F .
Rciproquement, si on se donne une matrice, alors il existe une innit de choix d'espaces vectoriels
et de bases qui permettent de dnir une innit d'applications linaires dont elle sera la reprsentation
matricielle. Par commodit, on fait le choix  canonique  de considrer l'application linaire de Km dans
Kn , tous deux munis de leurs bases canoniques respectives, qui admet pour reprsentation cette matrice.
On peut ainsi tendre aux matrices toutes les dnitions prcdemment introduites pour les applications
linaires.

Dnitions A.90 (noyau, image et rang d'une matrice) Soit A une matrice de Mm,n (K), avec
K = R ou C. Le noyau de A est le sous-espace vectoriel de Kn dni par
Ker (A) = {x Kn | Ax = 0} .
L'image de A est le sous-espace vectoriel de Km dni par

Im (A) = {y Kn | x Kn tel que Ax = y} ,


et le

rang

de A est la dimension de cette image,

rang(A) = dim(Im (A)).


427

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

En vertu du thorme du rang (voir le thorme A.88), on a, pour toute matrice A de Mm,n (K), la
relation
dim(Ker (A)) + rang(A) = n,
dont on dduit que rang(A) min(m, n), la matrice tant dite de rang maximal si rang(A) = min(m, n).

A.3.3

Inverse d'une matrice

Dnitions A.91 Soit A une matrice d'ordre n. On dit que A est inversible (ou rgulire) s'il existe
une (unique) matrice, note A1 , telle que AA1 = A1 A = In (A1 est appele la matrice inverse de
A). Une matrice non inversible est dite singulire.
Il ressort de cette dnition qu'une matrice A inversible est la matrice d'un endomorphisme bijectif.
Par consquent, une matrice A d'ordre n est inversible si et seulement si rang(A) = n.
Si une matrice A est inversible, son inverse est videmment inversible et (A1 )1 = A. On rappelle
par ailleurs que, si A et B sont deux matrices inversibles, on a les galits suivantes :

(AB)1 = B 1 A1 , (AT )1 = (A1 )T , (A )1 = (A1 ) et (A)1 =

A.3.4

1 1
A , K .

Trace et dterminant d'une matrice

Nous rappellons dans cette section les notions de trace et de dterminant d'une matrice carre.

Dnition A.92 (trace d'une matrice) La trace d'une matrice A d'ordre n est la somme de ses
coecients diagonaux :

tr(A) =

n
X

aii .

i=1

On montre facilement les relations

tr(A + B) = tr(A) + tr(B), tr(AB) = tr(BA), tr(A) = tr(A), K, A, B Mn (K),


la seconde ayant comme consquence le fait que la trace d'une matrice est invariante par changement de
base. En eet, pour toute matrice A et tout matrice inversible P de mme ordre, on a

tr(P AP 1 ) = tr(P 1 P A) = tr(A).

Dnition A.93 (dterminant d'une matrice) On appelle dterminant d'une matrice A d'ordre n
formule de Leibniz 5

le scalaire dni par la

det(A) =

()

Sn

n
Y

a(i)i ,

i=1

o () dsigne la signature d'une permutation 6 de Sn .


5. Gottfried Wilhelm von Leibniz (1er juillet 1646 - 14 novembre 1716) tait un philosophe, mathmaticien (et plus
gnralement scientique), bibliothcaire, diplomate et homme de loi allemand. Il inventa, indpendamment de Newton, le
calcul intgral et direntiel et introduisit plusieurs notations mathmatiques en usage aujourd'hui.
6. Rappelons qu'une permutation est une bijection d'un ensemble dans lui-mme (voir la sous-section A.1.3). On note
Sn le groupe (pour la loi de composition ) des permutations de l'ensemble {1, . . . , n}, avec n N. La signature d'une
permutation de Sn est le nombre, gal 1 ou 1, dni par
() =

Y
1i<jn

428

(i) (j)
.
ij

A.3. MATRICES

Par proprit des permutations, on a det(AT ) = det(A) et det(A ) = det(A), pour toute matrice A
d'ordre n.
On peut voir le dterminant d'une matrice A d'ordre n comme une forme multilinaire des n colonnes
de cette matrice,
det(A) = det(a1 , . . . , an ),
o les vecteurs aj , j = 1, . . . , n, dsignent les colonnes de A. Ainsi, multiplier une colonne (ou une
ligne, puisque det(A) = det(AT )) de A par un scalaire multiplie le dterminant par ce scalaire. On a
notamment
det(A) = n det(A), K, A Mn (K).
Cette forme est de plus alterne : changer deux colonnes (ou deux lignes) de A entre elles entrane
la multiplication de son dterminant par 1 et si deux colonnes (ou deux lignes) sont gales ou, plus
gnralement, si les colonnes (ou les lignes) de A vrient une relation non triviale de dpendance linaire,
le dterminant de A est nul. En revanche, ajouter une colonne (resp. ligne) une combinaison linaire
des autres colonnes (resp. lignes) ne modie pas le dterminant. Ces proprits expliquent elles seules
le rle essentiel que joue le dterminant en algbre linaire.
On rapelle enn que le dterminant est un morphisme de groupes, c'est--dire une application entre
deux groupes respectant la structure de ces groupes, du groupe linaire des matrices inversibles de Mn (K)
dans K muni de la multiplication. Ainsi, si A et B sont deux matrices d'ordre n, on a

det(AB) = det(BA) = det(A) det(B),


et, si A est inversible,

det(A1 ) =

1
.
det(A)

Dnition A.94 (dterminant extrait d'une matrice) Soit A une matrice de Mm,n (K) et q un
entier strictement positif infrieur m et n. On appelle dterminant extrait de A d'ordre q le

dterminant de n'importe quelle matrice d'ordre q obtenue partir de A en liminant m q lignes et


n q colonnes.

La dmonstration du rsultat suivant est immdiate.

Proposition A.95 Le rang d'une matrice A de Mm,n (K) est gal l'ordre maximal des dterminants
extraits non nuls de A.

On dduit de cette caractrisation et des proprits du dterminant que rang(A) = rang(AT ) =


rang(A ).

Dnitions A.96 (mineur, cofacteur et comatrice) Soit A une matrice d'ordre n. On appelle mineur associ l'lment aij , 1 i, j n, de A le dterminant d'ordre n 1 de la matrice obtenue par
suppression de la iime et de la j ime colonne de A. On appelle cofacteur associ ce mme lment le
scalaire


a11

..
.

a
cof ij (A) = (1)i+j i11
ai+11
.
..

an1
Enn, on appelle matrice des
l'ensemble des cofacteurs de A,

cofacteurs,

...

a1j1
..
.

a1j+1
..
.

...

...
...

ai1j1
ai+1j1
..
.

ai1j+1
ai+1j+1
..
.

...
...

...

anj1

anj+1

...

ou

comatrice,

de A la matrice d'ordre n constitue de

com(A) = (cof ij (A))1i,jn .


429







ai1n
.
ai+1n
..
.
ann
a1n
..
.

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

On remarque que si A est une matrice d'ordre n, un scalaire et Eij , (i, j) {1, . . . , n}2 , un vecteur
de la base canonique de Mn (K), on a, par multilinarit du dterminant,


a11
. . . a1j1
0 a1j+1 . . .
a1n

..
..
..
..
..
.
.
.
.
.

ai11 . . . ai1j1 0 ai1j+1 . . . ai1n


...
aij1
1
aij+1 . . .
ain = det(A) + cof ij (A).
det(A + Eij ) = det(A) + ai1
ai+11 . . . ai+1j1 0 ai+1j+1 . . . ai+1n


.
..
..
..
..
..
.
.
.
.

an1 . . . anj1 0 anj+1 . . .
ann
Cette observation conduit une mthode rcursive de calcul d'un dterminant d'ordre n par dveloppement, ramenant ce calcul celui de n dterminants d'ordre n 1, et ainsi de suite.

Proposition A.97 ( formule de Laplace ) Soit A une matrice d'ordre n. On a


det(A) =

n
X

n
X

aik cof ik (A) =

k=1

akj cof kj (A), (i, j) {1, . . . , n}2 .

k=1

Dmonstration. Quitte transposer la matrice, il sut de prouver la formule du dveloppement par rapport
une colonne. On considre alors la matrice, de dterminant nul, obtenue en remplaant la j ime colonne de A,
j {1, . . . , n}, par une colonnes de zros. Pour passer de cette matrice A, on doit lui ajouter les n matrices
aij Eij , i = 1, . . . , n. On en dduit que pour passer du dterminant (nul) de cette matrice celui de A, on doit
lui ajouter les n termes aij cof ij , i = 1, . . . , n, d'o le rsultat.


Proposition A.98 Soit A une matrice d'ordre n. On a


A(com(A))T = (com(A))T A = det(A) In .
Considrons la matrice, de dterminant nul, obtenue en remplaant la j ime colonne de A,
j {1, . . . , n}, par une colonnes de zros et ajoutons lui les n matrices aik Eik , i = 1, . . . , n, avec k {1, . . . , n}
et k 6= j . La matrice rsultante est galement de dterminant nul, puisque deux de ses colonnes sont identiques.
Ceci signie que
n
X
aik cof ij (A) = 0, (j, k) {1, . . . , n}2 , j 6= k.
Dmonstration.

i=1

En ajoutant le cas k = j , on trouve


n
X

aik cof ij (A) = det(A) jk (j, k) {1, . . . , n}2 ,

i=1

ce qu'on traduit matriciellement par A(com(A))T = det(A) In . La seconde formule dcoule du fait que det(AT ) =
det(A).


Lorsque la matrice A est inversible, on a obtenu une formule pour son inverse,

A1 =

1
(com(A))T ,
det(A)

(A.4)

qui ne ncessite que des calculs de dterminants.

A.3.5

Valeurs et vecteurs propres

Les valeurs propres (eigenvalues en anglais) d'une matrice A d'ordre n sont les racines dans K du
polynme caractristique (characteristic polynomial en anglais)

K det(A In )
430

A.3. MATRICES

associ A. Ceci est quivalent dire que les valeurs propres de A sont les scalaires tels que le noyau de
la matrice A In n'est pas rduit {0}. Le spectre (spectrum en anglais) de A, not K (A) ou spK (A),
est l'ensemble des valeurs propres de A dans K et, si K (A) 6= , le rayon spectral (spectral radius en
anglais) de A est le rel positif dni par

(A) = max {|| | K (A)} .


Notons au passage que K (AT ) = K (A), puisque det(AT In ) = det((A In )T ) = det(A In ).
Dans le reste de cette sous-section, nous allons supposer que la matrice A d'ordre n, choisie de faon
arbitraire, possde toujours n valeurs propres i , = 1, . . . , n, distinctes ou confondues (celles-ci tant alors
comptes avec leur multiplicit), ce qui implique que le corps K est algbriquement clos 7 et donc que
K = C. Dans ce cas, on a les proprits suivantes :

tr(A) =

n
X

i et det(A) =

i=1

n
Y

i ,

i=1

la seconde impliquant que la matrice A est singulire ds que l'une de ses valeurs propres est nulle.
toute valeur propre d'une matrice A est associ au moins un vecteur non nul v tel que

Av = v,
appel vecteur propre (eigenvector en anglais) de la matrice A correspondant la valeur propre . Le
sous-espace vectoriel Ker (A In ), constitu de la runion de l'ensemble des vecteurs propres associs la
valeur propre et du vecteur nul, est appel le sous-espace (eigenspace en anglais) propre correspondant
la valeur propre . Sa dimension est la multiplicit gomtrique (geometric multiplicity en anglais) de
, qui ne peut jamais tre suprieure la multiplicit algbrique (algebraic multiplicity en anglais) de
, c'est--dire la multiplicit de en tant que racine du polynme caractristique. Une valeur propre
ayant une multiplicit gomtrique infrieure sa multiplicit algbrique est dite dfective (defective en
anglais).
Terminons cette sous-section par un rsultat qui nous sera utile par la suite.

Lemme A.99 Soit m et n deux entiers naturels non nuls et B et C deux matrices appartenant respec-

tivement Mm,n (C) et Mn,m (C). Alors, les valeurs propres non nulles des matrices BC et CB sont les
mmes.

Pour toute valeur propre de la matrice BC , il existe un vecteur v non nul de Cm tel que
BCv = v . Si ce vecteur appartient de plus au noyau de C , on en dduit que v = 0 et donc que = 0. Par
consquent, tout vecteur propre v de BC associ une valeur propre non nulle ne peut appartenir ker(C),
et l'galit CBCv = Cv implique alors que est galement une valeur propre de la matrice CB , associe au
vecteur propre Cv .

Dmonstration.

A.3.6

Quelques matrices particulires

Matrices diagonales
Les matrices diagonales interviennent de nombreuses reprises en algbre linaire numrique car leur
manipulation est particulirement aise d'un point de vue calculatoire.

Dnition A.100 (matrice diagonale) Une matrice A d'ordre n est dite diagonale si on a aij = 0
pour les couples d'indices (i, j) {1, . . . , n}2 tels que i 6= j .

La dmonstration du lemme suivant est laisse au lecteur.

Lemme A.101 La somme et le produit de deux matrices diagonales sont des matrices diagonales. Le

dterminant d'une matrice diagonale est gal au produit de ses lments diagonaux. Une matrice diagonale
A est donc inversible si et seulement si tous ses lments diagonaux sont non nuls et, le cas chant, son
inverse est une matrice diagonale dont les lements diagonaux sont les inverses des lements diagonaux
correspondants de A.
7. On rappelle qu'un corps commutatif K est dit algbriquement
coecients dans K, admet (au moins) une racine dans K.

431

clos

si tout polynme de degr suprieur ou gal un,

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Matrices triangulaires
Les matrices triangulaires forment une classe de matrices revenant aussi trs couramment en algbre
linaire numrique en raison de la facilit de rsolution d'un systme linaire dont la matrice est triangulaire (voir la section 2.2).

Dnition A.102 (matrice triangulaire) On dit qu'une matrice A d'ordre n est triangulaire suprieure (resp. infrieure) si on a aij = 0 pour les couples d'indices (i, j) {1, . . . , n}2 tels que i > j
(resp. i < j ).

Une matrice la fois triangulaire suprieure et infrieure est une matrice diagonale. On vrie par
ailleurs facilement que la matrice transpose d'une matrice triangulaire suprieure est une matrice triangulaire infrieure, et vice versa.
La dmonstration du lemme suivant est laisse en exercice.

Lemme A.103 Soit A une matrice d'ordre n triangulaire suprieure (resp. infrieure). Son dterminant

est gal au produit de ses termes diagonaux et elle est donc inversible si et seulement si ces derniers sont
tous non nuls. Dans ce cas, son inverse est aussi une matrice triangulaire suprieure (resp. infrieure)
dont les lments diagonaux sont les inverses des lments diagonaux de A. Soit B une autre matrice
d'ordre n triangulaire suprieure (resp. infrieure). La somme A + B et le produit AB sont des matrices
triangulaires suprieures (resp. infrieures) dont les lments diagonaux sont respectivement la somme et
le produit des lments diagonaux correspondants de A et B .

Matrices bandes
Une matrice bande (band matrix en anglais) est une matrice carre dont les coecients non nuls
sont localiss dans une  bande  autour de la diagonale principale. Plus prcisement, on a la dnition
suivante.

Dnition A.104 Soit n un entier strictement positif. On dit qu'une matrice A de Mn (R) est une
matrice bande s'il existe des entiers positifs p et q strictement infrieurs n tels que aij = 0 pour tous
les couples d'entiers (i, j) {1, . . . , n}2 tels que i j > p ou j i > q . La largeur de bande de la

matrice vaut p + q + 1, avec p lments a priori non nuls gauche de la diagonale et q lments droite
sur chaque ligne.

Matrices diagonale dominante


Les matrices diagonale dominante (diagonally dominant matrices en anglais) possdent des proprits remarquables pour les direntes mthodes de rsolution de systmes linaires prsentes aux
chapitres 2 et 3.

Dnition A.105 On dit qu'une matrice A d'ordre n est diagonale dominante par lignes (respar colonnes) si

pectivement

|aii |

n
X

|aij | (resp. |aii |

|aji |), 1 i n.

j=1
j6=i

j=1
j6=i

On dit que A est diagonale


ces ingalits sont strictes.

n
X

strictement dominante

(par lignes ou par colonnes respectivement) si

Les matrices diagonale strictement dominante possdent la particularit d'tre inversibles, comme
le montre le rsultat suivant 8 .

Thorme A.106 Soit A une matrice d'ordre n diagonale strictement dominante (par lignes ou par
colonnes). Alors, A est inversible.
8. Ce thome semble avoir t redcouvert de nombreuses fois de manire totalement indpendante (voir la liste de
rfrences dans [Tau49]).

432

A.3. MATRICES
Dmonstration. Supposons que A est une matrice diagonale strictement dominante par lignes et prouvons
l'assertion par l'absurde. Si A est non inversible, alors son noyau n'est pas rduit zro et il existe un vecteur x
de Rn non nul tel que Ax = 0. Ceci implique que

n
X

aij xj = 0, 1 i n.

j=1

Le vecteur x tant non nul, il existe un indice i0 dans {1, . . . , n} tel que 0 6= |xi0 | = max |xi | et l'on a alors
1in

ai0 i0 xi0 =

n
X

ai0 j xj ,

j=1
j6=i0

d'o

n
X

|ai0 i0 |

j=1
j6=i0

|ai0 j |

n
X
|xj |

|ai0 j | ,
|xi0 |
j=1
j6=i0

ce qui contredit le fait que A est diagonale strictement dominante par lignes.
Si la matrice A est diagonale strictement dominante par colonnes, on montre de la mme manire que sa
transpose AT , qui est une matrice diagonale strictement dominante par lignes, est inversible et on utilise que
det(AT ) = det(A).


Matrices symtriques et hermitiennes


Dnitions A.107 Soit A Mn (R). On dit que la matrice A est symtrique si A = AT , antisymtrique si A = AT et orthogonale si AT A = AAT = In .
Dnitions A.108 Soit A Mn (C). On dit que la matrice A est hermitienne si A = A , unitaire si
A A = AA = In et normale si A A = AA .
On notera que les coecients diagonaux d'une matrice hermitienne sont rels. On dduit aussi immdiatement de ces dernires dnitions et de la dnition A.91 qu'une matrice orthogonale est telle que
A1 = AT et qu'une matrice unitaire est telle que A1 = A .

A.3.7

Matrices quivalentes et matrices semblables

Commenons par la dnition suivante.

Dnition A.109 (matrices quivalentes) Deux matrices A et B m lignes et n colonnes sont


dites quivalentes s'il existe deux matrices inversibles P et Q, respectivement d'ordre m et n, telles que

B = P AQ.

L'quivalence entre matrices au sens de cette dnition est eectivement une relation d'quivalence et
deux matrices sont quivalentes si et seulement si elles reprsentent une mme application linaire dans
des bases direntes. De mme, deux matrices sont quivalentes si et seulement si elles ont mme rang.

Dnition A.110 (matrices semblables) On dit que deux matrices A et B d'ordre n sont semblables
s'il existe une matrice P inversible telle que

A = P BP 1 .
On dit que deux matrices A et B sont unitairement (resp. orthogonalement ) semblables si la matrice
P de la dnition est unitaire (resp. orthogonale). Deux matrices sont semblables si et seulement si elles
reprsentent un mme endomorphisme dans deux bases direntes. La matrice P de la dnition est
donc une matrice de passage et on en dduit que deux matrices semblables possdent le mme rang, la
mme trace, le mme dterminant et le mme polynme caractristique (et donc le mme spectre). Ces
applications sont appeles invariants de similitude. Enn, s'il ne faut pas confondre la notion de matrices
semblables avec celle de matrices quivalentes, on voit que deux matrices semblables sont quivalentes.
433

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

L'exploitation de la similitude entre matrices permet entre autres choses de rduire la complexit du
problme de l'valuation des valeurs propres d'une matrice. En eet, si l'on sait transformer une matrice
donne en une matrice semblable diagonale ou triangulaire, le calcul des valeurs propres devient alors
immdiat. On a notamment le thorme suivant 9 .

Thorme A.111 ( dcomposition de Schur ) Soit une matrice A carre. Il existe une matrice
U unitaire telle que la matrice U AU soit triangulaire suprieure avec pour coecients diagonaux les
valeurs propres de A.
Dmonstration.
Le thorme arme qu'il existe une matrice triangulaire unitairement semblable la
matrice A. Les lments diagonaux d'une matrice triangulaire tant ses valeurs propres et deux matrices semblables
ayant le mme spectre, les lments diagonaux de U AU sont bien les valeurs propres de A.
Le rsultat est prouv par rcurrence sur l'ordre n de la matrice. Il est clairement vrai pour n = 1 et on le
suppose galement vri pour une matrice d'ordre n 1, avec n 2. Soit 1 une valeur propre d'une matrice
A d'ordre n et soit u1 une vecteur propre associ normalis, c'est--dire tel que ku1 k2 = 1. Ayant fait le choix
de n 1 vecteurs pour obtenir une base orthonorme {u1 , . . . , un } de Cn , la matrice Un , ayant pour colonnes les
vecteurs uj , j = 1, . . . , n, est unitaire et on a

1 s12
...
sin
0

Un AUn = .
,
..

Sn1
0

o s1j = (u1 , Auj ), j = 2, . . . , n, et o le bloc Sn1 est une matrice d'ordre n 1. Soit prsent Un1 une matrice

unitaire telle que Un1


Sn1 Un1 soit une matrice triangulaire suprieure et soit

1 0
...
0
0

en1 =
U
..
.
.

Un1
0
en1 est unitaire et, par suite, Un U
en1 galement. On obtient par ailleurs
La matrice U

1 t12
...
0

en1 ) A(Un U
en1 ) = U
en1
en1 = .
(Un U
(Un AUn )U

..
Un1
Sn1 Un1
0


en1 , ce qui achve la preuve.
avec 1 t12 . . . tin = 1 s12 . . . sin U

tin

Parmi les dirents rsultats qu'implique la dcomposition de Schur, il y a en particulier le fait que
toute matrice hermitienne A est unitairement semblable une matrice diagonale relle, les colonnes de
la matrice U tant des vecteurs propres de A. Cette observation est le point de dpart de la mthode de
Jacobi pour le calcul approch des valeurs propres d'une matrice relle symtrique (voir la section 4.5).
La dcomposition de Schur constitue un premier exemple de rduction de matrice, c'est--dire de
transformation d'une matrice par changement de base en une matrice ayant une structure particulire
(une matrice triangulaire suprieure en l'occurrence). Nous aborderons plus loin un autre de type de
rduction, portant le nom de diagonalisation, dans laquelle on se ramne une matrice diagonale.

A.3.8

Matrice associe une forme bilinaire **

REPRENDRE

Forme bilinaire
Dnition A.112 (forme bilinaire) A ECRIRE
proprits : symtrie, positivit, etc...
9. Dans la dmonstration de ce rsultat, on fait appel plusieurs notions abordes dans la section A.4.

434

A.3. MATRICES

Matrice d'une forme bilinaire


x E, x =

Pm

i=1

xi ei ,x F , y =

Pm

j=1

yj f j ,

b(x, y) =

xi yj b(ei , f j )

i,j

On peut alors dnir une matrice M de Mm,n (K) par mij = b(ei , f j ), que l'on dit associe la forme
bilinaire relativement au choix des bases ei et f j .
Rciproquement, si M de Mm,n (K) est une matrice donne, on peut construire une forme bilinaire
sur E F par la formule
b(x, y) = xT M y.
La matrice M T est associe la forme bilinaire sur F E qui (y, x) associe b(x, y).
Lorsque M est une matrice carre, E = F et ei = f i , une matrice symtrique est associe une forme
bilinaire symtrique

Matrices congruentes
Dnition A.113 (matrices congruentes) Deux matrices A et B relles (resp. complexes) d'ordre n
sont dites congruentes s'il existe une matrice inversible P telle que
A = P T BP (resp. A = P BP ).
La congruence entre matrices est une relation d'quivalence et deux matrices sont congruentes si et
seulement si elles reprsentent une mme forme bilinaire dans deux bases direntes. Deux matrices
congruentes ont le mme rang.

A.3.9

Diagonalisation des matrices *

Dnition A.114 (matrice diagonalisable) Une matrice carre A est dite


une matrice inversible P et une matrice diagonale D telles que

diagonalisable s'il existe

A = P DP 1 .
Il ressort de cette dnition qu'une matrice A d'ordre n est diagonalisable si elle est semblable une
matrice diagonale. Dans ce cas, les lments diagonaux de la matrice P 1 AP sont les valeurs propres
1 , 2 , . . . , n de A et la j ime colonne de la matrice P , 1 j n, est forme des composantes (relativement la base considre) d'un vecteur propre associ j .

Proposition A.115 REPRENDRE Une matrice est diagonalisable si et seulement ses vecteurs propres

forment une base./une matrice est diagonalisable lorsque ses valeurs propres sont distinctes ou que leurs
multiplicits algbrique et gomtrique concident.

Les matrices symtriques et hermitiennes vrient un rsultat de diagonalisation tout fait remarquable, que nous nonons sans dmonstration.

Thorme A.116 (diagonalisation des matrices symtriques et hermitiennes) Soit A une matrice relle symtrique (resp. complexe hermitienne) d'ordre n. Alors, il existe une matrice orthogonale
(resp. unitaire) P telle que la matrice P T AP (resp. P AP ) soit une matrice diagonale. Les lments
diagonaux de cette matrice sont les valeurs propres de A et sont rels.

A.3.10

Dcomposition en valeurs singulires *

Il existe une manire plus gnrale que la diagonalisation pour rduire une matrice sous une forme
diagonale, ce dernier mot prenant une forme adapte lorsque la matrice n'est pas carre, il s'agit de la
dcomposition en valeurs singulires (singular value decomposition en anglais). Avant d'introduire cette
dernire, commenons par donner un rsultat technique dont la dmonstration est laisse au lecteur.
435

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Lemme A.117 Soit m et n deux entiers naturels non nul et A une matrice de Mm,n (C). Alors, la matrice
A A est hermitienne et ses valeurs propres sont relles et positives.
En vertu de ce lemme, la dnition suivante a bien un sens.

Dnition A.118 (valeurs singulires d'une matrice) On appelle valeurs singulires d'une matrice A de Mm,n (C) les racines carres positives des valeurs propres de la matrice A A.

On peut prsent noncer le rsultat central de cette sous-section.

Thorme A.119 (dcomposition en valeurs singulires d'une matrice) Pour toute matrice A
de Mm,n (C) de rang r , il existe deux matrices unitaires U (d'ordre m) et V (d'ordre n) et une matrice
de Mm,n (R) telles que
A = U V ,

avec


=

D
0

1

0

, D=
0

..

.
r

les rels i , i = 1, . . . , r tant les valeurs singulires non nulles de A. Cette dcomposition s'appelle la
dcomposition en valeurs singulires de A.
Dmonstration. On peut supposer sans perte de gnralit que m n (dans le cas contraire, il sut de
considrer la dcomposition de A ). Puisque la matrice A A est hermitienne, il existe, en vertu du thorme
A.116, une matrice unitaire V d'ordre n telle que la matrice V A AV est une matrice diagonale dont les lments
diagonaux sont les valeurs propres de A A, ces dernires tant positives ou nulles. En eet, si est une valeur
propre de A A et que v est un vecteur propre associ, i.e. Av = v , v 6= 0, on a

kAvk2 2 = v A Av = v v = kvk2 2 .

Le rang de A A tant gal r, on peut numroter les valeurs singulires de A de manire avoir 1 2
r > r+1 = = m = 0, puis choisir la matrice V de manire avoir

2
1

..

r

.
V A AV =

.
..

En notant v j , j = 1, . . . , n, les colonnes de V , on dduit de l'galit ci-dessus que les vecteurs Av j , j = 1, . . . , n, de


Cm sont orthogonaux deux deux et tels que kAv j k2 = j , 1 j r, et Av j = 0, r + 1 j n. En compltant
la famille de vecteurs normaliss uj = j 1 Av j , 1 j r, pour former une base orthonorme de Cm , on obtient
alors une matrice unitaire U d'ordre m ayant pour colonnes les vecteurs uj , 1 j m, de cette base, qui est
telle que AV = U par construction. A FINIR


quelques remarques : Dans le cas rel, les matrices U et V sont orthogonales, pas d'unicit de la
dcomposition, caractrisation des valeurs singulires d'une matrice normale, interprtation gomtrique
(image par la matrice A de la sphre unit dans l'orthogonal du noyau de A est un ellipsode dans l'image
de A, dont les axes...) et applications
La dcomposition en valeurs singulires permet le calcul eectif du pseudo-inverse (pseudoinverse ou
generalized inverse en anglais) de Moore 10 Penrose 11 [Moo20, Bje51, Pen55] d'une matrice de rang non
10. Eliakim Hastings Moore (26 janvier 1862 - 30 dcembre 1932) tait un mathmaticien amricain. Il travailla en algbre,
en gomtrie algbrique, en thorie des nombres ainsi qu'en thorie des quations intgrales, et s'intressa aux fondements
de la gomtrie et de l'analyse. Ses contributions l'axiomatisation sont considres comme l'un des points de dpart des
mtamathmatiques et de la thorie des modles.
11. Roger Penrose (n le 8 aot 1931) est un physicien et mathmaticien britannique. Il est connu pour ses travaux
en physique mathmatique et plus particulirement ses contributions la thorie de la relativit gnrale applique la
cosmologie et l'tude des trous noirs.

436

A.4. NORMES ET PRODUITS SCALAIRES

nul qui est un objet gnralisant la notion d'inverse des matrices rectangulaires, ou carres mais non
inversibles 12 . On pose pour cela, pour toute matrice A de Mm,n (C),
 1

D
0
A = U V , avec =
.
0
0
POUR LES NOTES DE FIN : histoire de cette dcomposition : [Ste93]
calcul pratique des valeurs singulires (se ramne un problme aux valeurs propres pour A A, mais
cette approche pose des problmes de stabilit numrique, technique utilise : mthode de Golub 13 
Kahan [GK65], cot O(mn2 ) en supposant m n : dans une premire tape, la matrice est ramene
une forme bidiagonale, ce qui peut tre fait en utilisant des transformations de Householder avec un
cot de 4mn2 4n3 /3 ops (en supposant que seules les valeurs singulires sont dterminer et non les
vecteurs associs). Si m est beaucoup plus grand que n, il est avantageux de d'abord rduire la matrice
A sous forme traingulaire via une factorisation QR, puis d'utiliser les transformations de Householder
pour la ramener sous forme bidiagonale ; le cot combin est de 2mn2 + 2n3 ops. La seconde tape de
dtermination peut se faire par une variante de l'algorithm QR pour le calcul de valeurs propres (de
l'ordre de O(n) itrations, chacune cotant O(n) ops). (variante : mthode de GolubReinsch [GR70])

A.4

Normes et produits scalaires

La notion de norme est particulirement utile en algbre linaire numrique pour quantier l'erreur de
l'approximation de la solution d'un systme linaire par une mthode itrative (voir le chapitre 3), auquel
cas on fait appel une norme dite vectorielle sur Cn (ou Rn ), ou bien eectuer des analyses d'erreur
a priori des mthodes directes de rsolution de systmes linaires (voir le chapitre 2), qui utilisent des
normes dites matricielles dnies sur Mn (C) (ou Mn (R)).

A.4.1

Dnitions gnrales

Nous rappelons dans cette section plusieurs dnitions et proprits caractre gnral relatives aux
normes et aux produits scalaires sur un espace vectoriel.

Dnition A.120 (norme) Soit E un espace vectoriel sur le corps K, avec K = R ou C. On dit qu'une
application kk de E dans R est une norme sur E si elle vrie
une proprit de positivit, kvk 0, v E , et de sparation, kvk = 0 si et seulement si
v = 0,
une proprit d'homognit, k vk = || kvk, K, v E ,
une proprit de sous-additivit, encore appele ingalit triangulaire, c'est--dire
ku + vk kuk + kvk, u, v E.
On appelle espace vectoriel norm un espace vectoriel muni d'une norme. C'est un cas particulier
d'espace mtrique dans lequel la distance entre deux lments est donn par

d(u, v) = ku vk, u, v E.
12. tant donn une matrice A, coecients rels ou complexes, possdant m lignes et n colonnes, son pseudo-inverse
est l'unique matrice A n lignes et m colonnes satisfaisant les conditions suivantes :
1. AA A = A,
2. A AA = A ,
3. (AA ) = AA ,
4. (A A) = A A.
13. Gene Howard Golub (29 fvrier 1932 - 16 novembre 2007) tait un mathmaticien amricain. Il fut une gure marquante
dans le domaine de l'analyse numrique, que soit par ses travaux sur les algorithmes de dcomposition et de factorisation
de matrices ou par son rle dans la cration du congrs international de mathmatiques appliques et industrielles et de
journaux consacrs au calcul scientique et l'analyse matricielle.

437

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Dnition A.121 (normes quivalentes) Soit E un espace vectoriel sur le corps K, avec K = R ou
C. On dit que deux normes kk et kk sur E sont quivalentes s'il existe deux constantes positives c
et C telles que
c kvk kvk C kvk , v E.
Dnition A.122 (produit scalaire) Un produit scalaire (resp. produit scalaire hermitien) sur

un espace vectoriel E sur R (resp. C) est une application de E E dans R (resp. C) note ( , ) possdant
les proprits suivantes :
elle est bilinaire (resp. sesquilinaire), c'est--dire linaire par rapport la premire variable

( u + v, w) = (u, w) + (u, v), u, v, w E, R (resp. C),


et linaire (resp. antilinaire) par rapport la seconde

(u, v + w) = (u, v) + (u, w) (resp. (u, v + w) = (u, v) + (u, w)),


u, v, w E, R (resp. C),
elle est symtrique (resp. symtrie hermitienne), c'est--dire
(u, v) = (v, u) (resp. (u, v) = (v, u)), u, v E,
elle est dnie positive 14 , c'est--dire
(v, v) 0, v E, et (v, v) = 0 si et seulement si v = 0.

Dnition A.123 (espace euclidien) On appelle


dimension nie muni d'un produit scalaire.

espace euclidien

tout espace vectoriel sur R de

Lemme A.124 ( ingalit de Cauchy(Bunyakovskii 15 )Schwarz 16 ) Soit E un espace vectoriel sur R ou C muni du produit scalaire ( , ). On a

|(u, v)| kukkvk, u, v E,


o l'on a not kvk =

(v, v), v E , avec galit si et seulement si u et v sont linairement dpendants.

Dmonstration. Soit u et v deux vecteurs de E . La dmonstration du rsultat dans le cas complexe pouvant
se ramener au cas rel en multipliant u par un scalaire de la forme ei , avec un rel, de manire ce que le
produit (ei u, v) soit rel, il sut d'tablir l'ingalit dans le cas rel.
On considre pour cela l'application qui tout rel t associe ku tvk. On a, par proprits du produit scalaire,

0 ku t vk2 = kuk2 + 2t (u, v) + t2 kv)k2 , t R.

Le polynme ci-dessus tant du second ordre et positif sur R, son discriminant doit tre ngatif, c'est--dire
4 |(u, v)|2 4 kuk2 kvk2 ,

d'o l'ingalit annonc. En outre, on a galit lorsque le discriminant est nul, ce qui signie que le polynme
possde une racine relle d'o u + v = 0.


tout produit scalaire, on peut associer une norme particulire comme le montre le thorme suivant.

Thorme A.125 Soit E un espace vectoriel sur R ou C et ( , ) un produit scalaire sur E . L'application

kk, dnie par

kvk =
est une norme sur E , appele

norme induite

(v, v), v E,

par le produit scalaire ( , ).

14. On dit aussi qu'elle est non dgnre positive.


15. Viktor Yakovlevich Bunyakovskii (Viktor kovleviq Bunkovski@
i en russe, 16 dcembre 1804 - 12 dcembre 1889)
tait un mathmaticien russe qui travailla principalement en gomtrie, en thorie des nombres et en mcanique thorique.
Il est connu pour sa publication en 1859 de l'ingalit de CauchySchwarz sous forme fonctionnelle, soit prs de trente ans
avant sa redcouverte par Schwarz.
16. Karl Hermann Amandus Schwarz (25 janvier 1843 - 30 novembre 1921) tait un mathmaticien allemand. Ses travaux,
sur des sujets allant de la thorie des fonctions la gomtrie direntielle en passant par le calcul des variations, furent
marqus par une forte interaction entre l'analyse et la gomtrie.

438

A.4. NORMES ET PRODUITS SCALAIRES


Dmonstration. Il s'agit de montrer que l'application ainsi dnie possde toutes les proprits d'une norme
nonces dans la dnition A.120. La seule de ses proprits non vidente est l'ingalit triangulaire, que l'on va
ici dmontrer dans le cas complexe, le cas rel s'en dduisant trivialement. Pour tous vecteurs u et v de E , on a

ku + vk2 = kuk2 + (u, v) + (v, u) + kvk2 = kuk2 + (u, v) + (u, v) + kvk2 = kuk2 + 2 Re((u, v)) + kvk2 .

Par utilisation de l'ingalit de CauchySchwarz, on obtient alors


ku + vk2 kuk2 + 2 kuk kvk + kvk2 = (kuk + kvk)2 .


Dnition A.126 Soit E un espace vectoriel sur R ou C muni d'un produit scalaire ( , ). On dit que
deux vecteurs u et v de E sont orthogonaux, ce que l'on note u v , si (u, v) = 0. Par extension,
un vecteur v de E est orthogonal une partie G de E , ce que l'on note v G, si le vecteur v est
orthogonal tout vecteur de G. Enn, une famille nie de vecteurs {ui }i=1,...,m , 2 m n, de E est
dite orthonormale s'il vrie

(ui , uj ) = ij , 1 i, j m.

A.4.2

Produits scalaires et normes vectoriels

Nous nous intressons maintenant aux produits scalaires et normes dnis sur l'espace vectoriel de
dimension nie Kn , avec K = R ou C, n N .
L'application (, ) : Kn Kn K dnie par

(u, v) = v T u = uT v =
(u, v) = v u = u v =

n
X

ui vi si K = R,

i=1
n
X

ui vi si K = C,

i=1

est appele produit scalaire canonique (et produit scalaire euclidien lorsque K = R). La norme induite
par ce produit scalaire, appele norme euclidienne dans le cas rel, est

kvk2 =

v v

n
X

!1/2
|vi |

i=1

On rappelle que les matrices orthogonales (resp. unitaires) prservent le produit scalaire canonique sur
Rn (resp. Cn ) et donc sa norme induite. On a en eet, pour toute matrice orthogonale (resp. unitaire) U ,

(U u, U v) = (U T U u, v) = (u, v) (resp. U u, U v) = (U U u, v) = (u, v)), u, v Rn (resp. Cn ).


D'autres normes couramment utilises en analyse numrique sont

kvk1 =

n
X

|vi | ,

i=1

et

kvk = max |vi | .


1in

Plus gnralement, on a le rsultat suivant.

Thorme A.127 Pour tout nombre 1 p +, l'application kkp dnie sur Kn , avec K = R ou C,
par

kvkp =

n
X

!1/p
p

|vi |

, 1 p < +, kvk = max |vi | , v Kn ,


1in

i=1

439

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

est une norme appele

norme de Hlder 17 .

Dmonstration.
Pour p = 1 ou p = +, la preuve est immdiate. On va donc considrer que p est
strictement compris entre 1 et +. Dans ce cas, on dsigne par q le nombre rel tel que

1
1
+ = 1.
p
q

On va maintenant tablir que, si et sont positifs, alors on a


p
q
+
.
p
q

Le cas = 0 tant trivial, on suppose que > 0 et > 0. On a alors




= e

1 (p
p


1 (q ln())
ln())+ q

1 p ln() 1 q
e
+ e
p
q

ln()

p
q
+
,
p
q

par convexit de l'exponentielle. Soit u et v deux vecteurs de Kn . D'aprs l'ingalit ci-dessus, on a


|ui vi |
1 |ui |p
1 |vi |q

+
, 1 i n,
kukp kvkq
p kukp
q kvkq

d'o, par sommation,

n
X

(A.5)

|ui vi | kukp kvkq .

i=1

Pour tablir que l'application kkp est une norme, il sut prsent de prouver qu'elle vrie l'ingalit
triangulaire, les autres proprits tant videntes. Pour cela, on crit que
(|ui | + |vi |)p = |ui | (|ui | + |vi |)p1 + |vi | (|ui | + |vi |)p1 , 1 i n.

En sommant et en utilisant l'ingalit prcdemment tablie, on obtient


n
X

(|ui | + |vi |) (kukp + kvkp )

i=1

n
X

!1/q
(|ui | + |vi |)

(p1)q

i=1

L'ingalit triangulaire dcoule alors de la relation (p 1)q = p.

On dduit de (A.5) l'ingalit suivante


2

|(u, v)| kukp kvkq , (u, v) (Kn ) ,

1 1
+ = 1,
p q

appele ingalit de Hlder, tandis que l'ingalit triangulaire


2

ku + vkp kukp + kvkp , (u, v) (Kn ) ,


porte le nom d'ingalit de Minkowski 18 .
On rappelle enn que dans un espace vectoriel de dimension nie sur un corps complet (comme R ou
C) toutes les normes sont quivalentes. Sur Rn ou Cn , on a par exemple

kvk2 kvk1 n kvk2 et kvk kvk1 n kvk .


Nous aurons besoin des dnitions suivantes dans la suite.
17. Otto Ludwig Hlder (22 dcembre 1859 - 29 aot 1937) tait un mathmaticien allemand. Il est connu pour plusieurs
dcouvertes aujourd'hui associes son nom, au nombre desquelles l'ingalit de Hlder, qui est fondamentale l'tude
des espaces de fonctions Lp , le thorme de Hlder, qui implique que la fonction gamma ne satisfait aucune quation
direntielle algbrique dont les coecients sont des fonctions rationnelles, ou encore la condition de Hlder, qui est une
condition susante pour qu'une application dnie entre deux espaces mtriques soit uniformment continue.
18. Hermann Minkowski (22 juin 1864 - 12 janvier 1909) tait un mathmaticien et physicien thoricien allemand. Il cra
la gomtrie des nombres pour rsoudre des problmes diciles en thorie des nombres et ses travaux sur la notion d'un
continuum espace-temps quatre dimensions furent la base de la thorie de la relativit gnrale.

440

A.4. NORMES ET PRODUITS SCALAIRES

Dnition A.128 (norme duale d'une norme vectorielle) Soit kk une norme dnie sur Kn , avec

K = R ou C. La fonction dnie par

kvkD = sup Re(v u) = sup |v u| , v Kn ,


kuk=1

est appele la

kuk=1

norme duale de kk.

On note que cette fonction est bien dnie : l'ensemble {u Kn | kuk = 1} tant compact et l'application v 7 |v u| tant continue sur Kn pour tout vecteur u de Kn x, le supremum de la dnition
est atteint en vertu d'une gnralisation du thorme des bornes (voir le thorme B.86). On observe par
ailleurs que la norme duale est bien une norme. Les proprits de positivit et d'homognit sont en eet
videntes. Pour montrer celle de sparation, on utilise l'homognit pour crire que, pour tout vecteur
v non nul,



v kvk22
=
> 0.
kvkD = sup |v u| v
kvk
kvk
kuk=1
L'obtention de l'ingalit triangulaire est tout aussi immdiate. Pour tous vecteurs v et w de Kn , on a

kv + wkD = sup |(v + w) u| sup (|v u| + |w u|) sup |v u| + sup |w u| = kvkD + kwkD .
kuk=1

kuk=1

kuk=1

kuk=1

Dnition A.129 (dual d'un vecteur) Soit kk une norme dnie sur Kn , avec K = R ou C, et u un
vecteur non nul de Kn . L'ensemble

{v Kn | kvkD kuk = |v u| = 1} ,
est le

dual du vecteur u par rapport la norme kk.

Il dcoule d'un corollaire du thorme de dualit (voir respectivement le corollaire 5.5.15 et le thorme
5.5.14 dans [HJ85]) que, pour toute norme vectorielle, tout vecteur non nul possde un dual non vide,
qui peut tre constitu d'un ou de plusieurs vecteurs.
La notion de produit scalaire sur Rn et Cn tant introduite, nous pouvons maintenant considrer celle
de matrice symtrique dnie positive, dont les proprits sont particulirement intressantes pour les
mthodes de rsolution de systmes linaires tudies dans les chapitres 2 et 3.

Dnition A.130 (matrice dnie positive) Une matrice d'ordre n est dite dnie positive sur Cn
si (Ax, x) 0, x Cn , avec (Ax, x) = 0 si et seulement si x = 0.

Les matrices dnies positives sur Rn ne sont pas ncessairement symtriques. On peut cependant
prouver qu'une matrice relle A est dnie positive sur Rn si et seulement si sa partie symtrique, qui
est la matrice 21 (A + AT ), est dnie positive sur Rn . Plus gnralement, les rsultats suivants montrent
qu'une matrice dnie positive coecients complexes est ncessairement hermitienne, ce qui nous amne
ne considrer dans la suite que des matrices dnies positives symtriques ou hermitiennes.

Proposition A.131 Soit A une matrice de Mn (C) (resp. R). Si, pour tout vecteur v de Cn , la quantit
(Av, v) est relle, alors A est une matrice hermitienne (resp. symtrique).
Dmonstration.

dire

Si la quantit (Av, v) est relle pour tout vecteur de Cn , alors (Av, v) = (Av, v), c'est-n X
n
X
i=1 j=1

ce qui implique

aij vj vi =

n X
n
X

aij vj vi =

i=1 j=1
n X
n
X

n X
n
X

aij vj vi =

i=1 j=1

n X
n
X

aji vi vj ,

i=1 j=1

(aij aji )vi vj = 0, v Cn .

i=1 j=1

Par des choix appropris du vecteur v , on en dduit que aij = aji , pour tous i, j dans {1, . . . , n}.

Proposition A.132 Une matrice est dnie positive sur Cn si et seulement si elle est hermitienne et
ses valeurs propres sont strictement positives.

441

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE


Dmonstration.
Soit A une matrice dnie positive. On sait alors, d'aprs la prcdente proposition,
qu'elle est hermitienne et il existe donc une matrice unitaire U telle que la matrice U AU est diagonale, avec pour
coecients diagonaux les valeurs propres i , i = 1, . . . , n, de A. En posant v = U w pour tout vecteur de Cn , on
obtient
n
n
X
X
(Av, v) = (AU w, U w) = (U AU w, w) =
i |wi |2 =
i |wi |2 .

i=1

i=1

En choisissant successivement w = ei , avec i = 1, . . . , n, on trouve que 0 < (Aei , ei ) = i . La rciproque est


immdiate, puisque si la matrice A est hermitienne, alors il existe une base orthonorme de Cn forme de ses
vecteurs propres.


On a en particulier qu'une matrice dnie positive est inversible.


Le rsultat classique suivant fournit une caractrisation utile des matrices symtriques (ou hermitienne) dnies positives.

Thorme A.133 ( critre de Sylvester 19 ) Une matrice A symtrique ou hermitienne d'ordre n

est dnie positive si et seulement tous ses mineurs principaux sont strictement positifs, c'est--dire si
toutes les sous-matrices principales

a11
..
Ak = .

...

a1k
.. , 1 k n,
.

ak1

...

akk

extraites de A ont un dterminant strictement positif.


Dmonstration. On dmontre le thorme dans le cas rel, l'extension au cas complexe ne posant aucune
dicult, par rcurrence sur l'ordre n de la matrice. Dans toute la preuve, la notation ( , )Rn dsigne le produit
scalaire euclidien sur Rn .
Pour n = 1, la matrice A est un nombre rel, A = (a11 ), et (Ax, x)R = a11 x2 est par consquent positif si et
seulement si a11 > 0, a11 tant par ailleurs le seul mineur principal. Supposons maintenant le rsultat vrai pour
des matrices symtriques d'ordre n 1, n 2, et prouvons-le pour celles d'ordre n. Soit A une telle matrice. On
note respectivement i et v i , 1 i n les valeurs et vecteurs propres de A, l'ensemble {v i }1in formant par
ailleurs une base orthonorme de Rn .
Observons que

x1
x1
x1
x1
.. ..
. .
. .

A
,
= An1 .. , ..
xn1 xn1
xn1
xn1
Rn1
0
0
Rn

Puisque (Ax, x)Rn > 0 pour tout vecteur x non nul de Rn , ceci est donc en particulier vrai pour tous les
vecteurs de la forme

x1
..

x = . .
xn1
0
Par consquent, la matrice An1 est dnie positive et tous ses mineurs principaux, qui ne sont autres que les
n 1 mineurs principaux de A, sont strictement positifs. Le fait
Q que A soit dnie positive impliquant que ses
valeurs propres sont strictement positives, on a que det(A) = ni=1 i > 0 et l'on vient donc de montrer le sens
direct de l'quivalence.
Rciproquement, si tous les mineurs principaux de A sont strictement positifs, on applique l'hypothse de
rcurrence pour en dduire que la sous-matrice An1 est dnie positive. Comme det(A) > 0, on a l'alternative
suivante : soit toutes les valeurs propres de A sont strictement positives (et donc A est dnie positive), soit
au moins deux d'entre elles, i et j , sont strictement ngatives. Dans ce dernier cas, il existe au moins une
combinaison linaire v i + v j , avec et tous deux non nuls, ayant zro pour dernire composante. Puisqu'on
19. James Joseph Sylvester (3 septembre 1814 - 13 mars 1897) tait un mathmaticien et gomtre anglais. Il travailla
sur les formes algbriques, en particulier sur les formes quadratiques et leurs invariants, et la thorie des dterminants.
On lui doit l'introduction de nombreux objets, notions et notations mathmatiques, comme le discriminant ou la fonction
indicatrice d'Euler.

442

A.4. NORMES ET PRODUITS SCALAIRES

a dmontr que An1 tait dnie positive, il s'ensuit que (A( v i + v j ), v i + v j )Rn > 0. Mais, on a par
ailleurs
(A( v i + v j ), v i + v j )Rn = 2 i + 2 j < 0,
d'o une contradiction.

A.4.3

Normes de matrices *

Nous introduisons dans cette section des normes sur les espaces de matrices. En plus des proprits
habituelles d'une norme, on demande gnralement qu'une norme de matrices satisfasse une proprit
de sous-multiplicativit qui la rend intressante en pratique 20 . On parle dans ce cas de norme matricielle.
Dans toute la suite, on ne va considrer que des matrices coecients complexes, mais les rsultats
s'appliquent aussi bien des matrices coecients rels, en remplaant le cas chant les mots  complexe ,  hermitien  et  unitaire  par  rel ,  symtrique  et  orthogonale , respectivement.

Dnition A.134 (normes compatibles) On dit que trois normes, toutes notes kk et respectivement
dnies sur Cm , Mm,n (C) et Cn , sont compatibles si
kAvk kAk kvk, A Mm,n (C), v Cn .

Dnition A.135 (norme consistante) On dit qu'une norme kk, dnie sur Mm,n (C) pour toutes
valeurs de m et n dans N , est consistante si elle vrie la proprit de sous-multiplicativit
kABk kAk kBk

(A.6)

ds que le produit de matrices AB a un sens.

Dnition A.136 (norme matricielle) Une norme matricielle est une application de Mm,n (C) dans

R, dnie pour toutes valeurs de m et n dans N , vriant les proprits d'une norme (voir la dnition
A.120) et la proprit de sous-multiplicativit (A.6).
Il est important de remarquer que toutes les normes ne sont pas des normes matricielles comme le
montre l'exemple suivant, tir de [GVL96].

Exemple de norme de matrice non consistante. La norme kkmax , dnie sur Mm,n (C) par
kAkmax = max |aij | , A Mm,n (C),
1im
1jn

ne satisfait pas la proprit de sous-multiplicativit (A.6), puisque pour


A=


1
1


1
,
1

on a 2 = kA2 kmax > kAk2max = 1.

Il existe toujours une norme vectorielle avec laquelle une norme matricielle donne est compatible. En
eet, tant donne une norme matricielle kk sur Mm,n (C) dans R, dnie pour toutes valeurs de m et n
dans N , et un vecteur u de Cu non nul, il sut de dnir une telle norme vectorielle par

kvk = kvu k, v Cn .
On dduit alors de la proprit (A.6) que

kAvk = kAvu k kAkkvu k = kAkkvk, A Mm,n (C), v Cn .


20. Sur Mn (K), une telle norme est alors une

norme d'algbre.

443

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Exemple de norme matricielle compatible avec la norme vectorielle euclidienne. L'application


dnie par

v
uX
n
p
um X
kAkF = t
|aij |2 = tr(AA ), A Mm,n (C),

(A.7)

i=1 j=1

est une norme matricielle (la dmonstration est laisse en exercice), dite norme de Frobenius , compatible avec la
norme vectorielle euclidienne kk2 , car on a

2
!
m X
n
m
n
n

X
X
X
X


2
2
2
kAvk2 =
aij xj
|aij |
|xj |
= kAkF 2 kvk2 2 .



i=1 j=1
i=1
j=1
j=1
L'application trace tant un invariant de similitude, on remarque que l'on a encore
v
umin(m,n)
u X
i 2 ,
kAkF = t
i=1

o les rels i , 1 i min(m, n), sont les valeurs singulires de la matrice A.

Proposition A.137 (norme subordonne de matrice) tant donnes deux normes vectorielles kk
et kk sur Cn et Cm respectivement, l'application kk, de Mm,n (C) dans R dnie par
kAk, = sup
vCn
v6=0

est une norme de matrice dite

kAvk
= sup kAvk = sup kAvk ,
kvk
vCn
vCn

subordonne

kvk 1

(A.8)

kvk =1

aux normes kk et kk .

Dmonstration. On remarque tout d'abord que la quantit kAk, est bien dnie pour tout matrice A de
Mm,n (C) : ceci dcoule de la continuit de l'application de Cn dans R qui un vecteur v associe kAvk sur la
sphre unit, qui est compacte puisqu'on est en dimension nie. La vrication des proprits satisfaites par une
norme est alors immdiate.


On dit encore que la norme kk, est induite par les normes vectorielles kk et kk . Une norme
subordonne de matrice est un cas particulier de norme d'oprateur. La proprit de sous-multiplicativit
(A.6) n'est gnralement 21 pas vrie par une norme subordonne, mais on a en revanche

kABk, kAk, kBk, , A, B Mn (C),


pour toute norme vectorielle kk sur Cn A VOIR, PREUVE ?. Une norme subordonne kk, est compatible avec les normes qui l'induisent puisqu'on a, par dnition,

kAk,

kAvk
, A Mm,n (C), v Cn , v 6= 0.
kvk

Ceci implique de manire immdiate qu'une norme subordonne est sous-multiplicative lorsque 22 = .
Dans toute la suite de cette annexe et dans l'ensemble du cours, nous nous restreignons des normes
subordonnes sur Mn (C), n N , pour lesquelles = = p avec p 1, que nous noterons kkp , ou bien
encore kk lorsqu'aucune prcision n'est ncessaire.
21. Par exemple, le choix = 1 et = conduit kAk1, = max1i,jn |aij |, A Mn (C), qui est la norme note
kkmax introduite plus haut. Pour tout matrice A d'ordre n et tout vecteur v de Cn , on a en eet



n
X



kAvk = max
aij vj
max |aij | kvk1 ,

1in
1i,jn
j=1

avec galit pour le vecteur de composantes vi = 0 pour i 6= j0 , vj0 = 1, o j0 est un indice vriant max1i,jn |aij | =
max1in |aij0 |.
22. Observons que, bien que l'on ait = , la dnition (A.8) utilise deux normes vectorielles notes kk , l'une au
numrateur dnie sur Cm , l'autre au dnominateur dnie sur Cn . On a, de fait, implicitement suppos qu'on dsignait
par kk une famille de normes vectorielles, chacune dnie sur Cs pour tout s dans N .

444

A.4. NORMES ET PRODUITS SCALAIRES

On dduit de la dnition (A.8) que kIn k = 1 pour toute norme matricielle subordonne sur Mn (C).
n
Un exemple de norme matricielle sur Mn (C) n'tant
pas subordonne une norme vectorielle sur C est
la norme de Frobenius, puisque l'on a kIn kF = n.
La proposition suivante donne des formules pour le calcul des normes subordonnes aux normes
vectorielles kk1 , kk2 et kk .

Proposition A.138 Soit A une matrice d'ordre n. On a


kAk1 = max

n
X

1jn

kAk2 =

(A.9)

|aij | ,

i=1

(A.10)

p
p
(A A) = (AA ) = kA k2 ,
kAk = max

1in

n
X

(A.11)

|aij | .

j=1

Par ailleurs, la norme kk2 est invariante par transformation unitaire et si A est une matrice normale,
alors kAk2 = (A).
Dmonstration.

Pour tout vecteur v de Cn , on a



n
n X
n
n
X
X
X


aij vj
|vj |
|aij |
kAvk1 =



i=1 j=1
j=1
i=1

max

1jn

n
X

!
|aij | kvk1 .

i=1

Pour montrer (A.9), on construit un vecteur (qui dpendra de la matrice A) tel que l'on ait galit dans l'ingalit
ci-dessus. Il sut pour cela de considrer le vecteur v de composantes
vi = 0 pour i 6= j0 , vj0 = 1,

o j0 est un indice vriant


max

1jn

n
X

|aij | =

i=1

n
X

|aij0 | .

i=1

De la mme manire, on prouve (A.11) en crivant




n

X


aij vj
kAvk = max
1in

j=1

max

1in

n
X

!
|aij | kvk ,

j=1

et en choisissant le vecteur v tel que


vj =

ai0 j
si ai0 j 6= 0, vj = 1 sinon,
|ai0 j |

avec i0 un indice vriant


max

1in

n
X

|aij | =

j=1

n
X

|ai0 j | .

j=1

On prouve prsent (A.10). La matrice A A tant hermitienne, il existe (voir le thorme A.116) une matrice
unitaire U telle que la matrice U A AU est une matrice diagonale dont les lments sont les valeurs propres, par
ailleurs positives, i , i = 1, . . . , n, de A A. En posant w = U v , on a alors
v
s
s
u n
uX
q
(A Av, v)
(U A AU w, w)
|wi |2
kAk2 = sup
= sup
= sup t
i P n
max i .
2 =
n
n
n
1in
(v,
v)
(w,
w)
vC
wC
wC
j=1 |wj |
i=1
v6=0

w6=0

w6=0

D'autre part, en utilisant l'ingalit de CauchySchwarz, on trouve, pour tout vecteur v non nul,
kAvk22
(A Av, v)
kA Avk2 kvk2
=

kA Ak2 kA k2 kAk2 ,
2
2
kvk2
kvk2
kvk22

d'o kAk2 kA k2 . En appliquant cette ingalit A , on obtient l'galit kAk2 = kA k2 = (AA ).

445

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

On montre ensuite l'invariance de la norme kk2 par transformation unitaire, c'est--dire que kU Ak2 =
kAU k2 = kAk2 pour toute matrice unitaire U et toute matrice A. Puisque U U = In , on a
kU Ak22 = sup

vCn
v6=0

kU Avk22
(U U Av, v)
= sup
= kAk2 .
2
kvk2
kvk22
vCn
v6=0

Le changement de variable u = U v vriant kuk2 = kvk2 , on a par ailleurs


kAU k22 = sup

vCn
v6=0

kAuk22
kAuk22
kAU vk22
= sup
=
sup
= kAk2 .
2
2
2
1 uk
kvk2
uCn kU
uCn kuk2
2
u6=0

u6=0

Enn, si A est une matrice normale, alors elle est diagonalisable dans une base orthonorme de vecteurs
propres (voir le thorme A.116 et on a A = U DU , avec U une matrice unitaire et D une matrice diagonale
ayant pour lments les valeurs propres de A, d'o
kAk2 = kU DU k2 = kDk2 = (A).


Cette proposition amne quelques remarques. Tout d'abord, il est clair l'examen de la dmonstration
ci-dessus que les expressions trouves pour kAk1 , kAk2 et kAk , avec A une matrice d'ordre n, sont encore
valables pour une matrice rectangulaire. On observe aussi que kAk1 = kA k et que l'on a kAk1 = kAk
et kAk2 = (A) si A est une matrice hermitienne (donc normale). Par ailleurs, si U est une matrice
unitaire (donc normale), on a kU k2 = (In ) = 1. Enn, la quantit kAk2 n'est autre que la plus grande
valeur singulire (voir la sous-section A.3.10) de la matrice A et son calcul pratique est donc beaucoup
plus dicile et coteux que celui de kAk1 ou kAk . Cette proprit donne son nom la norme kk2 , qui
est dite spectrale. L'invariance unitaire de cette norme, galement vrie par la norme de Frobenius a des
implications importantes pour l'analyse d'erreur des mthodes numriques utilises en algbre linaire,
car elle signie que la multiplication par une matrice unitaire n'amplie pas les erreurs dj prsentes
dans une matrice. Par exemple, si A est une matrice d'ordre n entache d'une erreur E et Q est une
matrice unitaire, alors Q(A + E)q = QAQ + F , o kF k2 = kQEQ k2 = kEk2 .
Comme toutes les normes dnies sur un espace vectoriel de dimension nie sur un corps complet,
les normes sur Mm,n (C) sont quivalentes. Le tableau A.1 donne les constantes d'quivalence entre les
normes les plus utilises en pratique.

Table A.1:

1
2

1
1
n
n

q
2

m
1

p n
rang(A)

m
m
1

F
m
1

n
1

Constantes Cpq telles que kAkp Cpq kAkq , A Mm,n (C).

Enn, si l'on a montr qu'il existait des normes matricielles et des matrices A pour lesquelles on a
l'galit kAk = (A), il faut insister sur le fait que le rayon spectral n'est pas une norme 23 . On peut
nanmoins prouver que l'on peut toujours approcher le rayon spectral d'une matrice donne d'aussi prs
que souhait par valeurs suprieures, l'aide d'une norme matricielle convenablement choisie. Ce rsultat
est fondamental pour l'tude de la convergence des suites de matrices (voir le thorme A.141).

Thorme A.139 Soit A une matrice carre d'ordre n et kk une norme matricielle. Alors, on a
(A) kAk.
D'autre part, tant donn une matrice A et un nombre strictement positif , il existe au moins une norme
matricielle subordonne telle que

kAk (A) + .
23. Par exemple, toute matrice triangulaire non nulle dont les coecients diagonaux sont nuls a un rayon spectral gal
zro.

446

A.4. NORMES ET PRODUITS SCALAIRES


Dmonstration. Si est une valeur propre de A, il existe un vecteur propre v 6= 0 associ, tel que Av = v .
Soit w un vecteur tel que la matrice vw ne soit pas nulle. On a alors

|| kvw k = k vw k = kAvw k kAk kvw k,

d'aprs la proprit de sous-multiplicativit d'une norme matricielle, et donc || kAk. Cette dernire ingalit
tant vraie pour toute valeur propre de A, elle l'est en particulier quand || est gal au rayon spectral de la matrice
et la premire ingalit du thorme se trouve dmontre.
Soit maintenant A une matrice d'ordre n. Il existe une matrice unitaire U telle que T = U 1 AU soit triangulaire
(suprieure par exemple) et que les lments diagonaux de T soient les valeurs propres de A. tout rel > 0, on
dnit la matrice diagonale D telle que dii = i1 , i = 1, . . . , n. tant donn > 0, on peut choisir susamment
petit pour que les lments extradiagonaux de la matrice (U D )1 A(U D ) = (D )1 T D soient aussi petits, par
exemple de faon avoir
n
X
ji |tij | , 1 i n 1.
j=i+1

On a alors
k(U D )1 A(U D )k = max

1in

n
X

ji |tij | (A) + .

j=i

Il reste vrier que l'application qui une matrice B d'ordre n associe k(U D )1 B(U D )k est une norme
matricielle (qui dpend de A et de ), ce qui est immdiat puisque c'est la norme subordonne la norme vectorielle
k(U D )1 k .


On notera que la premire ingalit du thorme A.139 est plus gnralement vraie pour toute norme
sur Mn (C) compatible avec une norme sur Cn , ce qui est trivialement le cas pour les normes subordonnes.

Thorme A.140 Soit kk une norme matricielle subordonne et A une matrice d'ordre n vriant
kAk < 1. Alors la matrice In A est inversible et on a les ingalits



1
1
(In A)1
.
1 + kAk
1 kAk
Par ailleurs, si une matrice de la forme In A est singulire, alors on a ncessairement kAk 1 pour
toute norme matricielle kk.
Dmonstration.
On remarque que (In A)v = 0 implique que kAvk = kvk. D'autre part, puisque
kAk < 1, on a, si v 6= 0 et par denition d'une norme matricielle subordonne, kAvk < kvk. On en dduit
que, si (In A)v = 0, alors v = 0 et la matrice In A est donc inversible.
On a par ailleurs




1 = kIn k kIn Ak (In A)1 (1 + kAk) (In A)1 ,

dont on dduit la premire ingalit. La matrice In A tant inversible, on peut crire


(In A)1 = In + A(In A)1 ,

d'o





(In A)1 1 + kAk (In A)1 ,

ce qui conduit la seconde ingalit.


Enn, dire que la matrice In A est singulire signie que 1 est valeur propre de A et donc que (A) 1.
On se sert alors du thorme A.139 pour conclure.




On dit qu'une suite A(k) kN de matrices de Mm,n (C) converge vers une matrice A de Mm,n (C) si


lim A(k) A = 0

k+

pour une norme de matrice (le choix de la norme importe peu en raison de l'quivalence des normes
sur Mm,n (C)). Le rsultat qui suit donne des conditions ncessaires et susantes pour que la suite
forme des puissances successives d'une matrice carre converge vers la matrice nulle. Il fournit un critre
fondamental de convergence pour les mthodes itratives de rsolution des systmes linaires introduites
dans le chapitre 3.
447

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

Thorme A.141 Soit A une matrice carre. Les conditions suivantes sont quivalentes.
i)
ii)

lim Ak = 0,

k+

lim Ak v = 0 pour tout vecteur v ,

k+

iii) (A) < 1,


iv) kAk < 1 pour au moins une norme subordonne kk.
Dmonstration.
Prouvons que i implique ii. Soit kk une norme vectorielle et kk la norme matricielle
subordonne lui correspondant. Pour tout vecteur v , on a l'ingalit

kAk vk kAk k kvk,

qui montre que

lim Ak v = 0. Montrons ensuite que ii implique iii. Si (A) 1, alors il existe une valeur

k+

propre de A et v 6= 0 un vecteur propre associ tels que


Av = v et || 1.

La suite (A v)kN ne peut donc converger vers 0, puisque Ak v = k v . Le fait que iii implique iv est une
consquence immdiate du thorme A.139. Il reste montrer que iv implique i. Il sut pour cela d'utiliser
l'ingalit
kAk k kAkk , k N,
k

vrie par la norme subordonne de l'nonc.

On dduit de ce thorme un rsultat sur la convergence d'une srie gomtrique remarquable de


matrice, dite srie de Neumann.

Corollaire A.142 Soit A une matrice carre d'ordre n telle que limk+ Ak = 0. Alors, la matrice
In A est inversible et on a

+
X

Ak = (In A)1 .

i=1

On sait d'aprs le thorme A.141 que (A) < 1 si limk+ Ak = 0, la matrice In A est
donc inversible. En considrant l'identit
Dmonstration.

(In A)(In + A + + Ak ) = In + Ak+1

et en faisant tendre k vers l'inni, on obtient alors l'identit recherche.

Nous pouvons maintenant prouver le rsultat suivant, qui prcise un peu plus le lien existant entre le
rayon spectral et la norme d'une matrice.

Thorme A.143 ( formule de Gelfand 24  [Gel41]) Soit A une matrice carre et kk une norme

matricielle. On a

(A) = lim kAk k1/k .


k+

Dmonstration.

que

1/k
Puisque (A) kAk d'aprs le thorme A.139 et comme (A) = (Ak )
, on sait dj
(A) kAk k1/k , k N.

Soit > 0 donn. La matrice


A =

A
(A) +

vrie (A ) < 1 et on dduit du thorme A.141 que lim Ak = 0. Par consquent, il existe un entier l, dpendant
de , tel que

k+

k l kAk k =

Ceci implique que

kAk k
1.
((A) + )k

k l kAk k1/k (A) + ,

et dmontre donc l'galit cherche.

24. Isral Moiseevich Gelfand (Izr&ail~ Mois&eeviq G&el~fand en russe, 2 septembre 1913 - 5 octobre 2009) tait un
mathmaticien russe. Ses contributions aux mathmatiques furent diverses et de nombreux rsultats sont associs son
nom, notamment en thorie des groupes, en thorie des reprsentations et en analyse fonctionnelle.

448

A.5. SYSTMES LINAIRES

A.5

Systmes linaires

Soit m et n deux entiers strictement positifs. Rsoudre un systme linaire de m quations n


inconnues et coecients dans un corps K consiste trouver la ou les solutions, s'il en existe, de

l'quation algbrique

Ax = b,
o A est une matrice de Mm,n (K), appele matrice du systme, b est un vecteur de Km , appel second
membre du systme, et x est un vecteur de Kn , appel inconnue du systme. On dit que le vecteur x est
solution du systme ci-dessus si ces composantes vrient les m quations
n
X

aij xk = bi , i = 1, . . . , m,

j=1

du systme. Enn, le systme linaire est dit compatible s'il admet au moins une solution, incompatible
sinon, et homogne si son second membre est nul.
Dans cette section, nous rappellons des rsultats sur l'existence et l'unicit ventuelle des solutions de
systmes linaires et leur dtermination.

A.5.1

Systmes linaires carrs

Considrons pour commencer des systmes ayant un mme nombre d'quations et d'inconnues, c'est-dire tels que m = n. Le systme est alors dit carr, par analogie avec la  forme  de sa matrice. Dans
ce cas, l'inversibilit de la matrice du systme fournit un critre trs simple d'existence et d'unicit de la
solution.

Thorme A.144 Si A est une matrice inversible, alors il existe une unique solution du systme linaire
Ax = b. Si A n'est pas inversible, alors soit le second membre b appartient l'image de A et il existe
alors une innit de solutions du systme qui dirent deux deux par un lment du noyau de A, soit
le second membre n'appartient pas l'image de A, auquel cas il n'y a pas de solution.
La dmonstration de ce rsultat est vidente et laisse au lecteur. Si ce dernier thorme ne donne
pas de forme explicite de la solution permettant son calcul, cette dernire peut s'exprimer l'aide des
formules suivantes.

Proposition A.145 ( rgle de Cramer ) On suppose que les vecteurs aj , j = 1, . . . , n, de Kn

dsignent les colonnes d'une matrice inversible A de Mn (K). Les composante de la solution du systme
Ax = b sont donnes par

xi =
Dmonstration.

det(a1 , . . . , ai1 , b, ai+1 , . . . , an )


, i = 1, . . . , n.
det(A)

Le dterminant tant une forme multilinaire alterne, on a

det(a1 , . . . , ai1 , ai + aj , ai+1 , . . . , an ) = det(A), i, j {1, . . . , n}, i 6= j, , K.

Or, si le vecteur x est solution de Ax = b, ses composantes sont les composantes du vecteur b dans la base de Kn
forme par les colonnes de A, c'est--dire
n
X
b=
xj a j .
j=1

On en dduit que

Xn
det a1 , . . . , ai1 ,

j=1


xj aj , ai+1 , . . . , an = det(a1 , . . . , ai1 , b, ai+1 , . . . , an ) = xi det(A), i = 1, . . . , n.

d'o la formule.

On appelle systme de Cramer tout systme d'quations linaires dont la matrice est inversible.
Aussi sduisante qu'elle soit, la rgle de Cramer s'avre parfaitement inecace en pratique. Le problme provient de l'valuation des dterminants intervenant dans les formules, qui ncessite bien trop
d'oprations si l'on applique une mthode rcursive de calcul du dterminant.
449

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

A.5.2

Systmes linaires sur ou sous-dtermins

Considrons maintenant des systmes linaires n'ayant pas le mme nombre d'quations et d'inconnues, c'est--dire tels que m 6= n. Dans ce cas, la matrice du systme est rectangulaire. Lorsque m < n, on
dit que le systme est sous-dtermin : il y a plus d'inconnues que d'quations, ce qui donne, heuristiquement, plus de  libert  pour l'existence de solutions. Si m > n, on dit que le systme est sur-dtermin : il
y a moins d'inconnues que d'quations, ce qui restreint cette fois-ci les possibilits d'existence de solutions.
On a le rsultat fondamental suivant dont la dmonstration est laisse en exercice.

Thorme A.146 Il existe une solution du systme linaire Ax = b si et seulement si le second membre

b appartient l'image de A. La solution est unique si est seulement si le noyau de A est rduit au vecteur
nul. Deux solutions du systme dirent par un lment du noyau de A.
Le rsultat suivant est obtenu par simple application du thorme du rang (voir le thorme A.88).

Lemme A.147 Si m < n, alors dim ker(A) n m 1, et s'il existe une solution au systme linaire
Ax = b, il en existe une innit.

A.5.3

Systmes linaires sous forme chelonne

Nous abordons maintenant le cas de systmes linaires dont les matrices sont sous forme chelonne.
S'intresser ce type particulier de systmes est de toute premire importance, puisque l'enjeu de mthodes de rsolution comme la mthode d'limination de Gauss (voir la section 2.3) est de ramener un
systme linaire quelconque un systme sous forme chelonne quivalent (c'est--dire ayant le mme
ensemble de solutions), plus simple rsoudre.

Dnition A.148 (matrice sous forme chelonne) Une matrice A de Mm,n (K) est dite sous
forme chelonne ou en chelons s'il existe un entier r, 1 r min(m, n) et une suite d'entiers

1 j1 < j2 < . . . < jr n tels que


aiji 6= 0 pour 1 i r, et aij = 0 pour 1 i r et 1 j < ji (i 2 si j1 = 1), c'est--dire que
les coecients aiji , appels pivots, sont les premiers coecients non nuls des r premires lignes,
aij = 0 pour r < i m et 1 j n, c'est--dire que toutes les lignes aprs les r premires sont
nulles.
Une telle matrice A est par ailleurs dite sous forme chelonne rduite si tous ses pivots valent 1 et si
les autres coecients des colonnes contenant un pivot sont nuls.

Exemple de matrice sous forme chelonne. La matrice

0
0

0
0

1
0
0
0

1
2
0
0

0
1
3
0

2
5

0
0

est une matrice sous forme chelonne dont les pivots sont 1, 2 et 3.

On dduit immdiatement de la dnition prcdente que le rang d'une matrice sous forme chelonne
est gal au nombre r de pivots. Dans un systme linaire sous forme chelonne, c'est--dire associ
une matrice sous forme chelonne, de m quations n inconnues, les inconnues xj1 , . . . , xjr sont dites
principales et les n r inconnues restantes sont appeles secondaires.
Considrons prsent la rsolution d'un systme linaire Ax = b sous forme chelonne de m quations
n inconnues et de rang r. Commenons par discuter de la compatibilit de ce systme. Tout d'abord,
si r = m, le systme linaire est compatible et ses quations sont linairement indpendantes. Sinon,
c'est--dire si r < m, les m r dernires lignes de la matrice A sont nulles et le systme linaire n'est
donc compatible que si les m r dernires composantes du vecteur b sont galement nulles, ce qui revient
vrier m r conditions de compatibilit.
Parlons prsent de la rsolution eective du systme lorsque ce dernier est compatible. Plusieurs cas
de gure se prsentent.
Si r = m = n, le systme est de Cramer et admet une unique solution. Le systme chelonn est
alors triangulaire (suprieur) et se rsout par des substitutions successives (voir la section 2.2).
450

A.5. SYSTMES LINAIRES

Si r = n < m, la solution existe, puisque le systme est suppos satisfaire aux m r conditions de
compatibilit, et unique. On l'obtient en rsolvant le systme linaire quivalent
a11 x1

+ a12 x2
a21 x2

+ ...
+ ...
..
.

+ a1r xr
+ a2r xr
..
.
arr xr

= b1
= b2
..
.
=

br

par des substitutions successives comme dans le cas prcdent.


Enn, si r < n m et le systme est compatible, on commence par faire  passer  les inconnues
secondaires dans les membres de droite du systme. Ceci se traduit matriciellement par la rcriture
du systme sous la forme
AP xP = b AS xS ,
o AP est une sous-matrice extraite de A m lignes et r colonnes, constitue des colonnes de A qui
contiennent un pivot, xP est un vecteur de Kr ayant pour composantes les inconnues principales,
AS est une sous-matrice extraite de A m lignes et n r colonnes, constitue des colonnes de A
ne contenant pas de pivot, et xS est un vecteur de Knr ayant pour composantes les inconnues
secondaires. Ce dernier systme permet d'obtenir de manire unique les inconnues principales en
fonction des inconnues secondaires, qui jouent alors le rle de paramtres. Dans ce cas, le systme
admet une innit de solutions, qui sont chacune la somme d'une solution particulire de Ax = b
et d'une solution du systme homogne Ax = 0 (c'est--dire un lment du noyau de A).
Une solution particulire s0 du systme est obtenue, par exemple, en compltant la solution du
systme AP xP0 = b, que l'on rsout de la mme faon que dans le cas prcdent, par des zros
pour obtenir un vecteur de Kn (ceci revient xer la valeur de toutes les inconnues secondaires
zro), i.e.,


xP0
s0 =
.
0
On dtermine ensuite une base du noyau de A en rsolvant les n r systmes linaires AP xPk =
(nr)
(nr)
b AS e k
, 1 k n r, o ek
dsigne le k ime vecteur de la base canonique de Knr (ceci
ime
revient xer la valeur de la k
inconnue secondaire 1 et celles des autres zro), le vecteur
de base xk correspondant tant


xPk
sk =
(nr) .
ek
La solution gnrale du systme est alors de la forme

x = s0 +

nr
X

ck sk ,

k=1

avec les ck , 1 k n r, des scalaires.

A.5.4

Conditionnement d'une matrice

La rsolution d'un systme linaire par les mthodes numriques des chapitres 2 et 3 est sujette
des erreurs d'arrondis dont l'accumulation peut dteriorer notablement la prcision de la solution
obtenue. An de mesurer la sensibilit de la solution x d'un systme linaire Ax = b par rapport
des perturbations ds donnes A et b, on utilise une quantit appele conditionnement, introduite pour
la premire fois explicitement par Turing [Tur48] dans le cas de la norme de Frobenius. C'est un cas
particulier de la notion gnrale de conditionnement d'un problme dnie dans la sous-section 1.4.2.

Dnition A.149 (conditionnement d'une matrice) Soit kk une norme matricielle. Pour toute
matrice inversible A d'ordre n, on appelle conditionnement de A relativement la norme kk le
nombre

cond(A) = kAk kA1 k.


451

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

La valeur du conditionnement d'une matrice dpendant en gnral de la norme matricielle choisie,


on a coutume de signaler celle-ci en ajoutant un indice dans la notation, par exemple cond (A) =
kAk kA1 k. On note que l'on a toujours cond(A) 1 pour une norme matricielle
subordonne (et

condF (A) n), puisque kAk kA1 k kAA1 k = kIn k = 1 (et kIn kF = n). D'autres proprits
videntes du conditionnement sont rassembles dans le rsultat suivant.

Thorme A.150 Soit A une matrice inversible d'ordre n.


1. On a cond(A) = cond(A1 ) et cond( A) = cond(A) pour tout scalaire non nul.
2. On a

cond2 (A) =

n
,
1

o 1 et n dsignent respectivement la plus petite et la plus grande des valeurs singulires de A.


3. Si A est une matrice normale, on a

max |i |

cond2 (A) =

1in

min |i |

= (A)(A1 ),

1in

o les scalaires i , 1 i n, sont les valeurs propres de A.


4. Si A est une matrice unitaire ou orthogonale, son conditionnement cond2 (A) vaut 1.
5. Le conditionnement cond2 (A) est invariant par transformation unitaire (ou orthogonale),

U U = In cond2 (A) = cond2 (AU ) = cond2 (U A) = cond2 (U AU ).


Dmonstration.

1. Les galits dcoulent de la dnition du conditionnement et des proprits de la norme.


p
2. On a tabli dans la proposition A.138 que kAk2 = (A A) et, d'aprs la dnition des valeurs singulires de
A, on a donc kAk2 = n . Par ailleurs, on voit que
p
p
p
1
,
kA1 k2 = ((A1 ) A1 ) = (A1 (A1 ) ) = ((A A)1 ) =
1
ce qui dmontre le rsultat.
3. La proprit rsulte de l'galit kAk2 = (A) vrie par les matrices normales (voir encore la proposition
A.138).
p
p
4. Le rsultat dcoule de l'galit kAk2 = (A A) = (In ) = 1.
5. La proprit est une consquence de l'invariance par transformation unitaire de la norme kk2 (voir une nouvelle
fois la proposition A.138).


La proposition ci-dessous montre que plus le conditionnement d'une matrice est grand, plus la solution
d'un systme linaire qui lui est associ est sensible aux perturbations des donnes.

Proposition A.151 Soit A une matrice inversible d'ordre n, b un vecteur non nul de taille correspondante et kk une norme matricielle subordonne. Si x et x + x sont les solutions respectives des systmes
linaires Ax = b et A(x + x) = b + b, avec b un vecteur de taille n, on a

kbk
kxk
cond(A)
.
kxk
kbk

(A.12)

Si x et x + x sont les solutions respectives 25 des systmes linaires Ax = b et (A + A)(x + x) = b,


avec A une matrice d'ordre n, on a

kxk
kAk
cond(A)
.
kx + xk
kAk

(A.13)

De plus, ces deux ingalits sont optimales, dans le sens o, pour toute matrice A donne, on peut trouver
des vecteurs b et b (resp. une matrice A et un vecteur b) non nuls tels que l'on a une galit.
25. On notera qu'il n'est pas ncessaire de supposer que la matrice A + A est inversible pour tablir l'ingalit, mais
simplement que le systme linaire associ possde au moins une solution.

452

A.5. SYSTMES LINAIRES

On remarque que le vecteur x est donn par x = A1 b, d'o kxk kA1 k kbk.
Comme on a par ailleurs kbk kAk kxk, on en dduit la premire ingalit. Son optimalit dcoule de la dnition
d'une norme matricielle subordonne ; pour toute matrice A d'ordre n, il existe des vecteurs b et x non nuls tels
que kA1 bk = kA1 k kbk et kAxk = kAk kxk (voir la dmonstration de la proposition A.137).
Pour la seconde ingalit, on tire de Ax + A(x + x) = 0 la majoration kxk kA1 k kAk kx + xk, qui
donne le rsultat. Pour prouver que l'ingalit obtenue est la meilleure possible, on considre un vecteur y non
nul tel que kA1 yk = kA1 k kyk et un scalaire non nul n'appartenant pas au spectre de la matrice A. On pose
alors A = I , x = A1 y , x + x = y et b = (A In )y (ce dernier vecteur tant non nul puisque A In
est inversible), qui vrient Ax = b, (A + A)(x + x) = b et kxk = || kA1 yk = kAkkA1 kkx + xk.

Dmonstration.

Il peut sembler trange d'un point de vue thorique 26 que l'erreur x sur la solution majore dans
(A.13) soit mesure relativement x+x. Il possible d'obtenir un rsultat comparable (A.12) en faisant
l'hypothse (parfaitement loisible car on tudie l'inuence de petites pertubations) que la matrice A est
telle que l'on ait
kA1 kkAk < 1.
(A.14)
Dans ce cas, on dduit du thorme A.140 que la matrice A + A = A(In + A1 A) est inversible et il
vient alors
x = (In + A1 A)1 A1 Ax,
soit encore, en faisant appel une nouvelle fois au thorme A.140,

kA1 k
cond(A)
kAk
kxk
k(In + A1 A)1 kkA1 kkAk
kAk =
,
1
1
kxk
1 kA kkAk
1 kA kkAk kAk
qui est bien un ingalit de la forme voulue.
Malgr leur optimalit, toutes ces ingalits sont, en gnral, pessimistes. Elles conduisent nanmoins
l'introduction d'une terminologie courante, issue de la notion gnrale de conditionnement d'un problme
(voir la section 1.4.2), visant traduire le fait que la rsolution numrique d'un systme linaire donn
peut tre particulirement sensible aux erreurs d'arrondis, ce qui conduit d'importantes erreurs sur la
solution calcule. Ainsi, on dit qu'une matrice inversible est bien conditionne (relativement une norme
matricielle subordonne) si son conditionnement est proche de l'unit. Au contraire, elle est dite mal
conditionne si son conditionnement est trs grand devant 1. Les matrices unitaires (ou orthogonales)
tant trs bien conditionnes relativement la norme spectrale (voir le thorme A.150), on comprend la
place privilgie qu'elles occupent dans diverses mthodes numriques matricielles.
Terminons par une interprtation gomtrique du conditionnement d'une matrice, lie la condition
(A.14) garantissant que la matrice perturbe A + A est non singulire et qui tend complter la dnomination que nous venons d'introduire. On dnit la distance d'une matrice A d'ordre n l'ensemble n
des matrices singulires d'ordre n relativement une norme matricielle kk par

dist(A, n ) = min {kAk | A Mn (C), A + A n } .


On a le thorme suivant, qui dcoule d'un rsultat 27 de Eckart et Young [EY36] dans le cas de la norme
subordonne la norme euclidienne et tabli par Kahan [Kah66] (qui l'attribue Gastinel) dans le cas
d'une norme matricielle subordonne quelconque.

Thorme A.152 Soit A une matrice d'ordre n inversible et kk une norme matricielle subordonne.
On a

dist(A, n ) =

kAk
.
cond(A)

n
Dmonstration. Si la matrice A + A est singulire, alors il existe un vecteur x de C
non nul tel que
(A + A)x = 0. On a alors, en notant galement kk la norme vectorielle laquelle la norme matricielle kk est
subordonne,
kxk = kA1 Axk kA1 kkAkkxk,

26. En pratique, une telle majoration est en revanche trs utile, puisque c'est la solution calcule x + x, et non la solution
exacte x, que l'on connat eectivement.
27. Le rsultat en question montre que distF (A, n ) est gal la plus petite valeur singulire de la matrice A, dont on
dduit que distF (A, n ) = dist2 (A, n ) = kAk2 (cond2 (A))1 .

453

ANNEXE A. RAPPELS ET COMPLMENTS D'ALGBRE LINAIRE

d'o

kAk
1
=
.
kA1 k
cond(A)
Pour montrer qu'il existe une perturbation A donnant lieu une galit dans cette majoration, on considre un
vecteur y de Cn tel que kA1 yk = kA1 kkyk 6= 0 et l'on pose A = yw , o w est un lment du dual de A1 y
par rapport la norme kk (voir la dnition A.129). On a alors (A + A)A1 y = 0, la matrice A + A est donc
singulire, et, en vertu de (A.8), il vient
kAk

kAk = sup
vCn
v6=0

kyw vk
|w v|
kyk
1
= kyk sup
= kykkw k =
=
.
kvk
kA1 yk
kA1 k
vCn kvk
v6=0

On peut donc voir une matrice mal conditionne comme  presque  singulire, ce qui n'est pas
sans consquence pour la rsolution numrique de tout systme linaire lui tant associ. En eet, en
raison des erreurs d'arrondis, la matrice intervenant dans les calculs est une matrice perturbe et donc
potentiellement singulire. Ainsi, mme lorsque le second membre du systme linaire considr n'est pas
perturb, la solution obtenue peut tre trs dirente de la solution recherche.

Rfrences
[Bje51]

A.

Bjerhammar.

[EY36]

C.

Eckart

[Gel41]

I.

[GK65]

G. Golub and W. Kahan. Calculating the singular values and pseudo-inverse of a matrix. J. SIAM
Ser. B Numer. Anal., 2(2):205224, 1965. doi: 10.1137/0702016 (cited on page 437).

[GR70]

Rectangular reciprocal matrices, with special reference to geodetic calculations.


doi: 10.1007/BF02526278 (cited on page 436).

Bull. Godsique, 20(1):188220, 1951.


and G.

Young.

trika, 1(3):211218, 1936.


Gelfand.

G. H.

The approximation of one matrix by another of lower rank. Psychome10.1007/BF02288367 (cited on page 453).

doi:

Normierte ringe. Rec. Math. [Mat. Sbornik] N.S., 9(51)(1):324, 1941 (siehe Seite 448).

Golub

and C.

Reinsch.

Math., 14(5):403420, 1970.

doi:

Singular value decomposition and least squares solutions. Numer.


10.1007/BF02163027 (cited on page 437).

[GVL96]

G. H. Golub and C. F. Van Loan. Matrix computations. Johns Hopkins University Press,
third edition, 1996 (cited on page 443).

[HJ85]

R. A. Horn and C. R. Johnson. Matrix analysis. Cambridge University Press, 1985.


10.1017/CBO9780511810817 (cited on page 441).

[Kah66]

W. Kahan. Numerical linear algebra. Canad. Math. Bull., 9(6):757801, 1966.


1966-083-2 (cited on page 453).

[Moo20]

E. H.

Moore.

doi:

doi:

10.4153/CMB-

On the reciprocal of the general algebraic matrix (abstract). Bull. Amer. Math.
doi: 10.1090/S0002-9904-1920-03322-7 (cited on page 436).

Soc., 26(9):385396, 1920.

[Pen55]

R. Penrose. A generalized inverse for matrices. Math. Proc. Cambridge Philos. Soc., 51(3):406
413, 1955. doi: 10.1017/S0305004100030401 (cited on page 436).

[Ste93]

G. W. Stewart. On the early history of the singular value decomposition. SIAM Rev., 35(4):551
566, 1993. doi: 10.1137/1035134 (cited on page 437).

[Tau49]

O.

[Tur48]

A. M. Turing. Rounding-o errors in matrix processes. Quart. J. Mech. Appl. Math., 1(1):287
308, 1948. doi: 10.1093/qjmam/1.1.287 (cited on page 451).

A recurring theorem on determinants. Amer. Math. Monthly, 56(10):672676, 1949.


10.2307/2305561 (cited on page 432).

Taussky.

doi:

454

Annexe B

Rappels et complments d'analyse


Cette annexe est consacre des rappels de quelques notions et rsultats d'analyse, en incluant la
plupart du temps leurs dmontrations, auxquels il est fait appel dans les chapitres 5, 6 et 7.

B.1

Nombres rels

An de ne pas entrer dans les dtails de sa construction (au moyen des coupures de Dedekind 1
par exemple), nous admettons l'existence et l'unicit de l'ensemble des nombres rels R, muni des lois
internes d'addition, note +, et de multiplication, note 2 , et d'une relation binaire 3 note , vriant
les proprits suivantes :
1. (R, +, ) est un corps commutatif,
2. (R, +, , ) est un corps totalement ordonn,
3. Toute partie non vide et majore de R admet une borne suprieure dans R.
Rappelons que la proprit 1. signie que (R, +) (resp. (R , ) avec R = R\{0}) est un groupe
commutatif, c'est--dire que
i) la loi + (resp. ) est commutative : (x, y) R2 , x + y = b + y (resp. (x, y) R2 , xy = yx),
ii) la loi + (resp. ) est associative : (x, y, z) R3 , (x + y) + z = x + (y + z) (resp. (x, y, z) R3 ,
(xy)z = x(yz)),
iii) la loi + (resp. ) admet un lment neutre : x R, x + 0 = 0 + x = x (resp. x R, x1 = 1x = x),
iv) tout lment de R (resp. R ) admet un symtrique pour la loi + (resp. ) : x R, x R,
x + (x) = (x) + x = 0 (resp. x R , x1 R, x x1 = x1 x = 1),
et que la multiplication est distributive par rapport l'addition :

(x, y, z) R3 , x(y + z) = xy + xz.


La proprit 2. signie pour sa part que la relation est une relation d'ordre total dans R, c'est--dire
qu'elle est
i) rexive : x R, x x,
ii) antisymtrique : (x, y) R2 , (x y et y x) x = y ,
iii) transitive : (x, y, z) R3 , (x y et y z) x z ,
iv) totale : (x, y) R2 , (x y ou y x),
1. Julius Wilhelm Richard Dedekind (6 octobre 1831 - 12 fvrier 1916) tait un mathmaticien allemand. Il ralisa des
travaux de premire importance en algbre (en introduisant notamment la thorie des anneaux) et en thorie algbrique
des nombres.
2. Dans la pratique, on omet souvent d'crire le symbole  . C'est ce que nous faisons ici.
3. On rappelle qu'une relation binaire R d'un ensemble non vide E vers un ensemble non vide F est dnie par une
partie G de E F . Si (x, y) G, on dit que x est en relation avec y et on note xRy . Dans le cas particulier o E = F , on
dit que R est une relation binaire dnie sur, ou dans, E .

455

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

et qu'elle est de plus compatible avec l'addition et la multiplication, c'est--dire que


i) (x, y, z) R3 , x y x + z y + z ,
ii) (x, y, z) R3 , (x y et 0 z) xz yz .
Pour (x, y) R2 , x < y signie x y et x 6= y . On peut galement noter y x (resp. y > x) au lieu
de x y (resp. x < y ).
Nous reviendrons dans la suite sur la proprit 3., qui est appele l'axiome de la borne suprieure.
Les lments de R sont appels les nombres rels et l'on note R+ = {x R | x 0}, R = {x
R | x 0}, R+ = R+ \{0} et R = R \{0}.

B.1.1

Majorant et minorant

Les dnitions et propositions suivantes particularisent des notions introduites sur les parties d'un
ensemble ordonn (voir les dnitions A.23) aux cas de parties de R.

Dnitions B.1 Soit A une partie de R et x un nombre rel. On dit que x est
un majorant (resp. minorant) de A dans R si et seulement s'il est suprieur (resp. infrieur)
ou gal tous les lments de A :

a A, a x (resp. x a),
un plus grand lment (resp. plus petit lment) de A dans R si et seulement si c'est un
majorant (resp. minorant) de A dans R appartenant A.
La partie A est dite majore (resp. minore ) dans R si et seulement si elle possde au moins un
majorant (resp. minorant) et borne si et seulement si elle est la fois majore et minore.

Proposition B.2 Soit A une partie de R. Si A admet un plus grand (resp. petit) lment, celui-ci est
unique et on le note max(A) (resp. min(A)).

Soit x et x0 deux plus grands lments de A. Puisque x0 appartient A et x est un plus


grand lment de A, on a x0 x. De la mme manire, x appartient A et x0 est un plus grand lment de A,
d'o x x0 . L'antisymtrie de la relation implique alors que x = x0 .

Dmonstration.

Dnitions B.3 On appelle borne suprieure (resp. borne infrieure) de A dans R le plus petit des

majorants (resp. le plus grand des minorants) de A dans R, s'il existe. Elle est alors unique et note

sup(A) (resp. inf(A)).

Si A possde un plus grand (resp. petit) lment max(A) (resp. min(A)), alors max(A) = sup(A)
(resp. min(A) = inf(A)).
Rappelons enn une proprit que nous admettrons, savoir l'axiome de la borne suprieure.

Proposition B.4 ( axiome de la borne suprieure ) Toute partie non vide et majore de R admet

une borne suprieure dans R.

En considrant l'ensemble des opposs des lments de la partie envisage, on obtient partir de cet
axiome le rsultat suivant.

Proposition B.5 Toute partie non vide et minore de R admet une borne infrieure dans R.

B.1.2

Proprits des nombres rels

Proprit d'Archimde
Une consquence de la proposition B.4 est que l'ensemble des nombres rels satisfait la proprit

d'Archimde 4 .

4. Archimde de Syracuse ( en grec, 287 av. J.-C. - 212 av. J.-C.) tait un physicien, mathmaticien et ingnieur
grec de l'Antiquit. Scientique de grande envergure, il inventa la poulie, la roue dente, la vis sans n ainsi que des machines
de guerre pour repousser les romains durant le sige de Syracuse. En physique, on lui doit en particulier les premires lois
de l'hydrostatique et une tude prcise sur l'quilibre des surfaces planes. En mathmatiques, il tablit notamment de
nombreuses formules relatives aux mesures des surfaces et des volumes qui font de lui un prcurseur du calcul intgral.

456

B.1. NOMBRES RELS

Thorme B.6 L'ensemble R est un corps archimdien, c'est--dire qu'il vrie la proprit suivante :
x R+ , y R+ , n N , ny > x.
Soit x R+ et y R+ . Vrions par l'absurde que x n'est pas un majorant de l'ensemble
E = {ny | n N }. Supposons donc que x est un majorant de E . L'ensemble E tant une partie non vide de R
et de plus majore par x, celui-ci admet, d'aprs la proposition B.4, une borne suprieure relle que l'on note M .
Comme M est le plus petit des majorants de E , le rel M y n'est pas un majorant de E , ce qui signie qu'il
existe un entier relatif n tel que ny > M y , et donc (n + 1)y > M . Or, (n + 1)y E , ce qui contredit le fait que
M = sup E . On en dduit que le rel donn x ne majore pas E et, par suite, qu'on peut trouver un lment n de
E qui vrie ny > x.

Dmonstration.

Partie entire d'un nombre rel


En appliquant le prcdent thorme avec y = 1, on voit que, pour tout nombre rel x, l'ensemble
{n Z | n x} est une partie majore et non vide de Z, qui admet par consquent un plus grand lment.
Nous obtenons ainsi le rsultat suivant.

Proposition et dnition B.7 Pour tout rel x, il existe un unique entier relatif n vriant n x <
n + 1. Cet entier est appel partie entire (par dfaut) de x et not E(x), ou encore 5 bxc.
Exemples.



 
3
3
= 1, E
= 2.
On a E() = 3, E
2
2

Valeur absolue d'un nombre rel


Dnition B.8 On appelle valeur absolue du rel x, et on note |x|, le rel dni par |x| = max{x, x}.
Le soin est laiss 6 au lecteur de dmontrer la proposition ci-dessous.

Proposition B.9 La valeur absolue possde les proprits suivantes.


i) x R, |x| = 0 x = 0.
ii) (x, y) R2 , |x| y y x y .
iii) (x, y) R2 , |x| y (x y ou x y).
iv) (x, y) R2 , |xy| = |x| |y|.


x |x|
v) x R, y R , =
.
y
|y|

vi) (x, y) R2 , |x + y| |x| + |y| (ingalit

triangulaire)

et



n
n
X
X


n N , (x1 , . . . , xn ) Rn ,
xi
|xi |.


i=1

i=1

vii) (x, y) R2 , ||x| |y|| |x y| (deuxime ingalit triangulaire).


5. Cette dernire notation, d'origine anglo-saxonne, possde l'avantage de permettre la direntiation entre la partie
entire par dfaut (oor en anglais) bxc d'un nombre x et la partie entire par excs (ceiling en anglais) dxe = min{n
Z | n x} de ce mme nombre.
6. La valeur absolue tant positive, il sut, pour prouver l'ingalit triangulaire, de remarquer que, tant toutes positives,
de comparer les carrs des membres de l'ingalit. On a ainsi
(|x| + |y|)2 = |x|2 + |y|2 + 2 |x| |y| = x2 + y 2 + 2 |x| |y| , (x, y) R2 ,

d'o |x + y|2 (|x| + |y|)2 puisque xy |x| |y|.

457

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Densit de Q et de R\Q dans R


Nous examinons prsent une proprit topologique de l'ensemble Q vu comme une partie de R, ainsi
que son complmentaire R\Q, l'ensemble de nombres irrationnels.

Dnition B.10 Une partie D de R est dite dense dans R si et seulement si


(x, y) R2 , (x < y (d D, x < d < y)).

Thorme B.11 Les ensembles Q et R\Q sont denses dans R.


Soit (x, y) R2 , tel que x < y , et = y x > 0. Puisque R est archimdien, il existe
n N tel que n > 1, c'est--dire n1 < . En notant m = E(nx) + 1, on obtient m 1 nx < m, d'o
x< m
x + n1 < x + = y , ce qui prouve le premier point. Pour dmontrer le second, on sait, d'aprs la densit
n


de Q dans R, qu'il existe un nombre rationnel q tel que x2 < q < y2 , d'o x < q 2 < y avec q 2 R\Q.
Dmonstration.

B.1.3

Intervalles

Dnition B.12 Une partie I de R est un intervalle si, ds qu'elle contient deux rels, elle contient
tous les rels intermdiaires, c'est--dire

(a, b) I 2 , x R, (a x b x I).
L'ensemble vide et tout singleton {x}, avec x un nombre rel, sont des intervalles, puisque ces deux
types d'ensemble vrient la dnition ci-dessus. La proprit de la borne suprieure permet par ailleurs
de classier tout intervalle I contenant au moins deux lments.
Tout d'abord, si un tel intervalle est la fois major et minor, il possde une borne suprieure, que
l'on dsigne par b = sup(I), et une borne infrieure, a = inf(I). On a alors, x I, a x b et donc
I {x R | a x b}. Rciproquement, soit x un rel tel que a < x < b ; x n'est pas un majorant (resp.
minorant) de I , donc il existe un rel z (resp. y ) tel que z > x (resp. x > y ). Par consquent, les nombres
y et z appartiennent I et on a y < x < z . En utilisant la dnition ci-dessus, il vient que x appartient
I , qui contient donc tous les lments compris entre a et b. Selon que les rels a et b appartiennent
eux-mmes I ou non, on peut avoir
I = {x R | a x b} = [a, b] et l'intervalle est dit ferm born ou encore appel segment,
I = {x R | a < x b} =]a, b] et l'intervalle est dit born semi-ouvert gauche,
I = {x R | a x < b} = [a, b[ et l'intervalle est dit born semi-ouvert droite,
I = {x R | a < x < b} =]a, b[ et l'intervalle est dit born ouvert.
D'autre part, si l'intervalle I est minor et non major, il admet une borne infrieure que l'on note a
et x I , x a. Rciproquement, soit x un rel tel que x > a ; x n'est ni un majorant, ni un minorant
de I , donc il existe y et z appartenant A tels que y < x < z et par consquent x I . Selont que le rel
a appartient ou non I , on peut avoir
I = {x R | x a} = [a, +[ et l'intervalle est dit ferm non major,
I = {x R | x > a} =]a, +[, l'intervalle est dit ouvert non major.
De la mme faon, si l'intervalle I est major et non minor, on peut avoir
I = {x R | x b} =] , b], l'intervalle est dit ferm non minor,
I = {x R | x < b} =] , b[, l'intervalle est dit ouvert non minor.
Enn, dans le cas o I est non major et non minor, un rel x quelconque n'est ni minorant, ni
majorant de I , il existe donc des rels y et z appartenant I tels que y < x < z et x I . On a par
consquent I = R.
En dnitive, tout intervalle de R est de l'un des onze types que nous venons d'noncer.

B.1.4

Droite numrique acheve

Dnition B.13 On appelle droite numrique acheve, et l'on note R, l'ensemble R{, +}, o
et + sont deux lments non rels, sur lequel sont prolonges la structure algbrique et la relation
d'ordre total dnies sur R.
458

B.2. SUITES NUMRIQUES

La relation est tendue R de la manire suivante

x R, < x < + ; , + +.
On remarquera que l'addition et la multiplication ne sont dnies que partiellement sur R ; on a en eet

x R, x + (+) = +, x + () = , (+) + (+) = +, () + () = ,


d'une part et

x > 0, x(+) = (+)x = +, x() = ()x = ,


x < 0, x(+) = (+)x = , x() = ()x = +,
(+)(+) = ()() = +, (+)() = ()(+) = ,
d'autre part, mais les sommes (+) + () et () + (+) et les produits 0(+), (+)0, 0() et
()0 n'ont pas de sens. L'ensemble R n'est donc pas un anneau.
Nous terminons par un rsultat admis, analogue la proposition B.4.

Proposition B.14 Toute partie non vide de R admet une borne suprieure et une borne infrieure
dans R.

B.2

Suites numriques

Une suite numrique est une application de N dans un corps K, avec K = R ou C. Plutt que de noter

u : N
n

K
7

u(n)

on emploie les notations (un )nN , (un )n0 ou encore (un )n . Pour chaque entier n, le nombre un est appel
le nime terme de la suite 7 . L'ensemble des suites numriques est not F (N, K) ou KN . Une suite relle
(resp. complexe ) est une suite numrique telle que

n N, un R (resp. C).
On rappelle dans cette section plusieurs dnitions et rsultats importants sur les suites numriques,
en mettant particulirement l'accent sur le cas des suites relles, car celles-ci sont au cur des direntes
mthodes itratives prsentes dans le cours. Dans toute la suite, le symbole || dsignera soit la valeur
absolue soit le module d'un nombre selon que K = R ou C.

B.2.1

Premires dnitions et proprits

Dnitions B.15 Une suite numrique (un )nN est dite constante si et seulement si
n N, un+1 = un .
Elle est dite

stationnaire

si et seulement si elle est constante partir d'un certain rang, c'est--dire si

N N, n N, (n N un+1 = un ).
Enn, la suite est dite

priodique

si et seulement s'il existe un entier p strictement positif tel que

n N, un+p = un .

Dnition B.16 Une suite numrique (un )nN est dite borne si et seulement s'il existe un rel positif

M tel que

n N, |un | M.

Dnitions B.17 Une suite relle (un )nN est dite majore (resp. minore) si et seulement s'il existe
un rel M (resp. m), appel majorant (resp. minorant) de la suite (un )nN , tel que
n N, un M (resp. un m).
On voit qu'une suite relle est borne si et seulement si elle est majore et minore.
7. On veillera ne pas confondre la suite (un )nN et son terme gnral un .

459

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Oprations sur les suites


On peut dnir sur l'ensemble des suites numriques KN une addition,

(wn )nN = (un )nN + (vn )nN n N, wn = un + vn ,


une multiplication interne,

(wn )nN = (un )nN (vn )nN n N, wn = un vn ,


et tune multiplication externe par les scalaires,

K, (wn )nN = (un )nN n N, wn = un .


L'addition est commutative, associative et admet pour lment neutre la suite constante nulle. Tout
suite (un )nN a une suite oppose (un )nN et (KN , +) est donc un groupe commutatif. La multiplication
interne commutative, associative et admet pour lment neutre la suite constante gale 1. Elle est
distributive par rapport l'addition. Il existe cependant des suites non nulles n'ayant pas d'inverse et
(KN , ) n'est par consquent pas un groupe.

Suites relles monotones


Dnitions B.18 Soit (un )nN une suite relle. On dit que (un )nN est
croissante (resp. dcroissante) si et seulement si
n N, un un+1 (resp. un+1 un ),
strictement croissante (resp. strictement dcroissante) si et seulement si
n N, un < un+1 (resp. un+1 < un ),
monotone si et seulement si elle est croissante ou dcroissante,
strictement monotone si et seulement si elle est strictement croissante ou strictement dcroissante.

Dnition B.19 (suite extraite) Soit une suite (un )nN . On appelle suite extraite de (un )nN toute
suite (u(n) )nN , o : N N est une application strictement croissante, appele extractrice.
On donne aussi le nom de sous-suite de (un )nN toute suite extraite de (un )nN . On montre aisment,
par rcurrence, que pour toute extractrice , on a

(n) n, n N.

Exemples. Les suites (u2n )nN , (u2n+1 )nN et (un2 )nN sont toutes trois des suites extraites de (un )nN .
Dnition B.20 (suite de Cauchy) Une suite (un )nN est dite de Cauchy si et seulement si
> 0, N N , p, q N, (p, q N |up uq | ).

Proposition B.21 Toute suite de Cauchy est borne.


Dmonstration.

Soit (un )nN une suite de Cauchy. On a


> 0, N N , p, q N, (p, q N |up uq | ).

Fixons une valeur particulire pour , par exemple 1. Il existe alors un entier N 0 tel que (p, q N 0 |up uq | 1),
ou encore, pour q = N 0 + 1, (p N 0 |up uN 0 +1 | 1), c'est--dire
n N, (n N 0 uN 0 +1 1 |un | uN 0 +1 + 1).

Notons a = min{u0 , . . . , uN 0 +1 , uN 0 +1 1} et b = max{u0 , . . . , uN 0 +1 , uN 0 +1 + 1}. Nous avons alors


n N, a un b,

et, par suite, (un )nN est borne.

460

B.2. SUITES NUMRIQUES

B.2.2

Convergence d'une suite

Dnitions B.22 On dit qu'une suite numrique (un )nN est convergente si et seulement si
l K, > 0, N N, n N, (n N |un l| ).
On dit encore que la suite (un )nN
la suite et l'on note lim un = l.

converge vers l

ou

n+

En revanche, on dit qu'une suite numrique (un )nN


elle ne converge pas, c'est--dire

tend vers l.
diverge

ou

Le scalaire l est appel

est divergente

limite

de

si et seulement si

l K, > 0, N N, n N, (n N et |un l| ).

Proposition B.23 La limite d'une suite, si elle existe, est unique.


Dmonstration.

Supposons que (un )nN converge la fois vers l et vers l0 , avec l 6= l0 . Posons =

Par dnition de la convergence, il existe des entiers N et N 0 tels que


1
l l 0 .
3



n N, (n N |un l| ) et (n N 0 un l0 ).

Soit n max(N, N 0 ), nous avons alors |un l| et |un l0 | , d'o








l l0 |l un | + un l0 2 = 2 l l0 ,
3
ce qui est absurde.

La notion de limite d'une suite que l'on vient d'introduire peut tre tendue de la manire suivante
dans le cas d'une suite relle.

Dnition B.24 Soit (un )nN une suite relle. On dit que (un )nN tend vers + (resp. tend vers
) si et seulement si

A R, N N, n N, (n N un A) (resp. (n N un A)).
On note alors

lim un = + (resp.

n+

lim un = ).

n+

La limite d'une suite tant dnie, nous pouvons introduire la notion de suites adjacentes.

Dnition B.25 (suites adjacentes) Deux suites relles (un )nN et (vn )nN sont dites adjacentes si
et seulement si

i) l'une est croissante et l'autre est dcroissante,


ii)

lim (un vn ) = 0.

n+

L'intrt des suites adjacentes provient de la proprit suivante 8 .

Proposition B.26 Deux suites adjacentes convergent et ont mme limite.


Dmonstration. Soit (un )nN et (vn )nN deux suites adjacentes. Supposons (un )nN croissante et (vn )nN
dcroissante. La suite (un vn )nN est donc croissante et tend par hypothse vers 0, on en dduit que c'est une
suite ngative et, n N, un vn . De plus, n N, u0 un et vn v0 . En combinant ces ingalits, nous
obtenons
n N, u0 un vn v0 .

La suite (un )nN est alors croissante et majore par v0 , c'est donc une suite convergente. De mme, la suite
(vn )nN est dcroissante et minore par u0 , donc (vn )nN est convergente.
D'autre part, on a lim (un vn ) = 0 et, comme les deux suites sont convergentes, on en dduit lim un =
lim vn .

n+

n+

n+

Ce dernier rsultat permet d'tablir le thorme suivant.


8. On observera dans la preuve que des suites adjacentes fournissent galement un encadrement aussi prcis que souhait
de leur limite puisqu'on a
un un+1 l vn+1 vn , n N.

461

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Thorme B.27 ( thorme des segments embots ) Soit ([an , bn ])nN une suite de segments
embots (c'est--dire, n N, [an+1 , bn+1 ] [an , bn ]) telle que

nN [an , bn ]

lim (bn an ) = 0. Alors l'intersection

n+

est un singleton.

Dmonstration.
Notons que les suites (an )nN et (bn )nN sont adjacentes. On en dduit que qu'elles
convergent vers une mme limite l et l'on a n N, an l bn donc l [an , bn ] pour tout entier n, et, par suite,
T
T
l nN [an , bn ]. D'autre part si l0 nN [an , bn ], alors l0 [an , bn ] pour tout entier n. Comme on a galement
l [an , bn ] pour tout entier n, nous obtenons n N, bn an |l l0 |. En faisant tendre n vers l'inni, nous
T
trouvons l = l0 . En conclusion, on a nN [an , bn ] = {l}.


Proprits des suites convergentes


Proposition B.28 Toute suite numrique convergente est borne.
Dmonstration. Soit (un )nN une suite convergente de limite l et un rel strictement positif. Il existe
alors un entier N tel que, pour tout n N, si n N alors |un l| . L'ensemble {|un | | n N } est donc
major par |l| + . Il vient par consquent

n N, |un | max{|u0 | , . . . , |uN 1 | , |l| + },

et la suite (un )nN est donc borne.

La rciproque de cette proposition est fausse, comme le montre l'exemple de la suite dnie par
un = (1)n pour tout entier n 0.

Proposition B.29 Si une suite numrique (un )nN est convergente, toute suite extraite de (un )nN est
convergente et tend vers la mme limite.
Dmonstration.

Soit (un )nN une suite convergente de limite l. Nous avons alors
> 0, N N, n N, (n N |un l| ).

Soit une extractrice. Nous savons que, pour tout entier naturel n, (n) n, donc si n N alors (n) (N )
N et, par suite, |u(n) l| . On en conclut que


> 0, N N, n N, (n N u(n) l ),
et donc que la suite extraite (u(n) )nN converge vers l.

La contrapose de cette dernire proposition permet de montrer qu'une suite diverge : il sut pour
cela d'en extraire deux suites qui convergent vers deux limites direntes.

Exemple. Soit (un )nN la suite dnie par un = (1)n pour tout entier n 0. La suite extraite

(u2n )nN a pour limite 1 et la suite (u2n+1 )nN a pour limite 1. Cette suite diverge donc.

En revanche, sa rciproque est en gnral fausse ; en eet, on peut trouver des suites divergentes qui
admettent pourtant deux suites extraites convergeant vers une mme limite.
n
Exemple. Soit la suite
 relle dnie par
 un = cos (n + (1) ) 3 pourtout entier positifn. Nous avons

u6n = cos (6n + 1) 3 = cos 2n + 3 = 12 et u6n+4 = cos (6n + 5) 3 =


 cos 12n +
suite (un )nN est divergente car u3n+6 = cos (6n + 2) 3 = cos 2n + 2
= 2.
3

5
3

= 12 , mais la

Cependant, on a le rsultat suivant.

Proposition B.30 Soit (un )nN une suite numrique et l un scalaire. Pour que (un )nN converge vers
l, il faut et il sut que les suites (u2n )nN et (u2n+1 )nN convergent toutes deux vers l.

Dmonstration. Supposons que les suites extraites (u2n )nN et (u2n+1 )nN convergent vers une limite l.
Soit un rel strictement positif. Il existe des entier N et N 0 tels que, pour tout entier n,

(n N |u2n l| ) et (n N 0 |u2n+1 l| ).

462

B.2. SUITES NUMRIQUES

Notons N 00 = max(2N, 2N 0 + 1) et soit p N tel que p N 00 . Si p est pair, il existe n tel que p = 2n. Dans ce
cas, nous avons 2n 2N donc n N , d'o
|up l| = |u2n l| .

Si p est impair, il existe n tel que p = 2n + 1. Nous avons alors 2n + 1 2N 0 + 1 donc n N 0 , d'o
|up l| = |u2n+1 l| .

Ceci montre que la suite (up )pN converge vers l.

Lorsqu'une suite numrique diverge, il peut exister des points auprs desquels s'accumulent une innit
de termes de la suite. On introduit alors la notion suivante.

Dnition B.31 (valeur d'adhrence d'une suite) Soit (un )nN une suite numrique et a un scalaire.
On dit que a est une valeur d'adhrence de la suite (un )nN s'il existe une sous-suite de (un )nN qui
converge vers a.

Proposition B.32 Toute suite numrique convergente est de Cauchy.


Dmonstration. Soit (un )nN une suite convergente de limite l et un rel strictement positif. Il existe
alors un entier N tel que


.
n N, n N |un l|
2
Soit p et q deux entiers suprieurs N ; nous avons alors

|up uq | |up l| + |uq l| + = ,


2
2
d'o
> 0, N N, p, q N, (p, q N |up uq | ),

et la suite (un )nN est une suite de Cauchy.

Nous montrerons plus loin que la rciproque de cette proposition est vraie. Concluons maintenant
cette section par quelques proprits d'ordre des suites relles convergentes.

Proposition B.33 Soit (un )nN et (vn )nN deux suites relles convergentes. Si un vn pour tout entier
n, alors

lim un lim vn .

n+
Dmonstration.

n+

Supposons que lim un > lim vn . Nous avons alors lim (un vn ) > 0, ce qui entrane
n+

n+

n+

N N, n N, (n N (un vn ) > 0),

ce qui contredit l'hypothse.

Mme si l'on a un < vn pour tout n N, on peut avoir lim un lim vn car le passage la limite
largit les ingalits, comme l'illustre l'exemple suivant.

Exemple. Soit les suites dnies par un = 1

1
n+1 ,

un < vn pour tout entier n et lim un = lim vn = 1.


n+

n+

n+

n N, et vn = 1 +

1
n+1 ,

n N. Nous avons

n+

Proposition B.34 ( thorme des gendarmes ) Soit (un )nN , (vn )nN et (wn )nN trois suites
relles telles que

N N, n N, (n N un vn wn ).
Si (un )nN et (wn )nN convergent vers la mme limite l, alors la suite (vn )nN converge aussi vers l.
Dmonstration. Soit un rel strictement positif. Puisque (un )nN et (wn )nN convergent toutes deux vers
l, il existe des entiers N et N 0 tels que

n N, (n N |un l| ) et (n N 0 |wn l| ).

En notant N 00 = max(N, N 0 ), nous avons

un vn wn
|un l|
n N, n N 00

|wn l|

un l vn l wn l |vn l| ,

ce qui montre la convergence de (vn )nN vers l.

463

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Exemple. Soit (un )nN la suite dnie par un =


un

cos x
1
, n N . On a 1 cos x 1, d'o
n
n



1
1
1
, n N . Comme lim

= lim
= 0, on a nalement lim un = 0.
n+ n
n+
n+
n
n

Proposition B.35 Soit (un )nN et (vn )nN deux suites relles telles que un vn pour tout entier n. On
a les assertions suivantes.
i) Si
ii) Si

lim un = + alors

n+

lim vn = alors

n+

Dmonstration.

lim vn = +.

n+

lim un = .

n+

Prouvons i. Soit A R. Comme lim un = +, il existe un entier N tel que


n+

n N, (n N un A),

et, a fortiori, vn A d'aprs l'hypothse, ce qui implique que lim vn = +.


La preuve de ii s'obtient de manire analogue celle de i.

n+

Proprits algbriques des suites convergentes


Proposition B.36 Soit (un )nN et (vn )nN deux suites numriques, K et (l, l0 ) K2 . On a les
assertions suivantes.
i)
ii)
iii)
iv)
v)

lim un = l lim |un | = |l|.

n+

n+

lim un = l et

n+

lim vn = l0 lim (un + vn ) = l + l0 .

n+

n+

lim un = l lim un = l,

n+

n+

lim un = 0 et (vn )nN borne lim un vn = 0.

n+

n+

lim un = l et

n+

lim vn = l0 lim un vn = ll0 .

n+

n+

1
1
1
est dni partir d'un certain rang et lim
= 0.
vi) lim vn = l et l =
6 0
n+ vn
n+
vn
l
un
vii) lim un = l et lim vn = l0 et l0 6= 0
est dni partir d'un certain rang et
n+
n+
vn
l
.
l0
0

lim

un

n+ vn

Dmonstration.

i) Soit > 0. Puisque la suite (un )nN tend vers l, il existe N N tel que
n N, (n N |un l| ).

Or, on a l'ingalit ||un | |l|| |un l|, n N, on en dduit


n N, (n N ||un | |l|| ),

et donc lim |un | = |l|.


n+

ii) Soit > 0. Puisque les suites (un )nN et (vn )nN convergent respectivement vers l et l0 , il existe des entiers
N et N 0 tels que






et n N 0 vn l0
.
n N, n N |un l|
2
2
En notant N 00 = max(N, N 0 ), nous avons






n N, n N 00 (un + vn ) (l + l0 ) = (un l) + (vn l0 ) |un l| + vn l0 + = ,


2
2
d'o lim (un + vn ) = l + l0 .
n+

464

B.2. SUITES NUMRIQUES

iii) Soit > 0. Puisque la suite (un )nN tend vers l, il existe N N tel que



n N, n N |un l|
,
|| + 1


||
, et donc lim un = l.
d'o n N, n N |un l| = || |un l|
n+
|| + 1
iv) Par hypothse, il existe M R+ tel que n N, |vn | M . Soit > 0. Puisque la suite (un )nN tend vers
0, il existe N N tel que



n N, n N |un |
.
M +1


M
et donc lim un vn = 0.
Nous avons alors n N, n N |un vn | = |un | |vn |
n+
M +1
v) Notons, pour tout n N, wn = un l. Nous avons
n N, un vn = (wn + l)vn = wn vn + lvn .

D'aprs iii, lim lvn = ll . D'autre part, lim wn = 0 et (vn )nN est borne puisque (vn )nN est convergente,
0

n+

n+

donc lim wn vn = 0 d'aprs iv. Finalement, on a lim un vn = ll0 d'aprs ii.


n+

n+

0
vi) Puisque (vn )nN
|l0 |. Il existe donc un entier N tel que, pour
 converge vers l , la
suite (|vn |)nN converge vers
0
0
|l |
|l |
tout entier n, n N |vn |
). En particulier, n N, (n N vn 6= 0),
(il sut de choisir =
2
2
 
1
est donc dnie. Nous avons alors, pour tout entier n tel que n N
et la suite
vn nN


1

|vn l0 |
1
2
0
0
0 =

2 vn l .
0
0
vn
l
|vn | |l |
|l |




1

2
1
0
0

= 0, puis que lim
vn l
Comme lim vn = l , on en dduit que lim
0 = 0, soit
n+ vn
n+
n+
l
|l0 |2
1
1
encore lim
= 0.
n+ vn
l
1
un
= un .
vii) Il sut d'appliquer v et vi en remarquant que
vn
vn


Proposition B.37 Soit (un )nN et (vn )nN deux suites relles. On a les assertions suivantes.
i) Si

lim un = + et (vn )nN est minore, alors

n+

En particulier, on a
 lim un = + et
n+


ii) Si

lim un = + et

n+

lim un = + et

n+

n+

lim vn = l0 lim (un + vn ) = +.

n+

lim un = + et C

n+

lim vn = + lim (un + vn ) = +,

n+

n+

En particulier, on a
 lim un = + et

lim (un + vn ) = +.

n+

n+

R+ ,


N N, n N, (n N vn C) , alors

lim un vn = +.

n+

lim vn = + lim un vn = +,

n+

n+

lim vn = l0 R+ lim un vn = +.

n+

n+

1
iii) lim un = + lim
= 0.
n+
n+ un
iv) Si

lim un = 0 et si (N N, n N, (n N un > 0)), alors

n+

lim

n+ un

= +.

Dmonstration.

i) Par hypothse, il existe m R tel que


n N, vn m.
Soit A > 0. Puisque lim un = +, il existe N N tel que n N, (n N un A m). Nous avons
n+

alors
et donc

n N, (n N un + vn (A m) + m) ,
lim (un + vn ) = +.

n+

465

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE



A
0
ii) Soit A > 0. Puisque lim un = +, il existe N N tel que n N, n N un
.
n+
C
00
0
En notant N = max(N, N ), nous avons alors




A
et vn C un vn A ,
n N, n N 00 un
C
0

et donc lim un vn = +.
n+

iii) Soit > 0. Puisque lim un = +, il existe N N tel que


n+


n N,

d'o lim

n+

n N un


,

1
= 0.
un

iv) Soit A > 0. Puisque lim un = 0, il existe N 0 N tel que n N,


n+



1
n N 0 |un |
.
A

En notant N 00 = max(N, N 0 ), nous avons alors






1
1
et un 0
A ,
n N, n N 00 |un |
A
un
et donc lim

n+

1
= +.
un


Certains des rsultats des deux dernires propositions sont rsums dans les tableaux B.1 et B.2.

(un )nN

l + l0
+

+
+

fi

(vn )nN
l0
+

fi

limites possibles pour la suite (un + vn )nN en fonction des limites respectives des suites relles
(un )nN et (vn )nN .

Table B.1:

Dans ceux-ci, les lettres  fi  correspondent une forme indtermine qu'il faudra chercher lever.
Dirents cas sont possibles ; pour un produit de suites, la limite peut
1
 tre nie, par exemple, pour tout n N , un = n et vn = , lim un vn = 1,
n n+
1
2
 tre innie, par exemple, pour tout n N, un = n et vn = , lim un vn = +,
n n+
(sin n)2
 ne pas exister, par exemple, pour tout n N , un = n et vn =
, alors un vn = (sin n)2 qui
n
ne possde pas de limite.

(un )nN
(vn )nN
l0 > 0
l0 < 0
l0 = 0
+

Table B.2:

et (vn )nN .

l>0

l<0

l=0

ll0
ll0
0
+

ll0
ll0
0

0
0
0

fi

fi

fi

fi

limites possibles pour la suite (un vn )nN en fonction des limites respectives des suites relles (un )nN

466

B.2. SUITES NUMRIQUES

B.2.3

Existence de limite

Nous rassemblons dans cette section plusieurs rsultats relatifs l'existence de la limite d'une suite
numrique.

Proposition B.38

i) Toute suite relle croissante et majore est convergente.

ii) Toute suite relle dcroissante et minore est convergente.


Dmonstration.

i) Soit (un )nN une suite relle croissante et majore. L'ensemble {uk | k N} des termes de la suite est une
partie de R non vide et majore, qui admet donc une borne suprieure, note l. On a alors un l, pour tout
entier n, et pour tout rel strictement positif, l n'est pas un majorant de l'ensemble {uk | k N}. Il
existe alors N N tel que
l uN l.
La suite (un )nN tant croissante, on en dduit
n N, (n N l uN un l),

et donc |xn l| . On en conclut que (un )nN converge vers l.


ii) Il sut d'appliquer le rsultat prcdent la suite (un )nN .


Proposition B.39

i) Toute suite relle croissante et non majore tend vers +.

ii) Toute suite relle dcroissante et non minore tend vers .


Dmonstration.

i) Soit (un )nN une suite relle croissante non majore. L'ensemble {uk | k N} des termes de la suite est
une partie de R non majore, et donc, quel que soit A > 0, il existe un entier N tel que uN > A. La suite
(un )nN tant croissante, on en dduit
n N, (n N un uN > A),

d'o lim un = +.
n+

ii) Il sut d'appliquer le rsultat prcdent la suite (un )nN .




Thorme B.40 ( thorme de Bolzano 9 Weierstrass ) De toute suite relle borne, on peut

extraire une suite convergente (on dit encore que toute suite relle borne admet au moins une valeur
d'adhrence).
Dmonstration. Soit (un )nN une suite relle borne. Il existe alors deux rels a0 et b0 tels que, pour tout
entier n, a0 un b0 . Il est clair que {k N | uk [a0 , b0 ]} = N est inni.
Soit prsent n N ; nous supposons dni le couple (an , bn ) R2 tel que an bn , {k N | uk [an , bn ]} est
n
inni et bn an = 21n (b0 a0 ). En considrant alors le milieu an +b
de l'intervalle ferm [an , bn ], il est clair que
2

  an +bn

an +bn
l'un des deux intervalles an , 2
,
,
b
est
tel
que
l'ensemble
des entiers k tels que uk soit dans cet
n
2
intervalle est inni. Il existe donc (an+1 , bn+1 ) R2 tel que an+1 bn+1 , {k N | uk [an+1 , bn+1 ]} est inni,
1
bn+1 an+1 = 12 (bn an ) = 2n+1
(b0 a0 ). Il est alors vident que les intervalles [an , bn ], n N, forment une
suite de segments embots dont la longueur tend vers 0. On en dduit du thorme B.27 qu'ils ont un seul point
commun l R, qui est la limite commune de (an )nN et (bn )nN .
D'autre part, il est ais de construire une extractrice telle que (0) = 0 et telle qu'il existe, pour tout entier n,
un entier k tel que si k > (n) alors uk [an , bn ] et (n + 1) = k. Les ingalits an u(n) bn , valables pour
tout entier n, montrent alors que la suite (u(n) )nN tend vers l.


Thorme B.41 Toute suite de Cauchy valeurs relles est convergente (on dit que R est complet).
9. Bernardus Placidus Johann Nepomuk Bolzano (5 octobre 1781 - 18 dcembre 1848) tait un mathmaticien, thologien
et philosophe bohmien de langue allemande. Ses travaux portrent essentiellement sur les fonctions et la thorie des nombres
et il est considr comme un des fondateurs de la logique moderne.

467

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE


Dmonstration. Soit (un )nN une suite relle de Cauchy. D'aprs la proposition B.21, nous savons que
(un )nN est borne. Il existe alors, en vertu du thorme de BolzanoWeierstrass (voir le thorme B.40), une
suite extraite (u(n) )nN qui converge vers une limite l. Montrons que la suite (un )nN converge vers cette limite.
Soit > 0. Il existe des entiers N et N 0 tels que


n N, n N |u(n) l|
(car (u(n) )nN converge vers l)
2


(car (un )nN est une suite de Cauchy).
et, p, q N, p, q N 0 |up uq |
2

Notons N 00 = max(N, N 0 ). Si n N 00 , nous avons d'une part (n) n N 0 , d'o un u(n) , et d'autre
2

part n N , d'o u(n) l . En combinant ces deux ingalits, nous obtenons


2




n N, n N 00 |un l| un u(n) + u(n) l + = ,


2
2

ce qui permet de conclure que la suite (un )nN est convergente.

En alliant ce thorme la proposition B.32, nous en dduisons qu'une suite relle converge si et
seulement si elle est une suite de Cauchy. Ce rsultat reste vrai si la suite est complexe.

B.2.4

Quelques suites particulires

Nous concluons ces rappels sur les suites numriques par l'tude de suites remarquables.

Suites arithmtiques
Dnition B.42 Une suite numrique (un )nN est dite arithmtique de raison r si et seulement s'il
existe un scalaire r tel que, pour tout entier naturel n, un+1 = un + r .

Si (un )nN est une suite arithmtique de raison r, on a

un = u0 + nr, n N.
Si r = 0, la suite est constante. Lorsque K = R, la suite est strictement croissante si r > 0 et strictement
dcroissante si r < 0.

Proposition B.43 La somme des m premiers termes d'une suite arithmtique (un )nN de raison r est
Sm =

m1
X

uk = m u0 +

k=0

m(m 1)
m
r = (u0 + um1 ), m N .
2
2

La preuve de cette proposition est laisse en exercice.

Suites gomtriques
Dnition B.44 Une suite numrique (un )nN est dite gomtrique
existe un scalaire r tel que, pour tout entier naturel n, un+1 = run .

de raison r

si et seulement s'il

Si (un )nN est une suite gomtrique de raison r, on a

un = rn u0 , n N.
La suite (un )nN est constante si r = 1 et stationnaire en 0 ( partir de n = 1) si r = 0. Lorsque K = R
et r > 0, la suite (un )nN est monotone et garde un signe constant, alors que si r < 0, pour tout entier
n, les termes un et un+1 sont de signes contraires et la suite n'est donc pas monotone.

Proposition B.45 Soit (un )nN une suite gomtrique relle de premier terme u0 R et de raison

r R. On a les assertions suivantes.


i) Si |r| < 1,

lim un = 0.

n+

468

B.2. SUITES NUMRIQUES

ii) Si |r| > 1,


iii) Si r = 1,

lim un = +.

n+

lim un = u0 .

n+

iv) Si r = 1, (un )nN n'a pas de limite.


Dmonstration.

i) Si |r| < 1, alors


donc

1
1
> 1, ce qui implique qu'il existe un rel h strictement positif tel que
= 1 + h. On a
|r|
|r|
 n
n
X
1
n N ,
= (1 + h)n =
Cnk hk 1 + nh,
|r|
k=0

en utilisant la formule du binme de Newton. Par ailleurs, on a |un | = |u0 |rn

|u0 |
, d'o
1 + nh

lim un = 0.

n+

ii) La dmonstration est identique celle de i.


Les preuves de iii et iv sont videntes.

Proposition B.46 La somme des m premiers termes d'une suite gomtrique (un )nN de raison r est
Sm =

m1
X

uk = u0

k=0

m1
X

rk = u0

k=0

1 rm
si r 6= 1, Sm = mu0 si r = 1, m N .
1r

Suites arithmtico-gomtriques
Dnition B.47 Une suite (un )nN est dite arithmtico-gomtrique si et seulement s'il existe des
scalaires a et b tels que, pour tout entier naturel n, un+1 = aun + b.
Remarquons que la suite arithmtique si a = 1 et gomtrique si b = 0.

Mthode d'tude d'une suite arithmtico-gomtrique par utilisation de point xe. Supposons a 6= 1. Soit l'unique scalaire vriant = a + b, c'est--dire =
xe de la fonction f (x) = ax + b). Nous avons

b
(on dit que est un point
1a

n N , un = aun1 + b (a + b) = a(un1 ).
La suite (un )nN est donc une suite gomtrique de raison a. Ceci implique que un = an (u0 ),
soit encore
n N, un = an (u0 ) + .
On en dduit que, si u0 = , la suite (un )nN est constante et vaut . Si u0 6= , on a alors

lim un = si |a| < 1 et lim |un | = + si |a| > 1.

n+

n+

Suites dnies par rcurrence


Dnition B.48 Soit I un intervalle ferm de R et f : I R une application. On suppose que f (I) I .
La suite relle (un )nN dnie par u0 I et la relation de rcurrence

n N, un+1 = f (un ),
est appele

suite rcurrente

(B.1)

(d'ordre un).

Cette suite est bien dnie car, pour tout entier naturel n, on a un I et f (I) I . Si f est une
application ane coecients constants, la suite rcurrente est une suite arithmtico-gomtrique.
Pour tudier une suite rcurrente du type un+1 = f (un ), on a recours aux proprits lmentaires des
applications continues (voir la section B.3) et des applications drivables (voir la section B.3.5).
469

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Dtermination du sens de variation d'une suite rcurrente. Soit f une application monotone
sur l'intervalle ferm I et (un )nN une suite dnie par (B.1). Si f est croissante, on a

n N , un+1 un = f (un ) f (un1 ),


et la dirence un+1 un a le mme signe que u1 u0 = f (u0 ) u0 . Ainsi, la suite (un )nN est monotone
et son sens de variation dpend de la position relative de u0 et u1 . Il reste voir si la suite est minore,
majore.
Si l'application f est dcroissante, on remarque que, pour tout entier naturel n, un+1 un a le signe
oppos de un un1 . Il faut alors tudier les suites extraites (u2p )pN et (u2p+1 )pN . Pour tout entier
naturel p, on a

u2p+2 = f (u2p+1 ) = (f f )(u2p ) et u2p+3 = f (u2p+2 ) = (f f )(u2p+1 ).


Par dcroissance de f , l'application compose f f est croissante et les suites extraites (u2p )pN et
(u2p+1 )pN sont donc toutes deux monotones et de sens de variation contraires.

Dtermination de la limite d'une suite rcurrente. Soit f une application continue sur l'intervalle

I et (un )nN une suite dnie par (B.1). Si la suite (un )nN converge vers le rel l appartenant I , alors,
en faisant tendre n vers l'inni dans la relation de rcurrence, on obtient que le rel l est un point xe
de l'application f . Pour dterminer les seules limites possibles d'une suite rcurrente (un )nN de type
un+1 = f (un ), on doit donc chercher rsoudre 10 l'quation f (l) = l sur l'intervalle I .

B.3

Fonctions d'une variable relle *

Cette section est consacre aux fonctions numriques d'une variable relle, c'est--dire aux applications
dnies sur une partie D de R et valeurs dans le corps K, avec K = R ou C. L'ensemble D, appel le
domaine de dnition de la fonction, est gnralement une runion d'intervalles non vides de R. L'tude
d'une fonction s'eectuant cependant intervalle par intervalle, nous nous restreindrons parfois des
applications dont les ensembles de dnition sont contenus dans un intervalle I non vide de R.

B.3.1

Gnralits sur les fonctions

Soit D une partie non vide de R. On dsigne par F (D, K) l'ensemble des applications dnies sur I
valeurs dans K. Pour toute fonction f de F (D, K), on note A FAIRE
Si f et g sont deux lments de F (D, K), alors on a

f = g x D, f (x) = g(x).

Oprations sur les fonctions


L'ensemble F (D, K) est muni de deux lois internes, une addition

f, g F (D, K), x D, (f + g)(x) = f (x) + g(x),


et une multiplication

f, g F (D, K), x D, (f g)(x) = f (x)g(x),


et d'une loi externe qui est une multiplication par les scalaires,

K, f F (D, K), x D, (f )(x) = f (x).


AJOUTER composition
10. Ce problme possde au moins une solution en vertu du thorme 5.7.

470

B.3. FONCTIONS D'UNE VARIABLE RELLE *

Relation d'ordre pour les fonctions relles


Lorsque les fonctions considres sont valeur relles, il est possible d'utiliser la relation d'ordre total
usuelle sur R pour comparer certaines fonctions entre elles.

Dnition B.49 On dnit dans l'ensemble F (D, R) une relation, note , par
f, g F (D, R), (f g (x D, f (x) g(x))).
Les rsultats suivants sont immdiats.

Proposition B.50 La relation est une relation d'ordre sur F (D, R), compatible avec l'addition,
f, g, h F (D, R), (f g f + h g + h).
On a de plus

f, g, h F (D, R), (f g et 0 h f h gh).

On notera que l'ordre introduit sur F (D, R) par la relation dnie ci-dessus n'est plus total ds
que la partie D n'est pas rduite un point. Supposons en eet que D contienne deux lments distincts
a et b et considrons deux applications f et g de I dans R dnies par
(
(
1 si x = a
1 si x = b
x D, f (x) =
, g(x) =
.
0 si x 6= a
0 si x 6= b
On n'a alors ni f g (car g(a) < f (a)), ni g f (car f (b) < g(b)). On dit dans ce cas que f et g ne sont
pas comparables pour .

B.3.2

Proprits globales des fonctions

COMPLETER

Parit
On dit qu'une partie D de R est symtrique par rapport 0 si elle vrie

x D, x D.

Dnitions B.51 Soit D une partie de R symtrique par rapport 0 et f une fonction de F (D, K). On
dit que f est paire (resp. impaire) si et seulement si
x D, f (x) = f (x) (resp. f (x) = f (x)).

Priodicit
Dnition B.52 Soit D une partie de R, f une fonction de F (D, K) et T un rel strictement positif.
L'application f est dite priodique de priode T si et seulement si
x D, x + T D et f (x + T ) = f (x).

Monotonie
Dnition B.53 Soit D une partie de R et f une fonction de F (D, R). On dit que f est
croissante (resp. dcroissante) si et seulement si
(x, y) D2 , (x y f (x) f (y)) (resp. (x y f (x) f (y))),
strictement croissante (resp. strictement dcroissante) si et seulement si
(x, y) D2 , (x < y f (x) < f (y)) (resp. (x y f (x) > f (y))),
471

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

monotone si et seulement si elle est croisssante ou dcroissante,


strictement monotone si et seulement si elle est strictement croissante ou strictement dcroissante.

Les rsultats de la proposition suivante s'obtiennent de manire immdiate.

Proposition B.54 Soit D une partie de R et f et g deux fonctions de F (D, R).


i) Si f et g sont croissantes, alors f + g est croissante.
ii) Si f est croissante et R+ , alors f est croissante.
iii) Si f et g sont croissantes et positives, alors f g est croissante.
iv) Si f et g sont croissantes et si f (D) J , alors l'application compose gf F (D, R) est croissante.

Majoration, minoration
Dnition B.55 Soit D une partie de R. Une fonction numrique f de F (D, K) est dite borne si et
seulement s'il existe un rel positif M tel que

x D, |f (x)| M.

Dnitions B.56 Soit D une partie de R. Une fonction f de F (D, R) est dite majore si et seulement
s'il existe un rel M tel que

x D, f (x) M,

minore

si et seulement s'il existe un rel m tel que

x D, m f (x).

Proposition et dnition B.57 Si l'application f : D R est majore (resp. minore), alors f (D)
admet une borne suprieure (resp. infrieure) dans R, appele borne suprieure (resp. infrieure) de

f et note supf (x) (resp. inf f (x)).


xI

xI

Cette proposition rsulte directement de l'axiome de la borne suprieure (voir la proposition B.4).
Ainsi, par dnition, supf (x) = sup ({f (x) | x I}) = sup(f (I)).
xI

Convexit et concavit

B.3.3

Limites

Dans cette section, la lettre I dsigne un intervalle de R, non vide et non rduit un point. Nous
commenons par rappeler la notion de voisinage d'un point, qui sera employe plusieurs reprises.

Dnitions B.58 Soit une proprit dpendant du point x de I . On dit que cette proprit est vraie au
voisinage d'un point a de I si elle est vraie sur l'intersection de I avec un intervalle non vide, ouvert

et centr en a.
Dans le cas o l'intervalle I est non major (resp. non minor), on dit que la proprit est vraie au
voisinage de + (resp. ) s'il existe un rel M tel qu'elle est vraie sur l'intersection de I avec un
intervalle ]M, +[ (resp. ] , M [).

Limite d'une fonction en un point


Dnition B.59 Soit a un point de I , f une fonction dnie sur I , sauf peut-tre au point a, et valeurs
dans K, et l un scalaire. On dit que f admet l pour limite en a si et seulement si
> 0, > 0, x I, (0 < |x a| |f (x) l| ).
On voit que le fait que f ne soit pas dnie en a n'empche pas de considrer sa limite en ce point.
On dit alors que f admet une limite lorsque x tend vers a par valeurs direntes. Lorsqu'une fonction a
pour limite l en a, on dit encore qu'elle admet une limite nie en a.
472

B.3. FONCTIONS D'UNE VARIABLE RELLE *

Dnitions B.60 Soit a un point de I et f une fonction dnie sur I , sauf peut-tre au point a, et
valeurs relles. On dit que f admet + (resp. ) pour limite en a si et seulement si
A R, > 0, x I, (0 < |x a| f (x) A) (resp. (0 < |x a| f (x) A)).

Proposition B.61 Si une application admet une limite nie en un point, alors celle-ci est unique.
Raisonnons par l'absurde et supposons que l'application f : I K admet l et l0 appar
1
tenant K pour limites en un point a de I , avec l 6= l0 . Posons = l l0 . Il existe > 0 et 0 > 0 tels
3
que


x I, (0 < |x a| |f (x) l| ) et (0 < |x a| 0 f (x) l0 ).
Dmonstration.

Alors, pour tout x de I tel que 0 < |x a| min(, 0 ), nous avons








l l0 |l f (x)| + f (x) l0 2 = 2 l l0 ,
3

d'o une contradiction.

En vertu de cette unicit, si l'application f admet l pour limite en a, on dit que l est la limite de f

en a et l'on note

lim f (x) = l ou f (x) l.

xa

xa

Il est possible d'tendre les dnitions de limites nie et innie si la fonction f est dnie sur un
intervalle non major ou non minor.

Dnitions B.62 Soit f une fonction de F (I, K) et l un scalaire. Si l'intervalle I admet + (resp.
) comme extrmit, on dit que f admet l pour limite en + (resp. ) si et seulement si
> 0, A R, x I, (x A |f (x) l| ) (resp. (x A |f (x) l| )),
et l'on note

lim f (x) = l (resp. lim f (x) = l).

x+

Dnitions B.63 Soit f une fonction de F (I, R). Si I admet + comme extrmit, on dit que f admet
+ (resp. ) pour limite en + si et seulement si
A R, A0 R, x I, (x A0 f (x) A) (resp. (x A0 f (x) A)),
et l'on note

admet +

lim f (x) = + (resp. lim f (x) = ). Si I admet comme extrmit, on dit que f

x+

(resp. )

x+

pour limite en

si et seulement si

A R, A0 R, x I, (x A0 f (x) A) (resp. (x A0 f (x) A)),


et l'on note

lim f (x) = + (resp. lim f (x) = ).

An d'unier la prsentation des dnitions et rsultats, nous considrons dans toute la suite le point
a en tant qu'lment de R = R {, +}.

Proposition B.64 Soit f une fonction de F (I, K). Si f admet une limite nie en un point a de I , alors
f est borne au voisinage de a.

Dmonstration. Supposons a R, les cas a = + et a = tant analogues.


Il existe > 0 tel que l'on a

x I, (0 < |x a| |f (x) l| 1 |f (x)| |f (x) l| + |l| 1 + |l|),

et donc f est borne au voisinage de a.

473

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Limite droite, limite gauche


Dnition B.65 Soit f une fonction de F (I, K) et a un rel appartenant l'intervalle I . On dit que f
admet une limite droite (resp. gauche) en a si et seulement si la restriction de f I]a, +[
(resp. ] , a[I ), note f|I]a,+[ (resp. f|],a[I ), admet une limite en a.

Lorsqu'une fonction f admet l pour limite droite (resp. gauche) en a, on note

lim f (x) = l ou lim+ f (x) = l (resp. undersetx < a lim f (x) = l ou lim f (x) = l),

xa
x>a

xa

xa

xa

et l'on a

lim f (x) = l ( > 0, > 0, x I, (0 < x a |f (x) l| ))

xa+

(resp. lim f (x) = l ( > 0, > 0, x I, (0 < a x |f (x) l| ))).


xa

On dit galement que f tend vers l lorsque x tend vers a par valeurs suprieures (resp. infrieures ).

Exemple. Considrons la fonction x 7


alors f (x) = 1 et l'on a lim f (x) = 1.

|x|
dnie sur R . Si x > 0, f (x) = 1 et l'on a lim f (x) = 1. Si x < 0,
x
x0+

x0

Caractrisation squentielle de la limite


Proposition B.66 Pour qu'une application f de F (I, K) admette un scalaire l pour limite en un point
a de l'intervalle I , il faut et il sut que, pour toute suite (un )nN d'lments de I ayant a pour limite,
on ait

lim f (un ) = l.

n+

Dmonstration. Faisons l'hypothse que a R, les cas a = + et a = tant analogues. Supposons


tout d'abord que f admet l pour limite en a. Soit (un )nN une suite dans I , telle que lim un = a, et > 0.

n+

Puisque lim f (x) = l, il existe > 0 tel que


xa

x I, (0 < |x a| |f (x) l| ).

Puisque (un )nN tend vers a, il existe N N tel que


n N, (n N |un a| ).

On a alors
n N, (n N |un a| |f (un ) l| ),

d'o lim f (un ) = l.


n+

Supposons prsent que f n'admet pas l pour limite en a. Il existe donc > 0 tel que
> 0, x I, (0 < |x a| et |f (x) l| > ).

En particulier, en prenant =

1
pour tout n de N , il existe un I tel que
n
|un a|

1
et |f (un ) l| > .
n

On constate alors que la suite (un )nN dans I ainsi construite satisfait lim un = a, mais est telle que (f (un ))nN
n+

ne converge pas vers l.

474

B.3. FONCTIONS D'UNE VARIABLE RELLE *

Passage la limite dans une ingalit


Proposition B.67 Soit f et g deux fonctions de F (I, R) admettant une limite en un point a de l'intervalle I . Si l'on a f (x) g(x) au voisinage de a, alors
lim f (x) lim g(x).

xa

xa

Supposons que f et g tendent respectivement vers l et l0 lorsque x tend vers a. Soit > 0.
Il existe > 0 et > 0 tels que




x I, 0 < |x a| l f (x) l +
et 0 < |x a| 0 l0 g(x) l0 +
.
2
2
2
2
Dmonstration.
0

Nous avons donc, pour tout x I tel que 0 < |x a| min(, 0 ),

l f (x) g(x) l + ,
2
2
d'o l l0 . On a nalement l l0 , car le choix de est arbitraire.

Thorme d'encadrement
Proposition B.68 Soit f , g et h trois fonctions de F (I, R) telles que f (x) g(x) h(x) au voisinage
d'un point a de I . Si f et h admettent une mme limite l en a, alors g admet l pour limite en a.
Dmonstration. Supposons a R, les cas a = + et a = tant analogues.
Soit > 0. Puisque f et h admettent l pour limite en a, il existe > 0 et 0 > 0 tels que

x I, (0 < |x a| |f (x) l| ) et (0 < |x a| 0 |h(x) l| ).

Nous avons donc, pour tout x I tel que 0 < |x a| min(, 0 ),


((|f (x) l| et |h(x) l| ) f (x) l g(x) l h(x) l |g(x) l| ).

Donc g admet l pour limite en a.

Ce thorme d'encadrement s'avre trs utile en pratique puisqu'il permet notamment de conclure
l'existence d'une limite.

Oprations algbriques sur les limites


Proposition B.69 Soit f et g deux fonctions de F (I, K), a un point de I , , l et l0 trois scalaires. On a
i) lim f (x) = l lim |f (x)| = |l|,
xa

xa

ii) lim f (x) = l et lim g(x) = l0 lim (f (x) + g(x)) = l + l0 ,


xa

xa

xa

iii) lim f (x) = l lim f (x) = l,


xa

xa

iv) lim f (x) = 0 et g est borne au voisinage de a lim f (x)g(x) = 0,


xa

xa

v) lim f (x) = l et lim g(x) = l0 lim f (x)g(x) = ll0 ,


xa

xa

xa

1
1
vi) lim g(x) = l0 et l0 =
6 0 lim
= 0,
xa
xa g(x)
l
vii) lim f (x) = l et lim g(x) = l0 et l0 6= 0 lim
xa

xa

f (x)

xa g(x)

l
.
l0

Supposons a I R, les cas a = + et a = tant analogues.


i) Soit > 0. Puisque lim f (x) = l, il existe > 0 tel que
Dmonstration.

xa

x I, (|x a| |f (x) l| ).

Comme x I , ||f (x)| |l|| |f (x) l|, on dduit


x I, (|x a| ||f (x)| |l|| ),

et nalement lim |f (x)| = |l|.


xa

475

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

ii) Soit > 0. Puisque lim f (x) = l et lim g(x) = l0 , il existe > 0 et 0 > 0 tels que
xa

xa







et |x a| 0 g(x) l0
x I, |x a| |f (x) l|
2
2

En notant 00 = min(, 0 ) > 0, nous avons, x I ,









|x a| 00 (|f (x) l| et g(x) l0
(f (x) + g(x)) (l + l0 ) |f (x) l|+ g(x) l0 ),
2
2
d'o lim (f (x) + g(x)) = l + l0 .
xa

iii) Soit > 0. Puisque lim f (x) = l, il existe > 0 tel que
xa

,
|| + 1


||
d'o x I, |x a| |f (x) l| = || |f (x) l|
, et donc lim f (x) = l.
xa
|| + 1
iv) Par hypothse, il existe > 0 et C R+ tels que


x I,

|x a| |f (x) l|

x I, (|x a| |g(x)| C).

Soit > 0. Puisque lim f (x) = 0, il existe 0 > 0 tel que


xa

x I,


|x a| 0 |f (x)|

C +1

En notant 00 = min(, 0 ) > 0, nous avons alors



x I, |x a| 00 |f (x)g(x)| = |f (x)| |g(x)|


C
,
C +1

et donc lim f (x)g(x) = 0.


xa

v) Notons h l'application de I dans K telle que h(x) = f (x) l, x I . Nous avons


x I, f (x)g(x) = h(x)g(x) + l g(x).

D'aprs iii, lim lg(x) = ll0 . D'autre part, lim h(x) = 0, donc, d'aprs iv, lim h(x)g(x) = 0, puisque g est
xa

xa

borne au voisinage de a. Finalement, on a lim f (x)g(x) = ll0 d'aprs ii.

xa

xa

vi) Puisque lim g(x) = l0 , on a, d'aprs i, lim |g(x)| = |l0 |. Comme |l0 | > 0, il existe > 0 tel que
xa

xa


|l0 |
,
2
 
1
En particulier, x I , (|x a| g(x) 6= 0). La fonction
est donc dnie, au moins sur I]a
g
, a + [. Nous avons alors, pour tout x de I]a , a + [,


1

|g(x) l0 |
1
2
0
0
0 =

2 g(x) l .
0
0
g(x)
l
|g(x)| |l |
|l |





1
2
1
0

= 0, soit encore
Comme lim g(x) = l0 , on en dduit que lim
g(x)

l
=
0
,
puis
que
lim

xa
xa
xa g(x)
l0
|l0 |2
1
1
lim
= 0.
xa g(x)
l
f
1
vii) Il sut d'appliquer v et vi en remarquant que = f .
g
g



x I,

|x a| |g(x)| >

Proposition B.70 Soit f et g deux fonctions de F (I, K) et a un point de I .


476

B.3. FONCTIONS D'UNE VARIABLE RELLE *

i) Si lim f (x) = + et si g est minore au voisinage de a, alors


xa

lim (f (x) + g(x)) = +.

xa

ii) Si lim f (x) = + et si g est minore au voisinage de a par une constante strictement positive,
xa

alors

lim f (x)g(x) = +.

xa
Dmonstration.

Les preuves sont analogues celles de i et ii dans la proposition B.37.

Composition des limites


Proposition B.71 Soit f un fonction de F (I, R), J un intervalle de R tel que f (I) J , g un fonction
de F (J, R), a un point de I , b un point de J et l un lment de R. Si f admet b pour limite en a et g
admet l pour limite en b, alors la fonction compose g f admet l pour limite en a.
Dmonstration. Supposons a R, b R et l R, les autres cas tant analogues.
Soit > 0. Puisque lim g(y) = l, il existe > 0 tel que

yb

y J, (|y b| |g(y) l| ).

Puis, comme lim f (x) = b, il existe 0 > 0 tel que


xa

x I, (|x a| 0 |f (x) b| 1 ).

Nous avons alors

x I, (|x a| 0 |f (x) b| |g(f (x)) l| ),

d'o lim g f (x) = l.

xa

Cas des fonctions monotones


Nous considrons dans cette sous-section des fonctions valeurs relles.

Thorme B.72 Soit a et b deux lments de R, tels que a < b, et f une application croissante dnie
sur l'intervalle ]a, b[.

i) Si f est majore, alors f admet une limite nie en b et lim f (x) = sup f (x).
xb

x]a,b[

ii) Si f n'est pas majore, alors f admet + pour limite en b.


Dmonstration.

i) La partie f (]a, b[) de R est non vide et majore, elle admet par consquent une borne suprieure l dans R.
Soit > 0. Puisque l n'est pas un majorant de f (]a, b[) dans R, il existe x0 ]a, b[ tel que l f (x0 ) l.
Alors, pour tout x ]a, b[, nous avons
x0 x f (x0 ) f (x) l f (x) |f (x) l| .

Supposons b R (le cas b = + tant analogue). En posant = b x0 > 0, nous avons ainsi x ]a, b[,
(0 < b x |f (x) l| ), d'o lim f (x) = l.
xb

ii) Soit A R. Puisque f n'est pas majore, il existe x0 ]a, b[ tel que f (x0 ) A. Alors, pour x ]a, b[, nous
avons
x0 x f (x0 ) f (x) f (x) A.
Supposons b R (le cas b = + tant analogue). En posant = b x0 > 0, nous avons ainsi x ]a, b[,
(0 < b x |f (x)| A), d'o lim f (x) = +.
xb

Lorsque b appartient R, on peut parler de limite gauche en b dans le thorme prcdent. On


dduit de ce dernier rsultat qu'une application croissante admet toujours une limite, nie ou innie,
en b. Un rsultat analogue est obtenu pour les applications dcroissantes en considrant f dans cette
dmonstration.
477

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

B.3.4

Continuit

Dans cette section, la lettre I dsigne un intervalle de R, non vide et non rduit un point.

Continuit en un point
Dnition B.73 Soit f une application dnie sur I valeurs dans K et a un point de I . On dit que f
est continue en a si et seulement si
> 0, > 0, x I, (|x a| |f (x) f (a)| ).
la dirence de la notion de limite, on ne parle de continuit qu'en des points o la fonction est
dnie. On dit que f est discontinue en a si et seulement si f n'est pas continue en a, qui est alors appel
un point de discontinuit de f .

Dnition B.74 On dit qu'une application f admet une discontinuit de premire espce en a si

et seulement si elle n'est pas continue en a et possde une limite droite et une limite gauche en a.
Lorsque f n'est pas continue et n'admet pas de discontinuit de premire espce en a, on dit qu'elle admet
une discontinuit de seconde espce en a.

La dmonstation de la proposition suivante est immdiate.

Proposition B.75 Soit f une application dnie sur I valeurs dans K et a un point de I . Pour que f
soit continue en a, il faut et il sut qu'elle admette f (a) pour limite en a.
Proposition B.76 Soit f une application dnie sur I valeurs dans K et a un point de I . Si f est
continue en a, alors f est borne au voisinage de a.
Dmonstration.

Si l'application f est continue en a, alors il existe > 0 tel que

x I, (|x a| |f (x) f (a)| 1 |f (x)| |f (x) f (a)| + |f (a)| |f (a)| + 1).

La fonction f est donc borne au voisinage de a.

Continuit droite, continuit gauche


Dnition B.77 Soit f une application dnie sur I valeurs dans K et a un point de I . On dit que f
est continue droite (resp. gauche) en a si et seulement si la restriction de f I]a, +[ (resp.
] , a[I ) est continue en a.

On dduit de cette dnition qu'une application est continue en un point si et seulement si elle est
continue droite et gauche en ce point.

Exemple. Considrons l'application qui tout rel x associe la partie entire de x, E(x). Pour tout entier
naturel n, cette application est continue droite en n, mais n'est pas continue gauche en n.
Caractrisation squentielle de la continuit
Comme dans le cas de la limite, on peut dnir la notion de continuit en se servant de suites relles.

Proposition B.78 Soit f une application dnie sur I valeurs dans K et a un point de I . Alors, la
fonction f est continue en a si et seulement si, pour toute suite (un )nN d'lments de I tendant vers a,
la suite (f (un ))nN tend vers f (a).
Dmonstration. La preuve dcoule directement de la proposition B.75 et de la caractrisation squentielle
de la limite (voir la proposition B.66).


478

B.3. FONCTIONS D'UNE VARIABLE RELLE *

Prolongement par continuit


Dnition B.79 Soit f une fonction dnie sur I , sauf en un point a de I , et admettant une limite nie
l en a. On appelle prolongement par continuit de f en a la fonction g , dnie sur l'intervalle I par
(
l
g(x) =
f (x)

si x = a
sinon

Cette fonction est, par dnition, continue en a.

Il est facile de vrier que lorsqu'une fonction admet un prolongement par continuit en un point,
celui-ci est unique. S'il n'y a pas de risque d'ambiguit, on dsigne alors la fonction et son prolongement
par le mme symbole. Notons qu'on peut aussi dnir un prolongement par continuit droite de a ou
gauche de a.

Continuit sur un intervalle


Dnition B.80 Soit f une application dnie sur I valeurs dans K. On dit que f est continue sur
I si et seulement si f est continue en tout point de I .

On note C (I, K) l'ensemble des applications de I dans K qui sont continues sur I .

Continuit par morceaux


Dnition B.81 Soit [a, b] un intervalle born non vide de R et f une application dnie sur [a, b]
valeurs dans K. On dit que la fonction f est continue par morceaux sur [a, b] si et seulement s'il
existe un entier n non nul et des points a0 , . . . , an de [a, b] vriant a = a0 < < an = b tels que, pour
tout entier i compris entre 0 et n 1, f soit continue sur ]ai , ai+1 [ et admette une limite nie droite
en ai et une limite nie gauche en ai+1 .
Oprations algbriques sur les applications continues
Proposition B.82 Soit f et g des applications dnies sur I valeurs dans K, un scalaire et a un
point de I .

i) Si f est continue en a, alors |f | est continue en a.


ii) Si f et g sont continues en a, alors f + g est continue en a.
iii) Si f est continue en a, alors f est continue en a.
iv) Si f et g sont continues en a, alors f g est continue en a.

1
est continue en a.
g
f
est continue en a.
vi) Si f et g sont continues en a et si g(a) 6= 0, alors
g
v) Si g est continue en a et si g(a) 6= 0, alors

Dmonstration.

Les preuves sont similaires celles de la proposition B.69.

Proposition B.83 Soit J un intervalle de R, f une application dnie sur I valeurs relles telle que
f (I) J , g une application dnie sur J valeurs dans K et a un point de I . Si f est continue en a et
g est continue en f (a), alors g f est continue en a.
Dmonstration.

La preuve est analogue celle de la proposition B.71.

De ces deux propositions, nous dduisons aisment des rsultats de continuit globale sur l'intervalle I .

Proposition B.84 Soit f et g des applications dnies sur I valeurs dans K et un scalaire.
i) Si f est continue sur I , alors |f | est continue sur I .
ii) Si f et g sont continues sur I , alors f + g est continue sur I .
iii) Si f est continue sur I , alors f est continue sur I .

479

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

iv) Si f et g sont continues sur I , alors f g est continue sur I .

1
est continue sur I .
g
f
vi) Si f et g sont continues sur I et si (x I, g(x) 6= 0, alors
est continue sur I .
g
v) Si g est continue sur I et si (x I, g(x) 6= 0, alors

Proposition B.85 Soit J un intervalle de R, f une application dnie sur I valeurs relles telle que
f (I) J et g une application dnie sur J valeurs dans K. Si f est continue sur I et g est continue
sur f (I), alors g f est continue sur I .

Thormes des bornes et des valeurs intermdiaires


Les thormes qui suivent constituent tous deux des rsultats fondamentaux de la thorie des fonctions
relles d'une variable relle.

Thorme B.86 ( thorme des bornes ) Toute application relle dnie et continue sur un intervalle non vide de R est borne et atteint ses bornes.
Dmonstration. REPRENDRE en introduisant f et [a, b]
Montrons que la fonction f est borne en raisonnant par l'absurde. Supposons que f est non majore. Il existe alors
une suite (xn )nN d'lments de [a, b] telle que, pour chaque entier n, on a f (xn ) > n. Puisque la suite est borne,
il existe, d'aprs le thorme de BolzanoWeierstrass (voir le thorme B.40), une suite extraite de (xn )nN ,
note (x(n) )nN , qui converge vers un point c de [a, b]. Puisque f est continue sur [a, b], on dduit que la suite
(f (x(n) ))nN tend vers f (c). Mais d'autre part, on a n N, f (x(n) ) > (n) n, donc lim f (x(n) ) = +,

n+

d'o une contradiction. L'application f est donc majore. En appliquant ce rsultat f au lieu de f , on en
dduit que f est minore. Finalement, f est borne.
Montrons prsent que f atteint ses bornes. Notons M = sup f (x). Pour chaque entier n 1, il existe un rel
x[a,b]

xn dans [a, b] tel que

1
< f (xn ) M.
n
La suite (xn )nN ainsi construite tant borne, on peut en extraire, en vertu du thorme de BolzanoWeierstrass,
une sous-suite de (xn )nN , note (x (n) )nN , qui converge vers un lment d de [a, b]. Puisque f est continue sur
[a, b], on en dduit que la suite (f (x (n) ))nN tend vers f (d). D'autre part, on a
M

n N , M

1
< f (x (n) ) M,
(n)

d'o, par passage la limite, M = f (d). Ceci montre que M est atteint par f : d [a, b], M = f (d). En
appliquant ce rsultat f au lieu de f , on montre que f atteint aussi inf f (x).

x[a,b]

Dans une formulation due Weierstrass, ce dernier thorme arme qu'une fonction valeurs relles
continue sur un ensemble compact y atteint son maximum et son minimum.

Thorme B.87 ( thorme des valeurs intermdiaires ) Soit [a, b] un intervalle non vide de R
et f une application dnie et continue sur [a, b] valeurs dans R. Alors, pour tout rel y compris entre
f (a) et f (b), il existe (au moins) un rel c dans [a, b] tel que f (c) = y .
Dmonstration. Si y = f (a) ou y = f (b), le rsultat est immdiat. Dans toute la suite, on peut supposer que f (a) < f (b), quitte poser g = f si f (a) > f (b). Soit donc y ]f (a), f (b)[ et considrons l'ensemble
E = {x [a, b] | f (x) y} ; E est une partie de R non vide (car a E ) et majore (par b), qui admet donc une
borne suprieure, note c. Nous allons montrer que f (c) = y .
Par dnition de la borne suprieure, il existe une suite (xn )nN d'lments de E telle que lim xn = c. L'appli-

cation f tant continue en c, on a

n+

lim f (xn ) = f (c). Or, pour tout n N, f (xn ) y donc f (c) y . D'autre

n+

part, f (b) > y , donc c 6= b. Pour tout x ]c, b[, f (x) > y donc

lim

f (x) = f (c) y d'o f (c) = y .

xc, x>c

Corollaire B.88 L'image d'un intervalle par une application continue valeurs relles est un intervalle.
Dmonstration. Soit I un intervalle de R et f une application continue sur I valeurs dans R. D'aprs le
thorme des valeurs intermdiaires (voir le thorme B.87), l'ensemble f (I) est un intervalle de R.


480

B.3. FONCTIONS D'UNE VARIABLE RELLE *

1
. L'application f est continue sur I et
x
f (I) = [1, +[. L'intervalle I est born alors que f (I) n'est pas born. Soit prsent I =]0, 2[ et f : x 7 sin x.
L'application f est continue sur I et f (I) = [1, 1]. Dans ce cas, l'intervalle I est ouvert alors que f (I) est ferm.

Exemples. Considrons l'intervalle

I =]0, 1] et la fonction f : x 7

Comme le montrent les exemples ci-dessus, le caractre ouvert, ferm ou born d'un intervalle n'est
pas toujours conserv par une application. On a cependant le rsultat suivant.

Corollaire B.89 Soit I un intervalle de [a, b] un intervalle non vide de R et non rduit un point et f

une fonction dnie sur [a, b] valeurs relles. Si f est continue, alors l'ensemble f ([a, b]) est un segment
de R.
Dmonstration. D'aprs le corollaire prcdent, l'ensemble f ([a, b]) est un intervalle. D'aprs le thorme
des bornes (voir le thorme B.86), c'est une partie borne de R qui contient ses bornes.


Application rciproque d'une application continue strictement monotone


REPRENDRE

Thorme B.90 ( thorme de la bijection ) Soit f une application continue et strictement monotone sur I ; on note fe : I f (I) l'application qui tout x de I associe f (x). Alors
i) L'ensemble f (I) est un intervalle dont les bornes sont les limites de f aux bornes de I .
ii) L'application fe est bijective.
iii) La bijection rciproque fe1 est continue sur f (I) et strictement monotone de mme sens que f .
Dmonstration. Supposons, par exemple, que f est strictement croissante et posons I =]a, b[, avec (a, b)
2
R tel que a < b.
i) Pour tout x de ]a, b[, on a lim f (t) < f (x) < lim f (t), donc f (I) ]lim f (t), lim f (t)[. Rciproquement, soit

ta

tb

ta

tb

y ] lim f (x), lim f (x)[ ; y n'est ni un majorant, ni un minorant de f (I), il existe donc des lments x1 et x2
xa

xb

de I tels que f (x1 ) < y < f (x2 ). D'aprs le thorme des valeurs intermdiaires (voir le thorme B.87), il
existe x0 I tel que f (x0 ) = y , d'o y f (I). Nous en concluons f (I) =] lim f (x), lim f (x)[.
xa

xb

ii) Par dnition, fe est une surjection. Montrons qu'elle est galement injective. Soit x1 et x2 des lments de
I tels que fe(x1 ) = fe(x2 ). Si x1 < x2 , alors fe(x1 ) < fe(x2 ) et si x1 > x2 , alors fe(x1 ) > fe(x2 ), d'o une
contradiction dans les deux cas. Par consquent, x1 = x2 et fe est injective.
iii) Soit y1 et y2 appartenant f (I), tels que y1 < y2 . Posons x1 = fe1 (y1 ) et x2 = fe1 (y2 ). Si x1 x2 , alors
fe(x1 ) fe(x2 ), comme f est croissante, soit encore y1 y2 , ce qui est absurde, donc x1 < x2 et fe1 est
strictement croissante.
Montrons qu'elle est galement continue. Soit y0 f (I) ; posons x0 = fe1 (y0 ) et donnons-nous un rel > 0
tel que x0 et x0 + appartiennent I . Posons alors y1 = fe(x0 ) et y2 = fe(x0 ). L'application
f tant strictement croissante, on a y1 < y0 < y2 et, pour tout y ]y1 , y2 [, fe1 (y1 ) < fe1 (y) < fe1 (y2 ),


c'est--dire x0 < fe1 (y) < x0 + . Il existe donc > 0 tel que |y y0 | fe1 (y) fe1 (y0 ) .
Par consquent, fe est continue en y0 .


Exemple
de fonction rciproque. La
fonction sinus est continue et strictement croissante sur l'intervalle




2 , 2 . Elle induit donc une bijection de 2 , 2 sur [1, 1]. Sa bijection rciproque est appele arc sinus et


note arcsin. C'est une fonction continue strictement croissante de [1, 1] sur 2 , 2 .

Continuit uniforme
Nous introduisons prsent une notion de continuit plus forte que celle donne dans la dnition B.80.

Dnition B.91 Soit f une fonction


continue sur I si et seulement si

dnie sur I valeurs dans R. On dit que f est

uniformment

> 0, > 0, (x, x0 ) I 2 , (|x x0 | |f (x) f (x0 )| ).


Le qualicatif d' uniforme  signie que le choix de en fonction de ne dpend pas du point
considr : il est le mme sur tout l'intervalle I .
481

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Exemples. L'application qui tout rel x associe |x| est uniformment continue sur R, mais celle qui tout
rel x associe x2 ne l'est pas.

La preuve du rsultat suivant est immdiate.

Proposition B.92 Si f est uniformment continue sur I , alors f est continue sur I .
REPRENDRE Comme on l'a vu prcdemment, il existe des fonctions continues non uniformment
continues. Cependant, lorsque I est un segment de R, c'est--dire un intervalle ferm et born, nous
disposons du rsultat suivant.

Thorme B.93 ( thorme de Heine 11 ) Toute fonction continue sur un segment [a, b] de R est

uniformment continue sur [a, b].

Dmonstration. Raisonnons par l'absurde. Soit f une fonction continue et non uniformment continue sur
[a, b]. Il existe donc > 0 tel que




> 0, (x, x0 ) [a, b]2 , x x0 et f (x) f (x0 ) > .

En particulier, en prenant =

1
, il existe (xn , x0n ) [a, b]2 tel que
n




1
et f (xn ) f (x0n ) > .
n N , xn x0n
n

La suite (xn )nN tant borne, elle admet, en vertu du thorme de BolzanoWeierstrass (voir le thorme B.40),
une sous-suite, note (x(n) )nN , convergente vers un rel, not l, appartenant [a, b]. Comme


n N , x(n) x0(n)

1
1
,
(n)
n

on dduit que la suite extraite (x0(n) )nN converge aussi vers l. L'application f tant continue en l, les suites
(f (x(n) ))nN et (f (x0(n) ))nN convergent vers f (l) et, par consquent, lim f (x(n) ) f (x0(n) ) = 0, ce qui
n+


contredit le fait que f (x(n) ) f (x0(n) ) > .


Applications lipschitziennes
Nous allons prsent introduire une proprit de rgularit des applications plus forte que la notion
de continuit.

Dnition B.94 Soit f une fonction dnie sur I valeurs relles et un rel k strictement positif. On
dit que f est lipschitzienne si et seulement si
(x, x0 ) I 2 , |f (x) f (x0 )| k |x x0 | .
Lorsque k ]0, 1[, on dit que l'application f est contractante. Le plus petit rel k tel que f soit
k -lipschitzienne est appel la constante de Lipschitz 12 de f .

Proposition B.95 Une application lipschitzienne est uniformment continue.


Supposons f k-lipschitzienne (k R+ ) et soit > 0. Si k = 0, f est constante sur I et

donc uniformment continue sur I . Si k > 0, en prenant = , nous obtenons


k




(x, x0 ) I 2 , ( x x0 f (x) f (x0 ) ),
Dmonstration.

ce qui montre que f est uniformment continue sur I .

11. Heinrich Eduard Heine (15 mars 1821 - 21 octobre 1881) tait un mathmaticien allemand. Il est clbre pour ses
rsultats en analyse relle et sur les fonctions spciales.
12. Rudolph Otto Sigismund Lipschitz (14 mai 1832 - 7 octobre 1903) tait un mathmaticien allemand. Son travail s'tend
sur des domaines aussi varis que la thorie des nombres, l'analyse, la gomtrie direntielle et la mcanique classique.

482

B.3. FONCTIONS D'UNE VARIABLE RELLE *

B.3.5

Drivabilit *

Dans cette section, K dsigne un corps (K = R ou C), I un intervalle de R non vide et non rduit
un point et F (I, K) est l'ensemble des applications dnies sur I et valeurs dans K.

Drivabilit en un point
Dnition B.96 Soit f F (I, K) et a I . On dit que f est drivable en a si et seulement si
lim

xa

f (x) f (a)
existe et est nie ; cette limite est alors appele drive de f en a et note f 0 (a).
xa

En posant h = x a, on obtient une autre criture, trs souvent employe,

f 0 (a) = lim

h0

f (a + h) f (a)
,
h

f (a + h) f (a)
dans laquelle le rapport
s'appelle le taux d'accroissement de f entre a et a + h. On note
h
df
aussi parfois
(a) au lieu de f 0 (a).
dx

Dnition B.97 Soit f F (I, K) et a I .


f (x) f (a)

drivable droite en a si et seulement si lim+


xa
xa
alors appele drive de f droite en a et note fd0 (a).

i) On dit que f est


cette limite est

f (x) f (a)

drivable gauche en a si et seulement si lim


xa
xa
alors appele drive de f gauche en a et note fg0 (a).

ii) On dit que f est


cette limite est

Exemple. L'application
fg0 (0) = 1, fd0 (0) = 1.

existe et est nie ;

existe et est nie ;

x 7 |x| de R dans R est drivable gauche en 0 et drivable droite en 0, et

Le rsultat suivant est immdiat.

Proposition B.98 Soit f F (I, K) et a I . Pour que l'application f soit drivable en a, il faut et

il sut que f soit drivable gauche et droite en a et que fg0 (a) = fd0 (a). Dans ces conditions, on a
f 0 (a) = fg0 (a) = fd0 (a).

Proposition B.99 Soit f F (I, K) et a I . Si l'application f est drivable en a, alors elle est continue
en a.

Dmonstration.

On sait d'une part que


lim

xa

f (x) f (a)
= f 0 (a).
xa

D'autre part, on a


f (x) f (a)
lim f (x) f (a) = lim x a
lim
,
xa
xa
xa
xa


d'o lim f (x) = f (a).

xa

Remarque. La rciproque de cette proposition est fausse : une application peut tre continue en a sans pour
autant tre drivable en ce point. Par exemple, l'application x 7 |x| de R dans R, dj tudie plus haut, est
continue en 0 sans y tre drivable.

483

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Proprits algbriques des fonctions drivables en un point


Thorme B.100 Soit a I , K et f, g F (I, K) deux applications drivables en a. Alors on a
i) f + g est drivable en a et (f + g)0 (a) = f 0 (a) + g 0 (a).
ii) f est drivable en a et (f )0 (a) = f 0 (a).
iii) f g est drivable en a et (f g)0 (a) = f 0 (a)g(a) + f (a)g 0 (a).
iv) Si g(a) 6= 0,

f
est drivable en a et
g

 0
f
f 0 (a)g(a) f (a)g 0 (a)
.
(a) =
g
g(a)2

Dmonstration.

i) On a
(f + g)(x) (f + g)(a)
f (x) f (a)
g(x) g(a)
=
+
f 0 (a) + g 0 (a).
xa
xa
xa
xa

ii) On a
(f )(x) (f )(a)
f (x) f (a)
=
f 0 (a).
xa
xa
xa

iii) On a
(f g)(x) (f g)(a)
f (x)g(x) f (a)g(a)
(f (x) f (a))g(a)
f (a)(g(x) g(a))
=
=
+
.
xa
xa
xa
xa

Puisque f et g sont drivables en a, ces applications sont continues en a, donc lim f (x) = f (a) et lim g(x) =
xa

xa

(f + g)(x) (f + g)(a)
g(a), d'o lim
= f 0 (a)g(a) + f (a)g 0 (a).
xa
xa

iv) Puisque g(a) 6= 0 et que g est continue en a, on a, au voisinage de a, g(x) 6= 0. La fonction

1
est alors dnie
g

au voisinage de a. De plus, on a
 
 



g(a) g(x)
1
1
1
1
1
1
1
(x)
(a) =

=
,
xa
g
g
x a g(x)
g(a)
xa
g(x)g(a)
1
xa x a

d'o lim

 
 

g 0 (a)
1
1
1
f
(x)
(a) =
. Le rsultat se dduit alors de 2) en utilisant que = f .
g
g
g(a)2
g
g


Drive d'une compose de fonctions


Thorme B.101 Soit J un intervalle de R, f : I K telle que f (I) J , g : J K et a I . Si f

est drivable en a et si g est drivable en f (a), alors g f est drivable en a et (g f )0 (a) = f 0 (a)g 0 (f (a)).
Dmonstration.

On a

(g f )(x) (g f )(a)
g(f (x)) g(f (a))
g(f (x)) g(f (a)) f (x) f (a)
=
=
,
xa
xa
f (x) f (a)
xa

d'o

(g f )(x) (g f )(a)
lim
=
xa
xa

g(f (x)) g(f (a))


lim
xa
f (x) f (a)



f (x) f (a)
lim
xa
xa

= g 0 (f (a)) f 0 (a).


Drive d'une fonction rciproque


Thorme B.102 Soit a I et f : I R une application continue et strictement monotone sur I ,
drivable en a et telle que f 0 (a) 6= 0 ; on note fe : I f (I) l'application qui tout x de I associe f (x).

Alors la fonction rciproque fe1 est drivable en f (a) et l'on a (fe1 )0 (f (a)) =

484

1
.
f 0 (a)

B.3. FONCTIONS D'UNE VARIABLE RELLE *


Dmonstration. D'aprs le thorme B.90, l'application fe : I f (I) est bijective et sa bijection rciproque
1
e
f
est strictement monotone, de mme sens que f , et continue sur f (I). Pour tout y de f (I) \ {f (a)}, on a alors

fe1 (y) fe1 (f (a))


fe1 (y) a
=
.
y f (a)
f (fe1 (y)) f (a)

Comme f est drivable en a, de drive non nulle en ce point, et que


composition des limites,

lim fe1 (y) = a, on obtient, aprs

yf (a)

fe1 (y) a
1
.
= 0
yf (a) f (fe1 (y)) f (a)
f (a)
lim

L'application fe1 est donc drivable en f (a).

Exemples. On sait que la restriction de la fonction tangente l'intervalle


2 , 2 est une bijection continue
de cet intervalle sur R. Sa drive, la fonction x 7 1 + tan2 x, ne s'annule pas. Sa bijection rciproque arc tangente
est donc drivable sur R, de drive
(arctan x)0 =

1
1
=
, x R.
1 + tan2 (arctan x)
1 + x2

Application drive
Dnition B.103 Soit f F (I, K). On appelle drive de f l'application qui chaque x de I tel que
f 0 (x) existe associe f 0 (x).
Drives successives
Dnitions B.104 Soit f F (I, K). On dnit les drives successives de f par rcurrence pour

tout n de N :
pour a I , f (n) (a) est, si elle existe, la drive de f (n1) en a,
f (n) est l'application drive de f (n1) .
On appelle drive nme de f en a le rel f (n) (a) et application drive nme de f l'application
x 7 f (n) (x).
On dit que f est n fois drivable sur I si et seulement si f (n) est dnie sur I . Enn, on dit que f est
indniment drivable sur I si et seulement si f est n fois drivable sur I pour tout entier positif n.

dn f
au lieu de f (n) . Comme on l'a dj vu, on crit
dxn
et, de la mme manire, f 00 = f (2) et f 000 = f (3) .

Par convention, f (0) = f et l'on note aussi


souvent f 0 = f (1)

Proposition B.105 Soit K, n N et f, g : I K des applications n fois drivables sur l'intervalle

I . On a

i) f + g est n fois drivable sur I et (f + g)(n) = f (n) + g (n) .


ii) f est n fois drivable sur I et (f )(n) = f (n) .
iii) f g est n fois drivable sur I et on a la formule, dite de Leibniz, suivante

(f g)(n) =

n
X

Cnk f (k) g (nk) .

k=0

iv) Si (x I, g(x) 6= 0), alors


Dmonstration.

(aises) de 1) et de 2).

f
est n fois drivable.
g

Tous ces rsultats se dmontrent par rcurrence sur n. Nous laissons au lecteur les preuves

485

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

iii) Le cas n = 1 a t trait dans le thorme B.100. Supposons la proprit vraie au rang n > 1. Soit f et g
deux fonctions de I dans K, (n + 1) fois drivables sur I . D'aprs l'hypothse de rcurrence, f g est n fois
drivable sur I et
n
X
(f g)(n) =
Cnk f (k) g (nk) .
k=0

Ainsi, (f g)(n) apparat comme somme de produits d'applications drivables sur I et est donc drivable sur
I . On a alors
!0
n

0
X
(f g)(n)
=
Cnk f (k) g (nk)
k=0

n
X

Cnk f (k+1) g (nk) +

k=0

n+1
X

n
X
k=0

Cnk1 f (k) g (nk+1) +

k=1

=
=

Cnk f (k) g (nk+1)

n
X

Cnk f (k) g (nk+1)

k=0

f (n+1) g +
f (n+1) g +

n 
X
k=1
n
X


Cnk1 + Cnk f (k) g (nk+1) + f g (n+1)

k
Cn+1
f (k) g (nk+1) + f g (n+1)

k=1

n+1
X

k
Cn+1
f (k) g (n+1k) .

k=0

i) Le cas n = 1 a dj t vu dans le thorme B.100. Supposons la proprit vraie au rang n > 1. Soit f et g
f
deux fonctions de I dans K, (n + 1) fois drivables sur I et telles que (x I, g(x) 6= 0). L'application
g
tant drivable sur I , nous avons
 0
0
0
f
f g fg
=
.
g
g2
Puisque f , f 0 , g et g 0 sont n fois drivables sur I , f 0 g f g 0 et g 2 le sont aussi. Il rsulte alors de l'hypothse
f 0 g f g0
f
de rcurrence que
est n fois drivable sur I . Finalement,
est (n + 1) fois drivable sur I .
g2
g


Nous introduisons enn la notion de classe d'une fonction.

Dnition B.106 Soit f F (I, K).


i) Soit n N. On dit que f est de classe C n sur I si et seulement si f est n fois drivable sur I et
f (n) est continue sur I .
ii) On dit que f est de classe C sur I si et seulement si f est indniment drivable sur I .
Pour n N {+}, on note C n (I, K) l'ensemble des applications de classe C n de I dans K.

Remarques.

 f C 0 (I, K) si et seulement si f est continue sur I .


 Pour tout (p, n) (N {+})2 tel que p n, on a C n (I, K) C p (I, K).

Extrema locaux d'une fonction relle drivable


Dnitions B.107 Soit a I et f F (I, R). On dit que f admet
un maximum local en a si et seulement si, au voisinage de a, f (x) f (a),
un minimum local en a si et seulement si, au voisinage de a, f (x) f (a),
un maximum local strict en a si et seulement si, au voisinage de a sauf en a, f (x) < f (a),
un minimum local strict en a si et seulement si, au voisinage de a sauf en a, f (x) > f (a),
un extremum local en a si et seulement si f admet un maximum local ou un minimum local en

a,
un extremum local strict en a si et seulement si f admet un maximum local strict ou un
minimum local strict en a.
486

B.3. FONCTIONS D'UNE VARIABLE RELLE *

Exemples.

 Toute application constante admet en tout point un maximum et un minimum local.


 L'application de R de R qui x associe |x| admet un minimum local strict en 0.

Proposition B.108 Soit f F (I, R). Si f admet en un point intrieur a de I un extremum local et si
f est drivable en a, alors f 0 (a) = 0.

Supposons, pour xer les ides, que f admet un maximum local en a. Puisque f est

Dmonstration.

drivable en a, on a

f 0 (a)

=
=
=

f (x) f (a)
xa
f (x) f (a)
0
lim
xa
xa+
f (x) f (a)
lim
0,
xa
xa
lim

xa

d'o f 0 (a) = 0.

Remarques.

 La rciproque de cette proposition est fausse. Par exemple, l'application x 7 x3 de R dans R


une drive nulle en 0 mais ne possde pas d'extremum en ce point.
 De fait, les extrema locaux d'une fonction dnie sur un intervalle I seront recherchs aux points
intrieurs de I o la drive de la fonction s'annule ou bien aux extrmits de I , o la fonction
n'est pas drivable.

Rgle de L'Hpital
Thorme B.109 ( rgle de L'Hpital 13  [L'H96]) REPRENDRE Si f et g sont deux fonctions dnies sur [a, b], drivables en a, s'annulant en a et telles que le quotient

limxa+

f (x)
g(x)

f 0 (a)
g 0 (a)

soit dni, alors

f 0 (a)
g 0 (a) .

Dmonstration.

A ECRIRE

Thorme de Rolle
Le thorme des valeurs intermdiaires permet de dmontrer le thorme suivant.

Thorme B.110 ( thorme de Rolle 14 ) Soit [a, b] un intervalle non vide de R et f une appli-

cation de [a, b] dans R. Si f est continue sur [a, b], drivable sur ]a, b[ et telle que f (a) = f (b), alors il
existe c ]a, b[ tel que f 0 (c) = 0.
Dmonstration. Puisque l'application f est continue sur le segment [a, b], elle est borne et atteint ses
bornes (voir le thorme B.86). Notons m = inf f (x) et M = sup f (x). Si M = m, alors f est constante et

x[a,b]

x[a,b]

f (x) = 0 pour tout x ]a, b[. Supposons m < M . Comme f (a) = f (b), on a soit M 6= f (a), soit m 6= f (a).
Ramenons-nous au cas M 6= f (a). Il existe alors un point c ]a, b[ tel que f (c) = M . Soit x [a, b] tel que
f (x) f (c)
f (x) f (c)
f (x) M = f (c). Si x > c, on a
0, et si x < c, on obtient
0. L'application f tant
xc
xc
0
0
0
drivable en c, nous obtenons, en passant la limite, f (c) 0 et f (c) 0, d'o f (c) = 0.

0

Remarque. Le rel c n'est pas ncessairement unique.


13. Guillaume Franois Antoine de L'Hpital (1661 - 2 fvrier 1704) tait un mathmaticien franais. Son nom est associ
une rgle permettant le calcul d'une limite de quotient de forme indtermine.

14. Michel Rolle (21 avril 1652 - 8 novembre 1719) tait un mathmaticien franais. S'il inventa la notation n x pour
me
dsigner la racine n
d'un rel x, il reste principalement connu pour avoir tabli en 1691, dans le cas particulier des
polynmes rels une variable, une premire version du thorme portant aujourd'hui son nom.

487

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Thorme des accroissements nis


Le thorme de Rolle permet son tour de prouver le rsultat suivant, appel le thorme des accrois-

sements nis.

Thorme B.111 ( thorme des accroissements nis ) Soit [a, b] un intervalle non vide de R et
f une application de [a, b] dans R. Si f est continue sur [a, b] et drivable sur ]a, b[, alors il existe c ]a, b[
tel que

f 0 (c) =
Dmonstration.

f (b) f (a)
.
ba

Considrons la fonction : [a, b] R dnie par


(x) = f (x)

f (b) f (a)
(x a).
ba

Il est clair que est continue sur [a, b], drivable sur ]a, b[ et que (a) = (b). En appliquant le thorme de Rolle
, on obtient qu'il existe c ]a, b[ tel que 0 (c) = 0, c'est--dire tel que
f 0 (c) =

f (b) f (a)
.
ba


Remarque. L encore, le rel c n'est pas forcment unique.

On dduit directement l'ingalit des accroissements nis du thorme B.111. Celle-ci est plus gnrale
que le thorme du mme nom, dans la mesure o elle s'applique d'autres fonctions que les fonctions
d'une variable relle valeurs dans R, comme par exemple les fonctions de R dans C ou de Rn (n N )
dans R.

Thorme B.112 ( ingalit des accroissements nis ) Soit [a, b] un intervalle non vide de R.
Si f est une fonction continue sur [a, b], drivable sur ]a, b[ et qu'il existe un rel M > 0 tel que

x ]a, b[, |f 0 (x)| M,


alors on a

|f (b) f (a)| M |b a| .

Sens de variation d'une fonction drivable


Les rsultats prcdents permettent d'tablir un lien entre le sens de variation d'une fonction et le
signe de sa drive. Nous avons la
2

Proposition B.113 Soit (a, b) R , tel que a < b, et f une fonction drivable sur ]a, b[. Alors
i) f est croissante si et seulement si (x ]a, b[, f 0 (x) 0),
ii) f est dcroissante si et seulement si (x ]a, b[, f 0 (x) 0),
iii) f est constante si et seulement si (x ]a, b[, f 0 (x) = 0).
Dmonstration.

i) Supposons f croissante. Soit x0 ]a, b[, pour tout x ]a, b[ tel que x > x0 , on a
f (x) f (x0 )
0.
x x0

En passant la limite x x0 , on dduit que f 0 (x0 ) 0. Rciproquement, supposons que, pour tout
x ]a, b[, f 0 (x) 0. Soit x1 et x2 deux lments de ]a, b[ tels que x1 < x2 . En appliquant le thorme des
accroissements nis f sur [x1 , x2 ], on voit qu'il existe c [x1 , x2 ] tel que
f (x2 ) f (x1 ) = f 0 (c)(x2 x1 ) 0,

et f est par consquent croissante sur ]a,b[.


ii) L'application f est dcroissante si et seulement si f est croissante ; ii) rsulte donc de i).
iii) L'application f est constante si et seulement si elle est la fois croissante et dcroissante ; iii) rsulte donc
de i) et de ii).


488

B.3. FONCTIONS D'UNE VARIABLE RELLE *

Formules de Taylor
Le thorme suivant constitue une gnralisation du thorme des accroissements nis.

Thorme B.114 ( formule de Taylor 15 Lagrange ) Soit n un entier naturel, [a, b] un intervalle
non vide de R et f : [a, b] R une fonction de classe C n sur [a, b]. On suppose de plus que f (n) est
drivable sur ]a, b[. Alors, il existe c ]a, b[ tel que

f (b) = f (a) + f 0 (a) (b a) +


soit encore

f (b) =

f 00 (a)
f (n) (a)
f (n+1) (c)
(b a)2 + +
(b a)n +
(b a)n+1 ,
2!
n!
(n + 1)!

n
X
f (k) (a)
k=0

Dmonstration.

k!

(b a)k +

f (n+1) (c)
(b a)n+1 .
(n + 1)!

Soit A le rel tel que


n

X f (k) (a)
(b a)n+1
A = f (b)
(b a)k .
(n + 1)!
k!
k=0

Il s'agit de montrer que A = f (n+1) (c), avec c ]a, b[. On dnit pour cela la fonction : [a, b] R comme suit
(x) = f (b)

n
X
f (k) (x)
(b x)n+1
(b x)k
A.
k!
(n + 1)!

k=0

Cette fonction est continue sur [a, b], drivable sur ]a, b[ et vrie par ailleurs (a) = (b) = 0. D'aprs le thorme
de Rolle, il existe donc c ]a, b[ tel que 0 (c) = 0. Or, pour tout x ]a, b[, on a
0 (x)

=
=

n
n
X
X
f (k+1) (x)
(b x)n
f (k) (x)
(b x)k1
(b x)k +
A
(k 1)!
k!
n!
k=0
k=1

(b x)n  (n+1)
f
(x) + A .
n!

Par consquent, on dduit de 0 (c) = 0 que A = f (n+1) (c).

Remarques.

f (n+1) (c)
(b a)n+1 est appel reste de Lagrange.
(n + 1)!
 Dans le cas particulier n = 0, on retrouve l'galit du thorme des accroissements nis.

 Le terme

Thorme B.115 ( formule de TaylorYoung 16 ) Soit n un entier naturel, I un intervalle ouvert

non vide de R, a un point de I et f : I R une fonction admettant une drive nime au point a. Alors,
il existe une fonction  valeurs relles, dnie sur I et vriant lim (x) = 0, telle que, pour tout x
xa

appartenant I ,

f (x) =

n
X
f (k) (a)
k=0

Dmonstration.

k!

(x a)k + (x a)n (x).

La formule se dmontre par rcurrence sur l'entier n, en considrant l'assertion quivalente :

pour toute fonction f : I R, n fois drivable au point a, on a


1
lim
xa (x a)n
x6=a

n
X
f (k) (a)
f (x)
(x a)k
k!

!
= 0.

k=0

Pour n = 0, le rsultat est immdiat. Pour n = 1, l'assertion dcoule de la drivabilit de la fonction f au point a.
15. Brook Taylor (18 aot 1685 - 30 novembre 1731) tait un mathmaticien, artiste peintre et musicien anglais. Il inventa
le calcul aux dirences nies et dcouvrit l'intgration par parties.
16. William Henry Young (20 octobre 1863 - 7 juillet 1942) tait un mathmaticien anglais. Ses tudes portrent principalement sur la thorie de la mesure et de l'intgration, les sries de Fourier et le calcul direntiel des fonctions de plusieurs
variables.

489

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Soit prsent n 2 et f une fonction n fois drivable en a. On suppose l'assertion vrie jusqu'au rang
n 1. La drive f 0 , dnie dans un voisinage ouvert du point a, est une fonction n 1 fois drivable en a et, par
hypothse de rcurrence, pour tout > 0, il existe un rel > 0 tel que


n1


X f (k+1) (a)
0
k
(x a) |x a|n1 , x I]a , a + [.
f (x)


k!
k=0

On dnit alors, pour tout t I]a , a + [, la fonction drivable


g(t) = f (t)

n
X
f (k) (a)
(t a)k ,
k!

k=0

telle que g(a) = 0. Il rsulte de la majoration ci-dessus et de l'ingalit des accroissements nis que
|g(x) g(a)| |x a|n1 |x a| , x I]a  , a +  [,

soit encore



n


X
f (k) (a)
1

k
(x a) , x I]a  , a +  [,
n f (x)

|x a|
k!
k=0

ce qui implique l'assertion au rang n.

B.4

Intgrales *

Cette section est consacre la notion d'intgrabilit au sens de Riemann des fonctions, qui permet
d'aborder le calcul numrique des intgrales par des formules de quadrature au chapitre 7. Dans toute
cette section, on dsigne par [a, b] un intervalle born et non vide de R.

B.4.1

Intgrabilit au sens de Riemann *

INTRO ?

Dnition B.116 (subdivision d'un intervalle) Soit n un entier naturel strictement plus grand que
1. On appelle subdivision de [a, b] toute famille de points = {xi }i=0,...,n telle que
a = x0 < x1 < < xn1 < xn = b.
Si et sont deux subdivisions d'un mme intervalle, on dit que est plus ne que si .
D'autre part, le pas d'une subdivision est le rel dni par h() = max |xi xi1 |.
i{1,...,n}

Dnition B.117 (fonction en escalier) Une application relle f dnie sur [a, b] est dite en escalier
sur [a, b] s'il existe une subdivision = {xi }i=0,...,n de [a, b] telle que f soit constante sur chaque intervalle
]xi1 xi [, i = 1, . . . , n.

On remarque qu'une fonction en escalier sur un intervalle ne prend qu'un nombre ni de valeurs. Elle
est donc borne et ne possde qu'un nombre ni de points de discontinuit. L'ensemble des fonctions en
escalier sur un intervalle [a, b], que l'on note E([a, b]), est un sous-espace vectoriel des fonctions relles
dnies sur [a, b].
On dit qu'une subdivision = {xi }i=0,...,n d'un intervalle [a, b] est adapte une fonction en escalier
sur le mme intervalle si cette dernire est constante sur chaque intervalle ]xi1 xi [, i = 1, . . . , n.

Dnition B.118 (intgrale d'une fonction en escalier) Soit f une fonction en escalier sur [a, b] et
= {xi }i=0,...,n une subdivision de [a, b] adapte f . On appelle intgrale de f sur l'intervalle [a, b]
le rel

f (x) dx =
a

n
X

ci (xi xi1 ),

i=1

o le rel ci , 1 i n, dsigne la valeur prise par f sur l'intervalle ]xi1 , xi [.

490

(B.2)

B.4. INTGRALES *

L'intgrale d'une fonction en escalier est bien dnie, comme le montre le rsultat suivant.

Proposition B.119 La valeur de l'intgrale (B.2) est indpendante de la subdivision adapte choisie.


Dmonstration.

Proposition B.120 (proprits de l'intgrale des fonctions en escalier) Soit un rel et f et g


deux fonctions de E([a, b]). On a les proprits suivantes.
1.

Z
f (x) dx +

( f (x) + g(x)) dx =

g(x) dx.

2. Si f est positive sur [a, b], alors

f (x) dx 0.

Z
Z

b
b


|f (x)| dx.
f (x) dx
3.

a
a
Dmonstration.

A ECRIRE

En dduire proprit de monotonie


Il s'agit maintenant de donner un sens l'intgrale d'une fonction lorsque celle-ci n'est pas en escalier.
Pour cela, on va dnir, pour toute fonction borne sur l'intervalle [a, b] son intgrale suprieure et son
intgrale infrieure.

denition des intgrales

Dnition B.121 ( intgrabilit au sens de Riemann ) On dit qu'une fonction f dnie et borne
sur [a, b] est intgrale au sens de Riemann sur [a, b] si son intgrale infrieure I (f ) et son intgrale
suprieure I + (f ) sont gales. L'intgrale de f est alors cette valeur commune,
b

f (x) dx = I (f ) = I + (f ).

On a la caractrisation suivante.

Proposition B.122 On dit qu'une fonction f dnie et borne sur [a, b] est intgrable au sens de Riemann
sur [a, b] si ete seulement si, pout tout > 0, on peut trouver des fonction en escalier g et g+ telles que
g f g+ et
Z


g+ (x) g (x) dx .

On notera que l'on peut dnir d'une autre faon les intgrales suprieure et infrieure d'une fonction
borne en utilisant des fonctions en escalier particulires.

Dnition B.123 ( sommes de Darboux 17 ) Soit [a, b] un intervalle born et non vide de R, f
une fonction borne sur [a, b] et une subdivision d'ordre n de [a, b]. On appelle somme de Darboux
infrieure (resp. suprieure) de f relativement la quantit
s(f, ) =

n
X
i=1

(xi xi1 )

inf

n
X
f (x) (resp. S(f, ) =
(xi xi1 )

x[xi1 ,xi ]

i=1

sup

f (x)).

x[xi1 ,xi ]

Proposition B.124 REPRENDRE Les ensembles {s(f, )}Sa,b et {S(f, )}Sa,b admettent respectivement une borne suprieure et une borne infrieure.
Dmonstration.

Si et sont deux subdivisions de [a, b] telles que , alors


s(f, ) s(f, ) et S(f, ) S(f, ).

17. Jean Gaston Darboux (14 aot 1842 - 23 fvrier 1917) tait un mathmaticien franais. Ses travaux concernrent
l'analyse et la gomtrie direntielle.

491

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Si et sont deux subdivisions quelconques de [a, b], on a


s(f, ) S(f, )


On en dduit une autre dnition de l'intgrale au sens de Riemann : une fonction f est dite intgrable
au sens de Riemann sur le segment [a, b] si elle est dnie et borne sur [a, b] et si

sup s(f, ) = inf S(f, ).


Sa,b

Sa,b

Cette valeur commune est l'intgrale de f sur l'intervalle [a, b], note

f (x) dx.

REPRENDRE L'ide dans la dnition des fonctions intgrables est que l'encadrement entre les
sommes de Darboux infrieures et les sommes de Darboux suprieures peut tre rendu aussi prcis que
l'on veut, dterminant ainsi un rel unique. Il est commode d'utiliser le critre d'intgrabilit suivant.
On obtient alors la version suivante du critre de la proposition ref.

Proposition B.125 ( critre de Darboux ) Pour qu'une fonction relle f dnie et borne sur

[a, b] soit intgrable au sens de Riemann sur [a, b], il faut et il sut que, pour tout rel > 0, il existe
une subdivision de [a, b] telle que S(f, ) s(f, ) < .

Dmonstration. REPRENDRE Supposons f intgrable et donnons nous > 0. D'aprs la dnition de


Rb
borne suprieure, il existe une subdivision Y de [a, b] telle que s(f, Y ) > a f (x) dx /2. De mme, il existe
Rb
une subdivision Z telle que S(f, Z) < a f (x) dx + /2. En posant X = Y Z , on obtient S(f, X) s(f, X)
S(f, Z) s(f, Y ) < .
Rciproquement, supposons le critre vri. Pour tout > 0, on peut donc trouver une subdivision X telle
que S(f, X) s(f, X) < , et donc comme s(f, X) s(f ) S(f ) S(f, X) on a S(f ) s(f ) < . Comme ceci
doit avoir lieu pour tout > 0, c'est que s(f ) = S(f ) et donc que f est intgrable sur [a, b].


sommes de Riemann ?
Terminons en donnant quelques proprits de l'intgrale de Riemann.

Proposition B.126 On a les proprits suivantes.


1. L'ensemble des fonction intgrables au sens de Riemann sur [a, b] est un espace vectoriel.
2. L'intgrale au sens de Riemann est une forme linaire positive.


Dmonstration.

B.4.2

Classes de fonctions intgrables *

Caractriser les fonctions intgrables au sens de Riemann n'est pas chose aise, c'est d'ailleurs dans
le cadre d'une thorie de l'intgration plus  aboutie , due Lebesgue, que l'on peut le faire. Nous nous
contenterons ici de d'indiquer deux exemples lmentaires de classes de fonctions intgrables.

Proposition B.127 Les fonctions monotones sur [a, b] sont intgrables au sens de Riemann.
Dmonstration. REPRENDRE On va traiter le cas de f croissante. Tout d'abord, f est borne sur [a, b]
puisque pour tout x [a, b], on a f (a) f (x) f (b). Soit sigman une subdivision rgulire. Puisque f est
croissante, la borne suprieure (respectivement infrieure) de f sur [ai1 , ai ] est f (ai ) (resp. f (ai1 )). On a donc

s(f, n ) =

n
n
X
X
ba
ba
f (ai1 ), S(f, n ) =
f (ai ).
n
n
i=1
i=1

Ceci donne S(f, n ) s(f, n ) = (f (b) f (a))(b a)/n. Si on se donne > 0, alors en choisissant l'entier
n > /(f (b) f (a))(b a), on obtient S(f, n ) s(f, n ) < . Le critre d'intgrabilit est bien vri.


Proposition B.128 Les fonctions continues sur [a, b] sont intgrables au sens de Riemann.
492

B.4. INTGRALES *
Dmonstration. REPRENDRE On sait dj que si f est continue sur [a, b], elle est borne sur [a, b]. On sait
aussi par le thorme de Heine que f est uniformment continue. Donc, quand on se donne > 0, il existe > 0
tel que, pour tous x, y de [a, b], si |x y| < alors |f (x) f (y)| < /(b a). Choisissons un entier n > (b a)/ .
Sur chaque segment [ai1 , ai ] dcoup par la subdivision n , la fonction f atteint sa borne infrieure mi et sa
borne suprieure Mi : on a mi = f (xi ) et Mi = f (yi ), et comme xi et yi appartiennent tous les deux l'intervalle
[ai1 , ai ] de longueur (b a)/n < , on doit avoir Mi mi < /(b a). Donc

S(f, n ) s(f, n ) =

n
n
X
X
ba

(Mi mi )
<
= ,
n
n
i=1
i=1

et le critre d'intgrabilit est vri.

A DEPLACER/SUPPRIMER Pour qu'une fonction soit intgrable au sens de Riemann sur R, il est
ncessaire qu'elle soit borne et support compact 18 .

B.4.3

Thorme fondamental de l'analyse et intgration par parties **

formule de Chasles 19

Thorme B.129 [ thorme fondamental de l'analyse  ] Soit f une fonction relle dnie et continue
sur [a, b]. Alors, la fonction F dnie sur [a, b] par
x

f (t) dt, x [a, b],

F (x) =
a

est drivable sur [a, b] et sa drive est f .


Si la fonction f est seulement intgrable au sens de Riemann sur [a, b] et continue en un point x0 de
[a, b], alors la fonction F est drivable en x0 et F 0 (x0 ) = f (x0 ).
Dmonstration.

a ecrire

Denition primitive

Proposition B.130 ( formule d'intgration par parties ) Soient f et g deux fonctions de classe

C 1 sur [a, b]. On alors

f 0 (x)g(x) dt + f (b)g(b) f (a)g(a).

f (x)g (x) dx =
a
Dmonstration.

B.4.4

a ecrire

Formules de la moyenne

Les rsultats qui suivent fournissent d'autres exemples de consquence du thorme des valeurs intermdiaires.

Thorme B.131 ( premire formule de la moyenne ) Soit f une fonction relle dnie et
continue sur [a, b]. Alors, il existe un rel c strictement compris entre a et b vriant

1
ba
Dmonstration.

f (t) dt = f (c).
a

La fonction f tant continue sur l'intervalle [a, b], on pose m =

inf f (x) et M =

x[a,b]

sup f (x) et on a alors


x[a,b]
b

f (t) dt M (b a).

m (b a)
a

La conclusion s'obtient grce au thorme des valeurs intermdiaires.

18. On rappelle que l'on dnit le support d'une fonction relle d'une variable relle par supp(f ) = {x R | f (x) 6= 0}.
Dire qu'une fonction est support compact signie alors qu'elle est nulle en dehors d'un ensemble born.
19. Michel Chasles (15 novembre 1793 - 18 dcembre 1880) tait un mathmaticien et historien des mathmatiques franais.
Auteur d'ouvrages de rfrence en gomtrie, il est aussi connu pour sa solution au problme d'numration de coniques
tangentes cinq coniques donnes contenues dans un plan ou un thorme de godsie physique montrant que toute fonction
harmonique peut se reprsenter par un potentiel de simple couche sur l'une quelconque de ses surfaces quipotentielles.

493

ANNEXE B. RAPPELS ET COMPLMENTS D'ANALYSE

Thorme B.132 ( premire formule de la moyenne gnralise ) Soit f une fonction relle
dnie et continue sur [a, b] et g une fonction relle dnie, continue et positive sur [a, b]. Alors, il existe
un rel c strictement compris entre a et b vriant
b

Z
a

a
Dmonstration.

g(t) dt.

f (t)g(t) dt = f (c)

La fonction f tant continue sur l'intervalle [a, b], on pose m =

inf f (x) et M =

x[a,b]

sup f (x). Par positivit de la fonction g , on obtient


x[a,b]

m g(x) f (x) g(x) M g(x), x [a, b].

En intgrant ces ingalits entre a et b, il vient


Z b
Z
m
g(t) dt
a

Z
f (t) g(t) dt M

g(t) dt.
a

Si l'intgrale de g entre a et b est nulle, le rsultat est trivialement vri. Sinon, on a


Rb
f (t) g(t) dt
m aR b
M,
g(t) dt
a
et on conclut grce au thorme des valeurs intermdiaires.

On note que, dans ce dernier thorme, on peut simplement demander ce que la fonction g soit
intgrable au sens de Riemann, plutt que continue, sur [a, b].

Thorme B.133 ( formule de la moyenne discrte ) Soit f une fonction relle dnie et continue
sur [a, b], xj , j = 0, . . . , n, n + 1 points de [a, b] et j , j = 0, . . . , n, n + 1 constantes toutes de mme
signe. Alors, il existe un rel c compris entre a et b vriant
n
X

j f (xj ) = f (c)

j .

i=0

j=0
Dmonstration.

n
X

La fonction f tant continue sur l'intervalle [a, b], on pose m =

inf f (x) et M =

x[a,b]

sup f (x) et l'on note x et x les points de [a, b] vriant f (x) = m et f (x) = M . On a alors
x[a,b]

n
X
j=0

n
X

j f (xj ) M

j=0

n
X

j .

j=0

On considre prsent, pour tout point x de [a, b], la fonction continue F (x) = f (x)
ci-dessus, on a
n
X
F (x)
j f (xj ) F (x),

Pn

j=0

j . D'aprs les ingalits

j=0

et l'on dduit du thorme des valeurs intermdiaires qu'il existe un point c, strictement compris entre x et x, tel
P
que F (c) = nj=0 j f (xj ), ce qui achve la preuve.


Rfrences
[L'H96]

G. F. A. de L'Hpital. Analyse des inniment petits, pour l'intelligence des lignes courbes. Imprimerie royale, 1696 (cf. page 487).

494

Index
quation
aux drives partielles, 239, 359
direntielle
ordinaire, 239, 241
stochastique, 325
A-stabilit, 316
algorithme
d'Aitken, 193
de Bjrk-Pereyra, 190
de Neville, 193
de Strassen, 6
de Thomas, 69, 207
dirence-quotient, 167
arrondi, 12
erreur d', 13
barrire de Dahlquist, 290, 317
bassin de convergence, 174
caractristique, 365
condition
d'entropie
d'Oleinik, 374
de Lax, 375
de CourantFriedrichsLevy, 386
de RankineHugoniot, 370
conditionnement, 20
consistance, 382
faible, 351
forte, 350
constante
de Lebesgue, 185
convergence
faible, 351
forte, 350
dation
de Hotteling, 117
de Wielandt, 118
polynomiale, 166
degr d'exactitude, 218
dirence
divise, 187, 196
nie, 47, 379
disque de Gershgorin, 112

elliptique
quation , 239
entropie mathmatique, 372
factorisation
de Cholesky, 74
LDMT , 73
LU, 56, 127, 267
QR, 76, 127
fonction spline, 203
formule
d'EulerMaclaurin, 234
de Gelfand, 448
de quadrature, 217
de GaussLegendre, 232, 267
de GaussLobatto, 233, 268
de GaussRadau, 233, 268
de NewtonCotes, 219
gnrateur de nombres pseudo-alatoires, 345
hyperbolique
quation , 239
systme d'quations , 359
hypothse localisante, 262
ingalit d'entropie, 373
interpolation
de Birkho, 202
de Hermite, 201
de Lagrange, 184
lemme
de Grnwall, 245
loi de conservation, 359, 363
mthode
d'AdamsBashforth, 274
d'AdamsMoulton, 275
d'Euler, 258
d'EulerMaruyama, 350
de Bairstow, 171
de Bareiss, 70
de Bernoulli, 167
de Brent, 161
de Crout, 62
de dichotomie, 139
495

INDEX

de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de

Doolittle, 62
GaussSeidel, 95
Godunov, 394
Gre, 168
Heun, 264
Horner, 163
Jacobi, 94, 121
Jacobi cyclique, 125
la fausse position, 140
la puissance, 115
la puissance inverse, 118
la scante, 158
Laguerre, 169
Lanczos, 119
LaxFriedrichs, 388
LaxWendro, 388
Milstein, 353
Monte-Carlo, 343
Muller, 160
Newmark, 393
NewtonHorner, 166
NewtonMaehly, 167
NewtonRaphson, 150, 266, 272
NewtonSchulz, 174
Nystrm, 276
point xe, 143
Richardson, 102
Romberg, 233
RungeKutta, 261
embote, 307
explicite, 262
implicite, 265
stochastique, 354
de Steensen, 155
des caractristiques, 366
LR, 127, 167
QR, 126
matrice
bande, 68
creuse, 72
d'incidence, 202
d'itration, 89
de dilatation, 57
de Givens, 119
de Gram, 27
de Hessenberg, 127
de Hilbert, 27
de Householder, 79
de permutation, 57
de Toeplitz, 70
de transvection, 57
de Vandermonde, 28, 184
tridiagonale, 68, 98
modle

de BlackScholes, 338
de Vasicek, 343
nombre virgule ottante, 10
norme
de Frobenius, 120, 443
norme IEEE 754, 17
noyau de Peano, 225
onde
de choc, 377
de rarfaction, 377
parabolique
quation , 239
polynme
d'interpolation de Lagrange, 184
de Bernstein, 181
prcision machine, 13
problme
de Cauchy, 244, 363
de Riemann, 376
procd
2 d'Aitken, 155
d'extrapolation de Richardson, 233, 306
d'orthonormalisation de GramSchmidt, 76
rgle
de Simpson, 222
du point milieu, 221
du trapze, 221, 233
schma
FTCS, 380
solution
classique, 365
entropique, 374
faible, 367
suite
de Sturm, 163
gomtrique, 155
tableau de Butcher, 262
thorme
d'qui-oscillation de Chebyshev, 182
d'quivalence
de Dahlquist, 292
de Lax, 386
d'approximation de Weierstrass, 180
d'OstrowskiReich, 97
de CauchyLipschitz, 244
de Gershgorin, 112, 114
de HouseholderJohn, 92
de LaxRichtmyer, 386
de PicardLindelf, 244
496

Das könnte Ihnen auch gefallen