Sie sind auf Seite 1von 39

Introduction aux Méthodes de

Monte-Carlo

L AURE E LIE B ERNARD L APEYRE

Septembre 2001
Table des matières

1 Introduction aux méthodes de monte-Carlo 5


1.1 Simulation de lois uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Simulation de lois non uniformes . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Lois particulières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Lois vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Méthode de composition ou de mélange . . . . . . . . . . . . . . . . . . . . . 10
1.6 Méthode de rejet : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Techniques de réduction de variance 15


2.1 Échantillonnage préférentiel ou fonction d’importance . . . . . . . . . . . . . 15
2.2 Variables de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Variables antithétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Méthode de stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Valeur moyenne ou conditionnement . . . . . . . . . . . . . . . . . . . . . . . 19
2.6 Suites à discrépance faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.7 Commentaires bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Méthodes de Monte-Carlo et Chaînes de Markov 29


3.1 Chaîne de Markov et ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Algorithme de Hastings-Metropolis . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4 Travaux dirigés 39
4.1 Travail dirigé 1 : Simulation en Scilab . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Travail dirigé 2 : Méthodes de réduction de variance . . . . . . . . . . . . . . . 44
4.3 Travail dirigé 3 : Méthodes de Monte-Carlo par chaîne de Markov . . . . . . . 48
4.4 Un exemple simple d’utilisation de scilab . . . . . . . . . . . . . . . . . . . . 51
4.5 Produits de transformations aléatoires . . . . . . . . . . . . . . . . . . . . . . 54

3
Chapitre 1

Introduction aux méthodes de


monte-Carlo

De manière générale, la simulation permet d’étudier et expérimenter un système donné dont


on connaît les interactions complexes, de mesurer les effets de certains changements dans les
intéractions sur le comportement du système, d’expérimenter de nouvelle situations.
Lorsque dans la simulation intervient un élément aléatoire, on parle de simulation aléatoire.
Les exemples d’application sont très variés, citons par exemple :
– la simulation de files d’attente, de réseaux,
– la simulation de portefeuilles d’actifs en finance,
– la comparaison d’estimateurs en statistique,
– la recherche d’état stationnaire en physique, en économie.
Remarquons de plus que si l’on cherche une représentation fidèle des phénomènes observés,
on est rapidement confronté à des difficultés dues aux calculs non explicites. Les techniques de
simulation vont nous permettre d’approcher numériquement ces calculs. Nous allons dévelop-
per ici les méthodes de Monte-Carlo qui ont pour essence l’utilisation d’expériences répétées
pour évaluer une quantité, résoudre un système déterministe. Ces méthodes peuvent servir pour :
– le calcul d’intégrale,
– la résolution d’équations aux dérivées partielles,
– la résolution de système linéaire,
– la résolution de problèmes d’optimisation (algorithme du recuit simulé).
Considérons par exemple le problème de l’intégration numérique. Il s’agit d’approcher
Z1
I= g(x)dx.
0

Diverses méthodes classiques de type déterministe existent : rectangles,trapèzes, Simpson et I


est approximé par une somme de la forme
n
X n
X
wi g(xi ) avec wi = 1 et (xi )0≤i≤n bien choisis dans [0, 1].
i=0 i=0

La méthode de Monte-Carlo consiste à écrire cette intégrale sous la forme

I = E[g(U)]

où U est une variable aléatoire suivant une loi uniforme sur [0, 1] et à utiliser la loi des grands
nombres : si (Ui )i∈N est une suite de variables aléatoires indépendantes et de loi uniforme sur

5
6 PROCESSUS ET ESTIMATION : MONTE-CARLO

[0, 1], alors


n
1X
g(Ui ) → E[g(U)] p.s.
n i=1
En d’autres termes, si u1 , u2 , u3 , . . . , un sont des nombres tirés au hasard dans [0, 1],
Z1
1
(g(u1 ) + g(u2 ) + · · · + g(un )) est une approximation de g(x)dx.
n 0

Prenons l’exemple plus général d’une intégrale du type


Z
I= g(x)f(x)dx
Rd
R
où f(x) ≥ 0 et Rd f(x)dx = 1. Alors I = E[g(X)] où X est une variable aléatoire de densité f
par rapport à la mesure de Lebesgue sur Rd . Toujours par la loi des grands nombres, si (Xi )i∈N
est une suite de variables indépendantes sur Rd de loi de densité f,
n
1X
g(Xi ) → E[g(X)] p.s.
n i=1

et donc si (x1 , x2 , . . . , xn ) est une réalisation de (X1 , X2 , . . . , Xn ), n1 (g(x1 )+g(x2 )+· · ·+g(xn ))
sera une approximation de I.
Une question naturelle est la vitesse de convergence dans la méthode de Monte-Carlo.
D’après le Théorème central limite, si σ2 Var[g(X1 ],
√ " X n
#
n 1
g(Xi ) − E(g(X1 )) converge en loi vert G,
σ n i=1

où G est une variable aléatoire gaussienne


Pn centrée de variance 1. Par conséquent pour n suffi-
1
samment grand, l’écart ²n = n i=1 g(Xi ) − E[g(X1 )] satisfait

n ²n
P( ≤ 1, 96) ∼ P(|G| ≤ 1, 96) = 0, 95
σ
et donc |²n | est avec une quasi-certitude de 95% inférieur à σ 1;96
√ . Par suite un intervalle de
n
Pn P
confiance pour E[g(X1 )] au niveau 0, 95 est [ n i=1 g(Xi ) − σ √n , n1 ni=1 g(Xi ) + σ 1;96
1 1;96 √ ].
n
En général σ ne sera pas calculable et on l’approximera par une méthode de Monte-Carlo
puisque
n n
1X ¡1 X ¢2
g(Xi )2 − g(Xi ) → σ2 p.s.
n i=1 n i=1
Ce calcul sera mené en même temps que celui de l’espérance.
La vitesse de convergence est donc de l’ordre de √1n . Cette vitesse peut paraître faible en
petite dimension, mais présente l’avantage
– d’être insensible à la dimension,
– de ne pas dépendre de la régularité de la fonction g à intégrer, pourvu que g(X1 ) soit de
carré intégrable.
On remarque cependant le rôle important joué par l’écart-type σ dans la qualité de l’approxi-
mation et on va chercher des méthodes pour réduire cet écart-type.
Il se pose donc les questions suivantes :
Ch.1 Introduction aux méthodes de monte-Carlo 7

– Comment simuler des variables aléatoires indépendantes de loi uniforme ou plus généra-
lement de loi donnée ?
– Comment peut-on réduire la variance σ2 pour accélérer la convergence ?
Ces questions seront étudiées dans le premier chapitre. Puis nous aborderons dans le chapitre
suivant des méthodes plus générales qui font appel aux chaînes de Markov.

1.1 Simulation de lois uniformes


On admet que l’on dispose d’un générateur de nombres aléatoires qui est capable
de simuler une suite de nombres au hasard compris entre 0 et 1. En d’autres termes
cette suite représentera une réalisation d’une suite de variables aléatoires U1 , U2 , . . . , Un
indépendantes et de loi uniforme sur [0, 1]. Le générateur qu’il soit congruentiel, à
déplacement de registre ou mixte aura été testé par des méthodes statistiques. On renvoie aux
transparents pour ce paragraphe.

1.2 Simulation de lois non uniformes


Méthode de la fonction de répartition On suppose que X
est une variable aléatoire réelle de fonction de répartition
F(t) = P(X ≤ t), alors F est une fonction croissante continue à droite. On définit la
fonction pseudo-inverse de F sur [0, 1] par

F-1 (u) = inf{y ∈ R , F(y) ≥ u}.

Cette fonction pseudo-inverse est bien sûr la fonction réciproque de F lorsque F est bijective.
On a le lemme suivant :
Lemme 1.2.1 Pour tout u ∈ [0, 1] et x ∈ R,

F-1 (u) ≤ x ⇐⇒ u ≤ F(x)

Démonstration : L’implication ⇐ est triviale. Pour le sens direct, on remarque que si F-1 (u) ≤
x, alors par croissance de F pour tout y > x, on a F(y) ≥ u. Comme F est continue à droite, on
en déduit F(x) ≥ u.

Proposition 1.2.2 Si U suit une loi uniforme sur [0, 1], la variable aléatoire F-1 (U) suit une
loi de fonction de répartition F.

Démonstration : D’après le lemme 1.2.1, on a pour tout x ∈ R,

P[F-1 (U) ≤ x] = P[U ≤ F(x)] = F(x).

Par conséquent si F est explicite, on calculera F-1 et pour générer un échantillon


X1 , X2 , . . . , Xn de variables aléatoires indépendantes et de même loi de fonction de
répartition F, on générera un échantillon U1 , U2 , . . . , Un de variables de loi uniforme sur [0, 1]
et on posera Xi = F-1 (Ui ).
8 PROCESSUS ET ESTIMATION : MONTE-CARLO

Variable aléatoire exponentielle Si X suit une loi exponentielle de paramètre λ de densité

f(x) = λ exp(−λx)

sur R+ , sa fonction de répartition vaut pour x ≥ 0, F(x) = 1 − exp(−λx) et donc si u ∈ [0, 1],

− log(1 − u)
F-1 (u) = .
λ

- log(1-U)
Soit U une v.a. de loi uniforme sur [0, 1]. La variable X a donc même loi que 
et aussi
par symétrie que - log

U
.

Variable aléatoire prenant un nombre fini de valeurs Supposons que X soit une v.a. prenant
un nombre fini de valeurs de loi

P(X = xi ) = pi 0 ≤ i ≤ n.

Alors
n
X
-1
F (u) = x0 1u≤p0 + xi 1p0 +p1 +···+pi-1 <u≤p0 +p1 +···+pi .
i=1

Pour simuler X, on procédera de la manière suivante : on tire u au hasard dans [0, 1] et on pose
X = xk si, p0 + p1 + · · · + pk-1 < u ≤ p0 + p1 + · · · + pk .
Par exemple si X est une v.a. de Bernouilli prenant la valeur 1 avec la probabilité p et la
valeur 0 sinon, on posera X = 1 si u ≤ p et X = 0 si p < u ≤ 1.
La méthode ci-dessus s’étend bien sûr aux lois discrètes.

1.3 Lois particulières


– Loi binomiale B(N, p) : P(X = k) = CkN pk (1 − p)N-k . La v.a. X peut s’écrire comme
somme de N v.a. de Bernouilli indépendantes prenant la valeur 1 avec la probabilité p.
Une méthode possible consiste à tirer N nombres au hasard dans [0, 1] et à poser X = k
si exactement k nombres sont tombés dans l’intervalle [0, p].
Ch.1 Introduction aux méthodes de monte-Carlo 9

– Loi géométrique : P(X = k) = p(1 − p)k-1 pour k ∈ N∗ .


On simule des nombres au hasrd dans [0, 1], et on pose X = k si le kème nombre tiré est
le premier à tomber dans [0, p].
– Loi gaussienne : La fonction de répartition n’est pas explicite ; on peut utiliser des ap-
proximations de cette fonction, mais on risque d’accumuler les erreurs.
Une méthode classique directe dite de Box-Muller repose sur la propriété suivante : si θ suit
une loi uniforme sur [0, 2π], si R2 suit une loi exponentielle de paramètre 1/2 avec θ et R2 sont
indépendantes, alors X = R cos θ et Y = R sin θ sont deux v.a. indépendantes de loi normale
centrée de variance 1.
Par conséquent si U1 et U2 sont indépendantes et de loi uniforme sur [0, 1], le couple
1 1
((−2 log U1 ) 2 cos(2πU2 ), (−2 log U1 ) 2 sin(2πU2 )) est formé de variables gaussiennes indé-
pendantes centrées de variance 1. La simulation de deux v.a. indépendantes de loi uniforme
conduit à la simulation de deux v.a. gaussiennes standard indépendantes.
Pour simuler un v.a. gaussienne de moyenne m et de variance σ2 , il suffit de poser X =
m + σG, où G suit une loi normale centrée réduite.

Loi de Poisson de paramètre λ

λn
P(X = n) = exp(−λ) .
n

Si (Ti )i≥1 est une suite de variables exponentielles de paramètre λ, alors on peut montrer que la
v.a.
X1
X= n 1fT1 +T2 +···+Tn ≤1≤T1 +T2 +···+Tn+1 g
n=1

suit une loi de Poisson de paramètre λ. Sachant que Ti peut se mettre sous la forme − log Ui /λ
avec Ui de loi uniforme sur [0, 1], on obtient
1
X
X= n 1fU1 U2 :::Un ≤exp -≤U1 +U2 +:::Un+1 g .
n=1

Pour simuler X, on simule une suite (ui )i≥1 de nombres au hasard dans [0, 1] , on cherche le
premier instant k où u1 u2 . . . uk < exp −λ et on pose X = k − 1.

1.4 Lois vectorielles


– Si les coordonnées sont des v.a. réelles indépendantes, on se ramène au cas univariré en
simulant successivement les coordonnées de manière indépendante.
– Sinon on peut effectuer des conditionnements successifs : par exemple soit (X, Y) un
couple de v.a. de densité f(x, y) par rapport à la mesure de Lebesgue sur R2 ; on peut
écrire f(x, y) = fX (x) f(y/x) où fX est la densité de X et où f(./x) est la densité condi-
tionnelle de Y sachant {X = x}. Pour générer (X, Y), on simule X selon la loi de densité
fX ; si X = x, on simule Y selon la loi de densité f(y/x) et indépendamment de X. Ce
procédé peut être itéré pour générer des vecteurs d-dimensionnels.
– La formule de changement de variables est aussi un outil utile pour effectuer des trans-
formations.
10 PROCESSUS ET ESTIMATION : MONTE-CARLO

1.5 Méthode de composition ou de mélange


On suppose que la Rv.a. X à simuler a une densité fX (x)
– soit de la forme Pg(x, y)dy où g est une fonction positive,
– soit de la forme i∈I pi fi (x) où pi ≥ 0 pour tout i ∈ I. RR
Dans le premier cas, on remarque que puisque fX est une densité, g(x, y)dxdy = 1 et donc
que g est la densité d’un couple dont la première marginale est X. L’idée est donc de grossir
l’espace, de générer un couple (X, Y) de densité g et de retrouver par projection X. On pourra
utiliserR la méthode proposée au paragraphe précédent en commencant par générer Y de densité
fY (y) g(x, y) dy, puis en générant si Y = y, une v.a. X indépendante de Y et ayant pour
densité la densité conditionnelle f(x/y) = gf(Yx;y
(y)
)
.
R1
Considérons par exemple la densité définie sur R+ par fX (x)R = n 1 y-n exp(−xy) dy.
Alors g(x, y) = n 1y∈[1;1[ 1x∈[0;1[ y-n exp(−xy) et fY (y) = g(x, y)dx = 1y∈[1;1[ ynn+1 .
La méthode de la fonction de répartition permet de prouver que Y = U1=n où U suit une loi
uniforme sur [0, 1]. Remarquant que la loi conditionnelle f(x/y) est une loi exponentielle de
paramètre y, on conclut que pour générer X :
– on génère Y = U1=n ,
– puis si Y = y, on génère X = − y1 log V où U et V sont deux variables indépendantes de
loi uniforme sur [0, 1]. P
Dans le cas où la v.a. X à simuler a une densité de la forme i∈I pi fi (x) où pi ≥ 0 pour
tout i ∈ I, alors X est à nouveau la première marginale d’un couple (X, Y) dont la loi est définie
de la manière suivante : Y a une loi discrète : ∀i ∈ I, P(Y = i) = pi ; et la loi conditionnelle
de X sachant que {Y = i} a pour densité fi . Pour générer X, on procède comme ci-dessus en
commençant par générer le couple (X, Y) ; cette méthode est intéressante si les lois de densité
fi sont faciles à simuler.

1.6 Méthode de rejet :


On veut simuler une v.a. de loi de densité f (par exemple par rapport à lemesure de Le-
besgues sur Rd ), et on suppose qu’il exixte une loi de densité g simulable facilement telle que
∀x ∈ Rd , f(x) ≤ kg(x)
f(x)
où k est une constante réelle. On pose α(x) = kg(x)
.
Proposition 1.6.1 Générons un couple (X1 , U1 ) de v.a. indépendantes telles que Y1 une loi de
densité g et U1 suive une loi uniforme sur [0, 1]. Si U1 ≤ α(X1 ), posons X = X1 .
Sinon rejetons X1 et recommençons en générant une suite (Xn , Un )n≥2 de v.a.
indépendantes de même loi que (X1 , U1 ) jusqu’à l’instant p où Up ≤ α(Xp ). Posons alors
X = Xp .
La v.a. X ainsi simulée a pour densité f.
Remarque 1.6.2 1) La probabilité d’acceptation à l’instant 1 de la v.a. X1 vaut
Z Z Z
1 1
p1 = P(U1 ≤ α(X1 )) = P(U1 ≤ α(x)) PX1 (dx) = a(x)g(x)dx = f(x)dx =
k k
par indépendance de U1 et X1 .
Si on ne veut pas trop de rejets lors de la simulation de X, il faut que cette probabilité
d’acceptation p1 soit la plus grande possible et donc que k soit le plus petit possible. Comme f
et g sont des densités et que f ≤ kg, le réel k est en fait nécessairement ≥ 1.
Ch.1 Introduction aux méthodes de monte-Carlo 11

f(x)
Remarquons de plus que les rejets seront limités si k g(x)
est proche de 1 et donc si la
fonction g a une allure similaire à celle de f.

2) L’algorithme ci-dessus est encore valable si la v.a. X à simuler a une densité


f par rapport à une mesure positive µ quelconque majorée par kg où g est la densité par rapport
à µ d’une variable Y facile à simuler. Ceci se traduit par
Z Z
P(X ∈ A) = f(x)µ(dx) ≤ kg(x)µ(dx) = kP(Y ∈ A).
A A

Si la v.a. X a une loi portée par un ensemble discret E, on peut choisir pour µ la mesure de
comptage sur E et la méthode de rejet est aussi valable pour des lois discrètes, f(x) étant dans
ce cas égal à P(X = x).

Démonstration : Remarquons tout d’abord qu’au bout d’un nombre d’essais fini, la relation
Up ≤ α(Xp ) sera vérifiée ; en effet
\ \
P(∀p ∈ N∗ , X 6= Xp ) = lim P( X 6= Xp ) = lim P( Up ≤ α(Xp )),
N!1 N!1
p≤N p≤N

puis

1
P(∀p ∈ N∗ , X 6= Xp ) = lim P(U1 ≤ α(X1 ))N = lim (p1 )N = lim ( )N = 0,
N!1 N!1 N!1 k

puisque les v.a. (Xp , Up ) sont indépendantes et de même loi. Par conséquent
X
P[X ∈ A] = P[X = Xn , X ∈ A]
n∈N∗
X \ \ \
= P[ Up ≤ α(Xp ) Un ≤ α(Xn ) Xn ∈ A]
n∈N∗ p≤n-1
X
= (1 − p1 )n-1 P[U1 ≤ α(X1 ) ∩ X1 ∈ A]
n∈N∗
= p1 P[U1 ≤ α(X1 ) ∩ X1 ∈ A]
= P[X1 ∈ A/{U1 ≤ α(X1 )}].

La loi de de X est donc la loi de X1 conditionnée par l’ensemble d’acceptation

{U1 ≤ α(X1 )}.

Elle satisfait par indépendance de X1 et U1 ,


Z Z Z
1
P [ X ∈ A ] = p1 P(U1 ≤ α(x)) PX1 (dx) = a(x)g(x)µ(dx) = f(x)dx.
A k A A
12 PROCESSUS ET ESTIMATION : MONTE-CARLO

1.7 Exercices
¡ ¢
Exercice 1 Soit X une variable aléatoire telle que E X2 < +∞. Soit (X1 , . . . , Xn ) n-tirages
“Monte–Carlo” indépendants selon la loi de X. On approxime E(X) par :
1
(X1 + · · · + Xn ) .
n
Expliquer comment on peut construire un intervalle de confiance à 95% pour notre estimation.

Exercice 2 Soit X une variable aléatoire de loi admettant comme fonction de répartition :
¡ ¢
F(x) = 1 − exp −αx , pour x > 0,

0 sinon. Expliciter la densité de la loi de X et proposer une méthode de simulation de cette loi.

Exercice 3 Soit X une loi géométrique de paramètre p :

P (X = k) = p (1 − p)k-1 , k ≥ 1.

1. Rappeler la méthode classique de simulation à l’aide de tirages à pile ou face.


2. Donner une autre méthode de simulation de cette loi utilisant la fonction de répartition.
3. Comment comparer l’efficacité des 2 méthodes ?

Exercice 4 Soit X et Y deux variables aléatoires indépendantes suivant des lois gaussiennes
centrées réduites.
1. Soit (R, Θ) les coordonnées polaires du point (X, Y). Montrer que R et Θ sont indépen-
dantes et calculer leur loi.
2. Montrer que si U1 et U2 sont deux variables aléatoires indépendantes suivant une loi
uniforme sur [0, 1], alors le couple (X1 , X2 ) avec :
p p
X1 = −2 log(U1 ) cos(2πU2 ) et X2 = −2 log(U1 ) sin(2πU2 ),

est un couple de variables aléatoires gaussiennes centrées réduites indépendantes.


3. On pose V1 = 2U1 − 1, V2 = 2U2 − 1 et R2 = V12 + V22 . On accepte ces tirages sous
réserve que R < 1 et l’on fait de nouveau tirage si R ≥ 1. Quelle est la loi du couple
(V1 , V2 ) dans ces conditions (après rejet) ? En déduire que si l’on pose :
r r
−2 log(R2 ) −2 log(R2 )
X1 = V 1 et X 2 = V2 ,
R2 R2
X1 et X2 sont deux variables aléatoires gaussiennes centrées réduites indépendantes.
4. Proposer un algorithme de rejet permettant de simuler une variable aléatoire gaussienne
à partir de la loi double exponentielle de densité (λ/2) exp (−λ|x|).

Exercice 5 Soit X une variable aléatoire réelle de fonction de répartition F. On supposera cette
fonction de répartition inversible et l’on note F-1 son inverse.
1. Comment simuler la loi de X conditionnellement à X > m à l’aide d’une méthode de
rejet ? Évaluer l’efficacité de la méthode ? Que se passe t’il, en particulier, si m devient
très grand ?
Ch.1 Introduction aux méthodes de monte-Carlo 13

2. On pose Z, si U est une variable aléatoire uniforme sur [0, 1] :

Z = F-1 (F(m) + (1 − F(m))U) .

Calculer la fonction de répartition de Z et en déduire une méthode de simulation de X


conditionnellement à X > m. Comparer l’efficacité de cette méthode à la méthode du
rejet.
3. Généraliser la méthode précédente au cas où l’on cherche à simuler X conditionnellement
à a < X < b.
4. On suppose maintenant que l’on cherche à simuler X, avec loi normale de moyenne µ et
de variance σ2 , conditionnellement à X > m. Montrer que l’on peut se ramener au cas
µ = 0, σ2 = 1 et m arbitraire.
5. Proposer une méthode du rejet basée sur la loi exponentielle translatée de densité donnée
par θe-(x-m) 1{x > m} . Comment choisir le paramètre θ ?
14 PROCESSUS ET ESTIMATION : MONTE-CARLO
Chapitre 2

Techniques de réduction de variance

Nous venons
√ de voir que la vitesse de convergence de la méthode de Monte-Carlo est de
l’ordre de σ/ n. Pour améliorer cette méthode il existe de nombreuses techniques, dites de
réduction de variance, qui cherchent à diminuer la valeur de σ2 . L’idée générale est de donner
une autre représentation sous forme d’espérance de la quantité à calculer :

E (X) = E (Y) ,

en cherchant à diminuer la variance. Nous allons passer en revue quelques unes de ces méthodes
qui sont applicables dans pratiquement tous les cas de simulations.

2.1 Échantillonnage préférentiel ou fonction d’importance


Supposons que l’on cherche à calculer :

E(g(X))

et que la loi de X soit f(x)dx (sur R pour fixer les idées). La quantité que l’on cherche à évaluer
vaut donc : Z
E(g(X)) = g(x)f(x)dx.
R
R
Soit maintenant, f̃ la densité d’une autre loi telle que f̃ > 0 et R f̃(x)dx = 1, il est clair que
E(g(X)) peut aussi s’écrire :
Z
g(x)f(x)
E(g(X)) = f̃(x)dx.
R f̃(x)
³ ´
Cela signifie que E(g(X)) = E g(Yf̃()Yf()Y ) , si Y suit la loi f̃(x)dx sous P. On a donc une autre
méthode de calcul de E(g(X)) en utilisant n tirages de Y, Y1 , . . . , Yn et en approximant E(g(X))
par : µ ¶
1 g(Y1 )f(Y1 ) g(Yn )f(Yn )
+ ··· + .
n f̃(Y1 ) f̃(Yn )
Si l’on pose Z = g(Y)f(Y)/f̃(Y), on aura amélioré l’algorithme si Var(Z) < Var(g(X)). Il est
facile de calculer la variance de Z :
Z 2
2 2 g (x)f2 (x)
Var(Z) = E(Z ) − E(Z) = dx − E(g(X))2 .
R f̃(x)

15
16 PROCESSUS ET ESTIMATION : MONTE-CARLO

Si g(x) > 0, on peut vérifier que, en prenant f̃(x) = (g(x)f(x)) / (E(g(X))) on annule Var(Z) !
Il ne faut pas trop donner d’importance à ce résultat car il repose sur le fait que l’on connaît
E(g(X)), et c’est justement la quantité que l’on cherche à calculer.
Cela permet cependant de justifier l’heuristique suivante
R : prendre f̃(x) aussi proche que
possible de |g(x)f(x)| puis la normaliser (diviser par f̃(x)dx) de façon à obtenir une den-
sité dont la loi est facilement simulable. Évidemment les contraintes que l’on s’impose sont
largement contradictoires et rendent cet exercice souvent délicat.
Donnons un exemple simple pour fixer les idées. Supposons que l’on cherche à calculer :
Z1
cos (πx/2) dx.
0

Cela correspond à g(x) = cos(x) et f(x) = 1{[0, 1]} (x). On peut alors approcher le cos par
un polynôme du second degré. Comme le cos est pair, vaut 0 en x = 1 et 1 en x = 0, il est
naturel de prendre f̃(x) de la forme λ(1 − x2 ). En normalisant on obtient, f̃(x) = (1 − x2 )/3.
En calculant les variances, on peut constater que cette méthode a réduit la variance d’un facteur
100.
Montrons sur le cas du calcul d’un “put” comment l’on peut appliquer cette méthode. Plus
précisément, nous allons chercher à calculer :
³¡ ¢ ´
P = E 1 − e G + .

La fonction ex − 1 est proche de x lorsque x n’est pas trop grand. Cela suggère de mettre P sous
la forme : Z ¡ ¢
1 − e x + 2 dx
P= β|x|e-x =2 √ .
R β|x| 2π
√ √
Le changement de variable, x = y sur R et x = − y sur R- , permet alors d’écrire P sous
+

la forme : Z +1 ¡ √ ¢ ¡ √ ¢
1 − e y + + 1 − e- y + -y=2 dy
P= √ √ e .
0 2π y 2
Si l’on note que e-x=2 dx/2 est la loi d’une variable aléatoire Y exponentielle de paramètre 1/2.
On peut encore écrire :
³ √ ´ ³ √ ´ 
Y - Y
1−e + 1−e
 + +
P = E √ √ ,
2π Y

On peut alors comparer avec une méthode directe et on constate une amélioration sensible de la
précision du calcul : pour 10000 tirages l’erreur relative passe de 6% dans la méthode initiale à
1% grâce à cette méthode d’échantillonnage préférentiel.

2.2 Variables de contrôle


Dans sa version la plus simple, il s’agit d’écrire E(f(X)) sous la forme :
E(f(X)) = E(f(X) − h(X)) + E(h(X)),
avec E(h(X)) qui peut se calculer explicitement et Var(f(X) − h(X)) sensiblement plus petit
que Var(f(X)). On utilise alors une méthode de Monte-Carlo pour évaluer E(f(X) − h(X)) et
le calcul direct pour E(h(X)).
Ch.2 Techniques de réduction de variance 17

R1
Commençons par donner un exemple simple. Supposons que l’on veuille calculer 0
ex dx.
Comme au voisinage de 0, ex ≈ 1 + x, on peut écrire :
Z1 Z1
x 3
e dx = (ex − 1 − x)dx + .
0 0 2
Il est facile de vérifier que la variance de la méthode diminue alors sensiblement.
Donnons maintenant un autre exemple, en considérant le problème du calcul du prix du
“call”. Il est facile de vérifier que les prix du “put” et du “call” vérifient la relation :
¡ ¢ 2
C − P = E e G − K = e =2 − K.
2
L’idée est alors d’écrire C = P + e =2 − K et de réaliser une méthode de Monte-Carlo pour P.
On a déjà vu que l’erreur de la méthode est alors très sensiblement inférieure.

2.3 Variables antithétiques


Supposons que l’on cherche à calculer :
Z1
I= f(x)dx.
0

Comme x → 1 − x laisse invariante la mesure dx, on a aussi :


Z
1 1
I= (f(x) + f(1 − x))dx.
2 0
On peut donc calculer I de la façon suivante. On tire n variables aléatoires U1 , . . . , Un suivants
une loi uniforme sur [0, 1] et indépendantes, et on approxime I par :
¡ ¢
I2n = n1 12 (f(U1 ) + f(1 − U1 )) + · · · + 21 (f(Un ) + f(1 − Un ))
1
= 2n (f(U1 ) + f(1 − U1 ) + · · · + f(Un ) + f(1 − Un )) .

Lorsque l’on compare cette méthode à une méthode de Monte-Carlo directe à l’issue de 2n
tirages, on peut montrer que si la fonction f est continue monotone la qualité de l’approximation
s’améliore.
On peut généraliser ce genre d’idée en dimension supérieure et à d’autres transformations
préservant la loi de la variable aléatoire. Par exemple, si l’on cherche à calculer le prix d’un
“put”, on peut utiliser le fait que la loi de G est identique à celle de −G et réduire la variance
d’un coefficient proche de 2.

2.4 Méthode de stratification


C’est une méthode bien connue des statisticiens et souvent utilisée dans les sondages (voir
[Coc77]). Supposons que l’on cherche à calculer I, avec :
Z
I = E(g(X)) = g(x)f(x)dx.
Rd

où X est une variable aléatoire à valeur dans Rd suivant la loi f(x)dx.


18 PROCESSUS ET ESTIMATION : MONTE-CARLO

On se donne une partition (Di , 1 ≤ i ≤ m) de Rd . On décompose alors I de la façon


suivante :
Xm Xm

I= E(1{X ∈ D } g(X)) = E(g(X)|X ∈ Di )P(X ∈ Di ).


i
i=1 i=1

Lorsque que l’on connaît les nombres pi = P(X ∈ Di ), on peut utiliser une méthode de
Monte-Carlo pour estimer les intégrales Ii = E(g(X)|X ∈ Di ). Supposons que l’on approxime
l’intégrale Ii par Ĩi à l’aide de ni tirages indépendants, la variance de l’erreur d’approximation
2
est donnée par nii , si l’on note σ2i = Var(g(X)|X ∈ Di ). On approxime ensuite I par Ĩ avec :
m
X
Ĩ = pi Ĩi .
i=1

Les échantillons servant à obtenir les estimateurs Ĩi étant supposés indépendants on montre
facilement que la variance de l’estimateur Ĩ vaut :
m
X σ2i
p2i .
i=1
ni
Pm
Il est alors naturel de minimiser cette erreur pour un nombre total de tirages fixé i=1 ni = n.
On peut vérifier que les ni qui minimise la variance de Ĩ sont donnés par :
pi σ i
ni = n Pm .
i=1 pi σi

Le minimum de la variance de Ĩ vaut alors :


Ãm !2
1 X
pi σi .
n i=1

Il est inférieur à la variance que l’on obtiendrait avec n tirages aléatoires par la méthode de
Monte-Carlo classique. En effet, cette variance vaut :
¡ ¢
Var (g(X)) = E g(X)2 − E (g(X))2
m
Ãm !2
X ¡ 2 ¢ X
= pi E g (X)|X ∈ Di − pi E (g(X)|X ∈ Di ) .
i=1 i=1

D’où en faisant intervenir les variances conditionnelles σi :


m
X m
X
Var (g(X)) = pi Var (g(X)|X ∈ Di ) + pi E (g(X)|X ∈ Di )2
i=1 i=1
± m
²2
X
− pi E (g(X)|X ∈ Di ) .
i=1

2
Pm 2 Pm 2
On
Pm utilise alors, deux fois, l’inégalité de convexité pour x , ( i=1 p i a i ) ≤ i=1 pi ai si
i=1 pi = 1, pour montrer que :

m
Ãm !2
X X
Var (g(X)) ≥ pi Var (g(X)|X ∈ Di ) ≥ pi σi .
i=1 i=1
Ch.2 Techniques de réduction de variance 19

Ceci prouve que, sous réserve que l’on fasse une affectation optimale des tirages, on peut obtenir
par stratification un estimateur de variance moindre. Notons cependant que l’on ne peut que
rarement calculer les σi , ce qui limite la portée de cette technique (mais on peut toujours les
estimer à l’aide d’un premier tirage de Monte-Carlo).
Notons aussi qu’il est possible d’obtenir un estimateur de variance supérieure à l’estimateur
initial si l’affectation des points aux domaines est quelconque. Il existe malgré tout d’autres stra-
tégies d’affectation des points par domaines qui réduisent forcément la variance. Par exemple
la stratégie qui affecte un nombre de points proportionnel à la probabilité du domaine :

ni = npi .

On obtient alors un estimateur de variance égale à :


m
1X
pi σ2i .
n i=1
P
Or nous venons de voir que m 2
i=1 pi σi est un majorant de Var (g(X)). Cette stratégie d’alloca-
tion est parfois utilisée lorsque l’on sait expliciter les probabilités pi . Pour des considérations
approfondies sur ces techniques on pourra consulter [Coc77].

2.5 Valeur moyenne ou conditionnement


Supposons que l’on cherche à calculer :
Z
E(g(X, Y)) = g(x, y)f(x, y)dxdy,

où f(x, y)dxdy est la loi du couple (X, Y). Si l’on pose :


Z
1
h(x) = g(x, y)f(x, y)dy,
m(x)
R
avec m(x) = f(x, y)dy, il est facile de voir que E(g(X, Y)) = E(h(X)). En effet la loi de X
est m(x)dx, et donc :
Z Z Z
E(h(X)) = m(x)h(x)dx = dx g(x, y)f(x, y)dy = E(g(X, Y)).

On peut retrouver ce résultat en notant que :

E (g(X, Y)|X) = h(X).

Cette interprétation comme une espérance conditionnelle permet, de plus, de prouver que :

Var(h(X)) ≤ Var(g(X, Y)).

Si l’on peut calculer explicitement la fonction h(x), il est préférable d’utiliser une méthode de
Monte-Carlo pour h(X).
20 PROCESSUS ET ESTIMATION : MONTE-CARLO

2.6 Suites à discrépance faible


Une autre façon d’améliorer les méthodes de type Monte-Carlo est de renoncer au caractère
aléatoire des tirages et de tirer les points de façon “plus ordonnée”. On cherche à trouver des
suites (xi , i ≥ 0) déterministes permettant d’approximer des intégrales par une formule de la
forme : Z
1
f(x)dx ≈ lim (f(x1 ) + · · · + f(xn )).
[0;1]d n!+1 n

On parle dans ce cas de méthode de quasi Monte-Carlo. On peut trouver des suites, telles que
d
la vitesse de convergence de l’approximation soit de l’ordre de K log(nn) , mais à condition que
la fonction f possède une certaine régularité, ce qui est sensiblement meilleur qu’une méthode
de Monte-Carlo. C’est ce genre de suite que l’on appelle une suite à discrépance faible.
Commençons par donner la définition d’une suite équirépartie.
Définition 2.6.1 On dit que (xn )n≥1 est une suite équirépartie sur [0, 1]d si l’une des propriétés
suivantes (équivalentes) est vérifiée. (Si x et y sont deux points de [0, 1]d , x ≤ y si et seulement
si par définition xi ≤ yi , pour tout 1 ≤ i ≤ d.)
– Pour tout y = (y1 , · · · , yd ) ∈ [0, 1]d :
n d
1X Y
lim 1{x ∈ [0, y]} = yi = Volume([0, y]).
n!+1 n k
k=1 i=1

d
où [0, y] = {z ∈ [0,¯ 1]n , z ≤ y}. ¯
¯1X ¯
∗ ¯ ¯
– Dn (x) = sup ¯ 1{x ∈ [0, y]} − Volume([0, y])¯ → 0.
y∈[0;1]d ¯ n k=1 ¯
k

– Pour toute fonction f Riemann intégrable (c’est à dire bornée et dx-ps continue) définie
sur [0, 1]d :
n Z
1X
lim f(xk ) = f(x)dx.
n!+1 n [0;1]d
k=1

D∗n (x) est appelé la discrépance à l’origine de la suite x.

Remarque 2.6.2 – Si (Un )n≥1 désigne une suite de variables aléatoires indépendantes et
de loi uniforme sur [0, 1], les suites aléatoires (Un (ω))n≥1 seront presque sûrement équi-
réparties. On a, de plus, une loi du logarithme itéré pour la discrépance :
s
2n
presque sûrement lim D∗ (U) = 1.
n log(log n) n

– On dit qu’une suite est à discrépance faible si sa discrépance est asymptotiquement


meilleure que celle d’une suite aléatoire. On peut prouver que la discrépance d’une suite
infinie vérifie forcément :
d
∗ (log n)max( 2 ;1)
Dn > C d pour un nombre infini de valeurs de n,
n
où Cd est une constante ne dépendant que de d.
– On connaît de nombreuses suites à discrépance faible d-dimensionnelles.
¡ ¢ Les meilleures
discrépances asymptotiques connues sont de l’ordre de (log n)d / (n). Ces suites ont
une discrépance quasi optimale vu la remarque précédente.
Ch.2 Techniques de réduction de variance 21

Ces suites sont asymptotiquement meilleures qu’une suite de nombres aléatoires. Cepen-
dant, dans la pratique, c’est à dire pour des valeurs de n entre 103 et 106 , les discrépances
des meilleures suites connues ne sont pas aussi bonnes que les résultats asymptotiques
pourraient le laisser espérer particulièrement pour des dimensions supérieures à la di-
zaine.
Un autre intérêt des suites à discrépance faible est de donner une estimation a priori de l’er-
reur commise lors de l’intégration numérique, pour des fonctions à variation finie, par l’inter-
médiaire de la formule de Koksma-Hlawka. Contrairement aux suites aléatoires, qui fournissent
des intervalles de confiance pour une probabilité donnée, cette majoration est effective et déter-
ministe. Il faut cependant relativiser l’intérêt de cette majoration en notant qu’elle est presque
toujours très éloignée de la valeur réelle de l’erreur et que la variation d’une fonction est une
quantité très difficile à évaluer. La proposition suivante explicite cette majoration :
Proposition 2.6.3 (Inégalité de Koksma-Hlawka) Si g est une fonction à variation finie au
sens de Hardy et Krause de variation V(g), alors :
¯ ¯
¯1 X N ¯
¯ ¯
∀n ≥ 1 ¯ g(xk ) − E(X)¯ ≤ V(g)D∗N (x).
¯N ¯
k=1

Remarque 2.6.4 La définition générale d’une fonction à variation finie au sens de Hardy and
Krause est relativement compliquée (voir [Nei92]). Cependant, en dimension 1, cette notion
coïncide avec celle de fonction à variation finie classique. De plus, en dimension d, si g est d
fois continuement différentiable, la variation V(g) est donnée par :
d
X X Z ¯ ¯
¯ ∂k g(x) ¯
V(g) = ¯ ¯ dx.
¯
d ∂xi · · · ∂xi
¯
k=1 1≤i1 <···<ik ≤d [0;1] 1 k

On constate donc que lorsque la dimension augmente il est de plus en plus “difficile” d’être à
variation finie. En particulier les fonctions indicatrices (1{f(x , . . . , x ) > λ} avec f régulière)
1 d
ne sont pas forcément à variation finie dès que la dimension est supérieure ou égale à 2.
Nous allons maintenant donner quelques exemples de suites à discrépance faible, parmi les
plus utilisées en pratique. Il y en a beaucoup d’autres (voir [Nei92] pour d’autres exemples).

Suites de Van Der Corput Soit p un entier strictement supérieur à 1. Soit n un entier positif
on notera a0 , a1 , . . . , ar sa décomposition p-adique unique vérifiant :

n = a0 + · · · + ar pr ,

avec 0 ≤ ai < p pour 0 ≤ i ≤ r, et ar > 0. La suite de Van Der Corput en base p est donnée
par :
a0 ar
φp (n) = + · · · + r+1 .
p p
On peut comprendre la définition de φp (n) de la façon suivante. On écrit le nombre n en base
p:
n = ar ar-1 . . . a1 a0 , alors φp (n) = 0, a0 a1 . . . ar ,
où il faut comprendre la notation 0, a0 a1 . . . ar comme étant la décomposition p−adique d’un
nombre.
22 PROCESSUS ET ESTIMATION : MONTE-CARLO

Suites de Halton Les suites de Halton sont des généralisations multidimensionnelles des
suites de Van Der Corput. Soit p1 , · · · , pd les d premiers nombres premiers. La suite de Halton
est définie par, si n est un entier :

xdn = (φp1 (n), · · · , φpd (n)) (2.1)

où φpi (n) est la suite de Van Der Corput en base pi .


La discrépance de la suite de Halton d−dimensionnelle est majorée par :
d
∗ 1 Y pi log(pi n)
Dn ≤ .
n i=1 log(pi )

Suite de Faure La suite de Faure en dimension d est définie de la façon suivante. Soit r un
entier premier impair plus grand que d (on peut prendre, par exemple, r = 11 dans le cas où
d = 8). On définit alors une application T opérant sur l’ensemble des x s’écrivant sous la forme :
X ak
x= k+1
,
k≥0
r

la somme étant une somme finie. Pour un tel x on pose alors :


X bk
T (x) =
k≥0
rk+1
P
avec bk = i≥k Cik ai mod r. Les Cik étant les coefficients du binône. On peut alors définir la
suite de Faure de la façon suivante :
¡ ¢
xn = φr (n − 1), T (φr (n − 1)), · · · , T d-1 (φr (n − 1)) . (2.2)
d
Cette suite admet une discrépance majorée par C log(nn) .

Translations irrationnelles du tore Ces suites sont données sous la forme :

xn = ({nαi })1≤i≤d , (2.3)

où {x} est la partie fractionnaire du nombre x et α =¡ (α1 , · · · , αd ) avec (1, α1 , · · · , αd ) une


√ √ ¢
famille libre de Q. On peut choisir, par exemple,
¡ 1 ¢ α = p 1 , · · · , p d . On peut prouver, pour
cette suite, qu’elle a une discrépance en o n1- pour tout ² > 0. Cette suite est en particulier
utilisée dans le logiciel commercial NAG.

2.7 Commentaires bibliographiques


Le lecteur souhaitant conforter ses connaissance en probabilité pourra consulter [Bou86].
De nombreux ouvrages élémentaires traitant des méthodes de Monte-Carlo sont disponibles : on
peut citer [HH64],[KW86], [Rub81], [Rip87] and [BFS87]. L’ouvrage de Luc Devroye concer-
nant la simulation des variables aléatoires [Dev86] est une référence indispensable. Les suites
à discrépance faible sont étudiées en détail dans [KN74] et [Nei92]. On trouvera aussi dans
[Nei92] de très nombreuses références bibliographiques). Le lecteur cherchant des algorithmes
et des programmes permettant de simuler des variables aléatoires uniformes pourra consulter
[L’E90],[PTFV92].
Ch.2 Techniques de réduction de variance 23

2.8 Exercices
Exercice 6 Echantillonnage préférentiel :
On veut calculer par une méthode de Monte-Carlo :

I = E(g(X)),

X étant une variable aléatoire réelle de loi f(x)dx.


1. Soit f̃(x)dx la loi d’une variable aléatoire Y. On supposera que f̃(x) > 0 pour tout x ∈ R.
Montrer que l’on peut écrire I sous la forme E (g̃(Y)), g̃ étant une fonction que l’on
explicitera.
2. Calculer la variance de l’estimateur Monte-Carlo construit à partir de g̃(Y). Donner un
intervalle de confiance au niveau 95% pour I.
3. Montrer que lorsque g est positive, on peut trouver une densité f̃(x) qui annule la variance
de l’estimateur. Commentaires.
4. Etudier le cas où g n’est pas forcément positive.

Exercice 7 1. Proposer une méthode de fonction d’importance pour le calcul de


³ ´
I = E 1{ξ > 0} exp βξ ,

si ξ est une gaussienne centrée réduite et β = 5.


2. Proposer une méthode de variable de contrôle pour cette même intégrale.
3. Amélliorer votre estimateur à l’aide d’une technique de variables antithétiques.

Exercice 8 Le but de cet exercice est de prouver que la méthode des variables antithétiques
réduit bien la variance lorsque la fonction est monotone en chacune de ses variables.
1. On suppose que f et g sont deux fonctions croissantes bornées de R dans R. Montrez que,
si X et Y sont deux variables aléatoires réelles, on a :

E (f(X)g(X)) + E (f(Y)g(Y)) ≥ E (f(X)g(Y)) + E (f(Y)g(X)) .

En déduire que si X si est une variable aléatoire réelle :

E (f(X)g(X)) ≥ E (f(X)) E (g(X)) .

2. Montrez que, si X1 , . . . , Xn sont n variables aléatoires indépendantes :

E (f(X1 , . . . , Xn )g(X1 , . . . , Xn )|Xn ) = φ(Xn ),

φ étant une fonction que l’on explicitera sous forme d’une espérance.
3. En déduire que, si f et g sont deux fonctions croissantes en chacun de leur arguments :

E (f(X1 , . . . , Xn )g(X1 , . . . , Xn )) ≥ E (f(X1 , . . . , Xn )) E (g(X1 , . . . , Xn )) .

4. Soit h une fonction de [0, 1]n dans R monotone en chacun de ses arguments, soit
U1 , . . . , Un n variables aléatoires indépendantes suivant un loi uniforme sur [0, 1], mon-
trez que :
Cov (h(U1 , . . . , Un )h(1 − U1 , . . . , 1 − Un )) ≤ 0,
et en déduire que le méthode des variables antithétiques réduit la variance dans ce cas.
24 PROCESSUS ET ESTIMATION : MONTE-CARLO

Exercice 9 Soit (u1 , . . . , un ) un échantillon i.i.d. de loi uniforme sur [0, 1]. Soit u(1) ≤
u(2) . . . ≤ u(n) ) l’échantillon ordonné.
1. Trouvez la loi de u(n+1) − u(n) et en déduire que limn!+1 u(n+1) − u(n) = 0.
2. Montrer que l’estimateur :
n-1
X ¡ ¢
u(i+1) − u(i) h(u(i+1) − u(i) )
i=1

R1
converge vers h(u)du.
0
R
3. Etendre au cas où I = R h(x)f(x)dx et où f est une densité à support compact.
4. Si h est dérivable à dérivée bornée C, montrer que l’erreur ²n peut être majorée par :
n
X ¡ ¢2
C u(i+1) − u(i) ,
i=0

avec u(0) = 0 et u(n+1) = 1. En déduire que ²n tends vers 0 à la vitesse 1/n.

Exercice 10 Recyclage dans la méthode du rejet


On veut évaluer par une méthode de Monte Carlo :
Z
f(x)p(x)dx,
R

en simulant un n-échantillon X1 , . . . , Xn de densité p par la méthode du rejet. On aura donc


dû simuler un nombre aléatoire N de variable aléatoire de densité q. Parmis celle ci on notera
Z1 , . . . , ZN-n les v.a. Y qui ont été rejetées, c’est à dire telles que :

p(Yi ) ≤ MUi q(Yi ).

1. Quelle est la loi de N ?


2. Quelle est la loi de Z1 , . . . , ZN-n conditionnellement à N = n + p ?
3. Montrez que : Ã n !
X N-n
X (M − 1)p(Zi )
1
f(Xi ) + f(Zi )
N i=1 i=1
(Mq − p)(Zi )
est un estimateur sans biais de E (f(X1 )).

Exercice 11 On considère un vecteur gaussien composé de deux variables aléatoires (G1 , G2 ).


On suppose G1 et G2 sont deux variables aléatoires gaussiennes centrées et de variance 1 et que
la covariance Cov (G1 , G2 ) = ρ vérifie −1 < ρ < 1. Le but de ce problème est de construire
diverses méthodes de Monte-Carlo pour le calcul de :
h¡ ¢ i
1 G1 2 G2
E = E C1 e + C2 e −K + ,

C1 , C2 , λ1 , λ2 , K sont des constantes réelles et positives.


1. Soit g1 , g2 deux gaussiennes centrées réduites indépendantes. Identifier un jeu de valeurs
de (α, β1 , β2 ) assurant que la loi du couple (g1 + αg2 , β1 g1 + β2 g2 ) est identique à celle
de (G1 , G2 ). En déduire une méthode de simulation selon la loi du couple (G1 , G2 )
Ch.2 Techniques de réduction de variance 25

2. Décrire une méthode de Monte-Carlo adapté au calcul de E et expliquer comment l’on


peut estimer uniquement à partir des simulations l’erreur de la méthode.
¡ ¢
3. Calculer E e1 G1 +2 G2 , σ1 et σ2 étant deux nombres réels.
¡ ¢
4. Expliciter E C1 e1 G1 + C2 e2 G2 et proposer une technique de variables de contrôle
visant à réduire la variance de la méthode de Monte-Carlo. Comment peut on vérifier sur
les simulations que cette nouvelle méthode réduit effectivement la variance ?
5. On pose : ¡ ¢
X = C1 e1 G1 + C2 e2 G2 − K + ,
Y1 = e1 G1 et Y2 = e1 G1 . On cherche à identifier la meilleure variable de contrôle de la
forme µ1 Y1 + µ2 Y2 . Calculer explicitement la matrice de variance covariance du couple
(Y1 , Y2 ).
En supposant que l’on connait explicitement Cov (X, Y1 ) et Cov (X, Y2 ), trouver un
couple (µ01 , µ02 ) permettant de minimiser :

Var (X − µ1 Y1 − µ2 Y2 ) .

et proposer une méthode de réduction de variance meilleure que celle proposée à la ques-
tion précédente. Comment peut on estimer Cov (X, Y1 ) et Cov (X, Y2 ) ?
6. Montrer que si µ est un nombre réel, g1 et g2 deux variables aléatoires gaussiennes cen-
trées réduites indépendantes et f une fonction positive, on a :
³ ´
-g1 - 12 2
E e f(g1 + µ, g2 ) = E (f(g1 , g2 )) .

En déduire, en utilisant le résultat de la question 1, que :


³ ´
-G1 - 12 2
E e f(G1 + µ1 , G2 + µ2 ) = E (f(G1 , G2 )) ,

µ1 et µ2 étant des constantes que l’on calculera en fonction de µ et ρ.


7. On note X pour :
1 2
X = e-G1 - 2  φ(G1 + µ1 , G2 + µ2 ),
avec : ¡ ¢
φ(x, y) = C1 e1 x + C2 e2 y − K + .
Montrer que E(X ) = E(X).Utiliser ce résultat pour proposer une nouvelle méthode de
calcul de E. Prouver que :
³ 1 2
´
Var(X ) = E e-G1 + 2  φ(G1 , G2 )2 − E (X)2 ,

et en déduire que :

dVar(X ) ³ 1 2
´
= E (−G1 + µ)e-G1 + 2  φ(G1 , G2 )2 .

³ ´
8. On suppose que C2 = 0, montrer que si µ ≤ d1 = 11 log CK1 , dVar (X )
d
≤ 0. Comment
utiliser ce résultat pour choisir un µ permettant de réduire la variance ?
26 PROCESSUS ET ESTIMATION : MONTE-CARLO

Exercice 12 Le but de cet exercice est d’étudier diverses méthodes permettant d’évaluer p =
P (Z > t) , où Z est une variable aléatoire de la forme :

Z = λ1 e 1 X1 + λ2 e 2 X2 ,

(X1 , X2 ) étant un couple de variables aléatoires réelles dont on précisera la loi dans la suite, λ1 ,
λ2 , β1 et β2 étant des réels positifs.
1. On suppose, dans cette question, que (X1 , X2 ) est un vecteur gaussien centré tel que
Var(X1 ) = Var(X2 ) = 1 et Cov (X1 , X2 ) = ρ, avec |ρ| ≤ 1. Expliquer comment l’on
peut simuler des variables aléatoires selon la loi de Z. Décrire une méthode de Monte-
Carlo permettant d’estimer p ainsi que de donner une idée de l’erreur que l’on commet.
2. On suppose que la valeur de t est telle que l’on cherche à estimer une valeur de p de
l’ordre de 10-7 . Donner un ordre de grandeur du nombre de tirages à effectuer dans une
méthode de Monte-Carlo standard pour pouvoir affirmer, avec une confiance proche de 1,
que :
1 3
× 10-7 ≤ p ≤ × 10-7 .
2 2
3. On suppose que X1 et X2 sont deux gaussiennes centrées de variance 1 indépendantes.
Soit m un nombre réel. En utilisant une technique de fonctions d’importance montrer que
p peut s’écrire sous la forme :
µ ¶
p = E φ(X1 , X2 )1© 1 (X1 +m) ª ,
λ1 e + λ2 e 2 (X2 +m) ≥ t

φ étant une fonction que l’on précisera. Proposer un choix de m assurant que :
1
P(λ1 e 1 (X1 +m) + λ2 e 2 (X2 +m) ≥ t) ≥ .
4
Proposer une nouvelle méthode de Monte-Carlo permettant d’évaluer p. Expliquer com-
ment l’on peut vérifier, sur les simulations, que cette méthode réduit la variance.
4. Soit (X, Y) deux variables aléatoires indépendantes de lois données par les densités pX (x)
et pY (y). Montrer que, si f est une fonction bornée :

E (f(X, Y)) = E(h(Y))

avec h(y) = E(f(X, y)). Montrer que


¡ ¢
E f2 (X, Y) = E(g(Y)),

g étant une fonction que l’on précisera. En déduire Var(h(Y)) ≤ Var (f((X, Y)).
5. On suppose que X2 est une variable aléatoire réelle dont la fonction de répartition est
donnée par F2 (x). Calculez la fonction de répartition G2 (x) de λ2 e 2 X2 .
6. On suppose que X1 et X2 sont indépendantes. Montrer que
¡ ¡ ¢¢
p = E 1 − G2 t − λ1 e 1 X1 .
¡ ¢
Montrer que la variance de 1 − G2 t − λ1 e1 X1 est toujours inférieure à celle de
1© 1 X1 ª . Proposer une nouvelle méthode de Monte-Carlo permettant
λ1 e + λ2 e2 X2 > t
de calculer p.
Ch.2 Techniques de réduction de variance 27

7. On se place à nouveau dans le cas où (X1 , X2 ) est une vecteur gaussien centrée tel que
Var(X1 ) = Var(X2 ) = 1 et Cov (X1 , X2 ) = ρ, avec |ρ| ≤ 1, montrer que :

p = E (1 − F2 (φ(X1 ))) ,

F2 étant la fonction de répartition de X2 et φ une fonction que l’on précisera. On utilisera


la fait que X2 − ρX1 est une gaussienne indépendante de X1 .
En déduire une méthode de Monte-Carlo, dont on prouvera quelle réduit la variance,
permettant d’évaluer p.
28 PROCESSUS ET ESTIMATION : MONTE-CARLO
Chapitre 3

Méthodes de Monte-Carlo et Chaînes de


Markov

Nous avons mis en évidence un certain nombre de méthodes pour simuler un variables
aléatoire de loi π donnée. Mais il y a des cas où la loi π n’est pas facilement explicitable.
On rencontre ce problème par exemple pour les lois d’équilibres de systèmes infinis de parti-
cules, l’espace d’état étant un espace fini de cardinal important. La méthode de rejet peut aussi
conduire à des simulations lente si la probabilité de rejet est trop grande. Les méthodes de
Monte-Carlo par chaîne de Markov vont R permettre de pallier à ces problèmes.
L’objectif est toujours de calculer f(x)dπ(x) où π est une loi donnée. On sait que la loi
des grands nombres s’étend aux processus stationnaires ergodiques et donc si (X̄n , n ≥ 0) est
un tel processus, si X̄0 a pour loi π et si f(X̄0 ) est intégrale, alors :
Z
f(X̄0 ) + · · · + f(X̄n ) ¡ ¢
lim = E f(X̄0 ) = f(x)dπ(x) presque sûrement. (3.1)
n!+1 n
Mais comme on ne sait pas simuler X̄0 selon la loi π, on n’a guère avancé.
Considérons cependant l’exemple d’un processus AR(1) :

Xn = aXn-1 + Un avec Un i.i.d. et |a| < 1. (3.2)


P 1 p
La solution stationnaire Xn de cette équation s’écrit +p=0 a Un-p et est ergodique.
x
Soit maintenant Xn la solution de 3.2 satisfaisant X0 = x. Il est facile de montrer par récur-
rence que :
Xxn − Xyn = an (x − y),
et donc les trajectoires se rapprochent et oublient leur point de départ. De même Xxn − X̄n =
an (x − X̄0 ) tend vers 0 quand n tends vers +∞. Par suite, si f est uniformément continue :
¡ ¢
lim f (Xxn ) − f X̄n = 0 p.s.
n!+1

et donc la moyenne de Césaro aussi :


n
1X ¡ ¢
lim f (Xxi ) − f X̄i = 0 p.s..
n!+1 n
i=1

On en déduit donc que pour tout point de départ x :


n
1X ¡ ¢
lim f (Xxi ) = E f(X̄0 ) p.s..
n!+1 n
i=1

29
30 PROCESSUS ET ESTIMATION : MONTE-CARLO

La chaîne
¡ de¢ Markov Xxn d’état initial x est facile à simuler et conduit à une approximation
de E f(X̄0 ) . Cet exemple très simple donne l’idée d’une démarche générale. Soit π une loi
donnée, on va chercher à construire une chaîne de Markov qui sera stationnaire et ergodique
si la loi initiale est π et dont les trajectoires, pour tout état initial x, auront un comportement
asymptotique analogue aux trajectoires de la solution stationnaire. En d’autres termes, pour tout
x, les trajectoires issues de x, vérifieront la loi forte des grands nombres :
n Z
1X x
lim f (Xi ) = f(x)dπ(x),
n!+1 n
i=1

que l’on cherche à évaluer. Il faudra ensuite étudier la vitesse de convergence.

3.1 Chaîne de Markov et ergodicité


Les notations sont celles du cours de première année. On rappelle que (Xn , n ≥ 0) est une
chaîne de Markov si la loi de l’état Xn+1 ne dépend des valeurs passées (X0 , . . . , Xn ) que par
Xn .
On suppose l’espace d’états E discret et l’on considère sur E une matrice de transition Q =
(Q(x, y); x, y ∈ E). Cela signifie que Q est telle que :
2
– Q(x,
P y) ≥ 0 pour tout (x, y) ∈ E ,
– y∈E Q(x, y) = 1, pour tout x ∈ E.
Une suite (Xn , n ≥ 0) de variables aléatoires à valeurs dans E est appelée une chaîne de Markov
de matrice de transition Q si, pour tout x1 , · · · , xn ∈ E :
P (Xn+1 = x|X0 = x0 , X1 = x1 , . . . , . . . , Xn = xn ) = P (Xn+1 = x|Xn = xn )
= Q(xn , x).
Il est alors facile de voir que :
– P(X0 = x0 , XP 1 = x1 , . . . , . . . , Xn = xn ) = π0 (x0 )Q(x0 , x1 ) . . . Q(xn-1 , Xn ),
– P(Xn = xn ) x0 ∈E π0 (x0 )Qn (x0 , xn ) = (π0 Qn )(xn ), où Qn est définie au sens de la
multiplication des matrices.
Par suite, si la loi initiale de la chaîne de Markov est π0 , la loi de Xn est π0 Qn .
On dira que la probabilité π0 est invariante pour Q si :
π0 Q = π0 . (3.3)

Proposition 3.1.1 Soit π un probabilité sur un espace E discret et soit X̄n la chaîne de Markov
de matrice de transition Q et de loi initiale π. Alors, il y a équivalence entre :
1. π est un loi invariante pour Q,
2. la chaîne (X̄n , n ≥ 0) est un processus stationnaire au sens strict.

Démonstration : La fait que 2 implique 1 est clair, puisque a loi de X̄1 (égale à πQ) est
identique à celle de X̄0 (égale à π).
Pour démontrer que 1) implique 2), notons que :
X
P(X̄1 = x1 , . . . , X̄n = xn ) = π(x0 )Q(x0 , x1 )Q(x1 , x2 ) . . . Q(xn-1 , xn )
x0
= (πQ)(x1 )Q(x1 , x2 ) . . . Q(xn-1 , xn )
= π(x1 )Q(x1 , x2 ) . . . Q(xn-1 , xn )
= P(X̄0 = x1 , . . . , X̄n-1 = xn ).
Ch.3 Méthodes de Monte-Carlo et Chaînes de Markov 31

Ceci prouve que les lois de (X̄1 , . . . , X̄n ) et de (X̄0 , . . . , X̄n-1 ) sont identiques. Le processus
(X̄n , n ≥ 0) est donc stationnaire au sens strict.

On va supposer dorénavant que la chaîne de Markov que l’on considère admet une proba-
bilité invariante π. Pour que les trajectoires issues des divers points aient des comportements
analogues, il faut imposer à la matrice de transition Q d’être irréductible, c’est à dire que :
– pour tout x ∈ E et pour tout y ∈ E il existe un entier n > 1 tel que :

P(X̄0 = x, X̄n = y) = Qn (x, y) > 0.

Ceci signifie que l’on peut aller (avec un probabilité strictement positive) de tout point de E à
tout point de E en un nombre fini de coups.
On sait alors (voir cours de probabilité de première année) que :
– soit tous les états sont réccurents,
– soit tous les états sont transients.

Théorème 3.1.1 Supposons que Q est irréductible et qu’il existe une probabilité π telle que
πQ = π. Alors :
1. π est l’unique probabilité invariante,
2. tous les états sont réccurents,
3. si (X̄n , n ≥ 0) désigne la chaîne de RMarkov stationnaire au sens strict de loi initiale π,
alors, pour toute fonction f telle que |f(x)|dπ(x) < +∞ :
n Z
1X ¡ ¢
lim f X̄p = f(x)dπ(x) p.s..
n!+1 n
p=1

4. Pour tout point x ∈ E, si l’on note (X̄xn , n ≥ 0) une chaîne de Markov d’état initial x :
n Z
1 X ¡ x¢
lim f X̄p = f(x)dπ(x) p.s..
n!+1 n
p=1

Conséquence : Si l’on sait construire une chaîne de Markov de matrice R de transition


Pn irréduc-
¡ ¢
1
tible et ayant π comme probabilité invariante, on pourra approximer fdπ par n p=1 f X̄xp .
Le problème du calcul de l’intégrale se ramène à celui de la simulation de la chaîne (X̄xn , n ≥ 0).

Remarque 3.1.2 Si π est une probabilité telle que, pour tout x, y :

π(x)Q(x, y) = π(y)Q(y, x),

on dit que la probabilité est une probabilité symétrique. Notez qu’une probabilité symétrique
est forcément invariante puisque :
X X X
(πQ)(y) = π(x)Q(x, y) = π(y)Q(y, x) = π(y) Q(y, x) = π(y).
x∈E x∈E x∈E

On dit alors que la chaîne est réversible car la loi de Xn sachant {Xn-1 = x} est égale à la loi de
Xn sachant {Xn+1 = x}.
32 PROCESSUS ET ESTIMATION : MONTE-CARLO

Démonstration : Commençons par montrer que si Q est irréductible et si π est une probabilité
invariante, alors, pour tout x ∈ E, π(x) > 0.
Pour cela remarquons que comme π est une probabilité, il existe un point y de E tel que
π(y) > 0. Considérons maintenant un point arbitraire x de E. Comme Q est irréductible, il
existe un n > 1 tel que Qn (y, x) > 0. On a donc :
X
π(x) = πQn (x) = π(z)Qn (z, x) ≥ π(y)Qn (y, x) > 0.
z

Montrons maintenant que π est l’unique probabilité invariante. Soit π 0 une autre probabilité
invariante. Alors π 00 (x) = min(π(x), π 0 (x)) définit une mesure positive telle que :
π 00 Q ≤ πQ = π.
P P
De même π 00 Q ≤ π 0 et donc π 00 Q ≤ π 00 . Comme de plus, x∈E π 00 Q(x) = 1 = x∈E π 00 (x),
on en déduit que π 00 Q = π 00 .
Par suite ∆ = π − π 00 est une mesure positive de masse totale finie telle que ∆Q = ∆. On
peut alors déduire de la première partie de la démonstration que cette mesure est soit partout
nulle, soit partout strictement positive. Ce qui prouve dans
P le premier cas que
P π ≤ π 0 et dans
le second cas que π 0 ≤ π. Dans les deux cas comme x∈E π(x) = 1 = 0
x∈E π (x), ceci
implique que π = π 0 . Ce qui prouve l’unicité de la probabilité invariante.
Montrons maintenant que tout les états sont récurrents. Commencions par supposer tout les
états transients, alors, pour tout x et y on a :
X
1{Xx = y} < +∞ p.s.,
n
n≥0

donc limn!+1 1{Xx = y} = 0 p.s.. Et on en déduit, en utilisant le théorème de Lebesgue


n
(puisque 1{Xx = y} ≤ 1), que :
n
³ ´
n
lim Q (x, y) = lim E 1{Xx = y} = 0.
n!+1 n!+1 n

En utilisant encore une fois le théorème de Lebesgue, on montre que si π est la probabilité
invariante, alors : X
lim π(x)Qn (x, y) = 0.
n!+1
x∈E
P
Or, comme π est invariante π(y) = x∈E π(x)Qn (x, y) et l’on a vu que π(y) > 0 pour tout état
y, ceci entraîne une contradiction. La chaîne étant irréductible tout les état sont donc récurrents.
On peut donc, utiliser le théorème ergodique du cours de première année pour montrer que,
pour tout x et y :
n
1X © ª = µ(y) p.s.,
lim 1 x
n!+1 n X̄p = y
p=1

La limite µ(y) ne dépend pas du point de départ x et µ est soit nulle, soit une probabilité
satisfaisant µQ = µ.
Montrons que µ ne peut pas
Pnêtre nulle. Pour cela supposons que µ = 0. Alors en appliquant
1
le théorème de Lebesgue à n p=1 1 x© ª , qui reste clairement borné par 1, on obtient :
X̄p = y
n
" n
#
1X p 1X © ª = 0.
lim Q (x, y) = lim E 1 x
n!+1 n n!+1 n X̄p = y
p=1 p=1
Ch.3 Méthodes de Monte-Carlo et Chaînes de Markov 33

Soit π le probabilité invariante. Toujours en utilisant le théorème de Lebesgue, on obtient :


" n
#
X 1X p
lim π(x) Q (x, y) = 0.
n!+1 n
x p=1

Donc comme, πQp = π :


" n
# n
X 1X p 1X
π(x) Q (x, y) = πQp (y) = π(y).
x
n p=1 n p=1

Ceci entraine une contradiction puisque π(y) > 0. µ est donc une probabilité et est donc égale
à π, puisque nous avons vu qu’il existe une unique probabilité invariante.
Le résultat annoncé dans le lemme est prouvé pour f = 1{y} . Il est relativement facile de
R
l’étendre à f borné. L’extension au cas |f(x)|π(dx) < +∞ est nettement plus technique aussi
nous l’admettrons.
Si f est bornée par M, alors g = f − M ≥ 0.
Soit (gk , k ≥ 1) une suite de fonction à support fini telle que les gk tendent en croissant
vers g. Alors, d’après le résultat obtenu, on a, pour tout k :
n
1 X ¡ x¢ X
lim gk X̄p = gk (y)π(y).
n!+1 n
p=1 y

On en déduit donc que, pour tout k :


n
1 X ¡ x¢ X
lim inf g X̄p ≥ gk (y)π(y),
n+1 n
=
p 1 y

d’où, par passage à la limite :


n
1 X ¡ x¢ X
lim inf g X̄p ≥ g(y)π(y),
n+1 n
p=1 y

Par linéarité on obtient alors :


n
1 X ¡ x¢ X
lim inf f X̄p ≥ f(y)π(y).
n+1 n
p=1 y

Le même raisonnement, en utilisant la fonction −f prouve que :


n
1 X ¡ x¢ X
lim sup f X̄p ≤ f(y)π(y).
n+1 n
p=1 y

D’où le résultat annoncé pour une fonction borné f.


Pour montrer le résultat, lorsque la chaîne (Xn , n ≥ 0) part d’une probabilité arbitraire ν, il
suffit de remarquer que :
" n
# " n
#
1X ¡ ¢ X 1 X ¡ x¢
P f X̄p = P (X0 = x) P f X̄p .
n p=1 x∈E
n p=1
34 PROCESSUS ET ESTIMATION : MONTE-CARLO

Comme, pour tout x : " #


n
1 X ¡ x¢
P (X0 = x) P f X̄p = 1,
n p=1
P
et comme x∈E P (X0 = x) = 1. Le résultat reste vrai pour toute loi initiale ν et en particulier
pour π.
1
Pn ¡ ¢
Pour étudier la vitesse de convergence de n p=1 f X̄xp , nous allons imposer à la chaîne d’être
apériodique.
Définition 3.1.3 Soit Q une matrice de transition. On note :

d(x) = PGCD {n, Qn (x, x) > 0} .

On dit que x est apériodique si d(x) = 1.


Si Q est irréductible et si un état est apériodique, tous les états sont alors apériodiques et
l’on dit que la chaîne est apériodique.
Nous admettrons le théorème suivant.
Théorème 3.1.2 Supposons que l’espace d’états E soit fini et soit Q une matrice de transition
irréductible apériodique admettant une probabilité invariante π.
1. Il existe deux réels α, M avec α < 1 et M < +∞ tel que, pour tout x et pour tout y :

|Qn (x, y) − π(y)| < Mαn .

2. Pour tout x et pour toute fonction f définie sur E :


à n
!
√ 1 X ¡ x¢ X
n f X̄p − π(y)f(y) converge en loi vers une gaussienne centrée de variance σ̄2 ,
n p=1 y∈E

avec σ̄2 < +∞.

Remarque 3.1.4 En pratique, la variance σ̄2 < +∞ est beaucoup plus délicate à estimer que
pour le théorème de la limite centrale classique.

3.2 Algorithme de Hastings-Metropolis


Cet algorithme très simple v anous permettre de simuler une chaîne de Markov ayant une
probabilité π donnée. L’algorithme est le suivant.
Soit E un espace discret et π une probabilité donnée sur E. Soit une matrice de transition (à
priori quelconque) sur E. Fixons X0 = x0 ∈ E où x0 est tel que π(x0 ) > 0, puis construisons
(Xn , n ≥ 1) de la manière itérative suivante.
Supposons que Xn = xn . On simule deux variables aléatoires indépendantes (et indépen-
dantes des simulations passées) Yn et Un , avec :
– Yn suit la loi Q(xn , .) (i.e. pour tout y, P(Xn = y) = Q(xn , y)),
– Un suit une loi uniforme sur [0, 1].
On pose : µ ¶
π(y)Q(y, x)
α(x, y) = min 1, ,
π(x)Q(x, y)
et l’on définit Xn+1 de la façon suivante :
Ch.3 Méthodes de Monte-Carlo et Chaînes de Markov 35

– si Un ≤ α(Xn , Yn ), Xn+1 = Yn ,
– si Un > α(Xn , Yn ), Xn+1 = Xn .
Proposition 3.2.1 Le processus (Xn , n ≥ 0) est une chaîne de Markov de matrice de transition
P avec :
– P(x, y) = Q(x,Py)α(x, y), si x 6= y,P
– P(x, x) = 1 − y6=x P(x, y) = 1 − y6=x Q(x, y)α(x, y).
La probabilité π est invariante par P (πP = π). De plus la chaîne (Xn , n ≥ 0) est réversible.

Démonstration : (Xn , n ≥ 0) est une chaîne de Markov car la loi de Xn+1 ne dépend des
variables aléatoires passées (X1 , . . . , Xn ) que par Xn . Pour calculer la matrice de transition
remarquons que, lorsque x 6= y :

P (Xn+1 = y|Xn = x) = P (Yn = y, Un ≤ α(Xn , Yn ) ≤ |Xn = x) = P (Yn = y, Un ≤ α(x, y) ≤ |Xn = x) .

Comme Un est indépendante du couple (Yn , Xn ), et α(x, y) ≤ 1 on a :

P (Yn = y, Un ≤ α(x, y), Xn = x)


P (Yn = y, Un ≤ α(x, y) ≤ |Xn = x) =
P(Xn = x)
P (Yn = y, Xn = x)
= P(Un ≤ α(x, y))
P(Xn = x)
= α(x, y)P (Yn = y|Xn = x) .

De plus la loi de Yn conditionnellement à Xn = x est donnée par Q(x, y), donc, pour x 6= y :

P (Yn = y, Un ≤ α(x, y) ≤ |Xn = x) = α(x, y)Q(x, y).

Il suffit alors de remarquer que :


X X
P (Xn+1 = x|Xn = x) = 1 − P (Xn+1 = y|Xn = x) = 1 − α(x, y)Q(x, y),
y6=x y6=x

pour évaluer P(x, x).


Pour démontrer que la probabilité π est symétrique par rapport à P, remarquons que, si
x 6= y :

π(x)P(x, y) = π(x)α(x, y)Q(x, y) = max (π(y)Q(y, x), π(x)Q(x, y))


= π(y)α(y, x)Q(y, x) = π(y)Q(y, x).

La chaîne est donc réversible et admet π comme probabilité invariante (voir la remarque 3.1.2).

Remarquons, de plus, que la chaîne issue d’un x0 tel que π(x0 ) > 0, restera dans l’ensemble
E1 = {x ∈ E, π(x) > 0}. On peut donc supposer que E = E1 .
Si P est une matrice de transition irréductible, alors le théorème 3.1.1 s’applique et l’on a :
n
1 X ¡ x¢ X
lim f X̄p = f(x)dπ(x) p.s.,
n!+1 n
p=1 x∈E

P
ce qui fourni un moyen d’approximer x∈E f(x)dπ(x).
Proposition 3.2.2 Si Q satisfait, pour tout x 6= y, Q(x, y) > 0 alors P est irréductible.
36 PROCESSUS ET ESTIMATION : MONTE-CARLO

La preuve est immédiate (noter que l’on suppose que E = E1 = {x ∈ E, π(x) > 0}), car alors,
pour tout x, y, P(x, y) = α(x, y)Q(x, y) > 0, si x 6= y.
La condition imposée sur Q en en fait trop restrictive surtout lorsque l’espace E est grand.
Il faut alors choisir Q de manière à ce que la variable aléatoire Yn de loi Q(x, .) soit facile à
simuler.
Dans l’algorithme de Métropolis original, la matrice Q est choisie symétrique (Q(x, y) =
Q(y, x)). Dans ce cas, il est clair que :
µ ¶
π(y)
α(x, y) = inf 1, .
π(x)

Pour que la chaîne reste le moins souvent possible au même endroit, il faut que α(Xn , Yn ) soit
proche de (ou égal à) 1. Ceci implique que ((XYnn)) ne devienne pas trop petit.
On parle d’algorithme indépendant, lorsque Q(x, y) = q(y). Alors :
µ ¶
π(y)q(x)
α(x, y) = min 1, ,
π(x)q(y)

On voit que le choix de Yn ne dépend pas de Xn mais que son acceptation ou son rejet oui.
Proposition 3.2.3 Soit E discret. Soit Q irréductible symétrique et soit π une probabilité non
constante. Alors la chaîne de Markov construite par l’algorithme de Métropolis est réversible,
irréductible apériodique de loi invariante π.
P P
On peut alors approximer x π(x)f(x) par n1 np=1 f (Xp ) et la vitesse de convergence est
donnée par la proposition 3.1.2.
Démonstration : Il s’agit de prouver que la matrice de transition donnée, pour x 6= y :

P(x, y) = Q(x, y)α(x, y),


³ ´
(y)
est irréductible et apériodique. Comme E = {x, π(x) > 0} et que α(x, y) = min 1, (x)
, on a
α(x, y) 6= 0 pour tout x, y.
Comme Q est irréductible, pour tout x et y distincts, il existe une suite finie (xi , 1 ≤ i ≤ p)
d’éléments distincts tels que x1 = x, xp = y et Q(xi , xi+1 ) > 0 pour 1 ≤ i ≤ p − 1. On en
Q
déduit que P(xi , xi+1 ) = α(xi , xi+1 )Q(xi , xi+1 ) > 0 et donc Pp (x, y) ≥ pi=-11 P(xi , xi+1 ) > 0.
P est donc irréductible.
Pour prouver l’apériodicité de P, on va montrer qu’il existe un élément x tel que P(x, x) > 0.
Supposons le contraire. Alors pour tout x, P(x, x) = 0. Or :
X X X
P(x, x) = 1 − P(x, y) = Q(x, y) − Q(x, y)α(x, y).
y6=x y y6=x

Donc : X
P(x, x) = Q(x, x) + Q(x, y)(1 − α(x, y)).
y6=x

D’où, pour x 6= y : · ¸+
π(y)
Q(x, y) 1 − ≤ 0.
π(x)
On end déduit que pour tout x 6= y tel que Q(x, y) > 0, π(y) ≤ π(x). Par symétrie de Q, on
en déduit que π(x) = π(y).
Ch.3 Méthodes de Monte-Carlo et Chaînes de Markov 37

Comme ci dessus, il découle de l’irréductibilité de Q que pour tout x 6= z, il existe une suite
finie (xi , 1 ≤ i ≤ p) d’éléments distincts tels que x1 = x, xp = y et Q(xi , xi+1 ) > 0 pour
1 ≤ i ≤ p − 1. Par suite π(z) = π(xp-1 ) = · · · = π(x2 ) = π(x). La probabilité est donc
constante, ce qui est contradictoire.

3.3 Exercices
Exercice 13 Soit E un espace d’états dénombrable (on peut aussi se placer dans un espace
d’états abstrait au prix d’une extension de la notion de chaîne de Markov) et p et q des densités
de probabilité , avec 0 < p ≤ cq, q étant une densité facilement simulable. On considère alors
une suite Yn , n ≥ 1 de variables aléatoires indépendantes identiquement distribuées selon la loi
q et indépendantes de la variable aléatoire X0 . On définit par récurrence :

 Yn+1 avec probabilité p(Yn+1 )

cq(Yn+1 )
Xn+1 =
 Xn avec probabilité 1 − p(Yn+1 )

cq(Yn+1 )
1. En considérant une suite Un de variables aléatoires indépendantes identiquement distri-
buées selon la loi uniforme sur [0, 1] écrire Xn+1 sous la forme f(Xn , Un+1 , Yn+1 ) et en
déduire que Xn est une chaîne de Markov.
2. Calculer la probabilité de transition P(i, j) de Xn .
3. Calculer µP pour une probabilité µ et en déduire que la loi de Xn converge vers une
unique probabilité invariante égale à p.
4. Quel rapport y-a-t-il entre cette chaîne et la méthode de rejet classique ?
Exercice 14 Soit P(x, y) un noyau de transition d’une chaîne de Markov sur un espace d’état
fini E. On suppose que :
P(x, y) ≥ αc(y), pour tout y ∈ E, (3.4)
où c est une mesure de probabilité et α > 0.
P
1. Soit µ et µ 0 deux mesures de probabilité sur E. On note |µ − µ 0 | = x∈E |µ(x) − µ 0 (x)|.
Montrer que l’on a :
|µP − µ 0 P| ≤ (1 − α) |µ − µ 0 | .
2. Montrer que s’il existe une mesure de probabilité invariante, elle est forcément unique.
3. Soit (Xn , n ≥ 0) une chaîne de Markov de matrice de transition P. Montrer que quelle
que soit la loi initiale de X0 , la loi de Xn converge vers une unique loi de probabilité
invariante.
4. Montrer que les résultats précédents sont conservés si, il existe l ≥ 1 :
Pl (x, y) ≥ αc(y), pour tout y ∈ E. (3.5)

5. On considère maintenant l’algorithme de Métropolis. On suppose que P(x, y) = P(y, x)


et que l’équation (3.4) est vérifiée. On cherche à simuler une loi µ donnée à une constante
près par :
µ(x) = Ce- H(x) .
Écrire la probabilité de transition P̃(x, y) sur E qui permet de construire l’algorithme de
Métropolis.
38 PROCESSUS ET ESTIMATION : MONTE-CARLO

6. Vérifier que P̃ vérifie l’équation (3.4). Proposer une méthode de simulation approchée
selon la loi µ.

Exercice 15 Algorithme de Métropolis pour une marche aléatoire symétrique


Soit q la densité d’une variable aléatoire. On suppose de plus que q(x) = q(−x). A l’instant n
on simule une variable aléatoire Zn indépendante selon la loi q(x)dx et on note Yn = Xn + Zn .
On pose alors, si p(x) est une densité qui ne s’annule jamais :
±
Yn avec probabilité 1 ∧ pp((XYnn))
Xn+1 =
Xn sinon

Montrer que (Xn , n ≥ 0) est une chaîne réversible. Expliquer comment l’on peut simuler une
variable aléatoire selon la loi de densité :
1
exp (−βH(x))
Z

Exercice 16 Échantillonneur de Gibbs


Soit (X1 , . . . , Xn ) un vecteur prenant ses valeurs dans En , E étant un ensemble fini. On notera
p(x1 , . . . , xn ) sa loi.
On considère alors la chaîne de Markov décrite de la façon suivante : on commence par tirer
uniformément un indice entre 1 et n, puis l’on modifie la coordonnée i ainsi choisie selon la loi
conditionnelle de Xi sachant (Xj = xj , j 6= i).
1. Montrer que la probabilité de transition de la chaîne ainsi définie est donnée par, si x̄ =
(x1 , . . . , xi , . . . , xn ) et si ȳ = (x1 , . . . , y, . . . , xn ) :

1
q(x̄, ȳ) = P (Xi = y|Xj = xj , j 6= i)
n
0 sinon.
2. Expliquer comment simuler une variable aléatoire selon la probabilité de transition
q(x̄, ȳ) lorsque l’on sait simuler selon la loi conditionnelle P (Xi = y|Xj = xj , j 6= i).
3. On cherche à simuler selon la loi :
p(x̄)1{x̄ ∈ A}
.
P(X ∈ A)

Écrire l’algorithme de Métroplis-Hastings dans ce cas.


4. Que devient cet algorithme dans le cas où A = En ?
5. Étendre (sans démonstration) l’algorithme au cas d’une variable aléatoire admettant une
densité.
6. Proposer un algorithme pour tirer n points uniformément dans un cercle conditionnelle-
ment à ce que ces points soient éloignés d’au moins δ.
7. Proposer un algorithme permettant de simuler selon la loi de (X1 , . . . , Xn ) conditionnel-
lement à X1 + · · · + Xn ≥ C, les variables aléatoires Xi étant indépendantes et suivant des
lois exponentielles de paramètre λ.
Bibliographie

[AS70] M. Abramowitz et I.A. Stegun, editeurs. Handbook of Mathematical Functions.


Dover, 9th edition, 1970.
[BFS87] P. Bratley, B.L. Fox, et E.L. Schrage. A Guide to Simulation. Springer Verlag, New
York, 2nd edition, 1987.
[Bou86] N. Bouleau. Probabilités de l’Ingénieur. Hermann, 1986.
[Coc77] W.G. Cochran. Sampling Techniques. John Wiley and Sons, 1977.
[Dev86] L. Devroye. Non Uniform Random Variate Generation. Springer Verlag, New York,
1986.
[HH64] J.M. Hammersley et D.C. Handscomb. Monte Carlo Methods. Chapman and Hall,
1964.
[KN74] L. Kuipers et H. Neiderreiter. Uniform Distribution of Sequences. Wiley, 1974.
[Knu81] D.E. Knuth. The Art of Computer programming, Vol. 2, Seminumerical Algorithms.
Addison-Wesley, 1981.
[KW86] M.H. Kalos et P.A. Whitlock. Monte Carlo Methods, volume I : Basics. John Wiley
and Sons, 1986.
[L’E90] P. L’Ecuyer. Random numbers for simulation. Communications of the ACM, 33, 10
1990.
[Nei92] H. Neiderreiter. Random Number Generation and Quasi Monte Carlo Methods.
Society for Industrial and Applied mathematics, 1992.
[PTFV92] W.H. Press, S.A. Teukolsky, B.P. Flannery, et W.T. Vetterling. Numerical Recepies.
Cambridge University Press, 1992.
[Rip87] B.D. Ripley. Stochastic Simulation. Wiley, 1987.
[Rob96] Christian Robert. Methodes de Monte Carlo par chaines des Markov. Editions
Economica, 1996.
[Rub81] R. Y. Rubinstein. Simulation and the Monte Carlo Method. John Wiley and Sons,
1981.

39

Das könnte Ihnen auch gefallen