Sie sind auf Seite 1von 337

Probabilits et infrence statistique (STAT-S202)

Partie I: Probabilits

Davy Paindaveine

2011-2012 (2me dition)

Universit libre de Bruxelles Solvay Brussels School of Economics and Management


ch.0-p.1i

Introduction
Deux parties
1

Probabilits : Davy Paindaveine, 1er quadrimestre Thorie : 24h (=122h) TP : 18h (=92h) http://www.ulb.ac.be//soco/statrope/cours/stat-s-202 http://homepages.ulb.ac.be/~dpaindav/teaching/stats202.html Infrence statistique : Catherine Dehon, 2nd quadrimestre Thorie : 24h (=122h) TP : 18h (=92h)

1re session
1 2

Probabilits : examen en janvier Infrence statistique : examen en juin

Une note unique (la moyenne des notes de janvier et de juin).


ch.0-p.2i

Introduction
2nde session Un double examen est organis lors dune mme demi-journe (1h30 2h pour chaque partie). Rgles de report(s) et de notation :
De la premire la seconde session, un tudiant bncie automatiquement du report de la note de la premire partie du cours (examen de janvier) ou de la seconde partie du cours (examen de juin), si celle-ci est au moins gale 10/20 [aucune dmarche administrative nest ncessaire]. Les notes infrieures 10/20 sont automatiquement annules. Ltudiant qui a obtenu un report de note et qui dcide de reprsenter lexamen correspondant lors dune session ultrieure renonce implicitement son ancienne note et seule la nouvelle note obtenue sera prise en considration, mme si celle-ci est infrieure celle obtenue antrieurement. La note pour la seconde session est la moyenne entre la note obtenue pour la premire partie (note de janvier ou note obtenue en seconde session) et la note obtenue pour le deuxime partie (note de juin ou note obtenue en seconde session).

ch.0-p.3i

Introduction

Report danne
Ltudiant bncie du report danne si la note nale du cours Probabilits et infrence statistique est au moins gale 12/20. Un tudiant qui ne se voit pas attribuer un report danne ne bnciera pas de "report partiel" lanne suivante. Il devra donc, quelles que soient les notes obtenues lanne prcdente, repasser les deux parties du cours.

ch.0-p.4i

Introduction
Linfrence statistique, quoi et pour quoi ?

ch.0-p.1i

Introduction

30 avril 2007 : le bureau de campagne de Nicolas Sarkozy juge que si la proportion p des Franais en faveur de Nicolas Sarkozy est 52%, il faut opter pour une n de campagne assez agressive, si p > 52%, il faut au contraire opter pour une n de campagne prudente. Comment dcider de ce quil faut faire ?

La dcision dpend de la valeur de p, qui est malheureusement inconnue. Puisquil est bien sr exclu dinterroger tous les franais pour valuer p, la seule possibilit consiste raliser un sondage : interroger 100 futurs votants sur leurs intentions de vote, disons.

ch.0-p.2i

Introduction
La statistique descriptive sarrte la description des rsultats de ce sondage.

Ceci ne dit cependant rien de tangible sur p : quelle que soit la valeur de p (0, 1), ce rsultat de 62% peut en effet se raliser, en raison des "variations alatoires" auxquelles le rsultat du sondage est soumis (mais la valeur p = 1%, par exemple, rend ce rsultat de 62% trs peu probable et est donc carter)
ch.0-p.3i

Introduction

Les probabilits = un processus dductif : Une connaissance parfaite de la population permet de "prdire" les caractristiques de lchantillon qui sera obtenu alatoirement. >< La statistique infrentielle = un processus inductif : Lchantillon observ permet dobtenir de linformation sur la population qui nest que trs partiellement connue.
Probabilits

Population

Infrence statistique

Echantillon

ch.0-p.4i

Introduction
Ce sont ainsi les probabilits qui engendrent la statistique infrentielle, laquelle va plus loin que la statistique descriptive : elle permet de tirer des conclusions (et donc de prendre des dcisions). Comme le cours le montrera, elle tablira ici que si on tolre une probabilit de 5% quon opte tort pour une n de campagne prudente, il convient dopter en effet pour la prudence (alors quun rsultat de sondage de 58% ne mnerait pas cette conclusion), quune "fourchette" pour p, associe un "taux derreur de 5%", est donne par [52.5%, 71.5%].

Clairement, toute "preuve statistique" comportera un risque derreur. Comment dnir cette erreur ? Comment la contrler ? (p.ex., comment choisir une taille de sondage assurant une erreur infrieure un seuil x par le cabinet Sarkozy ?) Comment interprter les rsultats des procdures dinfrence statistique ?
ch.0-p.5i

Introduction
Les domaines dapplications des probabilits et de linfrence statistique sont innombrables : Lconomie : quel est le lien entre les dpenses et les revenus des mnages ? Comment modliser/prvoir le PNB en fonction dautres grandeurs macroconomiques ? La nance : comment apprcier les risques associs aux divers actifs nanciers ? Comment construire un portefeuille optimisant les prots en minimisant le risque ? Les assurances : comment la compagnie doit-elle xer les primes pour pouvoir faire face (avec une probabilit sufsante) lensemble des sinistres qui se produiront cette anne ? La politique de lducation : quel est limpact dune augmentation de la taille des classes sur lefcacit de lenseignement ? La sant publique : quelle est limportance du tabagisme passif ? Comment valider un mdicament avant de lintroduire sur le march ? ...
ch.0-p.6i

Introduction

Mesures de probabilit

Variables alatoires

Vecteurs alatoires

Thormes limites et lemme de Fisher

ch.0-p.7i

Plan du chapitre 1

Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle

ch.1-p.8i

Plan du chapitre 1

Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle

ch.1-p.1i

Exprience alatoire, univers, vnements

Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = interroger un quiddam sur ses intentions de vote Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {Sarkozy, Royal} Un vnement A : Un sous-ensemble de Exemple : A = {Sarkozy} Remarques : - Si le rsultat de E appartient A, on dit que lvnement A se produit. - Dans la suite, lensemble de toutes les parties de (= lensemble de tous les vnements) sera not P().

ch.1-p.1i

Exprience alatoire, univers, vnements


Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer dun d Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {1, 2, 3, 4, 5, 6} Un vnement A : Un sous-ensemble de Exemples : A1 = {1}, A2 = {2, 4, 6}, A3 = {5, 6}, . . . Remarques : - Si A est un singleton, on dit que A est simple (e.g., A1 ). Sinon, on dit que A est compos (e.g., A2 , A3 ). - Les rsultats composs dintrt sexpriment plus aisment sans mathmatique (e.g., A2 = "obtenir un rsultat pair").

ch.1-p.2i

Exprience alatoire, univers, vnements

Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer de deux ds (distinguables) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} Un vnement A : Un sous-ensemble de Exemples : A1 = {(1, 4)}, A2 = {(6, 6)}, A3 = {(5, 6), (6, 5)}, . . . Remarque : - Les oprations ensemblistes , , c , . . . , associes aux oprations logiques correspondantes ("ou", "et", "non", . . . ), engendrent de nouveaux vnements. Exemple : A2 A3 = {(6, 6), (5, 6), (6, 5)}, i.e., "avoir une somme gale 12" ou "avoir une somme gale 11" = "obtenir une somme plus grande ou gale 11".
ch.1-p.3i

Exprience alatoire, univers, vnements

A1

A2

A1

A2

A1A2
"ou" inclusif

A1A2
"et"

A1

A2 A

A1A2
"ou" exclusif "non"
ch.1-p.4i

Exprience alatoire, univers, vnements

Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = crer une start-up dans le but de percer dans les 5 ans Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {percer, ne pas percer} Un vnement A : Un sous-ensemble de Exemples : A1 = {percer}, A2 = , A3 = , . . . Remarques : - est dit vnement impossible. - est dit vnement certain.

ch.1-p.5i

Exprience alatoire, univers, vnements

Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer une pice de monnaie en lair jusqu obtenir p (pile) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {p, (f , p), (f , f , p), (f , f , f , p), . . .} Un vnement A : Un sous-ensemble de Exemples : A1 = {p, (f , p), (f , f , p)}, A2 = {(f , f , f , p), (f , f , f , f , p), . . .}, . . . Remarques : - A linverse des exemples prcdents, cet est inni. - est ici inni dnombrable (cest--dire en bijection avec N).

ch.1-p.6i

Exprience alatoire, univers, vnements


Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = mesurer le temps dattente du bus 71 (en minutes) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = (0, ) Un vnement A : Un sous-ensemble de Exemples : A1 = (0, 15], A2 = [5, ), . . . Remarques : - est ici inni non dnombrable. - Les oprations ensemblistes sont encore permises. Exemple : "attendre entre 5 et 15 minutes"= [5, 15] = (0, 15] [5, ) = A1 A2 = "attendre au plus 15 minutes" et "attendre au moins 5 minutes".

ch.1-p.7i

Plan du chapitre 1

Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle

ch.1-p.8i

Mesures de probabilit
Bien entendu, nous dsirons mesurer la probabilit P[A] de chaque vnement. Ceci ncessite une fonction densemble P appele mesure de probabilit.

Si # < , ceci est strictement quivalent associer chaque lment i de P un nombre pi ( 0), qui sera la valeur de P[{i }]. Seule restriction : # pi = 1. i=1 valeurs possibles probabilits 1 p1 2 p2 ... ... # p#

La mesure de probabilit qui en rsulte est alors donne par P : P() A R X

i:i A

P[{i }].

Remarque : pour A = , on dnit P[A] = 0.


ch.1-p.8i

Mesures de probabilit

A 5 1

2 6

3 4

F IGURE: P[A] =

i:i A

P[{i }] = P[{1 }] + P[{5 }]

ch.1-p.9i

Mesures de probabilit

Exemple : si on reprend lexemple du lancer dun d ( = {1, 2, . . . , 6}), on peut 1 prendre p1 = p2 = . . . = p6 = 6 (hypothse dun d quilibr). Ceci mne P[obtenir un rsultat pair] = = = = P[{2, 4, 6}] P[{2}] + P[{4}] + P[{6}] 1 1 1 + + 6 6 6 1 2

ch.1-p.10i

Mesures de probabilit
Mais peut-tre le d est-il plutt caractris par 1 1 1 1 1 1 (p1 , p2 , p3 , p4 , p5 , p6 ) = , , , , , . 12 12 12 4 4 4 Dans ce cas, on obtient P[obtenir un rsultat pair] = = = = P[{2, 4, 6}] P[{2}] + P[{4}] + P[{6}] 1 1 1 + + 12 4 4 7 1 > 12 2

ch.1-p.11i

Mesures de probabilit

Comment choisir la mesure de probabilit P ? Le choix est parfois guid par les hypothses naturelles que lon fait (e.g., d quilibr). Dans la suite de la partie "probabilits" du cours, on supposera toujours que P est connue (ou que lon fait des hypothses nous permettant de dterminer P).

Mais si on ne connat pas P, on peut recourir linfrence statistique pour estimer P, pour confronter ce que lon croit tre vrai pour P des donnes empiriques...

ch.1-p.12i

Mesures de probabilit
Imaginons que 1000 lancers du mme d aient livr les donnes suivantes :

valeurs possibles 1 2 3 4 5 6

frquences observes 154 163 142 148 172 221

Est-ce que ceci permet (ou non) dinrmer lhypothse que le d est quilibr ?

Etudier la validit dune hypothse (ou dune thorie scientique) en la confrontant des donnes empiriques est lun des usages principaux de linfrence statistique.
ch.1-p.13i

Mesures de probabilit
Un cas particulier important : lquiprobabilit Si # < , on peut considrer le cas o pi = p i. Comme P#
i=1

pi = 1, on doit alors avoir pi = 1 # i.

On en dduit que, pour tout A P(), on a P[A] = X P[{i }] (#A fois)

i:i A

= =

1 1 1 + +... + # # #

nombre de cas favorables #A = . # nombre de cas possibles

ch.1-p.14i

Mesures de probabilit
Si est inni dnombrable, on dnit encore une mesure de probabilit en associant chaque lment i de un nombre pi ( 0) qui sera la valeur de P[{i }]. La P restriction devient pi = 1 (une srie). i=1 valeurs possibles probabilits 1 p1 2 p2 3 p3 ... ...

On calcule encore la probabilit dun vnement A au moyen de la rgle P : P() A avec P[] = 0. Remarque : bien sr, on ne peut pas avoir ici de situation dquiprobabilit! P (car pi = p i et pi = 1 sont incompatibles) i=1
ch.1-p.15i

R X

i:i A

P[{i }],

Mesures de probabilit
Exemple : si on reprend lexemple o on lance une pice jusqu obtenir face pour la premire fois ( = {p, (f , p), (f , f , p), (f , f , f , p), . . .}), il est naturel de prendre 1 1 1 1 (p1 , p2 , p3 , p4 , . . .) = , , , ,... , 2 4 8 16 P qui livre bien i=1 pi = 1. On calcule alors par exemple P[il faut au plus trois lancers] = = = ou P[il faut au moins trois lancers] = = = P[{(f , f , p), (f , f , f , p), . . .}] P[{(f , f , p)}] + P[{(f , f , f , f , p)}] + . . . 1 1 1 + +... = . 8 16 4
ch.1-p.16i

P[{p, (f , p), (f , f , p)}] P[{p}] + P[{(f , p)}] + P[{(f , f , p)}] 1 1 7 1 + + = 2 4 8 8

Mesures de probabilit

Dans les deux cas considrs ( ni, inni dnombrable), on peut vrier que la mesure de probabilit P satisfait toujours (A1) P[A] 0 pour tout A (A2) P[] = 1 (A3) P[A1 A2 . . .] = P[A1 ] + P[A2 ] + . . ., pour tout A1 , A2 , . . . P() tels que Ai Aj = si i = j. Il sagit l des trois axiomes qui dnissent, dans le cas gnral, ce quest une mesure de probabilit. Dans le dernier cas restant traiter (celui o est inni non dnombrable), on ne peut en effet chapper cette dnition axiomatique pour dnir le concept de mesure de probabilit...

ch.1-p.17i

Mesures de probabilit
Le cas o est inni non dnombrable est donc plus complexe. Pire : il est si complexe quil ny a en gnral pas de mesure de probabilit (cest--dire de fonction densemble vriant (A1)-(A2)-(A3)) pour tous les vnements A P(). Mais ce nest pas si grave car nous ne sommes jamais intresss par tous les vnements. La solution consistera dnir la mesure de probabilit sur une collection dvnements A plus petite que P(). Dans tous les cas, cette collection dvnements devra tre une -algbre. Dnition La collection A densembles de P() est une -algbre si A A A Ac A

A1 , A2 , . . . A A1 A2 . . . A Ceci implique notamment que (= c ) A, que les runions nies et intersections nies dlments de A sont encore des lments de A, etc.
ch.1-p.18i

Mesures de probabilit
Dans le cas gnral, on adopte alors la dnition suivante. Dnition Soit A une -algbre. La fonction densemble P :A A est une mesure de probabilit sur A si P[A] 0 pour tout A A P[] = 1 R P[A]

P[A1 A2 . . .] = P[A1 ] + P[A2 ] + . . ., pour tout A1 , A2 , . . . A tels que Ai Aj = si i = j. Point de terminologie : on dira que le triple (, A, P) qui en rsulte est un espace probabilis.
ch.1-p.19i

Mesures de probabilit

En gnral, on se restreint la -algbre la plus petite contenant les vnements qui nous intressent. Ainsi, si = R, on considrera la -algbre de Borel A = B = ({(x, y ] : x < y }), o ({(x, y ] : x < y }) dsigne la plus petite -algbre qui contient tous les intervalles de la forme (x, y ]. Remarques : Les lments B B sont appels les borliens.

(i) tous les intervalles de la forme (x, y ], (x, y ), [x, y ], [x, y ), (ii) les singletons {x}, et donc aussi (iii) les runions nies de tels vnements sont dans B ! (voir TP). Ceci implique quau moyen dun mesure de probabilit sur A = B, on sera capable de calculer la probabilit de tels ensembles.

ch.1-p.20i

Mesures de probabilit
Extension R+ : B+ = {B R+ : B B} Extension R+ : B+ = {B R+ : B B} 0 0 ... Extension R2 : B2 = ({(x1 , y1 ] (x2 , y2 ] : x1 < y1 , x2 < y2 })
C R1 R2

y2 x2

R3

R4

Le disque C appartient B2 car il se dcompose en une union dnombrable de rectangles : C = R1 R2 R3 R4 ...

x1

y1

Extension Rk : Bk = ({(x1 , y1 ] (x2 , y2 ] . . . (xk , yk ] : xi < yi i})


ch.1-p.21i

Mesures de probabilit
Exemple : si on reprend lexemple o on observe le temps dattente (en minutes) du bus 71 ( = R+ ), et si on fait lhypothse quun 71 passe exactement toutes les 10 0 minutes, on peut considrer la fonction densemble P:B A R P[A] = |A [0, 10]| |A [0, 10]| = , |R (0, 10)| 10

o |C| reprsente la mesure (la longueur pour un intervalle) de lensemble C. On vriera que P est bien une mesure de probabilit (exercice). On calcule par exemple P[attendre entre 5 et 15 minutes] = = = P[[5, 15]] |[5, 15] [0, 10]| 10 5 1 |[5, 10]| = = . 10 10 2
ch.1-p.22i

Plan du chapitre 1

Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle

ch.1-p.23i

Mesures de probabilit

Il dcoule des axiomes que toute mesure de probabilit vrie P[Ac ] = 1 P[A] 0 P[A] 1 P[] = 0

P[A1 \ A2 ] = P[A1 ] P[A1 A2 ] Si A1 A2 , alors P[A1 ] P[A2 ] Si A1 A2 = , alors P[A1 A2 ] = P[A1 ] + P[A2 ] P[A1 A2 ] = P[A1 ] + P[A2 ] P[A1 A2 ] (voir TP) Les mesures de probabilit associes aux cas o est ni ou inni dnombrable vriant (A1)-(A2)-(A3), elles satisfont de mme toutes les proprits ci-dessus.

ch.1-p.23i

Mesures de probabilit

A2

A1A2

ch.1-p.24i

Plan du chapitre 1

Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle

ch.1-p.25i

Analyse combinatoire

Revenons sur le cas important o # < et o on prend pi = (cas quiprobable). Puisque, comme on la vu, on a alors P[A] =

1 #

pour tout i

nombre de cas favorables #A = , # nombre de cas possibles

il est important de pouvoir compter le nombre dlments dun ensemble.

Cest lanalyse combinatoire, travers la rgle de multiplication et les concepts de permutations, arrangements, combinaisons, qui permet ce comptage dans des situations complexes.

ch.1-p.25i

Analyse combinatoire : rgle de multiplication

Le produit cartsien de deux ensembles A et B est dni par A B = {(a, b) : a A, b B}. La rgle de multiplication dit simplement que #(A B) = (#A) (#B). Plus gnralement, A B . . . F = {(a, b, . . . , f ) : a A, b B, . . . , f F } est de cardinalit (#A) (#B) . . . (#F ). Exemples : - Menu avec trois entres, deux plats, deux desserts 3*2*2=12 repas possibles - Paul le poulpe doit pronostiquer 8 rsultats de matchs dafle, ce qui donne 28 = 256 sries de pronostics possibles (pas 356!!!)

ch.1-p.26i

Analyse combinatoire : rgle de multiplication

ch.1-p.27i

Analyse combinatoire : permutations, arrangements


Soit A un ensemble avec #A = n. Dnition Une permutation est une suite ordonne (a1 , a2 , . . . , an ) des n lments de A. Il y a n! = n (n 1) . . . 2 1 permutations possibles. (convention pour la suite : 0! = 1) Dnition Une arrangement de longueur k (< n) est une suite ordonne (a1 , a2 , . . . , ak ) de k lments distincts de A. Il y a Ak = n (n 1) . . . (n k + 1) = n tels arrangements. n! (n k )!

ch.1-p.28i

Analyse combinatoire : combinaisons


Dnition Une combinaison de longueur k ( n) est un ensemble {a1 , a2 , . . . , ak } contenant k lments distincts de A. Lordre na pas dimportance ici, et il y a
k Cn =

telles combinaisons.

Ak n! n = k! k !(n k )!

(=

`n ) k

`n k Les coefcients binomiaux Cn = k , clbres entre autres pour leur rle dans le `n P fameux binme de Newton (x + y )n = n =0 k x k y nk , sont tels que k `n
k

` n
0

` ` = 1, n = n, n = 1 2 `n ` n `n+1 + k +1 = k +1 . k

n nk

n(n1) ,. . . 2

ch.1-p.29i

Analyse combinatoire : exemples

Dans un groupe de k personnes, quelle est la probabilit quau moins deux dentre elles aient la mme date danniversaire (on oublie les annes bissextiles) ? = {(a1 , . . . , ak ) : ai {1, 2, . . . , 365}} # < ( A = P()) P : situation dquiprobabilit Nombres de rpartitions danniversaires possibles : # = 365k Nombres de rpartitions danniversaires menant des anniversaires tous diff365! rents : Ak = (365k )! 365 P[anniversaires tous diffrents] =
365! (365k )! 365k

ck = P[au moins deux anniversaires identiques] = 1

365! (365k )! 365k

ch.1-p.30i

Analyse combinatoire : exemples

F IGURE: Probabilit quun moins deux anniversaires concident parmi k , en fonction de k


ch.1-p.31i

Analyse combinatoire : exemples


Considrons le jeu de lotto (version octobre 2011, o on choisit 6 numros parmi 45) et calculons la probabilit davoir exactement k bons numros (k 0, 1, . . . , 6}). =lensemble de tous les tirages possibles # < ( A = P()) P : situation dquiprobabilit ` Nombres de bulletins possibles : # = 45 6 `6 ` Nombres de bulletins avec k bons numros : k 456 6k
6 (k )(456) 6k (45) 6

ck = P[exactement k bons numros] = k ck 0 0.40 1 0.42 2 0.15 3 0.022

4 0.0014

5 0.000029

6 0.00000012

Remarque : c1 > c0 .

ch.1-p.32i

Plan du chapitre 1

Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle

ch.1-p.33i

Mesures de probabilit conditionnelle


Bien souvent, on dispose dune information qui permet de mettre jour la probabilit dun vnement. La forme la plus simple que peut prendre cette information est la connaissance quun certain vnement se soit produit.

Considrons un espace probabilis (, A, P). On sintresse la probabilit P[A] dun vnement A. On a linformation que lvnement B se produit. Dnition La probabilit conditionnelle de A sachant que B se produit est P[A|B] = P[A B] . P[B]

Remarque : - On suppose donc que P[B] > 0 (what else ?) - P[A|] = P[A] (linformation que se produit est inutile !)
ch.1-p.33i

Mesures de probabilit conditionnelle

F IGURE: Si on a linformation que B se produit, les cas possibles sont associs B et les cas favorables sont associs A B P[A|B] = P[A B]/P[B].

ch.1-p.34i

Mesures de probabilit conditionnelle

Exemple : si on prend un individu au hasard dans une compagnie satisfaisant Femme (F ) 25 75 100 Homme (H) 20 40 60

Manager (M) Non-manager (M c )

45 115 160

on obtient P[F ] = mais

100 60 > = P[H], 160 160

P[M|F ] =

P[M F ] 25/160 1 1 20/160 P[M H] = = < = = = P[M|H]. P[F ] 100/160 4 3 60/160 P[H]

ch.1-p.35i

Mesures de probabilit conditionnelle

F IGURE: P[F ] > P[H] mais P[M|F ] < P[M|H].


ch.1-p.36i

Mesures de probabilit conditionnelle


Exemple : Les parents du roi ont deux enfants. Quel est la probabilit que le roi ait une soeur ?

= {(G, G), (G, F ), (F , G), (F , F )}, avec 4 rsultats quiprobables. Linformation est ici reprsente par B = "lun des enfants est un garon". Alors, si on pose A = "lun des enfants est une lle", on obtient P[le roi a une soeur] = = = = P[A|B] P[A B] P[B] P[{(G, F ), (F , G), (F , F )} {(G, G), (G, F ), (F , G)}] P[(G, F ), (F , G), (G, G)] 2/4 2 P[{(G, F ), (F , G)}] = = . P[(G, F ), (F , G), (G, G)] 3/4 3

ch.1-p.37i

Mesures de probabilit conditionnelle


Les applications des probabilits conditionnelles sont trs nombreuses : Les contrats dassurance non-vie sont plus chers Charleroi qu Lasnes car P[subir un sinistre | habiter Charleroi] > P[subir un sinistre | habiter Lasnes]. Les contrats dassurance vie sont dautant plus chers quon avance en ge car P[dcder sous peu | tre vieux] > P[dcder sous peu | tre jeune]. Les probabilits conditionnelles sont aussi prsentes dans les fameuses tables de mortalit, qui reprennent (pour diffrents n) P[dcder avant n + 1 ans | on a atteint n ans]. Au golf, P[vous gagnez contre Tiger Woods] 0. Mais le systme de handicap permet toujours de faire en sorte que P[vous gagnez contre Tiger Woods | handicap] 1 . 2
ch.1-p.38i

Mesures de probabilit conditionnelle


Deux thormes sont trs utiles en relation avec les probabilits conditionnelles. Ils demandent tous les deux quon considre des vnements B1 , . . . , Bk A formant un partition de (ce qui signie que k Bi = et Bi Bj = pour i = j). i=1

B1

B2

B3

F IGURE: Partition de en B1 , B2 , B3 , B4 : exactement un des Bi se produit.


ch.1-p.39i

Mesures de probabilit conditionnelle

Thorme (Probabilit totale) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P Alors, A A, on a P[A] = k P[A|Bi ]P[Bi ]. i=1 Preuve : P[A] = = = P[(A B1 ) (A B2 ) . . . (A Bk )]

P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] + . . . + P[A|Bk ]P[Bk ].

P[A B1 ] + P[A B2 ] + . . . + P[A Bk ]

ch.1-p.40i

Mesures de probabilit conditionnelle


Thorme (Probabilit totale) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P Alors, A A, on a P[A] = k P[A|Bi ]P[Bi ]. i=1 Exemple : E = jouer un point o on sert au tennis A = gagner le point B1 = russir son 1er service (P[B1 ] = .70) B2 = rater son 1er service, mais russir le 2nd (P[B2 ] = .25) B3 = faire une double faute ( P[B3 ] = .05) Si P[A|B1 ] = .9 et P[A|B2 ] = .6, on obtient P[A] = = P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] + P[A|B3 ]P[B3 ] .70 .9 + .25 .6 + 0 0.05 = .78
ch.1-p.41i

Mesures de probabilit conditionnelle

Thorme (Formule de Bayes) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P[A|Bj ]P[Bj ] , j = 1, . . . , k . Alors, A A avec P[A] > 0, on a P[Bj |A] = Pk i=1 P[A|Bi ]P[Bi ] Preuve : P[Bj |A] = P[A|Bj ]P[Bj ] P[Bj A] = , P[A] P[A]

et le rsultat dcoule donc du thorme prcdent.

ch.1-p.42i

Mesures de probabilit conditionnelle


Thorme (Formule de Bayes) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P[A|Bj ]P[Bj ] , j = 1, . . . , k . Alors, A A avec P[A] > 0, on a P[Bj |A] = Pk i=1 P[A|Bi ]P[Bi ] Exemple : E = faire un test HIV A = le test est positif B1 = la personne est malade (P[B1 ] = .003) B2 = la personne est saine ( P[B2 ] = .997) Si P[A|B1 ] = .95 et P[Ac |B2 ] = .95, on obtient P[B1 |A] = = P[A|B1 ]P[B1 ] P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] .95 .003 .05(!) .95 .003 + (1 .95) (1 .003)
ch.1-p.43i

Mesures de probabilit conditionnelle

En gnral, linformation B permet dafner la probabilit que A se produise : P[A|B] = P[A] (le fait que B se produise apporte vraiment de linformation sur le fait que A se produise). Si ce nest pas le cas, on dit que A et B sont indpendants. Dnition Soient A, B des vnements de probabilit non nulle. Alors : A et B sont indpendants P[A|B] = P[A] P[A B] = P[A]P[B] P[B|A] = P[B]. Remarques : - Les ouvrages de rfrence prfrent la dnition "A et B sont indpendants P[A B] = P[A]P[B]" car elle tolre que P[A] = 0 ou P[B] = 0. - Nanmoins, les autres dnitions ci-dessus sont plus importantes pour lintuition.

ch.1-p.44i

Mesures de probabilit conditionnelle

Extension un nombre ni n 3 vnements : Dnition Les vnements A1 , A2 , . . . , An sont mutuellement indpendants k = {2, 3, . . . , n}, 1 i1 < i2 < . . . < ik n, P[Ai1 Ai2 . . . Aik ] = P[Ai1 ]P[Ai2 ] . . . P[Aik ]. Extension un nombre inni (dnombrable) dvnements : Dnition Les vnements A1 , A2 , . . . sont mutuellement indpendants k = {2, 3, . . .}, 1 i1 < i2 < . . . < ik , P[Ai1 Ai2 . . . Aik ] = P[Ai1 ]P[Ai2 ] . . . P[Aik ].

ch.1-p.45i

Mesures de probabilit conditionnelle


Comme le montre lexemple suivant, il est capital daussi considrer k < n dans la premire dnition de la page prcdente.

E =lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} A = P() P : situation dquiprobabilit A1 = le rsultat du 1er d est un nombre pair A2 = le rsultat du 2nd d est un nombre impair A3 = la somme des deux rsultats est un nombre impair Ces vnements sont deux deux indpendants : 18 9 P[A1 A2 ] = 36 = 18 36 = P[A1 ]P[A2 ] 36 9 18 18 P[A1 A3 ] = 36 = 36 36 = P[A1 ]P[A3 ] 9 18 18 P[A2 A3 ] = 36 = 36 36 = P[A2 ]P[A3 ] Mais ils ne sont pas mutuellement indpendants car P[A1 A2 A3 ] = P[A1 A2 ] = 9 = 18 18 18 = P[A1 ]P[A2 ]P[A3 ]. 36 36 36 36
ch.1-p.46i

Mesures de probabilit conditionnelle

1 2 3 4 5 6

ch.1-p.47i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.48i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.1i

Dnition et exemples
Soit une exprience alatoire E. Soit un espace probabilis (, A, P) associ. Il est commun que le rsultat de E soit un nombre ou quon puisse naturellement associer un nombre au rsultat. Ceci conduit au concept de variable alatoire. Dnition Une variable alatoire (v.a.) est une fonction X : R X ()

vriant la condition technique que, pour tout borlien B B, [X B] A ()

o [X B] := X 1 (B) := { : X () B}. La v.a. est dite discrte si lensemble de ses valeurs possibles {X () : } est ni ou inni dnombrable. Remarque : ce stade, P ne joue aucun rle.
ch.2-p.1i

Dnition et exemples

XB

X( )

B X(2) X(1) X( ) X( )

ch.2-p.2i

Dnition et exemples
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( X = somme des rsultats de chaque d Autrement dit, X : (i, j) R X (i, j) = i + j.

A = P())

- Puisque A = P(), (*) est automatiquement satisfaite. Donc X est une v.a. - Puisque X () = {2, 3, . . . , 12} est ni, X est une v.a. discrte. Remarques gnrales : - Si est ni ou inni dnombrable, on peut toujours prendre A = P(). Comme ci-dessus, toute fonction X : R vrie alors (*) et est donc une v.a. - Si est ni ou inni dnombrable, toutes les v.a. sont discrtes.
ch.2-p.3i

Dnition et exemples
Si est inni non dnombrable, on peut par contre avoir des v.a. discrtes ou non discrtes.

F IGURE: E = lancer une chette. = lensemble de tous les points dimpact possibles (inni non dnombrable) A = B2 := ({(a1 , b1 ] (a2 , b2 ] : a1 < b1 , a2 < b2 }). Le nombre de points marqus X est une v.a. discrte >< la distance Y du point dimpact au centre est une v.a. non discrte
ch.2-p.4i

Distribution
Exemples : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) X = nombre de lancers ncessaires X est une v.a. discrte (avec une innit de valeurs possibles). E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme X est une v.a. non discrte. E = mesurer (en heures) la dure dune enchre eBay de 7 jours avec loption "achat immdiat" = (0, 7 24] = (0, 168] A=B X = la dure elle-mme X est une v.a. non discrte.
ch.2-p.5i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.6i

Distribution : cas gnral


Considrons deux jeux pour lesquels il faut payer 10 euros pour jouer. Dans le 1er, on reoit un montant X1 gal 30 euros si on obtient un as en tirant une carte dans un jeu de 52 cartes, et 0 euro sinon. Dans le 2nd, on reoit un montant X2 gal 30 euros si on obtient face en lanant une pice de monnaie, et 0 euro sinon. Les v.a. X1 et X2 partagent le mme ensemble de valeurs possibles ({0, 30}), mais sont pourtant trs diffrentes. Clairement, une v.a. nest que trs partiellement caractrise par la seule collection de ses valeurs possibles !

Ce qui caractrise compltement une v.a. X est la distribution de X , qui est la collection de toutes les probabilits de la forme P[X B]ou, de manire quivalente, la loi de probabilit P X sur (R, B) dnie par P X [B] = P[X B]. Remarque : le rle de (*) est dassurer quon puisse calculer P[X B] B B. Comment dcrire efcacement la distribution de X ?
ch.2-p.6i

Distribution : cas discret

Si X est une v.a. discrte (et admet les valeurs possibles xi , i I), on a que X P[X = xi ] B B, P[X B] =
i:xi B

(1)

o [X = xi ] = X 1 ({xi }). Il en dcoule que la distribution de X est compltement caractrise par la collection {(xi , pi := P[X = xi ]) : i I} des valeurs possibles et des probabilits correspondantes. Distribution de X valeurs possibles x1 x2 probabilits p1 p2

... ...

(xk ) (pk )

Par abus de language, on appellera aussi ce tableau "distribution de X " (ce qui se justie par le fait quil permet de calculer, via (1), la distribution au sens strict).

ch.2-p.7i

Distribution : cas discret


Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( P : situation dquiprobabilit X = somme des rsultats de chaque d

A = P())

valeurs possibles probabilits

2
1 36

3
2 36

Distribution de X 4 5 6 7
3 36 4 36 5 36 6 36

8
5 36

9
4 36

10
3 36

11
2 36

12
1 36

ch.2-p.8i

Distribution : cas discret

Comme annonc, ceci dnit une loi de probabilit P X sur (R, B). Par exemple, on a 2 36 2 3 5 P X [{3, 4}] = P[X {3, 4}] = + = 36 36 36 P X [{3}] = P[X = 3] = 2 3 5 + = 36 36 36 4 5 12 3 + + = P X [[3.5, 5 + 2)] = P[X [3.5, 5 + 2)] = P[X {4, 5, 6}] = 36 36 36 36 P X [[3, 4]] = P[X [3, 4]] = P[X {3, 4}] = . . .

ch.2-p.9i

Distribution : cas discret


Exemple avec une innit de valeurs possibles : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) 1 1 1 P donn par (p1 , p2 , p3 , p4 , . . .) = ( 2 , 4 , 1 , 16 , . . .) 8 X = nombre de lancers ncessaires

Distribution de X valeurs possibles 1 2 3 1 1 1 probabilits 2 4 8

4
1 16

... ...

ch.2-p.10i

Distribution : * retour au cas gnral *


Soit X une v.a. (pas ncessairement discrte). Dnition La fonction de rpartition de X est la fonction F :R x Proprits caractristiques : limx F (x) = 0 et limx F (x) = 1 F est non dcroissante (x < x F (x) F (x )) En notant F (x + ) := limz x F (z), on a F (x + ) = F (x) (continuit droite) > Toute fonction F satisfaisant ces trois proprits est en fait la fonction de rpartition dune v.a.
ch.2-p.11i

[0, 1] P[X x].

Distribution : * retour au cas gnral *


Proprits supplmentaires : En notant F (x ) := limz x F (z), on a < F (x) F (x ) = P[X = x]. Une fonction de rpartition nest donc pas toujours continue gauche (et donc pas toujours continue). Pour tout a < b, on a F (b) F (a) = P[a < X b]. En particulier, on a que 1 F (a) = P[X > a] (ceci est obtenu en prenant la limite pour b ). Remarque : Il dcoule de (2) que F caractrise compltement la distribution de X (P X F ).
ch.2-p.12i

(2)

Distribution : * retour au cas gnral *

La fonction de rpartition permet de dnir une notion qui sera cruciale dans la partie "infrence statistique" du cours. Dnition Soit (0, 1) x. Le quantile dordre de la distribution de X est le nombre x = inf{x R : F (x) }. Sil existe un unique nombre c tel que F (c) = , alors x = c = F 1 (). Mais la dnition ci-dessus permet de dnir x mme dans les cas o il ny a pas de tel c. Terminologie : - x 1 est la mdiane 2 - x 1 et x 3 sont les 1er et 3me quartiles 4 4 - x i , i = 1, 2, . . . , 9 sont les dciles 10 - x i , i = 1, 2, . . . , 99 sont les percentiles
100

ch.2-p.13i

Distribution : cas discret


Soit X une v.a. discrte. Soit (xi , pi = P[X = xi ]), i I, sa distribution. P Alors on a F (x) = P[X x] = i:xi x pi .
1

F(x)

p3

p2 p1

x1

x2

x3

F IGURE: Fonction de rpartition dune v.a. discrte X (dans ce cas, X a 3 valeurs possibles). Il est ici vident que F donne une manire quivalente de fournir la distribution de X .
ch.2-p.14i

Distribution : cas continu


Une classe importante de v.a. non discrtes est celle des v.a. continues. Dnition La v.a. est dite continue si sa fonction de rpartition F est continue. Si X est une v.a. continue, on a donc P[X = x] = F (x) F (x ) = 0 x R,

ce qui montre que les v.a. continues sont dune nature fondamentalement diffrente de celle des v.a. discrtes. Exemples : la dure de vie dune batterie le temps dattente du 71 la quantit de pluie en aot prochain Bruxelles le valeur du PNB de la Belgique lors de la prochaine valuation () ...
ch.2-p.15i

Distribution : cas continu

Comme P[X = x] = 0 x dans le cas o X est une v.a. continue, on a que 1 F (a) = = et F (b) F (a) = = = = P[a < X b] P[a X b] P[a X < b] P[a < X < b]. P[X > a] P[X a]

Ceci montre comment dduire ces probabilits de la fonction de rpartition.

ch.2-p.16i

Distribution : cas continu


Exemple : E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme Supposons que la fonction de rpartition de X soit donne par 8 0 si x < 0 > > > > < 2 x F (x) = si 0 x < 2500 > 25002 > > > : 1 si x 2500.

Si le fabricant sengage rembourser sans frais la batterie dans le cas o celle-ci meurt avant 500 heures dutilisation, la probabilit que le fabricant doive faire ce geste vaut P[X 500] = P[X (, 500]] = F (500) F () = 5002 1 0= . 25002 25
ch.2-p.17i

Distribution : cas continu

F IGURE: Fonction de rpartition (F ) de la dure de vie de la batterie.


ch.2-p.18i

Distribution : cas continu


Si la drive f (x) = F (x) existe x (sauf ventuellement en un nombre ni de x R), le thorme fondamental du calcul diffrentiel et intgral permet dcrire Z b P[a < X b] = F (b) F (a) = f (x) dx,
a

ou plus gnralement, pour tout B B, P[X B] = Dnition

f (x) dx.

(3)

La fonction f (= F ) est appele fonction de densit de probabilit de X . Remarques : - En les x o F (x) nexiste pas, on donnera une valeur arbitraire (positive) f (x) : ceci naura aucune inuence sur le calcul des probabilits P[X B] via (3). Rx - On peut reconstruire F partir de f via F (x) = f (z) dz. La densit f fournit donc une autre caractrisation quivalente de la distribution de X (P X F f ).
ch.2-p.19i

Distribution : cas continu

Proprits de f : f (x) 0 x R R f (x) dx = 1

Toute fonction f satisfaisant ces deux proprits est en fait la fonction de densit de probabilit dune v.a. continue.

Interprtation de f (x) : Pour x petit, on a P[X (x, x + x]] = F (x + x) F (x) f (x) x, de sorte que f (x) mesure la "vraisemblance" que X se ralise dans un voisinage de x ; au plus grande la valeur de f (x), au plus il est probable que X se ralisera "autour de x".

ch.2-p.20i

Distribution : cas continu


Exemple : E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme Si la fonction de rpartition de X est donne par 8 0 si x < 0 > > > > < x2 F (x) = si 0 x < 2500 > 25002 > > > : 1 si x 2500, on obtient la fonction de densit 8 > 0 > > > < 2x f (x) = > 25002 > > > : 0

si x < 0 si 0 x < 2500 si x 2500.


ch.2-p.21i

Distribution : cas continu

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de la dure de vie de la batterie.

ch.2-p.22i

Distribution : cas continu

Sur base de la densit f , on peut recalculer que la probabilit que la batterie cde en moins de 500 heures vaut F (500) = P[X 500] = P[X (, 500]] = Z
500

f (x) dx =

500

500 2x x2 1 dx = . = 25002 25002 0 25


1 . 25

Clairement, 500 est lunique valeur telle que F (500) = 1 500 est le quantile dordre = 25 . Graphiquement (voir la page prcdente),

x = 500 est labscisse pour laquelle lordonne sur le graphe de F vaut Laire sous le graphe de f gauche de x = 500 vaut
1 . 25

1 . 25

ch.2-p.23i

Distribution

Il existe des v.a. qui ne sont ni discrtes ni continues... Exemple : E = mesurer (en heures) la dure dune enchre eBay de 7 jours avec loption "achat immdiat" = (0, 7 24] = (0, 168] A=B X = la dure elle-mme X est une v.a. non discrte.

ch.2-p.24i

Distribution

F IGURE: Fonction de rpartition (F ) de la dure lenchre (en heures). P[achat immdiat] = P[X < 168] = F (168 ) = 1/3 et P[lenchre va son terme] = P[X = 168] = F (168) F (168 ) = 2/3. On remarque aussi que la probabilit davoir un achat immdiat dans lintervalle [x, x + ] est dcroissante en x (ce qui est raisonnable).
ch.2-p.25i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.26i

Esprance mathmatique

Souvent, on cherche rsumer linformation contenue dans la distribution un petit nombre dindicateurs, appels moments.

La dnition de ces moments requiert le concept desprance mathmatique. Dnition (i) Si la v.a. X est discrte, de distribution (xi , pi = P[X = xi ]), i I, lesprance P mathmatique de X est E[X ] = iI xi pi . (ii) Si la v.a. X est continue, et admet la fonction de densit f , lesprance R mathmatique de X est E[X ] = x f (x)dx. E[X ] est donc une moyenne pondre des valeurs possibles de X , o les poids sont dtermins par la vraisemblance de chaque valeur. Remarque : il est important de noter lanalogie trs forte entre les deux formules desprance mathmatique.

ch.2-p.26i

Esprance mathmatique
Exemple 1 (cas discret avec #I < ) : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( P : situation dquiprobabilit X = somme des rsultats de chaque d A = P())

valeurs possibles probabilits

2
1 36

3
2 36

Distribution de X 4 5 6 7
3 36 4 36 5 36 6 36

8
5 36

9
4 36

10
3 36

11
2 36

12
1 36

E[X ]

= = =

11 X i=1

xi pi 1 2 1 +3 + . . . + 12 36 36 36

2 7

ch.2-p.27i

Esprance mathmatique
Exemple 2 (cas discret avec #I = ) : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) 1 1 1 P donn par (p1 , p2 , p3 , p4 , . . .) = ( 2 , 4 , 1 , 16 , . . .) 8 X = nombre de lancers ncessaires Distribution de X valeurs possibles 1 2 3 1 1 1 probabilits 2 4 8
X i=1

4
1 16

... ...

E[X ]

= = =

xi pi 1 1 1 1 +2 +3 +4 +... 2 4 8 16

1 2

ch.2-p.28i

Esprance mathmatique
Dans la suite, il sera utile de considrer lesprance de certaines transformes g(X ) de X (o g : R R). Dnition (i) Si la v.a. X est discrte, de distribution (xi , pi = P[X = xi ]), i I, lesprance P mathmatique de g(X ) est E[g(X )] = iI g(xi )pi . (ii) Si la v.a. X est continue, et admet la fonction de densit f , lesprance R mathmatique de g(X ) est E[g(X )] = g(x) f (x)dx. Cette dnition est problmatique car nous avons maintenant deux mthodes pour calculer E[g(X )] : la mthode 1 consiste utiliser directement la formule E[g(X )] donne dans la dnition ci-dessus. la mthode 2 consiste poser Y = g(X ), dterminer la distribution de Y , puis calculer E[g(X )] = E[Y ] selon la dnition de la page 26 de ce chapitre. Heureusement, ces deux mthodes fournissent toujours le mme rsultat.
ch.2-p.29i

Esprance mathmatique
Exemple : Considrons une v.a. discrte caractrise par Distribution de X x1 = 2 x2 = 1 x3 = 0
1 5 1 5 1 5

valeurs possibles xi probabilits pi

x4 = 1
1 5

x5 = 2
1 5

Considrons le calcul de E[X 2 ]. La mthode 1 livre directement E[X 2 ] = = =


n X i=1

(xi )2 pi 1 1 1 1 1 + (1)2 + (0)2 + (1)2 + (2)2 5 5 5 5 5

(2)2 10 =2 5

ch.2-p.30i

Esprance mathmatique
Pour la mthode 2, on obtient dabord la distribution de Y = X 2 : Distribution de Y = X 2 valeurs possibles yi y1 = 0 y2 = 1 (y ) 1 2 probabilits pi 5 5 (e.g., P[Y = 4] = P[[X = 2] [X = 2]] = Ceci donne alors E[X 2 ] = E[Y ] = = =
n X i=1 1 5

y3 = 4
2 5

1 5

1 = 2 , mais P[Y = 0] = P[X = 0] = 5 ) 5

yi pi

(y )

1 2 2 +1 +4 5 5 5

10 =2 5

ch.2-p.31i

Esprance mathmatique
Proprits principales de lesprance mathmatique : Thorme Soient X1 , X2 deux v.a. et a R. Alors (i) E[X1 + X2 ] = E[X1 ] + E[X2 ] (ii) E[aX1 ] = aE[X1 ] (iii) E[a] = a (iv) Si X1 X2 (au sens o X1 () X2 () ), alors E[X1 ] E[X2 ] (v) Si E[X ] = 0 et X 0q sens o X () 0 ), alors X = 0 (au q

2 2 (vi) |E[X1 X2 ]| E[X1 ] E[X2 ] (ingalit de Cauchy-Schwarz), et lgalit a lieu si et seulement si X2 = cX1 ou X1 = cX2 pour un certain c R.

De (i)-(ii), il dcoule en particulier que E[a1 X1 + a2 X2 ] = a1 E[X1 ] + a2 E[X2 ] pour toutes les v.a. X1 , X2 et toutes les constantes relles a1 , a2 . On dira que lesprance mathmatique est un oprateur linaire. En gnral, on na pas que E[X1 X2 ] = E[X1 ]E[X2 ]. Ainsi, dans lexemple prcdent, on a (E[X ])2 = 02 = 2 = E[X 2 ].
ch.2-p.32i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.33i

Variance
Lesprance mathmatique E[X ] de X est une quantit qui donne une information sur la grandeur (ou position) de X , travers sa valeur moyenne (ou "attendue"). Mais E[X ] est loin de dcrire de faon prcise la distribution de X .

Exemple : Considrons deux actions A1 et A2 , et leur volution en une unit de temps xe. - Si lconomie reste telle quelle est, les deux actions vont augmenter de 5%. - Si lconomie samliore, A1 va prendre 10% et A2 50%. - Si lconomie se dtriore, A1 va perdre 10% et A2 50%. En outre, supposons que lconomie samliorera avec proba .2, se dtriorera avec proba .2, donc restera inchange avec proba .6. Si on note respectivement X1 et X2 le pourcentage pris par A1 et A2 , on a que E[X1 ] = (10%) .2 + 5% .6 + 10% .2 = 3% E[X2 ] = (50%) .2 + 5% .6 + 50% .2 = 3%
ch.2-p.33i

Variance

Les bnces attendus pour A1 et A2 concident... Mais les deux actions sont rellement diffrentes : Le risque associ A2 est beaucoup plus lev que celui associ A1 . Cette caractristique, qui est bien prsente dans la distribution de X1 et X2 , ne lest pas dans le rsum de ces distributions que constituent E[X1 ] et E[X2 ].

ch.2-p.34i

Variance
Pour mesurer le "risque" ou la variabilit dune variable alatoire, on a recours au concept de variance. Dnition La variance de la v.a. X est
2 X

= Var[X ] = E (X X )2 =

o X = E[X ].

iI (xi

X )2 pi
2

si X est discrte si X est continue,

(x X ) f (x)dx

La quantit |X X | (ou son carr (X X )2 ) mesure lcart de X sa valeur attendue X .

Var[X ] est alors la valeur attendue de cette cart (carr).


ch.2-p.35i

Variance
Proprits principales de la variance : Thorme Soient X1 , X2 deux v.a. et a R. Alors (i) Var[aX ] = a2 Var[X ] (ii) Var[X + a] = Var[X ] (iii) Var[a] = 0 (iv) Var[X ] = E[X 2 ] (X )2 (v) Si Var[X ] = 0, alors X = constante. Le point (iv), qui facilite le calcul de la variance en pratique, dcoule du fait que Var[X ] = E (X X )2 = E X 2 2X X + (X )2 = = = E[X 2 ] 2(X )2 + (X )2 E[X 2 ] (X )2 . E[X 2 ] 2X E[X ] + E[(X )2 ]

Le point (v) est une consquence directe du point (v) du thorme en page 32.
ch.2-p.36i

Variance
En pratique, on utilise ainsi Var[X ] = E[X ] (X ) =
2 2

iI (xi ) 2

pi (X )2
2

si X est discrte si X est continue.

x f (x)dx (X )

Exemple des deux actions : Puisque

2 E[X1 ] = (10%)2 .2 + (5%)2 .6 + (10%)2 .2 = 55(%)2 2 E[X2 ] = (50%)2 .2 + (5%)2 .6 + (50%)2 .2 = 1015(%)2 ,

on obtient

2 Var[X1 ] = E[X1 ] (X1 )2 = 55(%)2 (3%)2 = 46(%)2 2 Var[X2 ] = E[X2 ] (X2 )2 = 1015(%)2 (3%)2 = 1006(%)2 ,

ce qui traduit bien le ct plus volatile de la seconde action.


ch.2-p.37i

Ingalit de Tchebychev
Thorme (ingalit de Tchebychev) a > 0, P[|X X | > a X ] 1/a2 Ceci doit se lire "il y a moins dune chance sur a2 que X prenne une valeur au del de a fois la racine carre de la variance par rapport X ." Preuve : Soit a > 0. Posons Y = 1 0
2 si (X X )2 > a2 X sinon.

2 Clairement, on a toujours (X X )2 a2 X Y . Donc on a 2 2 2 X = E[(X X )2 ] E[a2 X Y ] = a2 X E[Y ]

2 2 = a2 X P[(X X )2 > a2 X ],

2 = a2 X (1 P[Y = 1] + 0 P[Y = 0])

ce qui fournit le rsultat.


ch.2-p.38i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.39i

Quelques distributions discrtes classiques


(i) X est de distribution de Bernoulli de paramtre p( [0, 1]) (notation : X Bern(p)) si la distribution de X est donne par valeurs possibles probabilits 0 1p 1 p

Ceci modlise des situations o on na que deux rsultats possibles : succs (1) ou chec (0). On vrie directement quon a E[X ] = p et Var[X ] = p(1 p). Evidemment, pour un espace probabilis quelconque (, A, P), on a que, pour tout A A, la variable alatoire 1 si A se produit X = IA := 0 sinon est Bernoulli de paramtre p = P[A].
ch.2-p.39i

Quelques distributions discrtes classiques

(ii) X est de distribution binomiale de paramtres n ( N0 ) et p ( [0, 1]) (notation : X Bin(n, p)) si la distribution de X est donne par Distribution de X 1 ... np(1 p)n1 . . .

valeurs possibles probabilits

0 (1 p)n

`n
k

k p k (1 p)nk

... ...

n pn

La v.a. X compte le nombre de succs dans une suite de n expriences de type "succs-chec" (o un succs se produit avec probabilit p) rptes de faon indpendantes. On vrie que E[X ] = np et Var[X ] = np(1 p).

ch.2-p.40i

Quelques distributions discrtes classiques

F IGURE: Rpartition des probabilits de Bin(n, p), pour n = 8 et p = .1, .2, .5, .8, .9

ch.2-p.41i

Quelques distributions discrtes classiques

(iii) X est de distribution de Poisson de paramtre ( R+ ) 0 (notation : X Poi() ou X P()) si la distribution de X est donne par Distribution de X 0 1 ... e e . . .

valeurs possibles probabilits

k e k /(k !)

... ...

La v.a. X compte le nombre de ralisations dun vnement rare au cours dune certaine priode de temps (nombre de dcs suite une maladie rare au cours dune anne, nombre de Ferrari passant par le boulevard Gnral Jacques au cours dune journe, etc.) On vrie que E[X ] = et Var[X ] = .

ch.2-p.42i

Quelques distributions discrtes classiques

F IGURE: Rpartition des probabilits de Poi(), pour = 1, 5, 10.

ch.2-p.43i

Quelques distributions discrtes classiques

Si n et p 0 de telle manire que np (> 0), on a que P[Bin(n, p) = k ] P[Poi() = k ] Ce rsultat justie linterprtation de la distribution de Poisson (=le comptage ldu nombre de ralisations dun vnement rare au cours dune certaine priode de temps) permet dapproximer une Bin(n, p) par une Poi(np) (pour n grand, p petit) est compatible avec le fait que E[X ] = et Var[X ] = . k N.

ch.2-p.44i

Quelques distributions discrtes classiques

F IGURE: Approximation dune binomiale par une Poisson.

ch.2-p.45i

Quelques distributions discrtes classiques

(iv) X est de distribution gomtrique de paramtre p ( (0, 1)) (notation : X Geom(p)) si la distribution de X est donne par Distribution de X 2 ... (1 p)p . . .

valeurs possibles probabilits

1 p

k (1 p)k 1 p

... ...

La v.a. X compte le nombre de rptitions (indpendantes) dune exprience de type succs-chec ncessaires pour avoir le premier succs. On vrie que E[X ] = 1/p et Var[X ] = (1 p)/p 2 .

ch.2-p.46i

Quelques distributions discrtes classiques

F IGURE: Rpartition des probabilits de Geom(p), pour p = .8, .5, .2

ch.2-p.47i

Quelques distributions discrtes classiques

On a donc considr les distributions (i) de Bernoulli, (ii) binomiales, (iii) de Poisson, et (iv) gomtriques. On pourrait encore prsenter les distributions (v) binomiales ngatives, (vi) hypergomtriques, (vii) ... Nous renvoyons cependant aux monographes donns en rfrence pour ltude de ces distributions supplmentaires.

ch.2-p.48i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.49i

Quelques distributions continues classiques


(i) X est de distribution uniforme sur (a, b) ( < a < b < ) (notation : X Unif(a, b)) si X admet la fonction de densit dnie par 8 1 > < si x (a, b) ba f (x) = > : 0 sinon. Ceci fournit x a F (x) = > ba > > : 1 8 > > > < 0

si x a

si x (a, b) si x b.

1 h, ba qui est proportionnelle la longueur h de lintervalle [c, c + h], mais ne dpend pas de sa position (dtermine par c). P[c X c + h] = Le temps dattente du bus 71 est une v.a. de loi Unif(0, d), o d est lcart (suppos constant) entre deux bus !
ch.2-p.49i

Le nom de cette distribution est justi par le fait que, pour 0 c c + h 1, on a

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Unif(0, 1).

ch.2-p.50i

Quelques distributions continues classiques

On a E[X ] = Z

x f (x)dx =

x
a

b x2 a+b 1 dx = . = ba 2(b a) a 2

Dautre part, comme Z E[X 2 ] =

x 2 f (x)dx =

b a

x2

1 dx ba a2 + ab + b 2 b 3 a3 = , 3(b a) 3

x3 3(b a)

b
a

on obtient Var[X ] = E[X 2 ] (E[X ])2 =

(b a)2 . 12

ch.2-p.51i

Quelques distributions continues classiques

(ii) X est de distribution exponentielle de paramtre ( R+ ) 0 (notation : X Exp()) si X admet la fonction de densit dnie par 8 > 1 x / < e si x 0 f (x) = > : 0 sinon. Ceci fournit F (x) = 8 < 1 e x / : 0

si x 0 sinon.

On vriera facilement que

E[X ] = (exercice conseill).

et

Var[X ] = 2

ch.2-p.52i

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Exp(), = 1, 2 et 4.

ch.2-p.53i

Quelques distributions continues classiques

Cette distribution est souvent utilise pour modliser la dure de vie de certains composants. Mais, de faon surprenante, elle modlise la dure de vie dun composant "qui ne vieillit pas" ! Ceci est en lien avec le fait que la distribution exponentielle est "sans mmoire" : pour h > 0, on a P[X > x + h|X > x] = P[[X > x + h] [X > x]] P[X > x + h] = P[X > x] P[X > x]

e (x +h)/ 1 P[X x + h] = = e h/ = 1 P[X h] = P[X > h]. 1 P[X x] e x /

ch.2-p.54i

Quelques distributions continues classiques

(iii) X est de distribution normale centre rduite (notation : X N (0, 1)) si X admet la fonction de densit dnie par
2 1 f (x) = (x) := e x /2 . 2

La fonction de rpartition associe F (x) = (x) := nadmet pas de forme explicite. On vrie que E[X ] = 0 et Var[X ] = 1. Z
x

(y ) dy

ch.2-p.55i

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X N (0, 1). Le graphe de cette fonction de densit est souvent appele cloche de Gauss.

ch.2-p.56i

Quelques distributions continues classiques

F IGURE: Table de la fonction de rpartition de la loi N (0, 1).


ch.2-p.57i

Quelques distributions continues classiques


(iii) X est de distribution normale de paramtres ( R) et 2 ( R+ ) 0 (notation : X N (, 2 )) si la distribution de X est la mme que celle de Z + , o Z N (0, 1). On vriera (exercice conseill) que la densit de X est (x )2 1 x 1 2 2 , f (x) = e = 2 2 et que la fonction de rpartition de X est F (x) = ( x ). De la dnition ci-dessus, il dcoule directement que ( E[X ] = E[Z + ] = E[Z ] + =

Var[X ] = Var[Z + ] = Var[Z ] = 2 Var[Z ] = 2 ,

ce qui donne une interprtation claire aux paramtres de la loi N (, 2 ). Centrer-rduire une variable X N (, 2 ) La remplacer par Z = (X )/, qui, par dnition, est de loi N (0, 1).

ch.2-p.58i

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X N (0, 1) et de X 1 N ( = 1, 2 = 4 ).


ch.2-p.59i

Quelques distributions continues classiques

F IGURE: Lancien billet de 10 deutschemarks.

ch.2-p.60i

Quelques distributions continues classiques

Dans des calculs ultrieurs, on utilisera beaucoup les proprits de symtrie des lois normales, qui dcoulent toutes de lidentit (x) = (x) x : Si X N (0, 1) (et x 0),
1 P[X < x] = P[X > x] (et en particulier P[X < 0] = P[X > 0] = 2 ), ce qui se rcrit (x) = 1 (x) et explique pourquoi on ne tabule que (x), x 0.

P[|X | > x] = 2P[X > x].

Si X N (, 2 ) (et x 0),
1 P[X < x] = P[X > + x] (et en particulier P[X < ] = P[X > ] = 2 )

P[|X | > x] = 2P[X > + x].

ch.2-p.61i

Quelques distributions continues classiques


(iv) X est de distribution lognormale de paramtres ( R) et 2 ( R+ ) 0 (notation : X LN (, 2 )) si ln X N (, 2 ). De manire quivalente, X a la mme distribution que e +Z , o Z N (0, 1). On vriera (exercice conseill) que la fonction de rpartition de X est 8 > > (ln x) si x > 0 < F (x) = > > : 0 sinon

On en dduit que la mdiane de cette distribution vaut F 1 ( 1 ) = e . Enn, on peut 2 montrer que 2 2 2 + 2 et Var[X ] = (e 1)e 2 + . E[X ] = e
ch.2-p.62i

et que sa fonction de densit est 8 ((ln x) )2 > > > < 1 2 2 e f (x) = x 2 2 > > > : 0

si x > 0 sinon.

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X LN (0, 1) (mdiane=1, moyenne1.65, variance4.67) et de X LN ( = 1, 2 = 1 ) (mdiane2.72, moyenne 4 3.08, variance2.69).
ch.2-p.63i

Quelques distributions continues classiques

(v) X est de distribution de Student degrs de libert ( N0 ) (notation : X t ) si X admet la fonction de densit dnie par f (x) = (( + 1)/2) (1 + x 2 /)(+1)/2 . (/2)

On peut montrer que E[X ] = 0 pour > 1 Remarques : - Quand , t N (0, 1). - Ces distributions sont utilises pour modliser des phnomnes o des vnements extrmes se produisent plus souvent que pour la loi normale ("queues lourdes"). - Au plus est petit, au plus ce phnomne de queues lourdes est prononc.
ch.2-p.64i

et

Var[X ] =

pour > 2.

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X t , = , 5, 1 (remarque : t = N (0, 1)).


ch.2-p.65i

Quelques distributions continues classiques

(vi) X est de distribution chi-carr k degrs de libert (k N0 ) (notation : X 2 ) k si X admet la fonction de densit dnie par 8 k 1 x /2 1 > > si x 0 < k k x2 e 2 2 ( 2 ) f (x) = > > : 0 sinon, o x (x) = On peut montrer que ( E[X ] = k Var[X ] = 2k . R
0

t x 1 e t dt est la fonction Gamma dEuler.

ch.2-p.66i

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X 2 , k = 1, 2, 3, 5, et 7. k

ch.2-p.67i

Quelques distributions continues classiques

(vii) X est de distribution de Fisher-Snedecor (F) k1 et k2 degrs de libert (k1 , k2 N0 ) (notation : X Fk1 ,k2 ) si X admet la fonction de densit dnie par 8 s k > > (k1 x)k1 k2 2 1 > < si x 0 k1 k2 k1 +k2 x B( 2 , 2 ) (k1 x + k2 ) f (x) = > > > : 0 sinon, o (x, y ) B(x, y ) = On peut montrer que R1
0

t x 1 (1 t)y 1 dt est la fonction Beta. k2 k2 2

E[X ] = et Var[X ] =

pour k2 > 2

2 2k2 (k1 + k2 2) k1 (k2 2)2 (k2 4)

pour k2 > 4.

ch.2-p.68i

Quelques distributions continues classiques

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Fk1 ,k2 , k1 = 1, 2, 3, 5, et 7, et k2 = 3 dans chaque cas.

ch.2-p.69i

Quelques distributions continues classiques


Les lois 2 , Fk1 ,k2 , t admettent les dnitions quivalentes suivantes, qui appak raissent ici comme des proprits de ces lois : X 2 X a la mme distribution que k mutuellement indpendantes.
k X i=1

Zi2 , o les Zi N (0, 1) sont

X Fk1 ,k2 X a la mme distribution que sont mutuellement indpendantes. X t X a la mme distribution que p sont mutuellement indpendantes.

Y1 /k1 , o Y1 21 et Y2 22 k k Y2 /k2

Z , o Z N (0, 1) et Y 2 Y /

La raison pour laquelle nous navons pas adopt ces proprits comme dnitions est que la notion dindpendance de v.a. ne sera dnie quau chapitre suivant. Nanmoins, nous insistons sur le fait quau terme du cours, ce sont les proprits ci-dessus qui devraient permettre chacun didentier les lois 2 , Fk1 ,k2 , ou t . k
ch.2-p.70i

Quelques distributions continues classiques

Dans le cas continu aussi, nous renvoyons aux monographes donns en rfrence pour la prsentation dautres distributions continues classiques, parmi lesquelles les lois gamma, les lois beta, ...

ch.2-p.71i

Plan du chapitre 2

Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments

ch.2-p.72i

Moments
Pour mesurer la position dune v.a. X , on utilise son esprance X = E[X ]. 2 Pour mesurer la dispersion dune v.a. X , on utilise sa variance X = E[(X X )2 ]. Pour mesurer dautres caractristiques, on peut utiliser dautres moments. Dnition Soit k {1, 2, . . .} Le moment non centr dordre k de X : ,X = E[X k ]. k Le moment centr dordre k de X : k ,X = E[(X )k ]. 1,X
2 On a donc X = et X = 2,X . 1,X

Parfois, on mesure plutt la dispersion par lcart-type. Dnition Lcart-type de X est X = p Var[X ].

Lcart-type a lavantage de sexprimer dans les mmes units que X (en % plutt quen (%)2 dans lexemple faisant intervenir les deux actions).
ch.2-p.72i

Moments

En pratique, ,X = E[X k ] = k et k ,X = E[(X )k ] 1,X = ( ( P


iI (xi ) k

pi

si X est discrte si X est continue

x k f (x)dx

iI (xi

)k pi 1,X )k f (x)dx 1,X

si X est discrte si X est continue.

(x

ch.2-p.73i

Moments
Sur la base du moment dordre 3, on peut fonder une mesure dasymtrie. Dnition Le coefcient dasymtrie (skewness) de X est 3,X 3,X 1,X := = 3 . (2,X )3/2 X Cette mesure est invariante sous changement de position et dchelle, au sens o 1,aX +b = 1,X pour tout a > 0 et tout b. Interprtation : - Si la distribution est symtrique par rapport une certaine valeur, on a 1 = 0. - Si la distribution est asymtrique gauche, on a 1 < 0. - Si la distribution est asymtrique droite, on a 1 > 0. (clarication sur la base de la gure suivante) Exemples typiques : salaires, dpenses,...

ch.2-p.74i

Moments

F IGURE: Rpartition des probabilits de Bin(n, p), pour np 8 et p = .1, .2, .5, .8, .9, avec = dans chaque cas la valeur numrique de 1 = (1 2p)/ np(1 p).

ch.2-p.75i

Moments
Sur la base du moment dordre 4, on peut fonder une mesure du poids des queues. Dnition Le coefcient daplatissement (kurtosis) de X est 4,X 4,X 3 = 4 3 . 2,X := (2,X )2 X Comme le coefcient dasymtrie, le coefcient daplatissement est invariant sous changement de position et dchelle : 2,aX +b = 2,X pour tout a > 0 et tout b. Interprtation : - Si la distribution a des queues "de mme poids que celles des distributions normales", on a 2 = 0. - Si les queues sont "plus lourdes", on a 2 > 0. - Si les queues sont "plus lgres", on a 2 < 0. (clarication sur la base de la gure suivante). Exemple typique : les returns dactions,...
ch.2-p.76i

Moments

F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X t (= N (0, 1)) (rouge), de X t5 (vert), et de X t1 (bleu).
ch.2-p.77i

Moments

Lexemple prcdent montre que certains moments peuvent tres innis. Dnition Si E[|X k |] = , on dit que X nadmet pas de moment dordre k . Dans ce cas, on ne peut pas parler de E[X k ]. - On peut montrer que si E[|X k |] < , alors E[|X |] < < k . - Linexistence de certains moments est typiquement associe la prsence de queues lourdes (qui font diverger les sries/intgrales dnissant les moments correspondants). Par exemple, la distribution t nadmet pas de moment dordre k , ce qui est lorigine des restrictions sur la page 64.

ch.2-p.78i

Fonction gnratrice des moments


Dnition La fonction gnratrice des moments dune v.a. X est M: R R t M(t) := E[e ] =
tX

iI tx

e txi pi

si X est discrte si X est continue.

e f (x)dx

Exemples pour quelques lois classiques : Loi discrte Bern(p) Bin(n, p) Poi() Geom(p) M(t) 1 p + pe t (1 p + pe t )n e (e 1) pe t 1 (1 p)e t
t

Loi continue

U(a, b)
Exp() N (, 2 ) 2 k

M(t) e tb e ta t(b a) 1 1 t e t+ 2
1 2t2

(1 2t)k /2 , t <

1 2

ch.2-p.79i

Fonction gnratrice des moments


Exemple de calcul de M(t) : si X N (0, 1), M(t) = E[e ] =
tX

e f (x)dx

tx

e tx

x2 1 e 2 dx 2 (x t)2 2 dx

t2 Z e2 t e2,
2

1 e 2

= o la dernire galit dcoule du fait que

(x t )2 1 x e 2 2

est une fonction de densit (cest la densit de la loi N (t, 1)), et donc sintgre 1.
ch.2-p.80i

Fonction gnratrice des moments

Remarque : Il arrive que cette fonction ne soit pas dnie (cest le cas si X t ). Comme son nom lindique, la fonction gnratrice des moments permet entre autres de calculer les moments de X . Thorme d k M(t) = ,X k dt k t=0

ch.2-p.81i

Fonction gnratrice des moments


Soit X Bin(n, p). Comme vu plus haut, on a alors M(t) = (1 p + pe t )n . On obtient donc E[X ] = = 1 De mme, 2 = = = dM(t) = [n(1 p + pe t )n1 pe t ] = np. dt t=0 t=0

[n(n 1)(1 p + pe t )n2 p 2 e 2t + n(1 p + pe t )n1 pe t ] n(n 1)p 2 + np

d 2 M(t) 2 dt t=0

t=0

livre Var[X ] = ( )2 = n(n 1)p 2 + np (np)2 = np(1 p). 2 1 p En continuant, on pourrait obtenir lexpression 1 = (1 2p)/ np(1 p) donne la page 75.
ch.2-p.82i

Fonction gnratrice des moments

Le rsultat suivant est galement trs important. Thorme Soient X et Y deux v.a. admettant respectivement les fonctions gnratrices des moments MX (t) et MY (t). Si MX (t) = MY (t) t, alors X et Y ont la mme distribution. Autrement dit, lune des manires de montrer que deux v.a. ont la mme distribution est de montrer quelles partagent la mme fonction gnratrice des moments. Ceci sera utilis dans la suite.

ch.2-p.83i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.84i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.1i

Dnition et distribution jointe


Gnralement, on sintresse plusieurs variables alatoires (v.a.) Dans ce cas, les outils du chapitres prcdents sappliquent encore, et apportent de linformation sur chaque v.a. dividuelle. Mais ils ne captureront pas le lien entre ces diverses v.a. Or ce lien est souvent dun grand intrt, que ce soit pour faire de la prvision dune variable sur la base des autres, pour juger de limpact de certaines variables sur une variable xe, pour dtecter un ventuel problme, ...

Exemple : X = la taille dun tre humain (en cm) Y = le poids de la mme personne (en kg) On mesure X et Y sur 1000 personnes...
ch.3-p.1i

Dnition et distribution jointe

ch.3-p.2i

Dnition et distribution jointe

F IGURE: Un individu " risque"...


ch.3-p.3i

Dnition et distribution jointe

F IGURE: ... Masqu dans les distributions individuelles de X et de Y .

ch.3-p.4i

Dnition et distribution jointe

Un autre exemple : "En bourse, il faut diversier pour diminuer le risque." Soient A1 , . . . , Ak des actifs nanciers. Soient X1 , . . . , Xk les valeurs (alatoires !) respectives de ces actifs (en euros). Un portefeuille est une quantit (alatoire) agrge, du type Z = c1 X1 + c2 X2 + . . . + ck Xk , o ci est le nombre de titres Ai en portefeuille. Le risque associ au portefeuille (qui est souvent mesur par Var[Z ]) dpend du risque individuel de chaque Ai (mesur par Var[Xi ]), mais aussi de la dpendance entre les Xi (cest une trs mauvaise ide de ne possder que des actions du secteur bancaire !)

ch.3-p.5i

Dnition et distribution jointe

Soit une exprience alatoire E. Soit un espace probabilis (, A, P) associ. Dnition Un vecteur alatoire (v.a.!) (bivari) est une fonction (X , Y ) : R2 (X (), Y ())

vriant la condition technique que, pour tout borlien B B2 , [(X , Y ) B] A o [(X , Y ) B] := { : (X (), Y ()) B}. Plus tard, on considrera aussi des v.a. k -varis (X1 , X2 , . . . , Xk ). Etendre la thorie ce cas est relativement simple (la notation devient seulement un peu lourde). ()

ch.3-p.6i

Dnition et exemples

B (X( ),Y( ))

1 (X(2),Y(2)) 2 (X(3),Y(3)) (X(4),Y(4))

[(X,Y)B]

(X(1),Y(1))

=
ch.3-p.7i

Distribution jointe, fonction de rpartition


Comme dans le cas des variables alatoires, lensemble des valeurs possibles {(X (), Y ()) : } ne dcrit le v.a. que trs partiellement. Ce qui dcrit compltement (X , Y ) est sa distribution jointe, cest--dire la mesure de probabilit P (X ,Y ) : B2 B [0, 1] P (X ,Y ) [B] = P[(X , Y ) B],

ou, de manire quivalente, sa fonction de rpartition : Dnition La fonction de rpartition de (X , Y ) est la fonction F : R2 (x, y ) [0, 1] P[X x, Y y ].
ch.3-p.8i

Distribution jointe, fonction de rpartition

y0

(x0,y0)

x0

F IGURE: F (x0 , y0 ) = P[X x0 , Y y0 ]

ch.3-p.9i

Distribution jointe, fonction de rpartition


Comme annonc, la distribution jointe P (X ,Y ) et la fonction de rpartition F fournissent la mme information sur (X , Y ).

En effet, A partir de P (X ,Y ) , on peut calculer directement F (x, y ) = P (X ,Y ) [(, x] (, y ]]. A partir de F , on obtient P (X ,Y ) [(a1 , b1 ] (a2 , b2 ]] = = P[a1 < X b1 , a2 < Y b2 ]

F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ),

ce qui permet de determiner P (X ,Y ) [B] pour nimporte quel B (puisque tout borlien B sobtient par runion/intersection dune collection dnombrable de tels rectangles (a1 , b1 ] (a2 , b2 ]).
ch.3-p.10i

Distribution jointe, fonction de rpartition


y

b2

(a1,b2)

(b1,b2)

a2 (a1,a2)

(b1,a2)

a1

b1

F IGURE: P[a1 < X b1 , a2 < Y b2 ] = F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ) (preuve gomtrique)

ch.3-p.11i

Distribution jointe, fonction de rpartition

C R1 R2

y2 x2

R3

R4

x1

y1

F IGURE: Rappel du chapitre 1 : le disque C appartient B2 car il se dcompose en une union dnombrable de rectangles disjoints : C = R1 R2 R3 R4 ... Ce qui implique que P[(X , Y ) C] = P[(X , Y ) R1 ] + P[(X , Y ) R2 ] + P[(X , Y ) R3 ] + P[(X , Y ) R4 ] + . . .
ch.3-p.12i

Distribution jointe, fonction de rpartition

Comme on vient de le voir, la fonction de rpartition F fournit linformation ncessaire pour obtenir P[(X , Y ) B] pour tout B. Nanmoins, le lien entre cette probabilit et F nest pas trs explicite.

Nous allons donc voir maintenant comment on peut calculer en pratique ces probabilits. Nous traiterons sparment les v.a. discrets et les v.a. continus. Dnition Le v.a. (X , Y ) est dit discret si lensemble de ses valeurs possibles {(X (), Y ()) : } est ni ou inni dnombrable. Dnition Le v.a. (X , Y ) est dit continu si sa fonction de rpartition F est continue.

ch.3-p.13i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.14i

Distribution jointe et distributions marginales : le cas discret


Dnition Le v.a. (X , Y ) est dit discret si lensemble de ses valeurs possibles {(X (), Y ()) : } est ni ou inni dnombrable. Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue) Autrement dit, (X , Y ) : (i, j) R2 (i + j, |i j|).

Comme X () = {2, 3, . . . , 12} et Y () = {0, 1, . . . , 5} sont nis, (X , Y ) est clairement un v.a. discret.
ch.3-p.14i

Distribution jointe et distributions marginales : le cas discret


Supposons que (X , Y ) soit un v.a. discret. Notons xi , i I, les valeurs possibles de X . Notons yj , j J , les valeurs possibles de Y . Lensemble des valeurs possibles de (X , Y ) {(xi , yj ) : i I, j J }. La distribution jointe de (X , Y ) est compltement caractrise par le tableau des valeurs possibles et des probabilits correspondantes pij := P[(X , Y ) = (xi , yj )] x1 p11 p12 . . . (p1 ) x2 p21 p22 . . . (p2 ) ... ... ... .. . ... (xk ) (pk 1 ) (pk 2 ) . . . (pk )

y1 y2 . . . (y ) grce la relation P[(X , Y ) B] =

i,j:(xi ,yj )B

P[(X , Y ) = (xi , yj )] B B2 .
ch.3-p.15i

Distribution jointe et distributions marginales : le cas discret

y y4 y3

y2 y1 x1 x2 x3 x

F IGURE: Collection des valeurs possibles pour (X , Y ).

ch.3-p.16i

Distribution jointe et distributions marginales : le cas discret

y y4 y3 B

y2 y1 x1 x2 x3 x

F IGURE: Calcul des probabilits : P[(X , Y ) B] = P[(X , Y ) = (x2 , y2 )] + P[(X , Y ) = (x2 , y3 )] + P[(X , Y ) = (x3 , y3 )].
ch.3-p.17i

Distribution jointe et distributions marginales : le cas discret

y y4 y3

B=[X=x2]

y2 y1 x1 x2 x3 x

F IGURE: En guise de cas particulier important, on a P[X = x2 ] = P[(X , Y ) B] = P[(X , Y ) = (x2 , y1 )] + . . . + P[(X , Y ) = (x2 , y4 )].
ch.3-p.18i

Distribution jointe et distributions marginales : le cas discret


Ceci explique comment calculer la distribution de X partir de la distribution jointe : X X pij P[(X , Y ) = (xi , yj )] = pi := P[X = xi ] =
jJ jJ

valeurs possibles probabilits

x1 p 1

x2 p 2

... ...

(xk ) (pk )

On parlera de distribution marginale (>< distribution jointe).

Cette distribution marginale est celle dune variable alatoire (>< vecteur alatoire). Comme au chapitre prcdent, on peut donc lutiliser pour calculer des probabilits du type P[X B], en calculer lesprance, la variance, etc. Par exemple, X xi pi , E[X ] =
iI

Var[X ] =

E[(X E[X ])2 ] =


2 2

E[X ] (E[X ]) =

iI (xi

E[X ])2 pi
2

(pour linterprtation) (pour le calcul).


ch.3-p.19i

iI (xi )

pi (E[X ])2

Distribution jointe et distributions marginales : le cas discret


De mme, la distribution marginale de Y est donne par X X pij P[(X , Y ) = (xi , yj )] = pj := P[Y = yj ] =
iI iI

valeurs possibles probabilits


y y4 y3

y1 p1

y2 p2

... ...

(y ) (p )

y2 B=[Y=y1] y1 x1 x2 x3 x
ch.3-p.20i

Distribution jointe et distributions marginales : le cas discret

On reporte souvent ces distributions marginales dans le tableau de la distribution jointe (auquel on peut aussi ajouter les esprances et variances marginales) : x1 p11 p12 . . . (p1 ) p 1 x2 ... p21 ... p22 ... . .. . . . (p2 ) . . . p 2 ... E[X ] Var[X ] (xk ) (pk 1 ) (pk 2 ) . . . (pk ) (pk )

y1 y2 . . . (y )

p1 p2 . . . (p ) 1

E[Y ]

Var[Y ]

Ce nest pas parce quon sintresse (X , Y ) quon ne sintresse pas aux distributions marginales !

ch.3-p.21i

Distribution jointe et distributions marginales : le cas discret

Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue)
2 0 1 2 3 4 5
1 36 2 36 2 36 2 36 2 36 2 36

4
1 36

5
2 36

6
1 36

7
2 36

8
1 36

9
2 36

10
1 36

11
2 36

12
1 36

2 36 2 36

2 36 2 36 2 36

2 36

ch.3-p.22i

Distribution jointe et distributions marginales : le cas discret


Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue)
2 0 1 2 3 4 5
1 36 2 36 3 36 4 36 5 36 1 36 2 36 2 36 2 36 2 36 2 36 6 36

4
1 36

5
2 36

6
1 36

7
2 36

8
1 36

9
2 36

10
1 36

11
2 36

12
1 36 6 36 10 36 8 36 6 36 4 36 2 36

E[Y ] =
35 18

Var[Y ] =
665 324

2 36 2 36

2 36 2 36 2 36

2 36

1.94

2.05

5 36

4 36

3 36

2 36

1 36

E[X ] = 7 Var[X ] = 35 5.83 6


ch.3-p.23i

Distribution jointe et distributions marginales : le cas continu


Dnition Le v.a. (X , Y ) est dit continu si sa fonction de rpartition F est continue. Tout comme pour les variables alatoires, on va se restreindre au cas particulier o F est drivable (dans ce cas bivari, deux fois) sauf ventuellement en un nombre ni de points (x, y ). On adopte la dnition suivante. Dnition La fonction de densit de (X , Y ) est la fonction (x, y ) f (x, y ) = On peut alors montrer que, pour tout B B2 , ZZ P[(X , Y ) B] = f (x, y ) dy dx,
B 2F (x, y ). x y

ce qui indique que la fonction de densit dtermine la distribution jointe de (X , Y ).

ch.3-p.24i

Distribution jointe et distributions marginales : le cas continu


Proprits de f : f (x, y ) 0 (x, y ) R2 RR f (x, y ) dy dx = 1 R2

Toute fonction f satisfaisant ces proprits est en fait la densit dun v.a. continu.

Pour B = (a1 , b1 ] (a2 , b2 ], on obtient P[(X , Y ) B] = P[a1 < X b1 , a2 < Y b2 ] = En particulier, on a F (x, y ) = P[ < X x, < Y y ] = Z
x

b1

a1

Z
y

b2

f (x, y ) dy dx.
a2

f (x, y ) dy dx;

f et F fournissent donc deux descriptions quivalentes de la distribution P (X ,Y ) (P (X ,Y ) F f ).


ch.3-p.25i

Distribution jointe et distributions marginales : le cas continu


En pratique, lvaluation de cette "intgrale double" se fait de faon squentielle (en traitant dabord une variable comme constante) : Z b1 Z b2 P[a1 < X b1 , a2 < Y b2 ] = f (x, y ) dy dx
a1 a2

a1

b1 Z

b2

f (x, y ) dy
a2

une fonction de x

{z

dx

ou, de manire quivalente (le rsultat est le mme !), Z b2 Z b1 P[a1 < X b1 , a2 < Y b2 ] = f (x, y ) dx dy
a2 a1

b2 a2

Z |

b1

f (x, y ) dx
a1

une fonction de y

{z

dy

}
ch.3-p.26i

Distribution jointe et distributions marginales : le cas continu

b2

b2

a2

a2

a1
F IGURE: R b1 R b2
a1 a2

b1
. . . dy dx F IGURE:

a1
R b2 R b1
a2 a1

b1
. . . dx dy
ch.3-p.27i

Distribution jointe et distributions marginales : le cas continu

Exemple : Une chane de restauration rapide vend des hamburgers selon deux modalits distinctes : un comptoir traditionnel un drive-in Soit X la proportion du temps o le comptoir traditionnel est occup le jeudi. Soit Y la proportion du temps o le drive-in est occup le jeudi. Supposons que (X , Y ) admet la fonction de densit 8 > 6 (x + y 2 ) si (x, y ) [0, 1] [0, 1] < 5 f (x, y ) = > : 0 sinon.
ch.3-p.28i

Dnition et distribution jointe

F IGURE: Graphe ( gauche) et courbes de niveau ( droite) de (x, y ) f (x, y ).


ch.3-p.29i

Distribution jointe et distributions marginales : le cas continu


Le manager est satisfait si le comptoir traditionnel est occup au moins la moiti du temps et le drive-in au moins un quart du temps, ce qui arrive avec la probabilit P[1/2 X 1, 1/4 Y 1], laquelle vaut Z = Z
1 1 1/2

f (x, y ) dy dx
1/4 1

Z dx = Z Z
1

1/4

f (x, y ) dx dy
1/2 1

1/2 1

1/4

6 (x + y 2 ) dy 5

1/4 1

1/2

6 (x + y 2 ) dx 5

dy

y =1 y3 6 xy + dx 3 1/2 5 y =1/4 Z
1 1/2

2 x =1 6 x + y 2x dy 2 1/4 5 x =1/2 = Z
1 1/4

9x 63 + 10 160 1

dx

9 3y 2 + 20 5 1

dy

9x 2 63x = + 20 160

1/2

171 = 320

9y y3 = + 20 5

1/4

171 320

ch.3-p.30i

Distribution jointe et distributions marginales : le cas continu

Exercice : En procdant de la mme faon, montrer que la fonction de rpartition Z x Z y F (x, y ) = f (x, y ) dy dx

est donne par 8 > 0 > > > > > 1 > > xy (3x + 2y 2 ) > > 5 > > > < 1 F (x, y ) = x(3x + 2) > 5 > > > > 1 > 2 > > > 5 y (3 + 2y ) > > > > : 1

si x < 0 ou y < 0 si (x, y ) [0, 1] [0, 1] si x [0, 1] et y > 1 si x > 1 et y [0, 1] sinon.

ch.3-p.31i

Distribution jointe et distributions marginales : le cas continu


Comme dans le cas discret, on peut dduire de la distribution jointe les distributions marginales : d X d d F (x) = P[X x] = P[ < X x, < Y < ] dx dx dx Z Z x Z d f (x, y ) dy , f (x, y ) dy dx = = dx R et de mme, f Y (y ) = f (x, y ) dx. f X (x) = Il faut noter lanalogie avec les formules discrtes P[X = xi ] = P[Y = yj ] = X
jJ

P[(X , Y ) = (xi , yj )] P[(X , Y ) = (xi , yj )].

X
iI

ch.3-p.32i

Distribution jointe et distributions marginales : le cas continu

Dans le cas du fast food, ceci donne 1 Z Z 1 6xy 2y 3 2 6x 6 (x + y 2 ) dy = + + , 0 x 1, f X (x) = f (x, y ) dy = = 5 5 5 0 5 5 0 f Y (y ) = Z


f (x, y ) dx =

1 0

2 1 3x 6xy 2 6y 2 3 6 (x + y 2 ) dx = + , 0 y 1. = + 5 5 5 0 5 5

(et ces fonctions prennent la valeur zro ailleurs).

ch.3-p.33i

Distribution jointe et distributions marginales : le cas continu

F IGURE: Fonctions de densit marginales de X et de Y .

ch.3-p.34i

Distribution jointe et distributions marginales : le cas continu

Ces distributions marginales permettent encore de calculer, comme au chapitre prcdent, des probabilits du type P[X B], P[Y B], lesprance et la variance de X et de Y , etc. Par exemple, Z E[X ] = x f X (x) dx,

Var[X ] =

E[(X E[X ])2 ] =


2 2

E[X ] (E[X ]) =

(x E[X ])2 f X (x) dx x f (x) dx (E[X ])


2 X 2

(pour linterprtation) (pour le calcul).

ch.3-p.35i

Distribution jointe et distributions marginales : le cas continu


A titre dillustration, on a par exemple Z 1 h h 1 ii Z 1 h 13 2 6x 1i =P X dx = . . . = ,1 = + f X (x) dx = P X 2 2 5 5 20 1/2 1/2 Z 1 h h h 1 ii Z 1 1i 27 6y 2 3 P Y =P Y dy = . . . = ,1 = + f Y (y ) dy = 4 4 5 5 32 1/4 1/4 2 3 dx = . . . = 5 5 5 0 0 Z 1 Z 1 2 6y 3 3 dy = . . . = E[Y ] = + y f Y (y ) dy = y 5 5 5 0 0 E[X ] = x f X (x) dx = x 6x + Var[X ] = E[X 2 ] (E[X ])2 = 11 = ... = 0.073 5 150 0 Z 1 3 2 2 = ... = = 0.08 Var[Y ] = E[Y 2 ] (E[Y ])2 = y 2 f Y (y ) dy 5 25 0 x 2 f X (x) dx
ch.3-p.36i

3 2

Distribution jointe et distributions marginales : le cas continu


On a montr comment on pouvait calculer des probabilits via la formule ZZ P[(X , Y ) B] = f (x, y ) dy dx
B

seulement pour des zones rectangulaires du type B = (a1 , b1 ] (a2 , b2 ]. Mais les applications conduisent souvent des zones non rectangulaires.

Par exemple, le manager du fast food pourrait sintresser la probabilit que le drive-in soit plus utilis que le comptoir traditionnel.
y

Ceci correspond P[X Y ] = P[(X , Y ) Btr ], o Btr = {(x, y ) [0, 1] [0, 1] : x y }.

tr

x
ch.3-p.37i

Distribution jointe et distributions marginales : le cas continu

y
1

Btr
1

y Btr

F IGURE: P[X Y = P[(X , Y ) Btr ] = ] R1 R 1 f (x, y ) dy dx = . . . = 1 x 0 2

F IGURE: P[X Y = P[(X , Y ) Btr ] = ] R1Ry 1 f (x, y ) dx dy = . . . = 2 0 0


ch.3-p.38i

Distribution jointe et distributions marginales : le cas continu

Parfois, cest la structure mme du v.a. qui est non rectangulaire...

Exemple : Soit X les revenus annuels nets dun mnage belge (en milliers deuros). Soit Y les dpenses annuelles de ce mnage (en milliers deuros). Supposons que (X , Y ) admet la fonction de densit 8 1 > < (x 10)(y 10) si 10 < y < x < 30 20000 f (x, y ) = > : 0 sinon.

ch.3-p.39i

Distribution jointe et distributions marginales : le cas continu

y
30

10

10

30

x
F IGURE: Graphe de (x, y ) f (x, y )

F IGURE: La zone colore est celle o la densit f (x, y ) est non nulle

ch.3-p.40i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.41i

Distributions conditionnelles

Dans le chapitre 1, nous avons vu que connatre la ralisation dun vnement permettait en gnral dafner la probabilit de ralisation dun autre vnement. Ici, on considre une situation o on connat la valeur qua prise lune des variables alatoires et on est dsireux de savoir si cette information permet dafner la probabilit que lautre variable prenne sa valeur dans une certaine rgion, lesprance ou la variance de lautre variable, ou (plus gnralement) la distribution de lautre variable.

Au contraire des distributions marginales, les distributions conditionnelles permettent dapprhender le lien entre X et Y .

ch.3-p.41i

Distributions conditionnelles : le cas discret


Soit (X , Y ) un v.a. discret. Notons encore xi , i I, les valeurs possibles de X , et yj , j J , les valeurs possibles de Y . Supposons que la distribution jointe de (X , Y ) est dtermine par x1 p11 p12 . . . (p1 ) x2 p21 p22 . . . (p2 ) ... ... ... .. . ... (xk ) (pk 1 ) (pk 2 ) . . . (pk )

y1 y2 . . . (y ) o pij = P[X = xi , Y = yj ]. Rappelons que

pi := P[X = xi ] = pj := P[Y = yj ] =

X
jJ iI

pij , pij .

ch.3-p.42i

Distributions conditionnelles : le cas discret


Pour chaque xi , la distribution conditionnelle de Y |[X = xi ] est donne par P[Y = yj |X = xi ] = valeurs possibles probabilits P[X = xi , Y = yj ] pij = P[X = xi ] pi y1
pi1 pi

y2
pi2 pi

... ...

(y )
pi ( pi )

Comme pour toute distribution discrte univarie, on peut en calculer lesprance et la variance (qui seront dites ici "conditionnelles") : E[Y |X = xi ] = ( P
jJ (yj

X
jJ

yj

pij , pi
p

Var[Y |X = xi ] =

2 pij jJ (yj ) pi

E[Y |X = xi ])2 p ij

(pour linterprtation) (pour le calcul).

(E[Y |X = xi ])2

ch.3-p.43i

Distributions conditionnelles : le cas discret


Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue) Distributions conditionnelles de Y sachant les diverses valeurs de X :
2 0 1 2 3 4 5 1 1 1 1 1 1 1
2 3 1 2 2 5 1 3

4
1 3

5
1 2

6
1 5

7
1 3

8
1 5

9
1 2

10
1 3

11 1

12 1

2 5 1 3

2 5 1 2 2 5

2 3

Sachant [X = 3] = {(1, 2), (2, 1)}, le rsultat de E est encore alatoire, mais plus Y !

ch.3-p.44i

Distributions conditionnelles : le cas discret


Distributions conditionnelles de Y sachant les diverses valeurs de X , avec les esprances et variances correspondantes :
2 0 1 2 3 4 5 1 E Var 0 0 1 1 0 1 1.33 0.89 1 2 1 1 2.4 2.24 1 1
2 3 1 2 2 5 1 3

4
1 3

5
1 2

6
1 5

7
1 3

8
1 5

9
1 2

10
1 3

11 1

12 1

2 5 1 3

2 5 1 2 2 5

2 3

1 3 2.67

1 2.4 2.24

1 2 1

1 1.33 0.89

1 1 0

1 0 0

Les fonctions xi E[Y |X = xi ] et xi Var[Y |X = xi ] portent souvent une information importante sur le lien entre X et Y .
ch.3-p.45i

Distributions conditionnelles : le cas discret

Jusquici, on a suppos que X prenait une certaine valeur xe xi .

Si on rend X son caractre alatoire, on obtient deux nouvelles variables alatoires : - la v.a. "moyenne conditionnelle E[Y |X ]", de distribution
valeurs possibles probabilits E[Y |X = x1 ] p1 = P[X = x1 ] E[Y |X = x2 ] p2 = P[X = x2 ] ... ... (E[Y |X = xk ]) (pk = P[X = xk ])

- la v.a. "variance conditionnelle Var[Y |X ]", de distribution


valeurs possibles probabilits Var[Y |X = x1 ] p1 = P[X = x1 ] Var[Y |X = x2 ] p2 = P[X = x2 ] ... ... (Var[Y |X = xk ]) (pk = P[X = xk ])

ch.3-p.46i

Distributions conditionnelles : le cas discret


Un miracle : Thorme E[E[Y |X ]] = E[Y ]. Preuve : E[E[Y |X ]] = X
iI iI

E[Y |X = xi ] pi yj pij pi pi

(dnitions de E[] et de E[Y |X ]) (expression de E[Y |X = xi ])

XX
jJ

XX
iI jJ jJ

yj pij

X X X yj pj = E[Y ]. pij = yj
iI jJ ch.3-p.47i

Distributions conditionnelles : le cas discret


Distributions conditionnelles de Y sachant les diverses valeurs de X , avec les esprances et variances correspondantes (+ illustration du miracle) :
2 0 1 2 3 4 5 1 E[Y |X = xi ] Var[Y |X = xi ] pi 0 0
1 36

3 1

4
1 3

5
1 2

6
1 5

7
1 3

8
1 5

9
1 2

10
1 3

11 1

12 1

2 3 1 2

2 5 1 3 2 5 1 3

2 5 1 2 2 5

2 3

1 1 0
2 36

1 1.33 0.89
3 36

1 2 1
4 36

1 2.4 2.24
5 36 1 36

1 3 2.67
6 36

1 2.4 2.24
5 36 1 36

1 2 1
4 36 35 (= 18

1 1.33 0.89
3 36

1 1 0
2 36

1 0 0
1 36

E[E[Y |X ]] = 0

+1

+ ... =

E[Y ]!)

ch.3-p.48i

Distributions conditionnelles : le cas discret

On a E[E[Y |X ]] = E[Y ]. Par contre, il est en gnral faux que E[Var[Y |X ]] = Var[Y ]. Mais on a le rsultat suivant. Thorme E[Var[Y |X ]] = Var[Y ] Var[E[Y |X ]]. Ce thorme sera prouv la page 95 de ce chapitre.

ch.3-p.49i

Distributions conditionnelles : le cas discret


Bien entendu, tout ce que lon vient de faire pour les distributions conditionnelles de Y sachant X peut galement se faire pour les distributions conditionnelles de X sachant Y ... Pour chaque yj , la distribution conditionnelle de X |[Y = yj ] est donne par valeurs possibles probabilits
P[X =xi ,Y =yj ] P[Y =yj ] pij pj

x1
p1j pj

x2
p2j pj

... ...

(xk )
kj ( pj )

o P[X = xi |Y = yj ] =

. Et on peut dnir X
iI

E[X |Y = yj ] = Var[X |Y = yj ] = X
iI

xi

pij , pj pij , pj

(xi E[X |Y = yj ])2 ...

ch.3-p.50i

Distributions conditionnelles : le cas discret

Distributions conditionnelles de X sachant les diverses valeurs de Y , avec les esprances et variances correspondantes :
2 0 1 2 3 4 5
1 6 1 5 1 4 1 3 1 2

4
1 6

5
1 5

6
1 6

7
1 5

8
1 6

9
1 5

10
1 6

11
1 5

12
1 6

E 1 1 1 1 1 1 7 7 7 7 7 7

Var 11.67 8 5 2.67 1 0

1 4 1 3

1 4 1 3 1 2

1 4

(on a encore que E[E[X |Y ]] = E[X ] et E[Var[X |Y ]] = Var[X ] Var[E[X |Y ]]).

ch.3-p.51i

Distributions conditionnelles : le cas continu


Par analogie avec le cas discret o on a P[Y = yj |X = xi ] = P[X = xi , Y = yj ] P[X = xi ]

et P[X = xi |Y = yj ] =

P[X = xi , Y = yj ] , P[Y = yj ]

les densits conditionnelles de Y |[X = x] et de X |[Y = y ] sont dnies par f Y |[X =x ] (y ) = f (x, y ) f X (x)

et f X |[Y =y ] (x) =

f (x, y ) . f Y (y )

Il sagit de densits de variables alatoires (><vecteurs alatoires) : on a Z b P[a Y b|X = x] = f Y |[X =x ] (y ) dy ,


a

et on dnit E[Y |X = x] = Var[Y |X = x] = ( R R

y f Y |[X =x ] (y ) dy ,

(y E[Y |X = x])2 f Y |[X =x ] (y ) dy y 2 f Y |[X =x ] (y ) dy (E[Y |X = x])2

(pour linterprtation) (pour le calcul).


ch.3-p.52i

Distribution jointe et distributions marginales : le cas continu

Dans le cas du fast food, ceci donne en particulier (pour chaque x [0, 1]) f (x, y ) = (y ) = X f (x) 3(x + y 2 ) 3x + 1 0 Z

f ce qui livre

Y |[X =x ]

si y [0, 1] sinon,

E[Y |X = x] = et

y f Y |[X =x ] (y ) dy =

6x + 3 3(x + y 2 ) dy = . . . = 3x + 1 12x + 4

Var[Y |X = x] = = Z
1 0

y 2 f Y |[X =x ] (y ) dy (E[Y |X = x])2 6x + 3 12x + 4 2 = ... = 60x 2 + 44x + 3 . 80(3x + 1)2

y2

3(x + y 2 ) dy 3x + 1

ch.3-p.53i

Dnition et distribution jointe

F IGURE: Graphe de x g(x) := E[Y |X = x] : au plus le comptoir traditionnel est occup, au moins le drive-in lest.
ch.3-p.54i

Dnition et distribution jointe

F IGURE: Graphes de x g(x) := E[Y |X = x] (rouge) et x g (x) := E[Y |X = x] p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.55i

Distribution jointe et distributions marginales : le cas continu

Notre second exemple dans le cas continu : Soit X les revenus annuels nets dun mnage belge (en milliers deuros). Soit Y les dpenses annuelles de ce mnage (en milliers deuros). Supposons que (X , Y ) admet la fonction de densit 8 1 > < (x 10)(y 10) si 10 < y < x < 30 20000 f (x, y ) = > : 0 sinon.

ch.3-p.56i

Distribution jointe et distributions marginales : le cas continu

F IGURE: Gauche : au plus on gagne, au plus on dpense en moyenne (mais lincertitude augmente). Droite : au plus on dpense, au plus on gagne en moyenne (et lincertitude diminue).

ch.3-p.57i

Distributions conditionnelles : le cas discret

Dans le cas continu, on peut dnir la v.a. "moyenne conditionnelle E[Y |X ]" comme la variable alatoire prenant la valeur E[Y |X = x] avec densit f X (x), et la v.a. "variance conditionnelle Var[Y |X ]" comme la variable alatoire prenant la valeur Var[Y |X = x] avec densit f X (x). Alors, comme dans le cas discret, on a le rsultat suivant. Thorme (i) E[E[Y |X ]] = E[Y ]. (ii) E[Var[Y |X ]] = Var[Y ] Var[E[Y |X ]]. Exercice : adapter la preuve de (i) au cas continu. (notre future preuve de (ii) sappliquera tant au cas continu quau cas discret).

ch.3-p.58i

Distribution jointe et distributions marginales : le cas continu


A titre dillustration : dans le cas du fast food, on a E[E[Y |X ]] = Z

E[Y |X = x] f X (x) dx 6x + 3 12x + 4 2 (3x + 1) dx 5

Z Z

0 1

1 (6x + 3) dx 10 1
0

= =

1 (3x 2 + 3x) 10

3 , 5

ce qui concide bien avec E[Y ] (voir la page 36).

ch.3-p.59i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.60i

Indpendance
Un cas particulier de "lien" entre X et Y est la situation dindpendance. Dnition X et Y sont indpendants (notation : X Y ) Pour tout B1 , B2 B, [X B1 ] [Y B2 ] (au sens du chapitre 1) Pour tout B1 , B2 B, P[X B1 , Y B2 ] = P[X B1 ]P[Y B2 ]. Si ces probabilits sont non nulles, ceci se rcrit P[Y B2 |X B1 ] = P[Y B2 ] ou P[X B1 |Y B2 ] = P[X B1 ], ce qui est plus compatible avec lintuition dindpendance.

Pour les ds : 0 = P[X = 12, Y = 5] = P[X = 12]P[Y = 5] = Pour le fast food : 171 = P[ 1 X 1, 320 2
1 4

1 36

2 . 36

Y 1] = P[ 1 X 1]P[ 1 Y 1] = 2 4

13 20

27 . 32

Dans les deux cas, X et Y ne sont donc pas indpendants.


ch.3-p.60i

Indpendance
Le rsultat suivant prsente dautres caractrisations de lindpendance. Thorme X Y x, y , F (x, y ) = F X (x)F Y (y ), o F X (x) = P[X x] et F Y (y ) = P[Y y ] i, j, P[X = xi , Y = yj ] = P[X = xi ]P[Y = yj ] (cas discret) x, y , f (x, y ) = f X (x)f Y (y ) (cas continu) i, j, P[Y = yj |X = xi ] = P[Y = yj ] (cas discret) x, y , f Y |[X =x ] (y ) = f Y (y ) (cas continu) i, j, P[X = xi |Y = yj ] = P[X = xi ] (cas discret) x, y , f X |[Y =y ] (x) = f X (x) (cas continu) On a que X Y exactement quand les distributions marginales et conditionnelles concident (ce qui est intuitivement clair !), une situation o, en particulier, les fonctions desprances conditionnelles x E[Y |X = x] et y E[X |Y = y ] (comme celles de variances conditionnelles) sont constantes.
ch.3-p.61i

Indpendance

F IGURE: Les revenus (X ) et les dpenses annuelles (Y ) ne sont donc pas indpendants...

ch.3-p.62i

Indpendance
Exemple de situation dindpendance (cas discret) : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( X = rsultat du 1er d X = rsultat du 2nd d 1 1 2 3 4 5 6
1 36 1 36 1 36 1 36 1 36 1 36 1 6

A = P())

2
1 36 1 36 1 36 1 36 1 36 1 36 1 6

3
1 36 1 36 1 36 1 36 1 36 1 36 1 6

4
1 36 1 36 1 36 1 36 1 36 1 36 1 6

5
1 36 1 36 1 36 1 36 1 36 1 36 1 6

6
1 36 1 36 1 36 1 36 1 36 1 36 1 6 1 6 1 6 1 6 1 6 1 6 1 6

i, j pij = pi pj X Y
ch.3-p.63i

Indpendance

Cette indpendance se traduit aussi par le fait que, pour chaque xi , la distribution conditionnelle de Y |[X = xi ] concide avec la distribution marginale de Y 1 1 2 3 4 5 6
1 6 1 6 1 6 1 6 1 6 1 6

2
1 6 1 6 1 6 1 6 1 6 1 6

3
1 6 1 6 1 6 1 6 1 6 1 6

4
1 6 1 6 1 6 1 6 1 6 1 6

5
1 6 1 6 1 6 1 6 1 6 1 6

6
1 6 1 6 1 6 1 6 1 6 1 6

dddddd

yj 1 2 3 4 5 6

pj
1 6 1 6 1 6 1 6 1 6 1 6

ch.3-p.64i

Indpendance
Exemple de situation dindpendance (cas continu) : Au dessus de lavenue Hger, on observe le temps X (en min) jusqu la prochaine arrive dun bus 71 (direction ville) le temps Y (en min) jusqu la prochaine arrive dun tram 94 (direction ville) En supposant quun 71 passe exactement toutes les 10 minutes et quun 94 passe exactement toutes les 8 minutes, (X , Y ) admet alors la densit 8 > 1 < si (x, y ) [0, 10] [0, 8] 80 f (x, y ) = > : 0 sinon. On vrie aisment que 8 < 1 si x [0, 10] 10 f X (x) = : 0 sinon 8 < 1 8 f Y (y ) = : 0

et

si y [0, 8] sinon,

ce qui implique que f (x, y ) = f X (x)f Y (y ) x, y . On a donc X Y .


ch.3-p.65i

Indpendance
Puisquon a dni au chapitre 1 lindpendance mutuelle de plus de deux vnements, on peut adopter les extensions suivantes de la dnition en page 60. Dnition X1 , X2 , . . . , Xk sont mutuellement indpendantes Pour tout B1 , B2 , . . . , Bk B, [X1 B1 ], [X2 B2 ], . . . , [Xk Bk ] sont mutuellement indpendants (au sens du chapitre 1) Dnition X1 , X2 , . . . , sont mutuellement indpendantes Pour tout B1 , B2 , . . . B, [X1 B1 ], [X2 B2 ], . . . sont mutuellement indpendants (au sens du chapitre 1) Ceci sera particulirement important pour linfrence statistique, qui supposera (dans ce cours) que les observations sont des ralisations de v.a. indpendantes (pas de couples dans les sondages, ni de "sries chronologiques" !)

ch.3-p.66i

Indpendance
Exemple : X1 = nombre daccidents de voiture par jour Ixelles X2 = nombre daccidents de voiture par jour Etterbeek X3 = nombre daccidents de voiture par jour Uccle Lensemble des valeurs possibles de (X1 , X2 , X3 ) est N N N. Si la distribution jointe est dtermine par P[X1 = k1 , X2 = k2 , X3 = k3 ] = e 1 2 3 11 22 33 , (k1 !)(k2 !)(k3 !)
k k k

1 , 2 , 3 > 0,

X1 , X2 et X3 sont mutuellement indpendantes (exercice). Remarques : - Xi Poi(i ), i = 1, 2, 3. - Si 1 = 2 = 3 , les trois distributions marginales concident : on dira que X1 , X2 et X3 sont i.i.d. ("indpendantes et identiquement distribues").

ch.3-p.67i

Indpendance
Soit (X , Y ) un vecteur alatoire et g : R2 R est une fonction xe. Dans la suite, nous devrons considrer des esprances du type E[g(X , Y )], qui font intervenir simultanment les deux variables alatoires X et Y . Nous adoptons la dnition suivante. Dnition (i) Si le v.a. (X , Y ) est discret, de distribution (xi , yj , pij = P[X = xi , Y = yj ]), i I, j J , lesprance mathmatique de g(X , Y ) est XX g(xi , yj )pij . E[g(X , Y )] =
iI jJ

(ii) Si le v.a. (X , Y ) est continu, et admet la fonction de densit (x, y ) f (x, y ), lesprance mathmatique de g(X , Y ) est Z Z E[g(X , Y )] = g(x, y ) f (x, y ) dy dx.

On peut aussi dnir des versions conditionnelles de telles esprances :


ch.3-p.68i

Indpendance
Dnition (i) Si le v.a. (X , Y ) est discret, de distribution (xi , yj , pij = P[X = xi , Y = yj ]), i I, j J, X X pij g(xi , yj ) g(xi , yj )P[Y = yj |X = xi ] = E[g(X , Y )|X = xi ] = . pi
jJ jJ

(ii) Si le v.a. (X , Y ) est continu, et admet la fonction de densit (x, y ) f (x, y ), lesprance mathmatique de g(X , Y ) est Z E[g(X , Y )|X = x] = g(x, y ) f Y |[X =x ] (y ) dy

g(x, y )

f (x, y ) dy . f X (x)

(iii) Dans les deux cas, on dnit la variable alatoire E[g(X , Y )|X ] travers la relation E[g(X , Y )|X ]() = E[g(X , Y )|X = X ()]. Alors (exercices) (i) E[E[g(X , Y )|X ]] = E[g(X , Y )] dsssddiddddddd (ii) E[h(X )g(X , Y )|X ] = h(X )E[g(X , Y )|X ].
ch.3-p.69i

Indpendance

Thorme Supposons que X Y . Alors E[XY ] = E[X ] E[Y ]. Preuve : dans le cas continu (le cas discret est laiss comme exercice), on a E[XY ] = = Z Z

Z Z

xy f (x, y ) dy dx xy f X (x)f Y (y ) dy dx Z

x f X (x) dx

y f Y (y ) dy

= E[X ] E[Y ].

Remarque : lhypothse dindpendance ne peut tre retire (pour un contre-exemple, voir ch.2-p.32).

ch.3-p.70i

Indpendance

Supposons encore que X Y . Quelles que soient les fonctions f , g, on a encore h(X ) g(Y ) (exercice), ce qui implique que E[h(X )g(Y )] = E[h(X )] E[g(Y )]. En particulier, ceci tablit le rsultat suivant sur la fonction gnratrice des moments de la somme de deux variables alatoires indpendantes. Thorme Supposons que X Y . Alors MX +Y (t) := E[e t(X +Y ) ] = E[e tX ]E[e tY ] = MX (t)MY (t).

ch.3-p.71i

Indpendance
Ceci permet de prouver certaines proprits dadditivit. Thorme Supposons que X Y . Alors (i) X Bin(n1 , p) et Y Bin(n2 , p) X + Y Bin(n1 + n2 , p). (ii) X Poi(1 ) et Y Poi(2 ) X + Y Poi(1 + 2 ). 2 2 2 2 (iii) X N (1 , 1 ) et Y N (2 , 2 ) X + Y N (1 + 2 , 1 + 2 ). 2 2 2 (iv) X k1 et Y k2 X + Y k1 +k2 . Preuve : (i) comme on la vu en ch.2-p.82, on a MX (t) = (1 p + pe t )n si X Bin(n, p). Par consquent, lindpendance entre X et Y fournit MX +Y (t) = MX (t)MY (t) = (1p +pe t )n1 (1p +pe t )n2 = (1p +pe t )n1 +n2 = MZ (t), o Z Bin(n1 + n2 , p). Puisque deux variables alatoires partageant la mme fonction gnratrice des moments ont la mme distribution (ch.2-p.83), on en dduit que X + Y Bin(n1 + n2 , p). (ii)-(iv) Exercice : conclure de la mme faon en utilisant le fait que MX (t) = e (e 1) 1 2 2 si X Poi(), que MX (t) = e t+ 2 t si X N (, 2 ), et que MX (t) = (1 2t)k /2 2 si X k .
t

ch.3-p.72i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.73i

Motivation

Considrons un portefeuille boursier ne contenant quun seul titre de lactif A1 et un seul titre de lactif A2 . Sa valeur (alatoire) est donc Z = X + Y, o X est la valeur (alatoire) de A1 et Y est la valeur (alatoire) de A2 .

La valeur attendue pour Z est son esprance E[Z ]. Puisque E[Z ] = E[X ] + E[Y ], on peut valuer cette valeur attendue sur la seule base des distributions marginales de X et de Y . Quen est-il du risque de Z , qui est en gnral mesur par Var[Z ] ?

ch.3-p.73i

Motivation
Les proprits de lesprance mathmatique fournissent Var[Z ] = = = = E[(X + Y E[X + Y ])2 ] E[(X + Y E[X ] E[Y ])2 ] E[{(X E[X ]) + (Y E[Y ])}2 ] E[(X E[X ])2 ] + E[(Y E[Y ])2 ] +E[2(X E[X ])(Y E[Y ])] = Var[X ] + Var[Y ] + 2 E[(X E[X ])(Y E[Y ])].

On voit donc que le risque de la somme Z = X + Y nest pas gal la somme des risques associs X et Y . Le risque de Z peut tre plus grand ou plus petit suivant que la covariance entre X et Y est positive ou ngative... Dnition La covariance entre X et Y est la quantit Cov[X , Y ] = E[(X E[X ])(Y E[Y ])].
ch.3-p.74i

Covariance
Dnition La covariance entre X et Y est la quantit Cov[X , Y ] = E[(X E[X ])(Y E[Y ])]. Thorme (i) Var[X + Y ] = Var[X ] + Var[Y ] + 2 Cov[X , Y ] (ii) Cov[X , Y ] = E[XY ] E[X ] E[Y ] (iii) Si X Y , Cov[X , Y ] = 0 (iv) Si X Y , Var[X + Y ] = Var[X ] + Var[Y ] . Preuve : (i) ceci a t prouv la page prcdente. (ii) On a Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] = E[XY X E[Y ] E[X ]Y + E[X ]E[Y ]] = E[XY ] E[Y ]E[X ] E[X ]E[Y ] + E[X ]E[Y ] = E[XY ] E[X ]E[Y ]. (iii) Le rsultat dcoule directement de (ii) et du thorme en page 70. (iv) Ceci est une consquence triviale de (i) et (iii).
ch.3-p.75i

Covariance

La dnition de covariance Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] conduit aux formules P ( P (cas discret) iI jJ (xi E[X ])(yj E[Y ])pij Cov[X , Y ] = R R (x E[X ])(y E[Y ]) f (x, y ) dy dx (cas continu), qui permettent dinterprter facilement la variance (voir ci-dessous).

se rvle beaucoup plus pratique pour lvaluation de la covariance. La situation est donc similaire celle de la variance.

Par contre, lexpression Cov[X , Y ] = E[XY ] E[X ]E[Y ], qui mne aux expressions ( P P (cas discret) iI jJ xi yj pij E[X ]E[Y ] Cov[X , Y ] = R R xy f (x, y ) dy dx E[X ]E[Y ] (cas continu),

ch.3-p.76i

Covariance
Comment interprter la covariance Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] ?
y y

E[Y] (X,Y)

+
E[X]

+
E[Y]

+
x E[X]

+
(X,Y)

F IGURE: A gauche, (X , Y ) se ralise dans la zone o (X E[X ])(Y E[Y ]) > 0. A droite, (X , Y ) se ralise dans la zone o (X E[X ])(Y E[Y ]) < 0. Si (X , Y ) se ralise plus souvent dans les zones "+" (ou de faon plus extrme), Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] sera positif, et inversment.

ch.3-p.77i

Covariance

83

82

Prix de l'actif 2 (Y)

81

80

79

77

78

26

28

30

32

34

77

78

79

80

81

82

83

+
26 28 30 32

34

Prix de l'actif 1 (X)

Prix de l'actif 1 (X)

F IGURE: A gauche, Cov[X , Y ] > 0 ; on parlera de dpendance positive (dans ce cas, le portefeuille est risque : Var[X + Y ] > Var[X ] + Var[Y ] ; X = Dexia et Y = ING ?) ddi iiiidiiiiiiiiiiiA droite, Cov[X , Y ] < 0 ; on parlera de dpendance ngative (dans ce cas, le portefeuille est moins risque : Var[X + Y ] < Var[X ] + Var[Y ] ; X = Dexia et Y = AngloGold ?)
ch.3-p.78i

Covariance

F IGURE: A gauche, Cov[X , Y ] = 0.01 (dpendance ngative) aaaaaaaaaaaaaaaaaaaaa iaiwiiiiiiiii A droite, Cov[X , Y ] 7.11 (dpendance positive)
ch.3-p.79i

Covariance

Ceci est compatible avec le fait que, comme on la vu, X Y Cov[X , Y ] = 0. Ceci laisse penser que la covariance est une mesure de dpendance. Il faut cependant insister sur le fait quil sagit dune mesure de dpendance trs imparfaite... Car il est faux que Cov[X , Y ] = 0 X Y . Des exemples simples seront considrs au TP, mais on a en fait dj considr un exemple de ce type...

ch.3-p.80i

Covariance
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue)
2 0 1 2 3 4 5
1 36 2 36 2 36 2 36 2 36 2 36

4
1 36

5
2 36

6
1 36

7
2 36

8
1 36

9
2 36

10
1 36

11
2 36

12
1 36

2 36 2 36

2 36 2 36 2 36

2 36

On a vu que X et Y ne sont pas indpendants. Pourtant, on a Cov[X , Y ] = 0 (exercice), ce qui nest pas si surprenant...
ch.3-p.81i

Covariance

Proprits supplmentaires de la covariance : Thorme Soient X , X1 , X2 , Y , Y1 , Y2 des variables alatoires et c, c1 , c2 R. Alors (i) Cov[c1 X1 + c2 X2 , Y ] = c1 Cov[X1 , Y ] + c2 Cov[X2 , Y ] (ii) Cov[X , c1 Y1 + c2 Y2 ] = c1 Cov[X , Y1 ] + c2 Cov[X , Y2 ] (iii) Cov[X , Y ] = Cov[Y , X ] (iv) Cov[X , c] = 0 (v) Cov[X , X ] = Var[X ] p p (vi) |Cov[X , Y ]| Var[X ] Var[Y ], et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R. Le point (vi) dcoule de lingalit de Cauchy-Schwarz (exercice), qui a t vue en ch.2-p.32.

ch.3-p.82i

Corrlation

Plutt que la covariance, on a souvent recours la corrlation, qui est une version normalise de la covariance, dont on peut non seulement interprter le signe mais aussi la valeur absolue. Dnition La corrlation entre X et Y est la quantit Corr[X , Y ] = p Proprits importantes : Thorme (i) les signes de Corr[X , Y ] et de Cov[X , Y ] concident. (ii) |Corr[X , Y ]| 1, et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R. Cov[X , Y ] p . Var[X ] Var[Y ]

ch.3-p.83i

Corrlation

Corr[X,Y]=0.5
83 83

Corr[X,Y]=0.8

Corr[X,Y]=1

82

82

Prix de l'actif 2 (Y)

81

81

80

80

79

79

78

78

24

26

28

30

32

34

36

26

28

30

32

34

36

77 24

78

79

80

81

82

83

26

28

30

32

34

36

Prix de l'actif 1 (X)

Prix de l'actif 1 (X)

Prix de l'actif 1 (X)

F IGURE: Plus |Corr[X , Y ]| est proche de 1, plus la relation linaire entre X et Y est parfaite.

ch.3-p.84i

Corrlation

F IGURE: A gauche, Corr[X , Y ] 0.13. A droite, Corr[X , Y ] 0.49

ch.3-p.85i

Corrlation

Proprits principales de la corrlation : Thorme Soient X , Y , X1 , X2 , Y1 , Y2 des variables alatoires et c1 , c2 , d1 , d2 R. Alors (i) Corr[c1 X + d1 , c2 Y + d2 ] = Corr[X , Y ] (ii) Corr[X , Y ] = Corr[Y , X ] (iii) Corr[X , c] = 0 (iv) Corr[X , X ] = 1 (v) |Corr[X , Y ]| 1, et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R (vi) X Y Corr[X , Y ] = 0.

ch.3-p.86i

Matrice de variance-covariance

Loprateur desprance E[] peut tre appliqu un vecteur ou une matrice, auquel cas on prend lesprance composante par composante. A un v.a. Z = (X , Y )T (par dfaut, les vecteurs dans la suite sont des vecteurs colonnes), il est alors classique dassocier son vecteur moyen Z = E[Z ] = et sa matrice de variance-covariance Z = Var[Z ] = E[(Z E[Z ])(Z E[Z ])T ] =E " X E[X ] ! X E[X ] !T # = Var[X ] Cov[X , Y ] Cov[X , Y ] Var[Y ] ! . E[X ] E[Y ] !

Y E[Y ]

Y E[Y ]

ch.3-p.87i

Matrice de variance-covariance

Soit A une matrice 2 2, b R2 (un vecteur colonne) et R. On vrie facilement que AZ +b = AZ + b AZ +b = AZ AT et bT Z + = b T Z + bT Z + = b T Z (b T )T = b T Z b. En particulier, b T Z b = bT Z + = Var[b T Z +] 0. On conclut que Z est toujours dnie positive (et bien entendu symtrique).

ch.3-p.88i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.89i

Motivation

Soient X et Y deux variables alatoires. Supposons que X est observ, mais pas Y . Il est commun de vouloir "prdire" Y sur la base de X . Exemples : - X = taille du pre 25 ans (en cm) - Y = taille du ls lorsquil aura 25 ans (en cm) - X = mesure du stress un examen (en pourcentage du maximum) - Y = note sur 20 obtenue cet examen - X = revenus annuels dun mnage belge (en milliers deuros) - Y = dpenses annuelles dun mnage belge (en milliers deuros)

Ceci demande didentier une fonction de rgression m() telle que Y m(X ). Le prdicteur de Y sera alors simplement Y = m(X ).

ch.3-p.89i

Rgression gnrale
Ceci demande didentier une fonction de rgression m() telle que Y m(X ). Dnition La fonction de rgression mreg est celle qui minimise lerreur quadratique moyenne E[(Y m(X ))2 ]. Si E[(Y mreg (X ))2 ] = 0, on a Y = mreg (X ) (voir (v), ch.2-p.32) ( Y = mreg (X ) = Y : prdiction sans erreur !) Donc si E[(Y mreg (X ))2 ] 0, on a Y mreg (X ) ( Y Y : prdiction raisonnable). La quantit E[(Y m(X ))2 ] = E[(Y Y )2 ] peut tre interprte comme une mesure de lerreur de prdiction. La dnition ci-dessus est donc trs naturelle. Thorme (i) mreg (x) = E[Y |X = x] pour tout x. (ii) E[(Y mreg (X ))2 ] = E[Var[Y |X ]].
ch.3-p.90i

Rgression gnrale

F IGURE: Graphes de x mreg (x) = E[Y |X = x].

ch.3-p.91i

Rgression gnrale

F IGURE: Graphes de x mreg (x) = E[Y |X = x] (rouge) et x g (x) := mreg (x) p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.92i

Rgression linaire

F IGURE: Graphes de x mreg (x) = E[Y |X = x] (rouge) et x g (x) := mreg (x) p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.93i

Rgression gnrale
Preuve : (i) pour toute fonction m, on a E[(Y m(X ))2 |X ] = E[{(Y E[Y |X ]) + (E[Y |X ] m(X ))}2 |X ] = E[(Y E[Y |X ])2 |X ] + E[(E[Y |X ] m(X ))2 |X ] + 2E[(Y E[Y |X ])(E[Y |X ] m(X ))|X ] = Var[Y |X ] + (E[Y |X ] m(X ))2 + 2(E[Y |X ] m(X )) E[(Y E[Y |X ])|X ] = Var[Y |X ] + (E[Y |X ] m(X ))2 + 2(E[Y |X ] m(X )) (E[Y |X ] E[Y |X ]) = Var[Y |X ] + (E[Y |X ] m(X ))2 . En prenant lesprance, on obtient donc E[(Y m(X ))2 ] = E[Var[Y |X ]] + E[(E[Y |X ] m(X ))2 ]. ()

Cette expression est minimale lorsque E[(E[Y |X ] m(X ))2 ] = 0, ce qui se produira si et seulement si m(X ) = E[Y |X ]. (ii) Il suit de (*) que le minimum de E[(Y m(X ))2 ] qui en rsulte est E[Var[Y |X ]].
ch.3-p.94i

Rgression gnrale

Remarque : On a prouv (*) pour une fonction m quelconque. Si on prend m(x) = E[Y ] pour tout x, on obtient E[(Y E[Y ])2 ] = E[Var[Y |X ]] + E[(E[Y |X ] E[Y ])2 ], ce qui fournit Var[Y ] = = = = E[(Y E[Y ])2 ] E[Var[Y |X ]] + E[(E[Y |X ] E[Y ])2 ] E[Var[Y |X ]] + E[(E[Y |X ] E[E[Y |X ]])2 ] E[Var[Y |X ]] + Var[E[Y |X ]].

Ceci dmontre donc le thorme nonc la page 49.

ch.3-p.95i

Rgression linaire
Parfois, la relation entre X et Y est linaire ou presque linaire. Exemple net : revenus - dpenses Exemple un peu moins net (mais encore justi) : le fast food On gagne alors se restreindre des fonctions "linaires" (en fait, ce sont plutt des fonctions du type x m(x) = x + ), car cela fournit un modle simple et efcace pour la relation entre X et Y . Dnition La fonction de rgression linaire mreglin est la fonction x m(x) = x + qui minimise lerreur quadratique moyenne E[(Y m(X ))2 ]. La qualit de la prdiction sera alors mesure par E[(Y mreglin (X ))2 ] E[(Y mreg (X ))2 ] .
ch.3-p.96i

Rgression linaire
2 2 2 Notons X = E[X ], Y = E[Y ], X = Var[X ], Y = Var[Y ], XY = Cov[X , Y ], et XY = Corr[X , Y ].

Thorme (i) mreglin (x) = XY x + XY , o XY = XY Y X et XY = Y XY X .

2 (ii) E[(Y mreglin (X ))2 ] = (1 2 )Y . XY

Remarques : lquation y = mreglin (x) de la droite de rgression peut donc scrire sous la forme (y Y ) = XY (x X ). Elle est de pente XY et passe par le point (X , Y ). Le signe de la pente est le signe de XY . Lerreur de prdiction est une fonction dcroissante en |XY |. iiiiiii Si |XY | = 1, la prdiction se fait sans erreur. iiiiiii Si |XY | = 0, Y = mreglin (X ) = Y et lerreur de prvision est maximale.
ch.3-p.97i

Rgression linaire

F IGURE: Graphes de x mreg (x) = E[Y |X = x] et de x mreglin (x) = XY x + XY .

ch.3-p.98i

Rgression linaire

Preuve : (i) il sagit de trouver le (ou les) minimum(a) (XY , XY ) de la fonction (, ) h(, ) = = = E[(Y x )2 ] E[{(Y Y ) (X X ) + (Y X )}2 ] E[(Y Y )2 ] + 2 E[(X X )2 ] + (Y X )2 2E[(X X )(Y Y )] + 0 + 0 =
2 2 Y + 2 X + (Y X )2 2XY .

Le cours de math de BA2 indique que ces minima se trouvent parmi les solutions du systme 8 h > > < (, ) = 0 > h > : (, ) = 0.
ch.3-p.99i

Rgression linaire

Ce systme se rcrit (

2(Y X ) = 0, (

2 2X 2(Y X )X 2XY = 0

et admet pour unique solution = XY Y Y XY = = XY 2 X Y X X X

= Y X ,

qui est le couple (XY , XY ) donn dans le thorme (on montre facilement quil sagit dun minimum). (ii) La valeur associe de lerreur de prvision est alors h(XY , XY ) = = =
2 2 Y + 2 X + (Y XY X XY )2 2XY XY XY 2 2 2 Y + 2 Y + 02 22 Y XY XY 2 (1 2 )Y . XY

ch.3-p.100i

Rgression linaire
Attention : parfois, un tel modle linaire est viter !

F IGURE: Graphes de x mreg (x) = E[Y |X = x] et de x mreglin (x) = XY x + XY . Contrairement aux deux situations prcdentes, le modle linaire ne se justie pas ici.
ch.3-p.101i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.102i

Lois normales bivaries


2 2 Le v.a. Z = (X , Y ) est de loi normale bivarie de paramtres 1 , 2 , 1 , 2 , si Z admet la fonction de densit

f (x, y ) =

21 2

(x 1 ) (y 2 ) (x 1 )2 (y 2 )2 1 2 + 2 2 2 1 2 1 2 e 2(1 )
2 2 Ici, 1 , 2 R, 1 , 2 R+ , et (1, 1). 0

1 p

1 2

Pour rappel, la densit permet de calculer les probabilits que Z se ralise dans une certaine rgion B, via ZZ P[(X , Y ) B] = f (x, y ) dy dx B B2 .
B 2 2 Pour interprter les paramtres 1 , 2 , 1 , 2 , , nous allons considrer les distributions marginales et conditionnelles de cette loi. ch.3-p.102i

Lois normales bivaries

F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie de 2 2 paramtres 1 = 0, 2 = 0, 1 = 1, 2 = 1, = 0 (loi normale bivarie standard).
ch.3-p.103i

Lois normales bivaries

F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie de 2 2 paramtres 1 = 2, 2 = 1, 1 = 1.5, 2 = 3.5, = 0.65
ch.3-p.104i

Lois normales bivaries


2 2 Pour interprter les paramtres 1 , 2 , 1 , 2 , , nous allons considrer les distributions marginales et conditionnelles de cette loi.

Pour cela, nous aurons besoin de lgalit f (x, y ) = h1 (x)h2 (x, y ), o h1 (x) = et h2 (x, y ) = 22 1 p 1 2 e
2 (x 1 ) 1 e 21 21
1 2

1 1 (y 2 2 1 (x 1 ))2 22 (12 ) 2

(tablir cette galit est un exercice calculatoire facile). Il faut noter que
2 x h1 (x) est la fonction de densit de la loi N (1 , 1 ), 1 2 y h2 (x, y ) est, x, la densit de la loi N (2 + 2 1 (x 1 ), 2 (1 2 )). ch.3-p.105i

Lois normales bivaries


Thorme
2 2 Soit Z = (X , Y ) de loi normale bivarie de paramtres 1 , 2 , 1 , 2 , . 2 2 Alors X N (1 , 1 ) et Y N (2 , 2 ).

R Preuve : la factorisation f (x, y ) = h1 (x)h2 (x, y ) et lgalit h2 (x, y ) dy (qui dcoule du fait que y h2 (x, y ) est une densit) livrent Z Z f X (x) = f (x, y ) dy = h1 (x) h2 (x, y ) dy = h1 (x).
2 Ceci tablit le rsultat puisque x h1 (x) est la densit de la loi N (1 , 1 ). On prouve le rsultat pour Y de faon similaire.

Ceci montre donc que les distributions marginales sont normales (univaries) et que 2 2 1 = E[X ], 2 = E[Y ], 1 = Var[X ] et 2 = Var[Y ]. Il reste encore donner une interprtation .
ch.3-p.106i

Lois normales bivaries


Thorme
2 2 Soit Z = (X , Y ) de loi normale bivarie de paramtres 1 , 2 , 1 , 2 , . 1 2 2 Alors Y |[X = x] N (2 + 2 1 (x 1 ), 2 (1 )) et 1 2 X |[Y = y ] N (1 + 1 2 (y 2 ), 1 (1 2 )).

Preuve : la factorisation f (x, y ) = h1 (x)h2 (x, y ) et le thorme prcdent livrent f Y |[X =x ] (y ) = f (x, y ) h1 (x)h2 (x, y ) = = h2 (x, y ), f X (x) f X (x)

ce qui tablit le rsultat puisque, comme on la vu, y h2 (x, y ) est, x, la densit 1 2 de la loi N (2 + 2 1 (x 1 ), 2 (1 2 )). On prouve le rsultat pour X |[Y = y ] de faon similaire.

Ce rsultat montre en particulier que 1 - x mregr (x) = E[Y |X = x] = 2 + 2 1 (x 1 ) est une fonction "linaire" de x. - Var[Y |X = x] ne dpend pas de x ; on parlera dhomoscdasticit.
ch.3-p.107i

Lois normales bivaries

F IGURE: La fonction de rgression x mregr (x) = E[Y |X = x] = 2 x + 10 est "linaire" 3 3 pour x (10, 30). Si la distribution de (X , Y ) tait normale bivarie, elle devrait ltre pour tout x et Var[Y |X = x] ne pourrait dpendre de x (on ne pourrait avoir d"htroscdasticit").
ch.3-p.108i

Lois normales bivaries

Ceci nous permet maintenant dinterprter le paramtre .

1 2 Puisque E[X ] = 1 , E[Y ] = 2 , Var[X ] = 1 et E[Y |X ] = 2 + 2 1 (X 1 ), on a

Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] = E[(X 1 )(Y 2 )] = E[E[(X 1 )(Y 2 )|X ]] = E[(X 1 )E[(Y 2 )|X ]]
1 = E[(X 1 )(E[Y |X ] 2 )] = E[(X 1 )2 1 (X 1 )] 1 = 2 1 Var[X ] = 2 1 . 2 Comme en outre Var[Y ] = 2 , ceci implique que

Corr[X , Y ] = p

2 1 Cov[X , Y ] p = = . 1 2 Var[X ] Var[Y ]

ch.3-p.109i

Lois normales bivaries

F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie avec 2 2 1 = E[X ] = 2, 2 = E[Y ] = 1, 1 = Var[X ] = 1.5, 2 = Var[Y ] = 3.5, = Corr[X , Y ] = 0.65
ch.3-p.110i

Lois normales bivaries

F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie avec 2 2 1 = E[X ] = 0, 2 = E[Y ] = 0, 1 = Var[X ] = 1, 2 = Var[Y ] = 1, = Corr[X , Y ] = 0
ch.3-p.111i

Lois normales bivaries


Thorme Soit (X , Y ) un v.a. de loi normale bivarie. Alors X Y Cov[X , Y ] = 0 Preuve : () Cette implication est toujours vraie (voir la page 75). () Supposons que Cov[X , Y ] = 0. Ceci implique que Corr[X , Y ] = = 0. La densit de (X , Y ) prend donc la forme (y 2 )2 1 (x 1 )2 + 2 2 1 1 2 f (x, y ) = e 2 21 2 1 (x 1 )2 ! 1 (y 2 )2 ! 2 2 1 1 1 2 e 2 e 2 = f X (x)f Y (y ). 21 22

Comme on la vu, cette factorisation de la densit implique que X Y . Nous avons vu prcdemment que limplication () nest pas vraie en gnral.
ch.3-p.112i

Lois normales bivaries


Remarque : La fonction de rgression linaire mreglin est donne par x mreglin (x) = = = = = = XY x + XY Y Y x + Y XY X XY X X 2 2 x + 2 1 1 1 2 (x 1 ) 1

2 +

E[Y |X = x] mreg (x).

On retrouve le fait que pour la loi normale bivarie, la courbe de rgression gnrale concide avec la courbe de rgression linaire.
ch.3-p.113i

Lois normales bivaries


Nous terminons la prsentation de ces lois par leur notation matricielle.

Dsignons le vecteur moyen et la matrice de variance-covariance par = 1 2 ! et =


2 1

1 2
2 2

1 2

On vriera alors facilement que f (x, y ) = 21 2 1 p 1 2

1 (y 2 )2 (x 1 )2 (x 1 ) (y 2 ) + 2 2 2 2 1 2 1 2 e 2(1 ) = 1 1 2 det T 1 x x 1 y y e 2

ch.3-p.114i

Plan du chapitre 3

Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies

ch.3-p.115i

Motivation

Jusquici, nous nous sommes restreints aux vecteurs alatoires bivaris. Mais on a souvent besoin de considrer plus de deux variables alatoires simultanment, que ce soit pour tudier un portefeuille boursier compos de plus de deux actifs, pour prdire une variable sur la base de plusieurs autres variables (le rsultat lexamen sur la base du stress, du nombre dheures dtude, etc.), ou pour dcrire des situations plus complexes. Sans rentrer dans autant de dtails que dans le cas bivari, nous allons donc considrer des v.a. k -varis X = (X1 , . . . , Xk )T , o chaque X est une variable alatoire. On dnit la fonction de rpartition comme F (x1 , . . . , xk ) = P[X1 x1 , . . . , Xk xk ] pour tout (x1 , . . . , xk ).

ch.3-p.115i

Le cas discret

Dans le cas discret, chaque composante X na quun nombre ni ou inni dnom() brable de valeurs possibles : xi , i I () . La distribution de X est encore dtermine par la collection de toutes les valeurs possibles de X = (X1 , . . . , Xk )T qui en rsultent accompagnes des probabilits (k ) (1) correspondantes pi1 ...ik := P[X1 = xi1 , . . . , Xk = xik ]. On dtermine la probabilit que X se ralise dans un borlien B de dimension k via X P[X B] = pi1 ...ik
(i1 ,...,ik ):(xi
(1) 1

,...,xi

(k ) k

)B

et on calcule des esprances selon E[g(X1 , . . . , Xk )] = X g(xi1 , . . . , xik ) pi1 ...ik .


(1) (k )

(i1 ,...,ik )

ch.3-p.116i

Le cas discret
Pour des esprances du type E[g(X )], on utilisera plutt E[g(X )] = X
i

g(xi ) pi , o pi = P[X = xi ] =

()

()

()

()

(i1 ,...,i1 ,i+1 ,...,ik ) ()

pi1 ...ik ,

fonde sur la distribution marginale de X (valeurs possibles xi , de probabilits respectives pi ). De mme, des esprances du type E[g(X , Xm )] peuvent tre calcules via E[g(X , Xm )] = o pi ,im
(),(m) ()

X
i ,im

g(xi , xim ) pi ,im ,

()

(m)

(),(m)

= P[X = xi , Xm = xim ] =

()

(m)

(i1 ,...,i1 ,i+1 ,...,im1 ,im+1 ,...,ik )

pi1 ...ik

caractrise la distribution marginale (bivarie) de (X , Xm ).

ch.3-p.117i

Le cas discret
Plus gnralement, on peut aussi considrer des distributions marginales de dimension suprieure. Ceci est en fait ncessaire pour calculer les distributions conditionnelles puisque le dnominateur de P[X = xi |X1 = xi1 , . . . , X1 = xi1 , X+1 = xi+1 , . . . , Xk = xik ] = P[X1 = xi1 , . . . , Xk = xik ] P[X1 =
(1) xi1 , . . . , X1 (1) (k ) () (1) (1) (+1) (k )

(1) xi1 , X+1

= xi+1 , . . . , Xk = xik ]

(+1)

(k )

est associ une distribution marginale (k 1)-varie (on peut encore dnir des esprances et variances conditionnelles sur base de ces distributions conditionnelles).

Remarque : on vrie que X1 , . . . , Xk sont mutuellement indpendantes (comme (k ) (1) dni en page 66) si et seulement si pi1 ...ik = pi1 . . . pik pour tout i1 , . . . , ik . Ceci sera souvent utilis dans la partie "infrence statistique" du cours, o les k (= n) observations seront supposes tre des (ralisations de) variables alatoires mutuellement indpendantes.
ch.3-p.118i

La loi multinomiale

Une distribution multivarie discrte particulire : P Soient k , n N0 et p1 , . . . , pk [0, 1] tels que k p = 1. =1 Soit E une exprience alatoire k rsultats possibles, avec P[rsultat ] = p . Alors X = (X1 , . . . , Xk )T est de distribution multinomiale de paramtres n, p1 , . . . , pk (notation : X Multin(n, p1 , . . . , pk )) si X , = 1, . . . , k , compte le nombre de rsultats dans une suite de n rptitions indpendantes de E. Les valeurs possibles sont tous les (n1 , . . . , nk ) tels que Les probabilits correspondantes sont P[X1 = n1 , . . . , Xk = nk ] = Pk
=1

n = n.

n! n n p 1 . . . pk k . (n1 !) . . . (nk !) 1

Clairement, X Bin(n, p ). On a donc E[X ] = np et Var[X ] = np (1 p ).


ch.3-p.119i

La loi multinomiale
Il est aussi clair que, pour = m, on a X + Xm Bin(n, p + pm ). On a donc Var[X + Xm ] = n(p + pm )(1 p pm ). En utilisant lgalit Var[X +Xm ] = Var[X ]+Var[Xm ]+2Cov[X , Xm ], on obtient donc (exercice) Cov[X , Xm ] = np pm < 0. Les X ne sont donc pas indpendantes. Ce nest pas tonnant (pourquoi ?) Le signe de la covariance entre X et Xm nest pas tonnant non plus (pourquoi ?)

Un exemple de multinomiale : Au premier tour de llection prsidentielle franaise de 2007, on interroge n personnes en leur demandant pour lequel des k candidats elles ont lintention de voter. En notant X le nombre de sonds dclarant vouloir voter pour le candidat , (X1 , . . . , Xk )T Multin(n, p1 , . . . , pk ), o p est la proportion des Franais en faveur du candidat .
ch.3-p.120i

Le cas continu
Pour dcrire le cas continu, nous adoptons volontairement le mme schma de prsentation que pour le cas discret, dans le but de mettre en vidence les analogies fortes entre les deux types de formules.

Dans le cas continu (pour lequel la fonction de rpartition F est drivable k fois), on dnit la fonction de densit de probabilit f (x1 , . . . , xk ) := k F (x1 , . . . , xk ), x1 . . . xk

qui permet de calculer la probabilit que X = (X1 , . . . , Xk )T se ralise dans un borlien B de dimension k via Z P[X B] = f (x1 , . . . , xk ) dxk . . . dx1 ,
B

et on calcule des esprances selon Z Z E[g(X1 , . . . , Xk )] = ...

g(x1 , . . . , xk ) f (x1 , . . . , xk ) dxk . . . dx1 .

ch.3-p.121i

Le cas continu
Pour des esprances du type E[g(X )], on utilisera plutt Z E[g(X )] = g(x ) f X (x ) dx ,

o f X (x ) =

...

f (x1 , . . . , xk ) dxk . . . dx+1 dx1 . . . dx1

est la densit marginale de X . De mme, des esprances du type E[g(X , Xm )] peuvent tre calcules via E[g(X , Xm )] = o f (X ,Xm ) (x , xm ) = Z

g(x , xm ) f (X ,Xm ) (x , xm ) dxm dx ,

...

f (x1 , . . . , xk ) dxk . . . dxm+1 dxm1 . . . dx+1 dx1 . . . dx1

est la densit marginale de (X , Xm ).


ch.3-p.122i

Le cas continu

On peut ici aussi considrer des distributions marginales de dimension suprieure, comme cest le cas (au dnominateur) dans les densits conditionnelles f X |[X1 = x1 , . . . , X1 = x1 , X+1 = x+1 , . . . , Xk = xk ] (x ) = f (x1 , . . . , xk ) (X1 , . . . , X1 , X+1 , . . . , Xk ) (x1 , . . . , x1 , x+1 , . . . , xk ) f

(on peut encore dnir des esprances et variances conditionnelles sur base de ces densits conditionnelles).

Remarque : on vrie que X1 , . . . , Xk sont mutuellement indpendantes (comme dni en page 66) si et seulement si f (x1 , . . . , xk ) = f X1 (x1 ) . . . f Xk (xk ) x1 , . . . , xk . Pour la mme raison que dans le cas discret, ceci sera souvent utilis dans la partie "infrence statistique" du cours.

ch.3-p.123i

Vecteur moyen et matrice de variance-covariance


Par analogie avec le cas bivari, nous dnissons le vecteur moyen et la matrice de variance-covariance du v.a. X = (X1 , . . . , Xk )T respectivement comme le vecteur 0 1 E[X1 ] B C B E[X2 ] C B C E[X ] = B . C B . C . A @ E[Xk ] Var[X ] = E[(X E[X ])(X E[X ])T ] 0 Var[X1 ] Cov[X1 , X2 ] B B Cov[X2 , X1 ] Var[X2 ] B B . B . B . @ Cov[Xk , X1 ] Cov[Xk , X2 ]

et la matrice (symtrique et dnie positive ; la preuve est similaire celle bivarie)

... ... .. .

Cov[X1 , Xk ] Cov[X2 , Xk ] . . . Var[Xk ]

...

Il est facile de vrier que, pour toute matrice (r k ) A et pour tout vecteur b Rr , on a E[AX + b] = AE[X ] + b et Var[AX + b] = AVar[X ]A .
ch.3-p.124i

C C C C. C C A

La loi normale k-varie

Une distribution multivarie continue particulire :

Soient Rk et une matrice (k k ) symtrique et dnie positive. Alors X = (X1 , . . . , Xk )T est de loi normale k -varie de paramtres et (notation : X Nk (, )) si X admet la densit f (x) = o x = (x1 , . . . , xk ) . Ceci gnralise donc la loi normale univarie (k = 1 ; voir ch.2-p.58) et la loi normale bivarie (k = 2 ; voir la page 114).
T

1 2

det

1 (x )T 1 (x ) , e 2

ch.3-p.125i

La loi normale k-varie


On peut montrer que (i) = E[X ] et = Var[X ]. (ii) Pour toute matrice (r k ) A et pour tout vecteur b Rr , AX + b Nr (A + b, AA ). En particulier, si on prend A = (0, . . . , 0, 1, 0, . . . , 0) (avec le "1" en position ) et b = 0, on obtient que X N1 ( , ). (iii) Si est une matrice diagonale, X1 , . . . , Xk sont mutuellement indpendantes.
2 (iv) Si X N1 ( , ), = 1, . . . , k , sont mutuellement indpendantes, X = (X1 , . . . , Xk )T Nk (, ) , o = (1 , . . . , k )T et est diagonale 2 avec = , = 1, . . . , k .

Remarque : ce quon appellera "loi normale k -varie standard" est le cas particulier obtenu pour = 0 et = Ik (la matrice identit de dimension k ).
ch.3-p.126i

Plan du chapitre 4

Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher

ch.4-p.127i

Plan du chapitre 4

Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher

ch.4-p.1i

Motivation

Vous souponnez quon sert "la Jefke" des gobelets de bire de moins de 25 cl en moyenne. Scandalis, vous dcidez de vrier si cest effectivement le cas (avant de contacter, le cas chant, les autorits). Comment pouvez-vous vous y prendre ?

Ce problme est un problme de dcision statistique. Il relve donc de la 2de partie du cours, mais on lutilisera ici pour motiver les rsultats de cette section. Notons dabord quon peut considrer la quantit de bire (en cl) servie dans un gobelet la Jefke comme une variable alatoire X (songez aux nombreux paramtres physiques inuenant la quantit de mousse, et donc celle de bire !) En langage probabiliste, vous voulez dterminer si E[X ] < 25 ou pas.

ch.4-p.1i

Motivation
Il est raisonnable de penser que X est une variable alatoire continue admettant une certaine densit f . La question considre devient donc Z ? E[X ] = x f (x) dx < 25.

Bien sr, cette expression intgrale ne permet pas dvaluer E[X ] (et donc ne permet pas non plus de trancher), parce que f est inconnue. Lide naturelle consiste considrer un chantillon (X1 , . . . , Xn ), associ n bires servies. On dira quil sagit dun chantillon alatoire simple si ces v.a. sont indpendantes et identiquement distribues ("i.i.d.") Ceci signie que ces v.a. sont mutuellement indpendantes, et partagent toutes la mme distribution (dans le cas prsent, elles sont toutes continues avec la densit f ). Lchantillon observ sera dsign par (x1 , . . . , xn ) (les minuscules sont souvent rserves aux valeurs numriques observes, tandis que les majuscules dsignent les v.a. dont ces valeurs observes sont des ralisations).
ch.4-p.2i

Motivation

Toutes les observations tant de densit f , elles portent toutes de linformation sur f , et donc sur E[X ]. Comment extraire cette information ? P 1 Il est naturel de calculer la moyenne empirique X = n n Xi et de fonder la i=1 conclusion sur la valeur que prend cette variable alatoire sur lchantillon observ (x1 , . . . , xn ). Des questions naturelles dans ce cadre sont : En quel sens X fournit-elle une information importante sur E[X ] ? Comment tenir compte de la variabilit intrinsque de X pour se convaincre raisonnablement que E[X ] < 25 (si cest possible) ? La seconde question est justie par le fait que X tant une fonction des v.a. X1 , . . . , Xn , elle est elle-mme une v.a., avec sa propre distribution : on parlera de distribution chantillonne.

ch.4-p.3i

Plan du chapitre 4

Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher

ch.4-p.4i

La loi des grands nombres

Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. La distribution chantillonne de X (n) = (i) E[X (n) ] = et (ii) Var[X (n) ] = X n n n 1 2 1 X 2 1 1 X , Var[Xi ] = 2 = 2 (n 2 ) = Xi = 2 Var n2 n n n n
i=1 i=1 i=1 1 n

n n n 1X 1 1X 1 X E[Xi ] = = (n) = Xi = E n n n n
i=1 i=1 i=1

Pn

i=1

Xi vrie toujours

P P o on a utilis lindpendance mutuelle des Xi (pour Var[ i . . .] = i Var[. . .]).

Donc la distribution de X (n) (i) reste de moyenne n dd (ii) devient de plus en plus concentre quand n grandit.

ch.4-p.4i

La loi des grands nombres

F IGURE: Graphes de la densit de X (n) pour n = 1, 2, 10, 20, 40, dans le cas o les observations sont i.i.d. de loi 24.7 + t5 (gauche) ou i.i.d. de loi Unif(0, 10) (droite). La moyenne reste en = 24.7 (gauche) ou en = 0+10 = 5 (droite), et la variance diminue quand n augmente. 2

ch.4-p.5i

La loi des grands nombres


Ceci suggre que pour n grand, la probabilit est trs leve que lunique ralisation observe de X (n) soit proche de = E[X ]. En fait, quand n grandit, cette probabilit pourrait sapprocher arbitrairement de 1... Ceci est conrm par le rsultat suivant. Thorme (Loi faible des grands nombres) Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 > 0, P[|X (n) | > ] 0. Ceci peut aussi scrire : > 0, P X (n) [ , + ] 1, ce qui signie que > 0, > 0, il existe n0 tel que si n n0 , alors P X (n) [ , + ] 1 . On peut prendre = 109 et = 109 ! (mais a conduira un grand n0 ).

ch.4-p.6i

La loi des grands nombres


Thorme (Loi faible des grands nombres) Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 > 0, P[|X (n) | > ] 0. 2 Preuve : xons > 0. Puisque E[X (n) ] = et Var[X (n) ] = , lingalit de Tchebyn chev fournit q h h i i 1 P |X (n) | > a = P |X (n) E[X (n) ]| > a Var[X (n) ] 2 a n pour tout a > 0. Pour a = n/, on obtient P[|X (n) | > ] quand n .
ch.4-p.7i

2 0, n2

La loi des grands nombres


Dnition Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. On dit que X (n) X en probabilit si > 0, P[|X (n) X | > ] 0. La loi (faible) des grands nombres afrme donc que X (n) en probabilit (dans ce cas, la limite est une variable alatoire dgnre).

Il existe dautres concepts de "convergence stochastique". Dnition On dit que X (n) X presque srement (p.s.) si P[{ : X (n) () X ()}] = 1. Autrement dit, lorsque la convergence presque sre tient, il est certain (avec probabilit 1) que la convergence sera observe. On peut montrer que X (n) p.s. (cest la loi "forte" des grands nombres).
ch.4-p.8i

La loi des grands nombres

F IGURE: Pour chaque n, on a engendr X1 , . . . , Xn i.i.d. de loi Unif(0, 10) et on a calcul X (n) . Ce graphe de X (n) en fonction de n illustre la convergence p.s. de X (n) vers = E[Xi ] = 5.
ch.4-p.9i

La loi des grands nombres

Enn, un troisime concept de convergence en lien avec la loi des grands nombres est le suivant. Dnition On dit que X (n) X en L2 (ou en moyenne quadratique) si E[(X (n) X )2 ] 0. Ceci est justi par le fait que si E[(X (n) X )2 ] = 0, alors on a X (n) = X ; voir (v), ch.2-p.32 (plus prcisment, on a P[{ : X (n) () = X ()}] = 1). Comme E[(X (n) )2 ] = E[(X (n) E[X (n) ])2 ] = Var[X (n) ] = (n) en moyenne quadratique. X
2 n

0, on a aussi que

ch.4-p.10i

La loi des grands nombres


Il existe des liens entre les divers sens de convergence. Thorme (i) X (n) X p.s. X (n) X en probabilit. (ii) X (n) X en L2 X (n) X en probabilit. Le point (i) explique quon parle de loi forte et de loi faible des grands nombres.

Le rsultat suivant est souvent utile. Thorme Soient (X (n) ), (Y (n) ) deux suites de variables alatoires et X , Y deux autres variables alatoires. Alors (i) X (n) X p.s. et Y (n) Y p.s. X (n) + Y (n) X + Y p.s. et X (n) Y (n) XY p.s. (ii) X (n) X en probabilit et Y (n) Y en probabilit X (n) + Y (n) X + Y en probabilit et X (n) Y (n) XY en probabilit. (iii) X (n) X en L2 et Y (n) Y en L2 X (n) + Y (n) X + Y en L2 .
ch.4-p.11i

La loi des grands nombres


Avant de continuer, nous considrons un cas particulier important de la loi des grands nombres.

Soit E une exprience alatoire. Soit (, A, P) un espace probabilis associ. Soit A A un vnement x, de probabilit p = P[A]. Soit X la v.a. qui vaut 1 si A se produit et 0 sinon. Soit (X1 , . . . , Xn ) un chantillon alatoire simple correspondant (qui est donc associ n rptitions indpendantes de E). Alors on a = E[X ] = 1 p + 0 (1 p) = p. Et la loi (forte) des grands nombres afrme que

nombre de ralisations de A parmi les n


n

X1 + . . . + Xn = X (n) p n

presque srement. Il sagit l de la dnition frquentiste des probabilits de BA1 (que notre dnition axiomatique identie comme un thorme).
ch.4-p.12i

La loi des grands nombres

F IGURE: Pour chaque n, on a engendr n reprises k = 32 anniversaires alatoirement et on a enregistr la proportion X (n) de fois o au moins deux anniversaires parmi les 32 concident. Le graphe de X (n) en fonction de n illustre la convergence p.s. de X (n) vers la probabilit quau moins deux anniversaires concident parmi 32.
ch.4-p.13i

La loi des grands nombres


Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. Souvent, on a aussi besoin destimer 2 . Ceci peut se faire au moyen de la variance empirique s2 =
n 1X (Xi X )2 n i=1 n 1 X 2 2 (Xi + X 2Xi X ) n i=1 ! ! n n X 1X 2 2 2 1 Xi + X Xi X n n i=1 i=1 ! n 1X 2 Xi X 2 n i=1

// 2 = E[(X )2 ]

// 2 = E[X 2 ] 2 .

De manire tout fait similaire la variance thorique 2 , la premire expression est plus adapte linterprtation du concept, tandis que la seconde est plus commode pour lvaluation numrique de la variance.
ch.4-p.14i

La loi des grands nombres


Dans la seconde partie du cours, on vriera que E[s2 ] = en moyenne), et on prfre donc parfois utiliser S2 =
n1 2 n

(sous-estimation

n 1 X n (Xi X )2 , s2 = n1 n1 i=1

qui est videmment tel que E[S 2 ] = 2 . P 1 Par la loi forte des grands nombres, on a que n n Xi2 E[X 2 ] p.s. et que X i=1 p.s. Le thorme prcdent implique alors que ! n 1X 2 2 Xi X 2 E[X 2 ] 2 = 2 s = p.s., n
i=1

et donc aussi en probabilit. Bien sr, on a les mmes rsultats de convergence stochastique pour S 2 .

ch.4-p.15i

La loi des grands nombres

F IGURE: Pour chaque n, on a engendr X1 , . . . , Xn i.i.d. de loi Unif(0, 10) et on a calcul s2 . Ce graphe de s2 en fonction de n illustre la convergence p.s. de s2 vers 2 =
(100)2 12

8.33.
ch.4-p.16i

La loi des grands nombres

Si on veut estimer lcart-type plutt que la variance 2 , il est naturel dutiliser s = s2 ou S=

S2 .

On aura de nouveau que s p.s. et S p.s., ce qui est une consquence du thorme gnral suivant. Thorme Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. Soit g : R R une fonction continue. Alors (i) X (n) X p.s. g(X (n) ) g(X ) p.s. (ii) X (n) X en probabilit g(X (n) ) g(X ) en probabilit.

ch.4-p.17i

Plan du chapitre 4

Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher

ch.4-p.18i

Le thorme central-limite
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. On sait que (i) E[X (n) ] = 2 (ii) Var[X (n) ] =
n

(iii) Si n , X (n) (p.s., en probabilit, et en L2 ) Ces rsultats livrent un moyen destimer sur la base de X1 , . . . , Xn (par X (n) ), dune manire telle que si n , lestimation se fait nalement sans erreur. Si on sert une innit de bires, on pourra donc dcider sans se tromper si = E[X ] < 25 cl ou pas...

Bien entendu, on ne prendra jamais quun chantillon de taille n xe. Et pour ce n, quel quil soit, une certaine erreur sera commise dans lestimation de par X (n) . Il est videmment capital de pouvoir quantier cette erreur...
ch.4-p.18i

Le thorme central-limite
La difcult principale est la suivante : 2 Alors que (i) E[X (n) ] = et (ii) Var[X (n) ] = tiennent quelle que soit la distribution n "mre" (celle de X ), il nen va pas de mme du reste de la distribution de X (n) . En effet, les proprits dadditivit (ch.3-p.72) montrent que : Si X1 , . . . , Xn sont i.i.d. N (, 2 ), alors X1 + X2 + . . . + Xn N (n, n 2 ), de 2 2 sorte que X = (X1 + X2 + . . . + Xn )/n N ( n , n ) = N (, ). n n n2 Si X1 , . . . , Xn sont i.i.d. Bern(p) = Bin(1, p), alors X 1 Bin(n, p).
n

Si X1 , . . . , Xn sont i.i.d. Poi(), alors X 1 Poi(n). n Si X1 , . . . , Xn sont i.i.d. 2 , alors X 1 2 . k nk


n

Ceci illustre le fait quil est priori difcile, pour un n x, de contrler lerreur X (n) : en effet, la distribution de X (n) dpend de la distribution "mre"... Laquelle est le plus souvent inconnue en pratique !

Mais on est sauv par LE thorme le plus important en probabilit et en statistique...


ch.4-p.19i

Le thorme central-limite

F IGURE: Graphes de la densit de X (n) pour n = 1, 2, 10, 20, 40, dans le cas o les observations sont i.i.d. de loi 24.7 + t5 (gauche) ou i.i.d. de loi Unif(0, 10) (droite). Dans les deux cas, la distribution de X (n) ressemble de plus en plus une loi normale mesure que n grandit.

ch.4-p.20i

Le thorme central-limite
Ce thorme si important est le suivant. Thorme ("Thorme central-limite" ou "TCL") Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 # " X (n) q x (x), P
2 n

o x (x) = P[N (0, 1) x] est la fonction de rpartition de la loi N (0, 1).

Autrement dit : pour n grand, la distribution de n(X (n) ) (n) Z = est bien approxime par la loi N (0, 1). On pourra donc calculer des probabilits pour Z (n) (et donc pour X (n) ) en faisant comme sil sagissait dune variable normale standard.
ch.4-p.21i

Le thorme central-limite
Le TCL est associ un dernier concept de convergence : Dnition Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. Notons F (n) et F les fonctions de rpartition correspondantes. On dit que X (n) X en loi si F (n) (x) F (x) en tout point x o F est continue. Le TCL afrme donc simplement que Z (n) Z en loi, o Z N (0, 1). Parfois, on crira plutt Z (n) N (0, 1) en loi. La preuve du TCL ncessite le rsultat suivant (qui est comparer au thorme de la page 83 du chapitre 2). Thorme (de continuit) Supposons que X (n) et X admettent respectivement les fonctions gnratrices des moments MX (n) (t) et MX (t). Alors si MX (n) (t) MX (t) t, on a que X (n) X en loi.
ch.4-p.22i

Le thorme central-limite
Preuve du TCL : la stratgie est effectivement dutiliser le thorme de continuit. Pour ce faire, on a, par dnition de la fonction gnratrice des moments, " t n (n) # tZ (n) (X ) MZ (n) (t) = E e =E e =E e "
n t X (Xi ) # n i=1

# t t (X1 ) (Xn ) = E e n ... e n . "

Puisque les Xi sont indpendants et identiquement distribus, ceci livre # " # t t (X1 ) (Xn ) n n ... E e MZ (n) (t) = E e " = #! t t n (X1 ) n n = MX1 . E e n "
ch.4-p.23i

Le thorme central-limite
t Puisque n 0 si n , un dveloppement de Taylor centr en 0 se justie. Cela donne

t n MZ (n) (t) = MX1 n t 2 M (0) n t X1 = MX1 (0) + MX1 (0) + + ... 2 n n n t2 t E[(X1 )2 ] + . . . = 1 + E[X1 ] + 2 2 n n n t2 = 1+0+ +... , 2n qui tend vers e t /2 si n (ce que lon peut tablir en crivant f (n) = e ln f (n) , puis en utilisant la rgle de LHospital). Par le thorme de continuit, le TCL est donc dmontr, puisque t e t fonction gnratrice des moments de la loi N (0, 1) (voir ch.2-p.80).
2 2

/2

est la

ch.4-p.24i

Le thorme central-limite
En guise dillustration du thorme central-limite, on peut reconsidrer la situation suivante. Soit E une exprience alatoire. Soit (, A, P) un espace probabilis associ. Soit A A un vnement x, de probabilit p = P[A]. Soit X la v.a. qui vaut 1 si A se produit et 0 sinon. Soit (X1 , . . . , Xn ) un chantillon alatoire simple correspondant (qui est donc associ n rptitions indpendantes de E). Alors on a = E[X ] = p et 2 = Var[X ] = p(1 p). Donc le TCL afrme que, pour tout x, " # X (n) p P q x (x).
p(1p) n

Ce cas particulier porte le nom de thorme de de Moivre - Laplace.


ch.4-p.25i

Le thorme central-limite
Si p = P[obtenir "face" en lanant une pice] =
1 2

et n = 100, ceci donne

En particulier, on calcule que

X (n) p 1 q N (0, 1). = 20 X (n) 2 p(1p)


n

P[0.4 < X (n) 0.6]

= = =

(2) (2) 0.9545

h i 1 P 0.1 < X (n) 0.1 2 i h 1 2 P 2 < 20 X (n) 2 h i P 2 < N (0, 1) 2

Il y a donc peu prs 95.45% de chance quon ait entre 40 et 60 fois "face" en 100 lancers dune pice de monnaie quilibre.
ch.4-p.26i

Le thorme central-limite
Pour ce genre de calcul, le thorme de de Moivre - Laplace fournit une alternative P au calcul fond sur la distribution binomiale de nX = n Xi ( Bin(n, p)). i=1 P[0.4 < X (n) 0.6] = = = P[40 < 100X (n) 60] P[40 < Bin(100, 1/2) 60] P[Bin(100, 1/2) = 41] + P[Bin(100, 1/2) = 42] + . . . + P[Bin(100, 1/2) = 60] =
60 X

Dans lexemple considr, on pourrait en effet galement procder comme suit :

k =41

0.9540

`100 1 k 1 100k 1 k 2 2

Remarques : - on voit que cette valeur exacte (on a calcul cette valeur sur base de la loi exacte de nX ) est trs proche de lapproximation fournie par le TCL. - Pour n grand, il y a des avantages numriques vidents utiliser le TCL.
ch.4-p.27i

Le thorme central-limite
Nanmoins, le caractre miraculeux du TCL est quil permet de calculer des probabilits aussi efcacement que ci-dessus dans les situations o on ignore la distribution "mre". Avant dillustrer ceci, nous rapportons deux rsultats supplmentaires sur les convergences stochastiques. Thorme (i) X (n) X en probabilit X (n) X en loi. Le rsultat suivant est utilis de faon continue en infrence statistique. Thorme (Lemme de Slutzky) Soient (X (n) ), (Y (n) ) deux suites de variables alatoires, X une autre variable alatoire, et a une constante. Alors (i) X (n) X en loi et Y (n) a en loi X (n) + Y (n) X + a en loi (ii) X (n) X en loi et Y (n) a en loi X (n) Y (n) Xa en loi (iii) X (n) X en loi et Y (n) a(= 0) en loi X (n) /Y (n) X /a en loi.
ch.4-p.28i

Le thorme central-limite
Un exemple type dapplication de ce thorme est le suivant.

Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. Le TCL afrme que, en loi, X (n) n N (0, 1). Dautre part, on a vu que s p.s., donc aussi en probabilit et en loi. Le lemme de Slutzky livre donc que, en loi, X (n) X (n) s n = n / N (0, 1) / 1 = N (0, 1). s Le caractre miraculeux de ce rsultat est quil tient quelle que soit la distribution "mre" (et est donc applicable mme quand on ne la connat pas).

ch.4-p.29i

Le thorme central-limite
En posant z = 1 (1 ), le rsultat ci-dessus permet dcrire que h s i s P X (n) z/2 X (n) + z/2 n n

alors que X est une "estimation ponctuelle" du inconnu, lintervalle alatoire [X (n) s s 1.96 n , X (n) + 1.96 n ] constitue une "fourchette" ayant la proprit de contenir la valeur inconnue de avec une probabilit denviron 0.95 ! La longueur de cet intervalle, pour un niveau derreur x, donne une information de premire importance sur lincertitude qui rgne sur (la 2nde partie du cours donnera une interprtation plus prcise ce type de "fourchettes").

Pour = 0.05, ceci implique que, si n est grand, h s i s P X (n) 1.96 X (n) + 1.96 0.95 : n n

h i X (n) = P z/2 n z/2 P[z/2 N (0, 1) z/2 ] = 1 . s

ch.4-p.30i

Le thorme central-limite

Si, dans le contexte des bires servies la Jefke, un chantillon X1 , . . . , X100 de n = 100 bires a men X (n) = 24.7 et on a h s i s X (n) 1.96 , X (n) + 1.96 = [24.5, 24.9], n n ce qui tend indiquer que < 25! s = 1.04,

ch.4-p.31i

Plan du chapitre 4

Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher

ch.4-p.32i

Le lemme de Fisher

La bire nest pas chre la Jefke, et on peut donc faire en sorte de fonder la dcision sur un chantillon alatoire simple de taille n trs grande. Mais il arrive quon soit amen travailler avec de petits chantillons. Cela peut sexpliquer par la raret des observations, par le cot norme pour obtenir des observations supplmentaires (cest le cas en gntique, par exemple), etc. Si n est trop petit (n < 30 ?), lapproximation de la loi de X (n) que fournit le TCL est trop peu prcise pour donner des rsultats satisfaisants en pratique. Que peut-on faire dans ce cas ?

Comme on va le montrer, on peut encore procder aux mmes types danalyse que ci-dessus, sous lhypothse (restrictive !) que la distribution "mre" soit normale.

ch.4-p.32i

Le lemme de Fisher

Le rsultat fondamental est le suivant. Thorme (lemme de Fisher) Soient X1 , . . . , Xn des variables alatoires i.i.d. N (, 2 ) (n 2). Alors 2 (i) X (n) N , n ns2 (ii) 2 2 n1 (iii) X s2 . Contrairement la loi des grands nombres et au TCL (qui, puisque n dans ces thormes, seront dits "asymptotiques"), le rsultat ci-dessus sera quali dexact. Ceci traduit le fait que le rsultat tient pour tout n x, et donc pourra tre utilis mme pour n petit.

ch.4-p.33i

Le lemme de Fisher
Le point (i) a t prouv la page 19 de ce chapitre. Pour montrer les points (ii)-(iii), nous utiliserons le lemme suivant. Lemme Soit A une matrice (k k ) symtrique (AT = A), idempotente (A2 = A), et de trace r ( N0 ). Soit B une matrice (s k ) et telle que BA = 0. Soit Z Nk (0, Ik ). Alors (i) Z TA Z 2 et (ii) Z TA Z BZ . r Preuve du lemme : (i) puisque A est symtrique, elle admet la dcomposition A = UU T , o U est une matrice (k k ) orthogonale (U TU = Ik = UU T ) et 0 1 1 0 . . . 0 B C B 0 2 . . . 0 C B C =B . . C. .. B . . C . B . . C @ A 0 0 . . . k
ch.4-p.34i

Le lemme de Fisher

Si on pose (Z1 , . . . , Zk )T := Z := U TZ ( Nk (U T 0, U TIk U) = Nk (0, Ik )), on a donc Z TA Z = Z T(UU T )Z = (U TZ )T (U TZ ) = Z T Z =


T 2 T k X =1

2 Z .

Lidempotence de A implique que UU = A = A = (UU )(UU T ) = U 2 U T , ce qui indique que = 2 . Autrement dit, 2 = , cest--dire = 0 ou 1 . Le nombre de gaux 1 vaut trace[] = trace[U TU] = trace[UU T ] = trace[A] = r ; au prix dune permutation des colonnes de U, on peut faire en sorte que 1 = . . . = r = 1 et r +1 = . . . = k = 0. On a donc en fait Z TA Z = o la loi 2 r
r X =1

2 Z 2 , r

suit du fait que Z Nk (0, Ik ) implique que les Z sont i.i.d. N (0, 1).

ch.4-p.35i

Le lemme de Fisher

(ii) Par hypothse, on a 0 = BA = BUU T , ou de manire quivalente, ! Ir 0 , 0 = BU = BU 0 0 ce qui implique que BU = (0 |C) pour une certaine matrice (k r ) C. Donc on a que = f1 (Z1 , Z2 , . . . , Zr ). BZ = (BU)(U Z ) = (0 |C)Z = f2 (Zr +1 , Zr +2 , . . . , Zk ). Z TA Z = Puisque les Z sont mutuellement indpendants, on conclut que Z TA Z BZ . Pr 2 =1 Z T

ch.4-p.36i

Le lemme de Fisher
On peut maintenant tablir les points (ii)-(iii) du lemme de Fisher.

Preuve de (ii)-(iii) : posons Z = (Z1 , . . . , Zn )T , o Zi := (Xi )/. 1 Soit B = n 1T , o 1n := (1, 1, . . . , 1)T Rn , et soit A = In nB T B. n On vrie directement que X = Z + = BZ + n n 2 X 2 X` ` 2 ns 2 Zi nZ 2 = Z T Z n BZ = Z T Z n(Z T B T )(BZ ) Zi Z = = 2
i=1 i=1

ddddd

= Z TA Z .

Au vu du lemme, il suft donc de montrer que (a1) A est symtrique (a2) A est idempotente (a3) trace[A] = n 1 (b) BA = 0 (z) Z Nn (0, In ).

ch.4-p.37i

Le lemme de Fisher

Pour certains points, nous aurons besoin de lidentit BB T = (a1) AT = [In nB T B]T = (In )T n(B T B)T = In nB T B = A

1 T 1 1 n2 n n

1 n n2

1 n

(a2) A2 = [In nB T B][In nB T B] = In 2nB T B + n2 B T (BB T )B = In nB T B = A


1 (a3) trace[A] = trace[In ] n trace[B T B] = n n trace[BB T ] = n n trace[ n ] = n 1

(b) BA = B[In nB T B] = B n(BB T )B = B B = 0 (z) Les Xi tant i.i.d. N (, 2 ), on a que les Zi = (Xi )/ sont i.i.d. N (0, 1). Par le point (iv), ch.3-p.126, il en dcoule que Z = (Z1 , . . . , Zn )T Nn (0, In ).

ch.4-p.38i

Le lemme de Fisher
Thorme (lemme de Fisher) Soient X1 , . . . , Xn des variables alatoires i.i.d. N (, 2 ) (n 2). Alors 2 (i) X N , n ns2 (ii) 2 2 n1 (iii) X s2 . Rappelons que si Z N (0, 1) et Y 2 sont mutuellement indpendantes, alors p Z t . Y /

Il dcoule donc du lemme de Fisher que n (X (n) ) (X (n) ) n1 = r tn1 . ns2 s / (n 1) 2


ch.4-p.39i

Le lemme de Fisher
Pour peu que la distribution "mre" soit normale, on peut donc crire (n 2) h i s s P X (n) tn1;/2 X (n) + tn1;/2 n1 n1 i h (n) X tn1;/2 = P tn1;/2 n 1 s P[tn1;/2 tn1 tn1;/2 ] = 1 , o tn1; dsigne le quantile dordre 1 de la loi tn1 . Par exemple, pour = 0.05 et n = 9, ceci fournit h i s s P X (n) 2.31 0.95. X (n) + 2.31 n1 n1 Si la quantit de bire servie dans un verre la Jefke est de loi normale, on peut donc, mme si on na en poche que de largent pour 9 bires, construire des "fourchettes" remplissant le mme rle que celles construites la page 30.

ch.4-p.40i

Rfrences I

Anderson, D., Sweeney, D., et Williams, T. (2001). Statistiques pour lEconomie et la Gestion. Bruxelles, De Boeck Universit. Dagnelie, P. (1998). Statistique Thorique et Applique. Tome 2 : Infrence Statistique Une et Deux Dimensions. Bruxelles, De Boeck Universit. Dehon, C., Droesbeke, J.J., et Vermandele, C. (2007). Elments de Statistique. Bruxelles : Editions de lUniversit de Bruxelles. Hasset, M.J., et Stewart, D.G. (2006). Probability for Risk Management. ACTEX Publications, Inc., Winsted, Connecticut. Isaac, R. (1995). The Pleasures of Probability. Springer, New York.

ch.4-p.41i

Rfrences II

Stirzaker, D. (2003). Probability and Random Variables. Cambridge University Press (Virtual Publishing). Stirzaker, D. (2003). Elementary Probability. Cambridge University Press, New York. Tijms, H. (2007). Understanding Probability. Chance Rules in Everyday Life. Cambridge University Press, New York. Wackerly, D.D., Mendenhall, W., et Scheaffer, R.L. (2008). Mathematical Statistics with Applications. Duxbury Press, 7me dition.

ch.4-p.42i

Das könnte Ihnen auch gefallen