Beruflich Dokumente
Kultur Dokumente
Partie I: Probabilits
Davy Paindaveine
Introduction
Deux parties
1
Probabilits : Davy Paindaveine, 1er quadrimestre Thorie : 24h (=122h) TP : 18h (=92h) http://www.ulb.ac.be//soco/statrope/cours/stat-s-202 http://homepages.ulb.ac.be/~dpaindav/teaching/stats202.html Infrence statistique : Catherine Dehon, 2nd quadrimestre Thorie : 24h (=122h) TP : 18h (=92h)
1re session
1 2
Introduction
2nde session Un double examen est organis lors dune mme demi-journe (1h30 2h pour chaque partie). Rgles de report(s) et de notation :
De la premire la seconde session, un tudiant bncie automatiquement du report de la note de la premire partie du cours (examen de janvier) ou de la seconde partie du cours (examen de juin), si celle-ci est au moins gale 10/20 [aucune dmarche administrative nest ncessaire]. Les notes infrieures 10/20 sont automatiquement annules. Ltudiant qui a obtenu un report de note et qui dcide de reprsenter lexamen correspondant lors dune session ultrieure renonce implicitement son ancienne note et seule la nouvelle note obtenue sera prise en considration, mme si celle-ci est infrieure celle obtenue antrieurement. La note pour la seconde session est la moyenne entre la note obtenue pour la premire partie (note de janvier ou note obtenue en seconde session) et la note obtenue pour le deuxime partie (note de juin ou note obtenue en seconde session).
ch.0-p.3i
Introduction
Report danne
Ltudiant bncie du report danne si la note nale du cours Probabilits et infrence statistique est au moins gale 12/20. Un tudiant qui ne se voit pas attribuer un report danne ne bnciera pas de "report partiel" lanne suivante. Il devra donc, quelles que soient les notes obtenues lanne prcdente, repasser les deux parties du cours.
ch.0-p.4i
Introduction
Linfrence statistique, quoi et pour quoi ?
ch.0-p.1i
Introduction
30 avril 2007 : le bureau de campagne de Nicolas Sarkozy juge que si la proportion p des Franais en faveur de Nicolas Sarkozy est 52%, il faut opter pour une n de campagne assez agressive, si p > 52%, il faut au contraire opter pour une n de campagne prudente. Comment dcider de ce quil faut faire ?
La dcision dpend de la valeur de p, qui est malheureusement inconnue. Puisquil est bien sr exclu dinterroger tous les franais pour valuer p, la seule possibilit consiste raliser un sondage : interroger 100 futurs votants sur leurs intentions de vote, disons.
ch.0-p.2i
Introduction
La statistique descriptive sarrte la description des rsultats de ce sondage.
Ceci ne dit cependant rien de tangible sur p : quelle que soit la valeur de p (0, 1), ce rsultat de 62% peut en effet se raliser, en raison des "variations alatoires" auxquelles le rsultat du sondage est soumis (mais la valeur p = 1%, par exemple, rend ce rsultat de 62% trs peu probable et est donc carter)
ch.0-p.3i
Introduction
Les probabilits = un processus dductif : Une connaissance parfaite de la population permet de "prdire" les caractristiques de lchantillon qui sera obtenu alatoirement. >< La statistique infrentielle = un processus inductif : Lchantillon observ permet dobtenir de linformation sur la population qui nest que trs partiellement connue.
Probabilits
Population
Infrence statistique
Echantillon
ch.0-p.4i
Introduction
Ce sont ainsi les probabilits qui engendrent la statistique infrentielle, laquelle va plus loin que la statistique descriptive : elle permet de tirer des conclusions (et donc de prendre des dcisions). Comme le cours le montrera, elle tablira ici que si on tolre une probabilit de 5% quon opte tort pour une n de campagne prudente, il convient dopter en effet pour la prudence (alors quun rsultat de sondage de 58% ne mnerait pas cette conclusion), quune "fourchette" pour p, associe un "taux derreur de 5%", est donne par [52.5%, 71.5%].
Clairement, toute "preuve statistique" comportera un risque derreur. Comment dnir cette erreur ? Comment la contrler ? (p.ex., comment choisir une taille de sondage assurant une erreur infrieure un seuil x par le cabinet Sarkozy ?) Comment interprter les rsultats des procdures dinfrence statistique ?
ch.0-p.5i
Introduction
Les domaines dapplications des probabilits et de linfrence statistique sont innombrables : Lconomie : quel est le lien entre les dpenses et les revenus des mnages ? Comment modliser/prvoir le PNB en fonction dautres grandeurs macroconomiques ? La nance : comment apprcier les risques associs aux divers actifs nanciers ? Comment construire un portefeuille optimisant les prots en minimisant le risque ? Les assurances : comment la compagnie doit-elle xer les primes pour pouvoir faire face (avec une probabilit sufsante) lensemble des sinistres qui se produiront cette anne ? La politique de lducation : quel est limpact dune augmentation de la taille des classes sur lefcacit de lenseignement ? La sant publique : quelle est limportance du tabagisme passif ? Comment valider un mdicament avant de lintroduire sur le march ? ...
ch.0-p.6i
Introduction
Mesures de probabilit
Variables alatoires
Vecteurs alatoires
ch.0-p.7i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.8i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.1i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = interroger un quiddam sur ses intentions de vote Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {Sarkozy, Royal} Un vnement A : Un sous-ensemble de Exemple : A = {Sarkozy} Remarques : - Si le rsultat de E appartient A, on dit que lvnement A se produit. - Dans la suite, lensemble de toutes les parties de (= lensemble de tous les vnements) sera not P().
ch.1-p.1i
ch.1-p.2i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer de deux ds (distinguables) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} Un vnement A : Un sous-ensemble de Exemples : A1 = {(1, 4)}, A2 = {(6, 6)}, A3 = {(5, 6), (6, 5)}, . . . Remarque : - Les oprations ensemblistes , , c , . . . , associes aux oprations logiques correspondantes ("ou", "et", "non", . . . ), engendrent de nouveaux vnements. Exemple : A2 A3 = {(6, 6), (5, 6), (6, 5)}, i.e., "avoir une somme gale 12" ou "avoir une somme gale 11" = "obtenir une somme plus grande ou gale 11".
ch.1-p.3i
A1
A2
A1
A2
A1A2
"ou" inclusif
A1A2
"et"
A1
A2 A
A1A2
"ou" exclusif "non"
ch.1-p.4i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = crer une start-up dans le but de percer dans les 5 ans Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {percer, ne pas percer} Un vnement A : Un sous-ensemble de Exemples : A1 = {percer}, A2 = , A3 = , . . . Remarques : - est dit vnement impossible. - est dit vnement certain.
ch.1-p.5i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer une pice de monnaie en lair jusqu obtenir p (pile) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {p, (f , p), (f , f , p), (f , f , f , p), . . .} Un vnement A : Un sous-ensemble de Exemples : A1 = {p, (f , p), (f , f , p)}, A2 = {(f , f , f , p), (f , f , f , f , p), . . .}, . . . Remarques : - A linverse des exemples prcdents, cet est inni. - est ici inni dnombrable (cest--dire en bijection avec N).
ch.1-p.6i
ch.1-p.7i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.8i
Mesures de probabilit
Bien entendu, nous dsirons mesurer la probabilit P[A] de chaque vnement. Ceci ncessite une fonction densemble P appele mesure de probabilit.
Si # < , ceci est strictement quivalent associer chaque lment i de P un nombre pi ( 0), qui sera la valeur de P[{i }]. Seule restriction : # pi = 1. i=1 valeurs possibles probabilits 1 p1 2 p2 ... ... # p#
i:i A
P[{i }].
Mesures de probabilit
A 5 1
2 6
3 4
F IGURE: P[A] =
i:i A
ch.1-p.9i
Mesures de probabilit
Exemple : si on reprend lexemple du lancer dun d ( = {1, 2, . . . , 6}), on peut 1 prendre p1 = p2 = . . . = p6 = 6 (hypothse dun d quilibr). Ceci mne P[obtenir un rsultat pair] = = = = P[{2, 4, 6}] P[{2}] + P[{4}] + P[{6}] 1 1 1 + + 6 6 6 1 2
ch.1-p.10i
Mesures de probabilit
Mais peut-tre le d est-il plutt caractris par 1 1 1 1 1 1 (p1 , p2 , p3 , p4 , p5 , p6 ) = , , , , , . 12 12 12 4 4 4 Dans ce cas, on obtient P[obtenir un rsultat pair] = = = = P[{2, 4, 6}] P[{2}] + P[{4}] + P[{6}] 1 1 1 + + 12 4 4 7 1 > 12 2
ch.1-p.11i
Mesures de probabilit
Comment choisir la mesure de probabilit P ? Le choix est parfois guid par les hypothses naturelles que lon fait (e.g., d quilibr). Dans la suite de la partie "probabilits" du cours, on supposera toujours que P est connue (ou que lon fait des hypothses nous permettant de dterminer P).
Mais si on ne connat pas P, on peut recourir linfrence statistique pour estimer P, pour confronter ce que lon croit tre vrai pour P des donnes empiriques...
ch.1-p.12i
Mesures de probabilit
Imaginons que 1000 lancers du mme d aient livr les donnes suivantes :
valeurs possibles 1 2 3 4 5 6
Est-ce que ceci permet (ou non) dinrmer lhypothse que le d est quilibr ?
Etudier la validit dune hypothse (ou dune thorie scientique) en la confrontant des donnes empiriques est lun des usages principaux de linfrence statistique.
ch.1-p.13i
Mesures de probabilit
Un cas particulier important : lquiprobabilit Si # < , on peut considrer le cas o pi = p i. Comme P#
i=1
i:i A
= =
1 1 1 + +... + # # #
ch.1-p.14i
Mesures de probabilit
Si est inni dnombrable, on dnit encore une mesure de probabilit en associant chaque lment i de un nombre pi ( 0) qui sera la valeur de P[{i }]. La P restriction devient pi = 1 (une srie). i=1 valeurs possibles probabilits 1 p1 2 p2 3 p3 ... ...
On calcule encore la probabilit dun vnement A au moyen de la rgle P : P() A avec P[] = 0. Remarque : bien sr, on ne peut pas avoir ici de situation dquiprobabilit! P (car pi = p i et pi = 1 sont incompatibles) i=1
ch.1-p.15i
R X
i:i A
P[{i }],
Mesures de probabilit
Exemple : si on reprend lexemple o on lance une pice jusqu obtenir face pour la premire fois ( = {p, (f , p), (f , f , p), (f , f , f , p), . . .}), il est naturel de prendre 1 1 1 1 (p1 , p2 , p3 , p4 , . . .) = , , , ,... , 2 4 8 16 P qui livre bien i=1 pi = 1. On calcule alors par exemple P[il faut au plus trois lancers] = = = ou P[il faut au moins trois lancers] = = = P[{(f , f , p), (f , f , f , p), . . .}] P[{(f , f , p)}] + P[{(f , f , f , f , p)}] + . . . 1 1 1 + +... = . 8 16 4
ch.1-p.16i
Mesures de probabilit
Dans les deux cas considrs ( ni, inni dnombrable), on peut vrier que la mesure de probabilit P satisfait toujours (A1) P[A] 0 pour tout A (A2) P[] = 1 (A3) P[A1 A2 . . .] = P[A1 ] + P[A2 ] + . . ., pour tout A1 , A2 , . . . P() tels que Ai Aj = si i = j. Il sagit l des trois axiomes qui dnissent, dans le cas gnral, ce quest une mesure de probabilit. Dans le dernier cas restant traiter (celui o est inni non dnombrable), on ne peut en effet chapper cette dnition axiomatique pour dnir le concept de mesure de probabilit...
ch.1-p.17i
Mesures de probabilit
Le cas o est inni non dnombrable est donc plus complexe. Pire : il est si complexe quil ny a en gnral pas de mesure de probabilit (cest--dire de fonction densemble vriant (A1)-(A2)-(A3)) pour tous les vnements A P(). Mais ce nest pas si grave car nous ne sommes jamais intresss par tous les vnements. La solution consistera dnir la mesure de probabilit sur une collection dvnements A plus petite que P(). Dans tous les cas, cette collection dvnements devra tre une -algbre. Dnition La collection A densembles de P() est une -algbre si A A A Ac A
A1 , A2 , . . . A A1 A2 . . . A Ceci implique notamment que (= c ) A, que les runions nies et intersections nies dlments de A sont encore des lments de A, etc.
ch.1-p.18i
Mesures de probabilit
Dans le cas gnral, on adopte alors la dnition suivante. Dnition Soit A une -algbre. La fonction densemble P :A A est une mesure de probabilit sur A si P[A] 0 pour tout A A P[] = 1 R P[A]
P[A1 A2 . . .] = P[A1 ] + P[A2 ] + . . ., pour tout A1 , A2 , . . . A tels que Ai Aj = si i = j. Point de terminologie : on dira que le triple (, A, P) qui en rsulte est un espace probabilis.
ch.1-p.19i
Mesures de probabilit
En gnral, on se restreint la -algbre la plus petite contenant les vnements qui nous intressent. Ainsi, si = R, on considrera la -algbre de Borel A = B = ({(x, y ] : x < y }), o ({(x, y ] : x < y }) dsigne la plus petite -algbre qui contient tous les intervalles de la forme (x, y ]. Remarques : Les lments B B sont appels les borliens.
(i) tous les intervalles de la forme (x, y ], (x, y ), [x, y ], [x, y ), (ii) les singletons {x}, et donc aussi (iii) les runions nies de tels vnements sont dans B ! (voir TP). Ceci implique quau moyen dun mesure de probabilit sur A = B, on sera capable de calculer la probabilit de tels ensembles.
ch.1-p.20i
Mesures de probabilit
Extension R+ : B+ = {B R+ : B B} Extension R+ : B+ = {B R+ : B B} 0 0 ... Extension R2 : B2 = ({(x1 , y1 ] (x2 , y2 ] : x1 < y1 , x2 < y2 })
C R1 R2
y2 x2
R3
R4
x1
y1
Mesures de probabilit
Exemple : si on reprend lexemple o on observe le temps dattente (en minutes) du bus 71 ( = R+ ), et si on fait lhypothse quun 71 passe exactement toutes les 10 0 minutes, on peut considrer la fonction densemble P:B A R P[A] = |A [0, 10]| |A [0, 10]| = , |R (0, 10)| 10
o |C| reprsente la mesure (la longueur pour un intervalle) de lensemble C. On vriera que P est bien une mesure de probabilit (exercice). On calcule par exemple P[attendre entre 5 et 15 minutes] = = = P[[5, 15]] |[5, 15] [0, 10]| 10 5 1 |[5, 10]| = = . 10 10 2
ch.1-p.22i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.23i
Mesures de probabilit
Il dcoule des axiomes que toute mesure de probabilit vrie P[Ac ] = 1 P[A] 0 P[A] 1 P[] = 0
P[A1 \ A2 ] = P[A1 ] P[A1 A2 ] Si A1 A2 , alors P[A1 ] P[A2 ] Si A1 A2 = , alors P[A1 A2 ] = P[A1 ] + P[A2 ] P[A1 A2 ] = P[A1 ] + P[A2 ] P[A1 A2 ] (voir TP) Les mesures de probabilit associes aux cas o est ni ou inni dnombrable vriant (A1)-(A2)-(A3), elles satisfont de mme toutes les proprits ci-dessus.
ch.1-p.23i
Mesures de probabilit
A2
A1A2
ch.1-p.24i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.25i
Analyse combinatoire
Revenons sur le cas important o # < et o on prend pi = (cas quiprobable). Puisque, comme on la vu, on a alors P[A] =
1 #
pour tout i
Cest lanalyse combinatoire, travers la rgle de multiplication et les concepts de permutations, arrangements, combinaisons, qui permet ce comptage dans des situations complexes.
ch.1-p.25i
Le produit cartsien de deux ensembles A et B est dni par A B = {(a, b) : a A, b B}. La rgle de multiplication dit simplement que #(A B) = (#A) (#B). Plus gnralement, A B . . . F = {(a, b, . . . , f ) : a A, b B, . . . , f F } est de cardinalit (#A) (#B) . . . (#F ). Exemples : - Menu avec trois entres, deux plats, deux desserts 3*2*2=12 repas possibles - Paul le poulpe doit pronostiquer 8 rsultats de matchs dafle, ce qui donne 28 = 256 sries de pronostics possibles (pas 356!!!)
ch.1-p.26i
ch.1-p.27i
ch.1-p.28i
telles combinaisons.
Ak n! n = k! k !(n k )!
(=
`n ) k
`n k Les coefcients binomiaux Cn = k , clbres entre autres pour leur rle dans le `n P fameux binme de Newton (x + y )n = n =0 k x k y nk , sont tels que k `n
k
` n
0
` ` = 1, n = n, n = 1 2 `n ` n `n+1 + k +1 = k +1 . k
n nk
n(n1) ,. . . 2
ch.1-p.29i
Dans un groupe de k personnes, quelle est la probabilit quau moins deux dentre elles aient la mme date danniversaire (on oublie les annes bissextiles) ? = {(a1 , . . . , ak ) : ai {1, 2, . . . , 365}} # < ( A = P()) P : situation dquiprobabilit Nombres de rpartitions danniversaires possibles : # = 365k Nombres de rpartitions danniversaires menant des anniversaires tous diff365! rents : Ak = (365k )! 365 P[anniversaires tous diffrents] =
365! (365k )! 365k
ch.1-p.30i
4 0.0014
5 0.000029
6 0.00000012
Remarque : c1 > c0 .
ch.1-p.32i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.33i
Considrons un espace probabilis (, A, P). On sintresse la probabilit P[A] dun vnement A. On a linformation que lvnement B se produit. Dnition La probabilit conditionnelle de A sachant que B se produit est P[A|B] = P[A B] . P[B]
Remarque : - On suppose donc que P[B] > 0 (what else ?) - P[A|] = P[A] (linformation que se produit est inutile !)
ch.1-p.33i
F IGURE: Si on a linformation que B se produit, les cas possibles sont associs B et les cas favorables sont associs A B P[A|B] = P[A B]/P[B].
ch.1-p.34i
Exemple : si on prend un individu au hasard dans une compagnie satisfaisant Femme (F ) 25 75 100 Homme (H) 20 40 60
45 115 160
P[M|F ] =
P[M F ] 25/160 1 1 20/160 P[M H] = = < = = = P[M|H]. P[F ] 100/160 4 3 60/160 P[H]
ch.1-p.35i
= {(G, G), (G, F ), (F , G), (F , F )}, avec 4 rsultats quiprobables. Linformation est ici reprsente par B = "lun des enfants est un garon". Alors, si on pose A = "lun des enfants est une lle", on obtient P[le roi a une soeur] = = = = P[A|B] P[A B] P[B] P[{(G, F ), (F , G), (F , F )} {(G, G), (G, F ), (F , G)}] P[(G, F ), (F , G), (G, G)] 2/4 2 P[{(G, F ), (F , G)}] = = . P[(G, F ), (F , G), (G, G)] 3/4 3
ch.1-p.37i
B1
B2
B3
Thorme (Probabilit totale) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P Alors, A A, on a P[A] = k P[A|Bi ]P[Bi ]. i=1 Preuve : P[A] = = = P[(A B1 ) (A B2 ) . . . (A Bk )]
ch.1-p.40i
Thorme (Formule de Bayes) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P[A|Bj ]P[Bj ] , j = 1, . . . , k . Alors, A A avec P[A] > 0, on a P[Bj |A] = Pk i=1 P[A|Bi ]P[Bi ] Preuve : P[Bj |A] = P[A|Bj ]P[Bj ] P[Bj A] = , P[A] P[A]
ch.1-p.42i
En gnral, linformation B permet dafner la probabilit que A se produise : P[A|B] = P[A] (le fait que B se produise apporte vraiment de linformation sur le fait que A se produise). Si ce nest pas le cas, on dit que A et B sont indpendants. Dnition Soient A, B des vnements de probabilit non nulle. Alors : A et B sont indpendants P[A|B] = P[A] P[A B] = P[A]P[B] P[B|A] = P[B]. Remarques : - Les ouvrages de rfrence prfrent la dnition "A et B sont indpendants P[A B] = P[A]P[B]" car elle tolre que P[A] = 0 ou P[B] = 0. - Nanmoins, les autres dnitions ci-dessus sont plus importantes pour lintuition.
ch.1-p.44i
Extension un nombre ni n 3 vnements : Dnition Les vnements A1 , A2 , . . . , An sont mutuellement indpendants k = {2, 3, . . . , n}, 1 i1 < i2 < . . . < ik n, P[Ai1 Ai2 . . . Aik ] = P[Ai1 ]P[Ai2 ] . . . P[Aik ]. Extension un nombre inni (dnombrable) dvnements : Dnition Les vnements A1 , A2 , . . . sont mutuellement indpendants k = {2, 3, . . .}, 1 i1 < i2 < . . . < ik , P[Ai1 Ai2 . . . Aik ] = P[Ai1 ]P[Ai2 ] . . . P[Aik ].
ch.1-p.45i
E =lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} A = P() P : situation dquiprobabilit A1 = le rsultat du 1er d est un nombre pair A2 = le rsultat du 2nd d est un nombre impair A3 = la somme des deux rsultats est un nombre impair Ces vnements sont deux deux indpendants : 18 9 P[A1 A2 ] = 36 = 18 36 = P[A1 ]P[A2 ] 36 9 18 18 P[A1 A3 ] = 36 = 36 36 = P[A1 ]P[A3 ] 9 18 18 P[A2 A3 ] = 36 = 36 36 = P[A2 ]P[A3 ] Mais ils ne sont pas mutuellement indpendants car P[A1 A2 A3 ] = P[A1 A2 ] = 9 = 18 18 18 = P[A1 ]P[A2 ]P[A3 ]. 36 36 36 36
ch.1-p.46i
1 2 3 4 5 6
ch.1-p.47i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.48i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.1i
Dnition et exemples
Soit une exprience alatoire E. Soit un espace probabilis (, A, P) associ. Il est commun que le rsultat de E soit un nombre ou quon puisse naturellement associer un nombre au rsultat. Ceci conduit au concept de variable alatoire. Dnition Une variable alatoire (v.a.) est une fonction X : R X ()
o [X B] := X 1 (B) := { : X () B}. La v.a. est dite discrte si lensemble de ses valeurs possibles {X () : } est ni ou inni dnombrable. Remarque : ce stade, P ne joue aucun rle.
ch.2-p.1i
Dnition et exemples
XB
X( )
B X(2) X(1) X( ) X( )
ch.2-p.2i
Dnition et exemples
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( X = somme des rsultats de chaque d Autrement dit, X : (i, j) R X (i, j) = i + j.
A = P())
- Puisque A = P(), (*) est automatiquement satisfaite. Donc X est une v.a. - Puisque X () = {2, 3, . . . , 12} est ni, X est une v.a. discrte. Remarques gnrales : - Si est ni ou inni dnombrable, on peut toujours prendre A = P(). Comme ci-dessus, toute fonction X : R vrie alors (*) et est donc une v.a. - Si est ni ou inni dnombrable, toutes les v.a. sont discrtes.
ch.2-p.3i
Dnition et exemples
Si est inni non dnombrable, on peut par contre avoir des v.a. discrtes ou non discrtes.
F IGURE: E = lancer une chette. = lensemble de tous les points dimpact possibles (inni non dnombrable) A = B2 := ({(a1 , b1 ] (a2 , b2 ] : a1 < b1 , a2 < b2 }). Le nombre de points marqus X est une v.a. discrte >< la distance Y du point dimpact au centre est une v.a. non discrte
ch.2-p.4i
Distribution
Exemples : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) X = nombre de lancers ncessaires X est une v.a. discrte (avec une innit de valeurs possibles). E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme X est une v.a. non discrte. E = mesurer (en heures) la dure dune enchre eBay de 7 jours avec loption "achat immdiat" = (0, 7 24] = (0, 168] A=B X = la dure elle-mme X est une v.a. non discrte.
ch.2-p.5i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.6i
Ce qui caractrise compltement une v.a. X est la distribution de X , qui est la collection de toutes les probabilits de la forme P[X B]ou, de manire quivalente, la loi de probabilit P X sur (R, B) dnie par P X [B] = P[X B]. Remarque : le rle de (*) est dassurer quon puisse calculer P[X B] B B. Comment dcrire efcacement la distribution de X ?
ch.2-p.6i
Si X est une v.a. discrte (et admet les valeurs possibles xi , i I), on a que X P[X = xi ] B B, P[X B] =
i:xi B
(1)
o [X = xi ] = X 1 ({xi }). Il en dcoule que la distribution de X est compltement caractrise par la collection {(xi , pi := P[X = xi ]) : i I} des valeurs possibles et des probabilits correspondantes. Distribution de X valeurs possibles x1 x2 probabilits p1 p2
... ...
(xk ) (pk )
Par abus de language, on appellera aussi ce tableau "distribution de X " (ce qui se justie par le fait quil permet de calculer, via (1), la distribution au sens strict).
ch.2-p.7i
A = P())
2
1 36
3
2 36
Distribution de X 4 5 6 7
3 36 4 36 5 36 6 36
8
5 36
9
4 36
10
3 36
11
2 36
12
1 36
ch.2-p.8i
Comme annonc, ceci dnit une loi de probabilit P X sur (R, B). Par exemple, on a 2 36 2 3 5 P X [{3, 4}] = P[X {3, 4}] = + = 36 36 36 P X [{3}] = P[X = 3] = 2 3 5 + = 36 36 36 4 5 12 3 + + = P X [[3.5, 5 + 2)] = P[X [3.5, 5 + 2)] = P[X {4, 5, 6}] = 36 36 36 36 P X [[3, 4]] = P[X [3, 4]] = P[X {3, 4}] = . . .
ch.2-p.9i
4
1 16
... ...
ch.2-p.10i
(2)
La fonction de rpartition permet de dnir une notion qui sera cruciale dans la partie "infrence statistique" du cours. Dnition Soit (0, 1) x. Le quantile dordre de la distribution de X est le nombre x = inf{x R : F (x) }. Sil existe un unique nombre c tel que F (c) = , alors x = c = F 1 (). Mais la dnition ci-dessus permet de dnir x mme dans les cas o il ny a pas de tel c. Terminologie : - x 1 est la mdiane 2 - x 1 et x 3 sont les 1er et 3me quartiles 4 4 - x i , i = 1, 2, . . . , 9 sont les dciles 10 - x i , i = 1, 2, . . . , 99 sont les percentiles
100
ch.2-p.13i
F(x)
p3
p2 p1
x1
x2
x3
F IGURE: Fonction de rpartition dune v.a. discrte X (dans ce cas, X a 3 valeurs possibles). Il est ici vident que F donne une manire quivalente de fournir la distribution de X .
ch.2-p.14i
ce qui montre que les v.a. continues sont dune nature fondamentalement diffrente de celle des v.a. discrtes. Exemples : la dure de vie dune batterie le temps dattente du 71 la quantit de pluie en aot prochain Bruxelles le valeur du PNB de la Belgique lors de la prochaine valuation () ...
ch.2-p.15i
Comme P[X = x] = 0 x dans le cas o X est une v.a. continue, on a que 1 F (a) = = et F (b) F (a) = = = = P[a < X b] P[a X b] P[a X < b] P[a < X < b]. P[X > a] P[X a]
ch.2-p.16i
Si le fabricant sengage rembourser sans frais la batterie dans le cas o celle-ci meurt avant 500 heures dutilisation, la probabilit que le fabricant doive faire ce geste vaut P[X 500] = P[X (, 500]] = F (500) F () = 5002 1 0= . 25002 25
ch.2-p.17i
f (x) dx.
(3)
La fonction f (= F ) est appele fonction de densit de probabilit de X . Remarques : - En les x o F (x) nexiste pas, on donnera une valeur arbitraire (positive) f (x) : ceci naura aucune inuence sur le calcul des probabilits P[X B] via (3). Rx - On peut reconstruire F partir de f via F (x) = f (z) dz. La densit f fournit donc une autre caractrisation quivalente de la distribution de X (P X F f ).
ch.2-p.19i
Toute fonction f satisfaisant ces deux proprits est en fait la fonction de densit de probabilit dune v.a. continue.
Interprtation de f (x) : Pour x petit, on a P[X (x, x + x]] = F (x + x) F (x) f (x) x, de sorte que f (x) mesure la "vraisemblance" que X se ralise dans un voisinage de x ; au plus grande la valeur de f (x), au plus il est probable que X se ralisera "autour de x".
ch.2-p.20i
ch.2-p.22i
Sur base de la densit f , on peut recalculer que la probabilit que la batterie cde en moins de 500 heures vaut F (500) = P[X 500] = P[X (, 500]] = Z
500
f (x) dx =
500
Clairement, 500 est lunique valeur telle que F (500) = 1 500 est le quantile dordre = 25 . Graphiquement (voir la page prcdente),
x = 500 est labscisse pour laquelle lordonne sur le graphe de F vaut Laire sous le graphe de f gauche de x = 500 vaut
1 . 25
1 . 25
ch.2-p.23i
Distribution
Il existe des v.a. qui ne sont ni discrtes ni continues... Exemple : E = mesurer (en heures) la dure dune enchre eBay de 7 jours avec loption "achat immdiat" = (0, 7 24] = (0, 168] A=B X = la dure elle-mme X est une v.a. non discrte.
ch.2-p.24i
Distribution
F IGURE: Fonction de rpartition (F ) de la dure lenchre (en heures). P[achat immdiat] = P[X < 168] = F (168 ) = 1/3 et P[lenchre va son terme] = P[X = 168] = F (168) F (168 ) = 2/3. On remarque aussi que la probabilit davoir un achat immdiat dans lintervalle [x, x + ] est dcroissante en x (ce qui est raisonnable).
ch.2-p.25i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.26i
Esprance mathmatique
Souvent, on cherche rsumer linformation contenue dans la distribution un petit nombre dindicateurs, appels moments.
La dnition de ces moments requiert le concept desprance mathmatique. Dnition (i) Si la v.a. X est discrte, de distribution (xi , pi = P[X = xi ]), i I, lesprance P mathmatique de X est E[X ] = iI xi pi . (ii) Si la v.a. X est continue, et admet la fonction de densit f , lesprance R mathmatique de X est E[X ] = x f (x)dx. E[X ] est donc une moyenne pondre des valeurs possibles de X , o les poids sont dtermins par la vraisemblance de chaque valeur. Remarque : il est important de noter lanalogie trs forte entre les deux formules desprance mathmatique.
ch.2-p.26i
Esprance mathmatique
Exemple 1 (cas discret avec #I < ) : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( P : situation dquiprobabilit X = somme des rsultats de chaque d A = P())
2
1 36
3
2 36
Distribution de X 4 5 6 7
3 36 4 36 5 36 6 36
8
5 36
9
4 36
10
3 36
11
2 36
12
1 36
E[X ]
= = =
11 X i=1
xi pi 1 2 1 +3 + . . . + 12 36 36 36
2 7
ch.2-p.27i
Esprance mathmatique
Exemple 2 (cas discret avec #I = ) : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) 1 1 1 P donn par (p1 , p2 , p3 , p4 , . . .) = ( 2 , 4 , 1 , 16 , . . .) 8 X = nombre de lancers ncessaires Distribution de X valeurs possibles 1 2 3 1 1 1 probabilits 2 4 8
X i=1
4
1 16
... ...
E[X ]
= = =
xi pi 1 1 1 1 +2 +3 +4 +... 2 4 8 16
1 2
ch.2-p.28i
Esprance mathmatique
Dans la suite, il sera utile de considrer lesprance de certaines transformes g(X ) de X (o g : R R). Dnition (i) Si la v.a. X est discrte, de distribution (xi , pi = P[X = xi ]), i I, lesprance P mathmatique de g(X ) est E[g(X )] = iI g(xi )pi . (ii) Si la v.a. X est continue, et admet la fonction de densit f , lesprance R mathmatique de g(X ) est E[g(X )] = g(x) f (x)dx. Cette dnition est problmatique car nous avons maintenant deux mthodes pour calculer E[g(X )] : la mthode 1 consiste utiliser directement la formule E[g(X )] donne dans la dnition ci-dessus. la mthode 2 consiste poser Y = g(X ), dterminer la distribution de Y , puis calculer E[g(X )] = E[Y ] selon la dnition de la page 26 de ce chapitre. Heureusement, ces deux mthodes fournissent toujours le mme rsultat.
ch.2-p.29i
Esprance mathmatique
Exemple : Considrons une v.a. discrte caractrise par Distribution de X x1 = 2 x2 = 1 x3 = 0
1 5 1 5 1 5
x4 = 1
1 5
x5 = 2
1 5
(2)2 10 =2 5
ch.2-p.30i
Esprance mathmatique
Pour la mthode 2, on obtient dabord la distribution de Y = X 2 : Distribution de Y = X 2 valeurs possibles yi y1 = 0 y2 = 1 (y ) 1 2 probabilits pi 5 5 (e.g., P[Y = 4] = P[[X = 2] [X = 2]] = Ceci donne alors E[X 2 ] = E[Y ] = = =
n X i=1 1 5
y3 = 4
2 5
1 5
yi pi
(y )
1 2 2 +1 +4 5 5 5
10 =2 5
ch.2-p.31i
Esprance mathmatique
Proprits principales de lesprance mathmatique : Thorme Soient X1 , X2 deux v.a. et a R. Alors (i) E[X1 + X2 ] = E[X1 ] + E[X2 ] (ii) E[aX1 ] = aE[X1 ] (iii) E[a] = a (iv) Si X1 X2 (au sens o X1 () X2 () ), alors E[X1 ] E[X2 ] (v) Si E[X ] = 0 et X 0q sens o X () 0 ), alors X = 0 (au q
2 2 (vi) |E[X1 X2 ]| E[X1 ] E[X2 ] (ingalit de Cauchy-Schwarz), et lgalit a lieu si et seulement si X2 = cX1 ou X1 = cX2 pour un certain c R.
De (i)-(ii), il dcoule en particulier que E[a1 X1 + a2 X2 ] = a1 E[X1 ] + a2 E[X2 ] pour toutes les v.a. X1 , X2 et toutes les constantes relles a1 , a2 . On dira que lesprance mathmatique est un oprateur linaire. En gnral, on na pas que E[X1 X2 ] = E[X1 ]E[X2 ]. Ainsi, dans lexemple prcdent, on a (E[X ])2 = 02 = 2 = E[X 2 ].
ch.2-p.32i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.33i
Variance
Lesprance mathmatique E[X ] de X est une quantit qui donne une information sur la grandeur (ou position) de X , travers sa valeur moyenne (ou "attendue"). Mais E[X ] est loin de dcrire de faon prcise la distribution de X .
Exemple : Considrons deux actions A1 et A2 , et leur volution en une unit de temps xe. - Si lconomie reste telle quelle est, les deux actions vont augmenter de 5%. - Si lconomie samliore, A1 va prendre 10% et A2 50%. - Si lconomie se dtriore, A1 va perdre 10% et A2 50%. En outre, supposons que lconomie samliorera avec proba .2, se dtriorera avec proba .2, donc restera inchange avec proba .6. Si on note respectivement X1 et X2 le pourcentage pris par A1 et A2 , on a que E[X1 ] = (10%) .2 + 5% .6 + 10% .2 = 3% E[X2 ] = (50%) .2 + 5% .6 + 50% .2 = 3%
ch.2-p.33i
Variance
Les bnces attendus pour A1 et A2 concident... Mais les deux actions sont rellement diffrentes : Le risque associ A2 est beaucoup plus lev que celui associ A1 . Cette caractristique, qui est bien prsente dans la distribution de X1 et X2 , ne lest pas dans le rsum de ces distributions que constituent E[X1 ] et E[X2 ].
ch.2-p.34i
Variance
Pour mesurer le "risque" ou la variabilit dune variable alatoire, on a recours au concept de variance. Dnition La variance de la v.a. X est
2 X
= Var[X ] = E (X X )2 =
o X = E[X ].
iI (xi
X )2 pi
2
(x X ) f (x)dx
Variance
Proprits principales de la variance : Thorme Soient X1 , X2 deux v.a. et a R. Alors (i) Var[aX ] = a2 Var[X ] (ii) Var[X + a] = Var[X ] (iii) Var[a] = 0 (iv) Var[X ] = E[X 2 ] (X )2 (v) Si Var[X ] = 0, alors X = constante. Le point (iv), qui facilite le calcul de la variance en pratique, dcoule du fait que Var[X ] = E (X X )2 = E X 2 2X X + (X )2 = = = E[X 2 ] 2(X )2 + (X )2 E[X 2 ] (X )2 . E[X 2 ] 2X E[X ] + E[(X )2 ]
Le point (v) est une consquence directe du point (v) du thorme en page 32.
ch.2-p.36i
Variance
En pratique, on utilise ainsi Var[X ] = E[X ] (X ) =
2 2
iI (xi ) 2
pi (X )2
2
x f (x)dx (X )
2 E[X1 ] = (10%)2 .2 + (5%)2 .6 + (10%)2 .2 = 55(%)2 2 E[X2 ] = (50%)2 .2 + (5%)2 .6 + (50%)2 .2 = 1015(%)2 ,
on obtient
2 Var[X1 ] = E[X1 ] (X1 )2 = 55(%)2 (3%)2 = 46(%)2 2 Var[X2 ] = E[X2 ] (X2 )2 = 1015(%)2 (3%)2 = 1006(%)2 ,
Ingalit de Tchebychev
Thorme (ingalit de Tchebychev) a > 0, P[|X X | > a X ] 1/a2 Ceci doit se lire "il y a moins dune chance sur a2 que X prenne une valeur au del de a fois la racine carre de la variance par rapport X ." Preuve : Soit a > 0. Posons Y = 1 0
2 si (X X )2 > a2 X sinon.
2 2 = a2 X P[(X X )2 > a2 X ],
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.39i
Ceci modlise des situations o on na que deux rsultats possibles : succs (1) ou chec (0). On vrie directement quon a E[X ] = p et Var[X ] = p(1 p). Evidemment, pour un espace probabilis quelconque (, A, P), on a que, pour tout A A, la variable alatoire 1 si A se produit X = IA := 0 sinon est Bernoulli de paramtre p = P[A].
ch.2-p.39i
(ii) X est de distribution binomiale de paramtres n ( N0 ) et p ( [0, 1]) (notation : X Bin(n, p)) si la distribution de X est donne par Distribution de X 1 ... np(1 p)n1 . . .
0 (1 p)n
`n
k
k p k (1 p)nk
... ...
n pn
La v.a. X compte le nombre de succs dans une suite de n expriences de type "succs-chec" (o un succs se produit avec probabilit p) rptes de faon indpendantes. On vrie que E[X ] = np et Var[X ] = np(1 p).
ch.2-p.40i
F IGURE: Rpartition des probabilits de Bin(n, p), pour n = 8 et p = .1, .2, .5, .8, .9
ch.2-p.41i
(iii) X est de distribution de Poisson de paramtre ( R+ ) 0 (notation : X Poi() ou X P()) si la distribution de X est donne par Distribution de X 0 1 ... e e . . .
k e k /(k !)
... ...
La v.a. X compte le nombre de ralisations dun vnement rare au cours dune certaine priode de temps (nombre de dcs suite une maladie rare au cours dune anne, nombre de Ferrari passant par le boulevard Gnral Jacques au cours dune journe, etc.) On vrie que E[X ] = et Var[X ] = .
ch.2-p.42i
ch.2-p.43i
Si n et p 0 de telle manire que np (> 0), on a que P[Bin(n, p) = k ] P[Poi() = k ] Ce rsultat justie linterprtation de la distribution de Poisson (=le comptage ldu nombre de ralisations dun vnement rare au cours dune certaine priode de temps) permet dapproximer une Bin(n, p) par une Poi(np) (pour n grand, p petit) est compatible avec le fait que E[X ] = et Var[X ] = . k N.
ch.2-p.44i
ch.2-p.45i
(iv) X est de distribution gomtrique de paramtre p ( (0, 1)) (notation : X Geom(p)) si la distribution de X est donne par Distribution de X 2 ... (1 p)p . . .
1 p
k (1 p)k 1 p
... ...
La v.a. X compte le nombre de rptitions (indpendantes) dune exprience de type succs-chec ncessaires pour avoir le premier succs. On vrie que E[X ] = 1/p et Var[X ] = (1 p)/p 2 .
ch.2-p.46i
ch.2-p.47i
On a donc considr les distributions (i) de Bernoulli, (ii) binomiales, (iii) de Poisson, et (iv) gomtriques. On pourrait encore prsenter les distributions (v) binomiales ngatives, (vi) hypergomtriques, (vii) ... Nous renvoyons cependant aux monographes donns en rfrence pour ltude de ces distributions supplmentaires.
ch.2-p.48i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.49i
si x a
si x (a, b) si x b.
1 h, ba qui est proportionnelle la longueur h de lintervalle [c, c + h], mais ne dpend pas de sa position (dtermine par c). P[c X c + h] = Le temps dattente du bus 71 est une v.a. de loi Unif(0, d), o d est lcart (suppos constant) entre deux bus !
ch.2-p.49i
ch.2-p.50i
On a E[X ] = Z
x f (x)dx =
x
a
b x2 a+b 1 dx = . = ba 2(b a) a 2
x 2 f (x)dx =
b a
x2
1 dx ba a2 + ab + b 2 b 3 a3 = , 3(b a) 3
x3 3(b a)
b
a
(b a)2 . 12
ch.2-p.51i
(ii) X est de distribution exponentielle de paramtre ( R+ ) 0 (notation : X Exp()) si X admet la fonction de densit dnie par 8 > 1 x / < e si x 0 f (x) = > : 0 sinon. Ceci fournit F (x) = 8 < 1 e x / : 0
si x 0 sinon.
et
Var[X ] = 2
ch.2-p.52i
ch.2-p.53i
Cette distribution est souvent utilise pour modliser la dure de vie de certains composants. Mais, de faon surprenante, elle modlise la dure de vie dun composant "qui ne vieillit pas" ! Ceci est en lien avec le fait que la distribution exponentielle est "sans mmoire" : pour h > 0, on a P[X > x + h|X > x] = P[[X > x + h] [X > x]] P[X > x + h] = P[X > x] P[X > x]
ch.2-p.54i
(iii) X est de distribution normale centre rduite (notation : X N (0, 1)) si X admet la fonction de densit dnie par
2 1 f (x) = (x) := e x /2 . 2
La fonction de rpartition associe F (x) = (x) := nadmet pas de forme explicite. On vrie que E[X ] = 0 et Var[X ] = 1. Z
x
(y ) dy
ch.2-p.55i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X N (0, 1). Le graphe de cette fonction de densit est souvent appele cloche de Gauss.
ch.2-p.56i
ce qui donne une interprtation claire aux paramtres de la loi N (, 2 ). Centrer-rduire une variable X N (, 2 ) La remplacer par Z = (X )/, qui, par dnition, est de loi N (0, 1).
ch.2-p.58i
ch.2-p.60i
Dans des calculs ultrieurs, on utilisera beaucoup les proprits de symtrie des lois normales, qui dcoulent toutes de lidentit (x) = (x) x : Si X N (0, 1) (et x 0),
1 P[X < x] = P[X > x] (et en particulier P[X < 0] = P[X > 0] = 2 ), ce qui se rcrit (x) = 1 (x) et explique pourquoi on ne tabule que (x), x 0.
Si X N (, 2 ) (et x 0),
1 P[X < x] = P[X > + x] (et en particulier P[X < ] = P[X > ] = 2 )
ch.2-p.61i
On en dduit que la mdiane de cette distribution vaut F 1 ( 1 ) = e . Enn, on peut 2 montrer que 2 2 2 + 2 et Var[X ] = (e 1)e 2 + . E[X ] = e
ch.2-p.62i
et que sa fonction de densit est 8 ((ln x) )2 > > > < 1 2 2 e f (x) = x 2 2 > > > : 0
si x > 0 sinon.
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X LN (0, 1) (mdiane=1, moyenne1.65, variance4.67) et de X LN ( = 1, 2 = 1 ) (mdiane2.72, moyenne 4 3.08, variance2.69).
ch.2-p.63i
(v) X est de distribution de Student degrs de libert ( N0 ) (notation : X t ) si X admet la fonction de densit dnie par f (x) = (( + 1)/2) (1 + x 2 /)(+1)/2 . (/2)
On peut montrer que E[X ] = 0 pour > 1 Remarques : - Quand , t N (0, 1). - Ces distributions sont utilises pour modliser des phnomnes o des vnements extrmes se produisent plus souvent que pour la loi normale ("queues lourdes"). - Au plus est petit, au plus ce phnomne de queues lourdes est prononc.
ch.2-p.64i
et
Var[X ] =
pour > 2.
(vi) X est de distribution chi-carr k degrs de libert (k N0 ) (notation : X 2 ) k si X admet la fonction de densit dnie par 8 k 1 x /2 1 > > si x 0 < k k x2 e 2 2 ( 2 ) f (x) = > > : 0 sinon, o x (x) = On peut montrer que ( E[X ] = k Var[X ] = 2k . R
0
ch.2-p.66i
ch.2-p.67i
(vii) X est de distribution de Fisher-Snedecor (F) k1 et k2 degrs de libert (k1 , k2 N0 ) (notation : X Fk1 ,k2 ) si X admet la fonction de densit dnie par 8 s k > > (k1 x)k1 k2 2 1 > < si x 0 k1 k2 k1 +k2 x B( 2 , 2 ) (k1 x + k2 ) f (x) = > > > : 0 sinon, o (x, y ) B(x, y ) = On peut montrer que R1
0
E[X ] = et Var[X ] =
pour k2 > 2
pour k2 > 4.
ch.2-p.68i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Fk1 ,k2 , k1 = 1, 2, 3, 5, et 7, et k2 = 3 dans chaque cas.
ch.2-p.69i
X Fk1 ,k2 X a la mme distribution que sont mutuellement indpendantes. X t X a la mme distribution que p sont mutuellement indpendantes.
Y1 /k1 , o Y1 21 et Y2 22 k k Y2 /k2
Z , o Z N (0, 1) et Y 2 Y /
La raison pour laquelle nous navons pas adopt ces proprits comme dnitions est que la notion dindpendance de v.a. ne sera dnie quau chapitre suivant. Nanmoins, nous insistons sur le fait quau terme du cours, ce sont les proprits ci-dessus qui devraient permettre chacun didentier les lois 2 , Fk1 ,k2 , ou t . k
ch.2-p.70i
Dans le cas continu aussi, nous renvoyons aux monographes donns en rfrence pour la prsentation dautres distributions continues classiques, parmi lesquelles les lois gamma, les lois beta, ...
ch.2-p.71i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.72i
Moments
Pour mesurer la position dune v.a. X , on utilise son esprance X = E[X ]. 2 Pour mesurer la dispersion dune v.a. X , on utilise sa variance X = E[(X X )2 ]. Pour mesurer dautres caractristiques, on peut utiliser dautres moments. Dnition Soit k {1, 2, . . .} Le moment non centr dordre k de X : ,X = E[X k ]. k Le moment centr dordre k de X : k ,X = E[(X )k ]. 1,X
2 On a donc X = et X = 2,X . 1,X
Parfois, on mesure plutt la dispersion par lcart-type. Dnition Lcart-type de X est X = p Var[X ].
Lcart-type a lavantage de sexprimer dans les mmes units que X (en % plutt quen (%)2 dans lexemple faisant intervenir les deux actions).
ch.2-p.72i
Moments
pi
x k f (x)dx
iI (xi
(x
ch.2-p.73i
Moments
Sur la base du moment dordre 3, on peut fonder une mesure dasymtrie. Dnition Le coefcient dasymtrie (skewness) de X est 3,X 3,X 1,X := = 3 . (2,X )3/2 X Cette mesure est invariante sous changement de position et dchelle, au sens o 1,aX +b = 1,X pour tout a > 0 et tout b. Interprtation : - Si la distribution est symtrique par rapport une certaine valeur, on a 1 = 0. - Si la distribution est asymtrique gauche, on a 1 < 0. - Si la distribution est asymtrique droite, on a 1 > 0. (clarication sur la base de la gure suivante) Exemples typiques : salaires, dpenses,...
ch.2-p.74i
Moments
F IGURE: Rpartition des probabilits de Bin(n, p), pour np 8 et p = .1, .2, .5, .8, .9, avec = dans chaque cas la valeur numrique de 1 = (1 2p)/ np(1 p).
ch.2-p.75i
Moments
Sur la base du moment dordre 4, on peut fonder une mesure du poids des queues. Dnition Le coefcient daplatissement (kurtosis) de X est 4,X 4,X 3 = 4 3 . 2,X := (2,X )2 X Comme le coefcient dasymtrie, le coefcient daplatissement est invariant sous changement de position et dchelle : 2,aX +b = 2,X pour tout a > 0 et tout b. Interprtation : - Si la distribution a des queues "de mme poids que celles des distributions normales", on a 2 = 0. - Si les queues sont "plus lourdes", on a 2 > 0. - Si les queues sont "plus lgres", on a 2 < 0. (clarication sur la base de la gure suivante). Exemple typique : les returns dactions,...
ch.2-p.76i
Moments
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X t (= N (0, 1)) (rouge), de X t5 (vert), et de X t1 (bleu).
ch.2-p.77i
Moments
Lexemple prcdent montre que certains moments peuvent tres innis. Dnition Si E[|X k |] = , on dit que X nadmet pas de moment dordre k . Dans ce cas, on ne peut pas parler de E[X k ]. - On peut montrer que si E[|X k |] < , alors E[|X |] < < k . - Linexistence de certains moments est typiquement associe la prsence de queues lourdes (qui font diverger les sries/intgrales dnissant les moments correspondants). Par exemple, la distribution t nadmet pas de moment dordre k , ce qui est lorigine des restrictions sur la page 64.
ch.2-p.78i
iI tx
e txi pi
e f (x)dx
Exemples pour quelques lois classiques : Loi discrte Bern(p) Bin(n, p) Poi() Geom(p) M(t) 1 p + pe t (1 p + pe t )n e (e 1) pe t 1 (1 p)e t
t
Loi continue
U(a, b)
Exp() N (, 2 ) 2 k
M(t) e tb e ta t(b a) 1 1 t e t+ 2
1 2t2
(1 2t)k /2 , t <
1 2
ch.2-p.79i
e f (x)dx
tx
e tx
x2 1 e 2 dx 2 (x t)2 2 dx
t2 Z e2 t e2,
2
1 e 2
(x t )2 1 x e 2 2
est une fonction de densit (cest la densit de la loi N (t, 1)), et donc sintgre 1.
ch.2-p.80i
Remarque : Il arrive que cette fonction ne soit pas dnie (cest le cas si X t ). Comme son nom lindique, la fonction gnratrice des moments permet entre autres de calculer les moments de X . Thorme d k M(t) = ,X k dt k t=0
ch.2-p.81i
d 2 M(t) 2 dt t=0
t=0
livre Var[X ] = ( )2 = n(n 1)p 2 + np (np)2 = np(1 p). 2 1 p En continuant, on pourrait obtenir lexpression 1 = (1 2p)/ np(1 p) donne la page 75.
ch.2-p.82i
Le rsultat suivant est galement trs important. Thorme Soient X et Y deux v.a. admettant respectivement les fonctions gnratrices des moments MX (t) et MY (t). Si MX (t) = MY (t) t, alors X et Y ont la mme distribution. Autrement dit, lune des manires de montrer que deux v.a. ont la mme distribution est de montrer quelles partagent la mme fonction gnratrice des moments. Ceci sera utilis dans la suite.
ch.2-p.83i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.84i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.1i
Exemple : X = la taille dun tre humain (en cm) Y = le poids de la mme personne (en kg) On mesure X et Y sur 1000 personnes...
ch.3-p.1i
ch.3-p.2i
ch.3-p.4i
Un autre exemple : "En bourse, il faut diversier pour diminuer le risque." Soient A1 , . . . , Ak des actifs nanciers. Soient X1 , . . . , Xk les valeurs (alatoires !) respectives de ces actifs (en euros). Un portefeuille est une quantit (alatoire) agrge, du type Z = c1 X1 + c2 X2 + . . . + ck Xk , o ci est le nombre de titres Ai en portefeuille. Le risque associ au portefeuille (qui est souvent mesur par Var[Z ]) dpend du risque individuel de chaque Ai (mesur par Var[Xi ]), mais aussi de la dpendance entre les Xi (cest une trs mauvaise ide de ne possder que des actions du secteur bancaire !)
ch.3-p.5i
Soit une exprience alatoire E. Soit un espace probabilis (, A, P) associ. Dnition Un vecteur alatoire (v.a.!) (bivari) est une fonction (X , Y ) : R2 (X (), Y ())
vriant la condition technique que, pour tout borlien B B2 , [(X , Y ) B] A o [(X , Y ) B] := { : (X (), Y ()) B}. Plus tard, on considrera aussi des v.a. k -varis (X1 , X2 , . . . , Xk ). Etendre la thorie ce cas est relativement simple (la notation devient seulement un peu lourde). ()
ch.3-p.6i
Dnition et exemples
B (X( ),Y( ))
[(X,Y)B]
(X(1),Y(1))
=
ch.3-p.7i
ou, de manire quivalente, sa fonction de rpartition : Dnition La fonction de rpartition de (X , Y ) est la fonction F : R2 (x, y ) [0, 1] P[X x, Y y ].
ch.3-p.8i
y0
(x0,y0)
x0
ch.3-p.9i
En effet, A partir de P (X ,Y ) , on peut calculer directement F (x, y ) = P (X ,Y ) [(, x] (, y ]]. A partir de F , on obtient P (X ,Y ) [(a1 , b1 ] (a2 , b2 ]] = = P[a1 < X b1 , a2 < Y b2 ]
ce qui permet de determiner P (X ,Y ) [B] pour nimporte quel B (puisque tout borlien B sobtient par runion/intersection dune collection dnombrable de tels rectangles (a1 , b1 ] (a2 , b2 ]).
ch.3-p.10i
b2
(a1,b2)
(b1,b2)
a2 (a1,a2)
(b1,a2)
a1
b1
F IGURE: P[a1 < X b1 , a2 < Y b2 ] = F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ) (preuve gomtrique)
ch.3-p.11i
C R1 R2
y2 x2
R3
R4
x1
y1
F IGURE: Rappel du chapitre 1 : le disque C appartient B2 car il se dcompose en une union dnombrable de rectangles disjoints : C = R1 R2 R3 R4 ... Ce qui implique que P[(X , Y ) C] = P[(X , Y ) R1 ] + P[(X , Y ) R2 ] + P[(X , Y ) R3 ] + P[(X , Y ) R4 ] + . . .
ch.3-p.12i
Comme on vient de le voir, la fonction de rpartition F fournit linformation ncessaire pour obtenir P[(X , Y ) B] pour tout B. Nanmoins, le lien entre cette probabilit et F nest pas trs explicite.
Nous allons donc voir maintenant comment on peut calculer en pratique ces probabilits. Nous traiterons sparment les v.a. discrets et les v.a. continus. Dnition Le v.a. (X , Y ) est dit discret si lensemble de ses valeurs possibles {(X (), Y ()) : } est ni ou inni dnombrable. Dnition Le v.a. (X , Y ) est dit continu si sa fonction de rpartition F est continue.
ch.3-p.13i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.14i
Comme X () = {2, 3, . . . , 12} et Y () = {0, 1, . . . , 5} sont nis, (X , Y ) est clairement un v.a. discret.
ch.3-p.14i
i,j:(xi ,yj )B
P[(X , Y ) = (xi , yj )] B B2 .
ch.3-p.15i
y y4 y3
y2 y1 x1 x2 x3 x
ch.3-p.16i
y y4 y3 B
y2 y1 x1 x2 x3 x
F IGURE: Calcul des probabilits : P[(X , Y ) B] = P[(X , Y ) = (x2 , y2 )] + P[(X , Y ) = (x2 , y3 )] + P[(X , Y ) = (x3 , y3 )].
ch.3-p.17i
y y4 y3
B=[X=x2]
y2 y1 x1 x2 x3 x
F IGURE: En guise de cas particulier important, on a P[X = x2 ] = P[(X , Y ) B] = P[(X , Y ) = (x2 , y1 )] + . . . + P[(X , Y ) = (x2 , y4 )].
ch.3-p.18i
x1 p 1
x2 p 2
... ...
(xk ) (pk )
Cette distribution marginale est celle dune variable alatoire (>< vecteur alatoire). Comme au chapitre prcdent, on peut donc lutiliser pour calculer des probabilits du type P[X B], en calculer lesprance, la variance, etc. Par exemple, X xi pi , E[X ] =
iI
Var[X ] =
E[X ] (E[X ]) =
iI (xi
E[X ])2 pi
2
iI (xi )
pi (E[X ])2
y1 p1
y2 p2
... ...
(y ) (p )
y2 B=[Y=y1] y1 x1 x2 x3 x
ch.3-p.20i
On reporte souvent ces distributions marginales dans le tableau de la distribution jointe (auquel on peut aussi ajouter les esprances et variances marginales) : x1 p11 p12 . . . (p1 ) p 1 x2 ... p21 ... p22 ... . .. . . . (p2 ) . . . p 2 ... E[X ] Var[X ] (xk ) (pk 1 ) (pk 2 ) . . . (pk ) (pk )
y1 y2 . . . (y )
p1 p2 . . . (p ) 1
E[Y ]
Var[Y ]
Ce nest pas parce quon sintresse (X , Y ) quon ne sintresse pas aux distributions marginales !
ch.3-p.21i
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue)
2 0 1 2 3 4 5
1 36 2 36 2 36 2 36 2 36 2 36
4
1 36
5
2 36
6
1 36
7
2 36
8
1 36
9
2 36
10
1 36
11
2 36
12
1 36
2 36 2 36
2 36 2 36 2 36
2 36
ch.3-p.22i
4
1 36
5
2 36
6
1 36
7
2 36
8
1 36
9
2 36
10
1 36
11
2 36
12
1 36 6 36 10 36 8 36 6 36 4 36 2 36
E[Y ] =
35 18
Var[Y ] =
665 324
2 36 2 36
2 36 2 36 2 36
2 36
1.94
2.05
5 36
4 36
3 36
2 36
1 36
ch.3-p.24i
Toute fonction f satisfaisant ces proprits est en fait la densit dun v.a. continu.
Pour B = (a1 , b1 ] (a2 , b2 ], on obtient P[(X , Y ) B] = P[a1 < X b1 , a2 < Y b2 ] = En particulier, on a F (x, y ) = P[ < X x, < Y y ] = Z
x
b1
a1
Z
y
b2
f (x, y ) dy dx.
a2
f (x, y ) dy dx;
a1
b1 Z
b2
f (x, y ) dy
a2
une fonction de x
{z
dx
ou, de manire quivalente (le rsultat est le mme !), Z b2 Z b1 P[a1 < X b1 , a2 < Y b2 ] = f (x, y ) dx dy
a2 a1
b2 a2
Z |
b1
f (x, y ) dx
a1
une fonction de y
{z
dy
}
ch.3-p.26i
b2
b2
a2
a2
a1
F IGURE: R b1 R b2
a1 a2
b1
. . . dy dx F IGURE:
a1
R b2 R b1
a2 a1
b1
. . . dx dy
ch.3-p.27i
Exemple : Une chane de restauration rapide vend des hamburgers selon deux modalits distinctes : un comptoir traditionnel un drive-in Soit X la proportion du temps o le comptoir traditionnel est occup le jeudi. Soit Y la proportion du temps o le drive-in est occup le jeudi. Supposons que (X , Y ) admet la fonction de densit 8 > 6 (x + y 2 ) si (x, y ) [0, 1] [0, 1] < 5 f (x, y ) = > : 0 sinon.
ch.3-p.28i
f (x, y ) dy dx
1/4 1
Z dx = Z Z
1
1/4
f (x, y ) dx dy
1/2 1
1/2 1
1/4
6 (x + y 2 ) dy 5
1/4 1
1/2
6 (x + y 2 ) dx 5
dy
y =1 y3 6 xy + dx 3 1/2 5 y =1/4 Z
1 1/2
2 x =1 6 x + y 2x dy 2 1/4 5 x =1/2 = Z
1 1/4
9x 63 + 10 160 1
dx
9 3y 2 + 20 5 1
dy
9x 2 63x = + 20 160
1/2
171 = 320
9y y3 = + 20 5
1/4
171 320
ch.3-p.30i
Exercice : En procdant de la mme faon, montrer que la fonction de rpartition Z x Z y F (x, y ) = f (x, y ) dy dx
est donne par 8 > 0 > > > > > 1 > > xy (3x + 2y 2 ) > > 5 > > > < 1 F (x, y ) = x(3x + 2) > 5 > > > > 1 > 2 > > > 5 y (3 + 2y ) > > > > : 1
si x < 0 ou y < 0 si (x, y ) [0, 1] [0, 1] si x [0, 1] et y > 1 si x > 1 et y [0, 1] sinon.
ch.3-p.31i
X
iI
ch.3-p.32i
f (x, y ) dx =
1 0
2 1 3x 6xy 2 6y 2 3 6 (x + y 2 ) dx = + , 0 y 1. = + 5 5 5 0 5 5
ch.3-p.33i
ch.3-p.34i
Ces distributions marginales permettent encore de calculer, comme au chapitre prcdent, des probabilits du type P[X B], P[Y B], lesprance et la variance de X et de Y , etc. Par exemple, Z E[X ] = x f X (x) dx,
Var[X ] =
E[X ] (E[X ]) =
ch.3-p.35i
3 2
seulement pour des zones rectangulaires du type B = (a1 , b1 ] (a2 , b2 ]. Mais les applications conduisent souvent des zones non rectangulaires.
Par exemple, le manager du fast food pourrait sintresser la probabilit que le drive-in soit plus utilis que le comptoir traditionnel.
y
tr
x
ch.3-p.37i
y
1
Btr
1
y Btr
Exemple : Soit X les revenus annuels nets dun mnage belge (en milliers deuros). Soit Y les dpenses annuelles de ce mnage (en milliers deuros). Supposons que (X , Y ) admet la fonction de densit 8 1 > < (x 10)(y 10) si 10 < y < x < 30 20000 f (x, y ) = > : 0 sinon.
ch.3-p.39i
y
30
10
10
30
x
F IGURE: Graphe de (x, y ) f (x, y )
F IGURE: La zone colore est celle o la densit f (x, y ) est non nulle
ch.3-p.40i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.41i
Distributions conditionnelles
Dans le chapitre 1, nous avons vu que connatre la ralisation dun vnement permettait en gnral dafner la probabilit de ralisation dun autre vnement. Ici, on considre une situation o on connat la valeur qua prise lune des variables alatoires et on est dsireux de savoir si cette information permet dafner la probabilit que lautre variable prenne sa valeur dans une certaine rgion, lesprance ou la variance de lautre variable, ou (plus gnralement) la distribution de lautre variable.
Au contraire des distributions marginales, les distributions conditionnelles permettent dapprhender le lien entre X et Y .
ch.3-p.41i
pi := P[X = xi ] = pj := P[Y = yj ] =
X
jJ iI
pij , pij .
ch.3-p.42i
y2
pi2 pi
... ...
(y )
pi ( pi )
Comme pour toute distribution discrte univarie, on peut en calculer lesprance et la variance (qui seront dites ici "conditionnelles") : E[Y |X = xi ] = ( P
jJ (yj
X
jJ
yj
pij , pi
p
Var[Y |X = xi ] =
2 pij jJ (yj ) pi
E[Y |X = xi ])2 p ij
(E[Y |X = xi ])2
ch.3-p.43i
4
1 3
5
1 2
6
1 5
7
1 3
8
1 5
9
1 2
10
1 3
11 1
12 1
2 5 1 3
2 5 1 2 2 5
2 3
Sachant [X = 3] = {(1, 2), (2, 1)}, le rsultat de E est encore alatoire, mais plus Y !
ch.3-p.44i
4
1 3
5
1 2
6
1 5
7
1 3
8
1 5
9
1 2
10
1 3
11 1
12 1
2 5 1 3
2 5 1 2 2 5
2 3
1 3 2.67
1 2.4 2.24
1 2 1
1 1.33 0.89
1 1 0
1 0 0
Les fonctions xi E[Y |X = xi ] et xi Var[Y |X = xi ] portent souvent une information importante sur le lien entre X et Y .
ch.3-p.45i
Si on rend X son caractre alatoire, on obtient deux nouvelles variables alatoires : - la v.a. "moyenne conditionnelle E[Y |X ]", de distribution
valeurs possibles probabilits E[Y |X = x1 ] p1 = P[X = x1 ] E[Y |X = x2 ] p2 = P[X = x2 ] ... ... (E[Y |X = xk ]) (pk = P[X = xk ])
ch.3-p.46i
E[Y |X = xi ] pi yj pij pi pi
XX
jJ
XX
iI jJ jJ
yj pij
X X X yj pj = E[Y ]. pij = yj
iI jJ ch.3-p.47i
3 1
4
1 3
5
1 2
6
1 5
7
1 3
8
1 5
9
1 2
10
1 3
11 1
12 1
2 3 1 2
2 5 1 3 2 5 1 3
2 5 1 2 2 5
2 3
1 1 0
2 36
1 1.33 0.89
3 36
1 2 1
4 36
1 2.4 2.24
5 36 1 36
1 3 2.67
6 36
1 2.4 2.24
5 36 1 36
1 2 1
4 36 35 (= 18
1 1.33 0.89
3 36
1 1 0
2 36
1 0 0
1 36
E[E[Y |X ]] = 0
+1
+ ... =
E[Y ]!)
ch.3-p.48i
On a E[E[Y |X ]] = E[Y ]. Par contre, il est en gnral faux que E[Var[Y |X ]] = Var[Y ]. Mais on a le rsultat suivant. Thorme E[Var[Y |X ]] = Var[Y ] Var[E[Y |X ]]. Ce thorme sera prouv la page 95 de ce chapitre.
ch.3-p.49i
x1
p1j pj
x2
p2j pj
... ...
(xk )
kj ( pj )
o P[X = xi |Y = yj ] =
. Et on peut dnir X
iI
E[X |Y = yj ] = Var[X |Y = yj ] = X
iI
xi
pij , pj pij , pj
ch.3-p.50i
Distributions conditionnelles de X sachant les diverses valeurs de Y , avec les esprances et variances correspondantes :
2 0 1 2 3 4 5
1 6 1 5 1 4 1 3 1 2
4
1 6
5
1 5
6
1 6
7
1 5
8
1 6
9
1 5
10
1 6
11
1 5
12
1 6
E 1 1 1 1 1 1 7 7 7 7 7 7
1 4 1 3
1 4 1 3 1 2
1 4
ch.3-p.51i
et P[X = xi |Y = yj ] =
P[X = xi , Y = yj ] , P[Y = yj ]
les densits conditionnelles de Y |[X = x] et de X |[Y = y ] sont dnies par f Y |[X =x ] (y ) = f (x, y ) f X (x)
et f X |[Y =y ] (x) =
f (x, y ) . f Y (y )
y f Y |[X =x ] (y ) dy ,
Dans le cas du fast food, ceci donne en particulier (pour chaque x [0, 1]) f (x, y ) = (y ) = X f (x) 3(x + y 2 ) 3x + 1 0 Z
f ce qui livre
Y |[X =x ]
si y [0, 1] sinon,
E[Y |X = x] = et
y f Y |[X =x ] (y ) dy =
6x + 3 3(x + y 2 ) dy = . . . = 3x + 1 12x + 4
Var[Y |X = x] = = Z
1 0
y2
3(x + y 2 ) dy 3x + 1
ch.3-p.53i
F IGURE: Graphe de x g(x) := E[Y |X = x] : au plus le comptoir traditionnel est occup, au moins le drive-in lest.
ch.3-p.54i
F IGURE: Graphes de x g(x) := E[Y |X = x] (rouge) et x g (x) := E[Y |X = x] p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.55i
Notre second exemple dans le cas continu : Soit X les revenus annuels nets dun mnage belge (en milliers deuros). Soit Y les dpenses annuelles de ce mnage (en milliers deuros). Supposons que (X , Y ) admet la fonction de densit 8 1 > < (x 10)(y 10) si 10 < y < x < 30 20000 f (x, y ) = > : 0 sinon.
ch.3-p.56i
F IGURE: Gauche : au plus on gagne, au plus on dpense en moyenne (mais lincertitude augmente). Droite : au plus on dpense, au plus on gagne en moyenne (et lincertitude diminue).
ch.3-p.57i
Dans le cas continu, on peut dnir la v.a. "moyenne conditionnelle E[Y |X ]" comme la variable alatoire prenant la valeur E[Y |X = x] avec densit f X (x), et la v.a. "variance conditionnelle Var[Y |X ]" comme la variable alatoire prenant la valeur Var[Y |X = x] avec densit f X (x). Alors, comme dans le cas discret, on a le rsultat suivant. Thorme (i) E[E[Y |X ]] = E[Y ]. (ii) E[Var[Y |X ]] = Var[Y ] Var[E[Y |X ]]. Exercice : adapter la preuve de (i) au cas continu. (notre future preuve de (ii) sappliquera tant au cas continu quau cas discret).
ch.3-p.58i
Z Z
0 1
1 (6x + 3) dx 10 1
0
= =
1 (3x 2 + 3x) 10
3 , 5
ch.3-p.59i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.60i
Indpendance
Un cas particulier de "lien" entre X et Y est la situation dindpendance. Dnition X et Y sont indpendants (notation : X Y ) Pour tout B1 , B2 B, [X B1 ] [Y B2 ] (au sens du chapitre 1) Pour tout B1 , B2 B, P[X B1 , Y B2 ] = P[X B1 ]P[Y B2 ]. Si ces probabilits sont non nulles, ceci se rcrit P[Y B2 |X B1 ] = P[Y B2 ] ou P[X B1 |Y B2 ] = P[X B1 ], ce qui est plus compatible avec lintuition dindpendance.
Pour les ds : 0 = P[X = 12, Y = 5] = P[X = 12]P[Y = 5] = Pour le fast food : 171 = P[ 1 X 1, 320 2
1 4
1 36
2 . 36
Y 1] = P[ 1 X 1]P[ 1 Y 1] = 2 4
13 20
27 . 32
Indpendance
Le rsultat suivant prsente dautres caractrisations de lindpendance. Thorme X Y x, y , F (x, y ) = F X (x)F Y (y ), o F X (x) = P[X x] et F Y (y ) = P[Y y ] i, j, P[X = xi , Y = yj ] = P[X = xi ]P[Y = yj ] (cas discret) x, y , f (x, y ) = f X (x)f Y (y ) (cas continu) i, j, P[Y = yj |X = xi ] = P[Y = yj ] (cas discret) x, y , f Y |[X =x ] (y ) = f Y (y ) (cas continu) i, j, P[X = xi |Y = yj ] = P[X = xi ] (cas discret) x, y , f X |[Y =y ] (x) = f X (x) (cas continu) On a que X Y exactement quand les distributions marginales et conditionnelles concident (ce qui est intuitivement clair !), une situation o, en particulier, les fonctions desprances conditionnelles x E[Y |X = x] et y E[X |Y = y ] (comme celles de variances conditionnelles) sont constantes.
ch.3-p.61i
Indpendance
F IGURE: Les revenus (X ) et les dpenses annuelles (Y ) ne sont donc pas indpendants...
ch.3-p.62i
Indpendance
Exemple de situation dindpendance (cas discret) : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( X = rsultat du 1er d X = rsultat du 2nd d 1 1 2 3 4 5 6
1 36 1 36 1 36 1 36 1 36 1 36 1 6
A = P())
2
1 36 1 36 1 36 1 36 1 36 1 36 1 6
3
1 36 1 36 1 36 1 36 1 36 1 36 1 6
4
1 36 1 36 1 36 1 36 1 36 1 36 1 6
5
1 36 1 36 1 36 1 36 1 36 1 36 1 6
6
1 36 1 36 1 36 1 36 1 36 1 36 1 6 1 6 1 6 1 6 1 6 1 6 1 6
i, j pij = pi pj X Y
ch.3-p.63i
Indpendance
Cette indpendance se traduit aussi par le fait que, pour chaque xi , la distribution conditionnelle de Y |[X = xi ] concide avec la distribution marginale de Y 1 1 2 3 4 5 6
1 6 1 6 1 6 1 6 1 6 1 6
2
1 6 1 6 1 6 1 6 1 6 1 6
3
1 6 1 6 1 6 1 6 1 6 1 6
4
1 6 1 6 1 6 1 6 1 6 1 6
5
1 6 1 6 1 6 1 6 1 6 1 6
6
1 6 1 6 1 6 1 6 1 6 1 6
dddddd
yj 1 2 3 4 5 6
pj
1 6 1 6 1 6 1 6 1 6 1 6
ch.3-p.64i
Indpendance
Exemple de situation dindpendance (cas continu) : Au dessus de lavenue Hger, on observe le temps X (en min) jusqu la prochaine arrive dun bus 71 (direction ville) le temps Y (en min) jusqu la prochaine arrive dun tram 94 (direction ville) En supposant quun 71 passe exactement toutes les 10 minutes et quun 94 passe exactement toutes les 8 minutes, (X , Y ) admet alors la densit 8 > 1 < si (x, y ) [0, 10] [0, 8] 80 f (x, y ) = > : 0 sinon. On vrie aisment que 8 < 1 si x [0, 10] 10 f X (x) = : 0 sinon 8 < 1 8 f Y (y ) = : 0
et
si y [0, 8] sinon,
Indpendance
Puisquon a dni au chapitre 1 lindpendance mutuelle de plus de deux vnements, on peut adopter les extensions suivantes de la dnition en page 60. Dnition X1 , X2 , . . . , Xk sont mutuellement indpendantes Pour tout B1 , B2 , . . . , Bk B, [X1 B1 ], [X2 B2 ], . . . , [Xk Bk ] sont mutuellement indpendants (au sens du chapitre 1) Dnition X1 , X2 , . . . , sont mutuellement indpendantes Pour tout B1 , B2 , . . . B, [X1 B1 ], [X2 B2 ], . . . sont mutuellement indpendants (au sens du chapitre 1) Ceci sera particulirement important pour linfrence statistique, qui supposera (dans ce cours) que les observations sont des ralisations de v.a. indpendantes (pas de couples dans les sondages, ni de "sries chronologiques" !)
ch.3-p.66i
Indpendance
Exemple : X1 = nombre daccidents de voiture par jour Ixelles X2 = nombre daccidents de voiture par jour Etterbeek X3 = nombre daccidents de voiture par jour Uccle Lensemble des valeurs possibles de (X1 , X2 , X3 ) est N N N. Si la distribution jointe est dtermine par P[X1 = k1 , X2 = k2 , X3 = k3 ] = e 1 2 3 11 22 33 , (k1 !)(k2 !)(k3 !)
k k k
1 , 2 , 3 > 0,
X1 , X2 et X3 sont mutuellement indpendantes (exercice). Remarques : - Xi Poi(i ), i = 1, 2, 3. - Si 1 = 2 = 3 , les trois distributions marginales concident : on dira que X1 , X2 et X3 sont i.i.d. ("indpendantes et identiquement distribues").
ch.3-p.67i
Indpendance
Soit (X , Y ) un vecteur alatoire et g : R2 R est une fonction xe. Dans la suite, nous devrons considrer des esprances du type E[g(X , Y )], qui font intervenir simultanment les deux variables alatoires X et Y . Nous adoptons la dnition suivante. Dnition (i) Si le v.a. (X , Y ) est discret, de distribution (xi , yj , pij = P[X = xi , Y = yj ]), i I, j J , lesprance mathmatique de g(X , Y ) est XX g(xi , yj )pij . E[g(X , Y )] =
iI jJ
(ii) Si le v.a. (X , Y ) est continu, et admet la fonction de densit (x, y ) f (x, y ), lesprance mathmatique de g(X , Y ) est Z Z E[g(X , Y )] = g(x, y ) f (x, y ) dy dx.
Indpendance
Dnition (i) Si le v.a. (X , Y ) est discret, de distribution (xi , yj , pij = P[X = xi , Y = yj ]), i I, j J, X X pij g(xi , yj ) g(xi , yj )P[Y = yj |X = xi ] = E[g(X , Y )|X = xi ] = . pi
jJ jJ
(ii) Si le v.a. (X , Y ) est continu, et admet la fonction de densit (x, y ) f (x, y ), lesprance mathmatique de g(X , Y ) est Z E[g(X , Y )|X = x] = g(x, y ) f Y |[X =x ] (y ) dy
g(x, y )
f (x, y ) dy . f X (x)
(iii) Dans les deux cas, on dnit la variable alatoire E[g(X , Y )|X ] travers la relation E[g(X , Y )|X ]() = E[g(X , Y )|X = X ()]. Alors (exercices) (i) E[E[g(X , Y )|X ]] = E[g(X , Y )] dsssddiddddddd (ii) E[h(X )g(X , Y )|X ] = h(X )E[g(X , Y )|X ].
ch.3-p.69i
Indpendance
Thorme Supposons que X Y . Alors E[XY ] = E[X ] E[Y ]. Preuve : dans le cas continu (le cas discret est laiss comme exercice), on a E[XY ] = = Z Z
Z Z
xy f (x, y ) dy dx xy f X (x)f Y (y ) dy dx Z
x f X (x) dx
y f Y (y ) dy
= E[X ] E[Y ].
Remarque : lhypothse dindpendance ne peut tre retire (pour un contre-exemple, voir ch.2-p.32).
ch.3-p.70i
Indpendance
Supposons encore que X Y . Quelles que soient les fonctions f , g, on a encore h(X ) g(Y ) (exercice), ce qui implique que E[h(X )g(Y )] = E[h(X )] E[g(Y )]. En particulier, ceci tablit le rsultat suivant sur la fonction gnratrice des moments de la somme de deux variables alatoires indpendantes. Thorme Supposons que X Y . Alors MX +Y (t) := E[e t(X +Y ) ] = E[e tX ]E[e tY ] = MX (t)MY (t).
ch.3-p.71i
Indpendance
Ceci permet de prouver certaines proprits dadditivit. Thorme Supposons que X Y . Alors (i) X Bin(n1 , p) et Y Bin(n2 , p) X + Y Bin(n1 + n2 , p). (ii) X Poi(1 ) et Y Poi(2 ) X + Y Poi(1 + 2 ). 2 2 2 2 (iii) X N (1 , 1 ) et Y N (2 , 2 ) X + Y N (1 + 2 , 1 + 2 ). 2 2 2 (iv) X k1 et Y k2 X + Y k1 +k2 . Preuve : (i) comme on la vu en ch.2-p.82, on a MX (t) = (1 p + pe t )n si X Bin(n, p). Par consquent, lindpendance entre X et Y fournit MX +Y (t) = MX (t)MY (t) = (1p +pe t )n1 (1p +pe t )n2 = (1p +pe t )n1 +n2 = MZ (t), o Z Bin(n1 + n2 , p). Puisque deux variables alatoires partageant la mme fonction gnratrice des moments ont la mme distribution (ch.2-p.83), on en dduit que X + Y Bin(n1 + n2 , p). (ii)-(iv) Exercice : conclure de la mme faon en utilisant le fait que MX (t) = e (e 1) 1 2 2 si X Poi(), que MX (t) = e t+ 2 t si X N (, 2 ), et que MX (t) = (1 2t)k /2 2 si X k .
t
ch.3-p.72i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.73i
Motivation
Considrons un portefeuille boursier ne contenant quun seul titre de lactif A1 et un seul titre de lactif A2 . Sa valeur (alatoire) est donc Z = X + Y, o X est la valeur (alatoire) de A1 et Y est la valeur (alatoire) de A2 .
La valeur attendue pour Z est son esprance E[Z ]. Puisque E[Z ] = E[X ] + E[Y ], on peut valuer cette valeur attendue sur la seule base des distributions marginales de X et de Y . Quen est-il du risque de Z , qui est en gnral mesur par Var[Z ] ?
ch.3-p.73i
Motivation
Les proprits de lesprance mathmatique fournissent Var[Z ] = = = = E[(X + Y E[X + Y ])2 ] E[(X + Y E[X ] E[Y ])2 ] E[{(X E[X ]) + (Y E[Y ])}2 ] E[(X E[X ])2 ] + E[(Y E[Y ])2 ] +E[2(X E[X ])(Y E[Y ])] = Var[X ] + Var[Y ] + 2 E[(X E[X ])(Y E[Y ])].
On voit donc que le risque de la somme Z = X + Y nest pas gal la somme des risques associs X et Y . Le risque de Z peut tre plus grand ou plus petit suivant que la covariance entre X et Y est positive ou ngative... Dnition La covariance entre X et Y est la quantit Cov[X , Y ] = E[(X E[X ])(Y E[Y ])].
ch.3-p.74i
Covariance
Dnition La covariance entre X et Y est la quantit Cov[X , Y ] = E[(X E[X ])(Y E[Y ])]. Thorme (i) Var[X + Y ] = Var[X ] + Var[Y ] + 2 Cov[X , Y ] (ii) Cov[X , Y ] = E[XY ] E[X ] E[Y ] (iii) Si X Y , Cov[X , Y ] = 0 (iv) Si X Y , Var[X + Y ] = Var[X ] + Var[Y ] . Preuve : (i) ceci a t prouv la page prcdente. (ii) On a Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] = E[XY X E[Y ] E[X ]Y + E[X ]E[Y ]] = E[XY ] E[Y ]E[X ] E[X ]E[Y ] + E[X ]E[Y ] = E[XY ] E[X ]E[Y ]. (iii) Le rsultat dcoule directement de (ii) et du thorme en page 70. (iv) Ceci est une consquence triviale de (i) et (iii).
ch.3-p.75i
Covariance
La dnition de covariance Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] conduit aux formules P ( P (cas discret) iI jJ (xi E[X ])(yj E[Y ])pij Cov[X , Y ] = R R (x E[X ])(y E[Y ]) f (x, y ) dy dx (cas continu), qui permettent dinterprter facilement la variance (voir ci-dessous).
se rvle beaucoup plus pratique pour lvaluation de la covariance. La situation est donc similaire celle de la variance.
Par contre, lexpression Cov[X , Y ] = E[XY ] E[X ]E[Y ], qui mne aux expressions ( P P (cas discret) iI jJ xi yj pij E[X ]E[Y ] Cov[X , Y ] = R R xy f (x, y ) dy dx E[X ]E[Y ] (cas continu),
ch.3-p.76i
Covariance
Comment interprter la covariance Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] ?
y y
E[Y] (X,Y)
+
E[X]
+
E[Y]
+
x E[X]
+
(X,Y)
F IGURE: A gauche, (X , Y ) se ralise dans la zone o (X E[X ])(Y E[Y ]) > 0. A droite, (X , Y ) se ralise dans la zone o (X E[X ])(Y E[Y ]) < 0. Si (X , Y ) se ralise plus souvent dans les zones "+" (ou de faon plus extrme), Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] sera positif, et inversment.
ch.3-p.77i
Covariance
83
82
81
80
79
77
78
26
28
30
32
34
77
78
79
80
81
82
83
+
26 28 30 32
34
F IGURE: A gauche, Cov[X , Y ] > 0 ; on parlera de dpendance positive (dans ce cas, le portefeuille est risque : Var[X + Y ] > Var[X ] + Var[Y ] ; X = Dexia et Y = ING ?) ddi iiiidiiiiiiiiiiiA droite, Cov[X , Y ] < 0 ; on parlera de dpendance ngative (dans ce cas, le portefeuille est moins risque : Var[X + Y ] < Var[X ] + Var[Y ] ; X = Dexia et Y = AngloGold ?)
ch.3-p.78i
Covariance
F IGURE: A gauche, Cov[X , Y ] = 0.01 (dpendance ngative) aaaaaaaaaaaaaaaaaaaaa iaiwiiiiiiiii A droite, Cov[X , Y ] 7.11 (dpendance positive)
ch.3-p.79i
Covariance
Ceci est compatible avec le fait que, comme on la vu, X Y Cov[X , Y ] = 0. Ceci laisse penser que la covariance est une mesure de dpendance. Il faut cependant insister sur le fait quil sagit dune mesure de dpendance trs imparfaite... Car il est faux que Cov[X , Y ] = 0 X Y . Des exemples simples seront considrs au TP, mais on a en fait dj considr un exemple de ce type...
ch.3-p.80i
Covariance
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue)
2 0 1 2 3 4 5
1 36 2 36 2 36 2 36 2 36 2 36
4
1 36
5
2 36
6
1 36
7
2 36
8
1 36
9
2 36
10
1 36
11
2 36
12
1 36
2 36 2 36
2 36 2 36 2 36
2 36
On a vu que X et Y ne sont pas indpendants. Pourtant, on a Cov[X , Y ] = 0 (exercice), ce qui nest pas si surprenant...
ch.3-p.81i
Covariance
Proprits supplmentaires de la covariance : Thorme Soient X , X1 , X2 , Y , Y1 , Y2 des variables alatoires et c, c1 , c2 R. Alors (i) Cov[c1 X1 + c2 X2 , Y ] = c1 Cov[X1 , Y ] + c2 Cov[X2 , Y ] (ii) Cov[X , c1 Y1 + c2 Y2 ] = c1 Cov[X , Y1 ] + c2 Cov[X , Y2 ] (iii) Cov[X , Y ] = Cov[Y , X ] (iv) Cov[X , c] = 0 (v) Cov[X , X ] = Var[X ] p p (vi) |Cov[X , Y ]| Var[X ] Var[Y ], et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R. Le point (vi) dcoule de lingalit de Cauchy-Schwarz (exercice), qui a t vue en ch.2-p.32.
ch.3-p.82i
Corrlation
Plutt que la covariance, on a souvent recours la corrlation, qui est une version normalise de la covariance, dont on peut non seulement interprter le signe mais aussi la valeur absolue. Dnition La corrlation entre X et Y est la quantit Corr[X , Y ] = p Proprits importantes : Thorme (i) les signes de Corr[X , Y ] et de Cov[X , Y ] concident. (ii) |Corr[X , Y ]| 1, et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R. Cov[X , Y ] p . Var[X ] Var[Y ]
ch.3-p.83i
Corrlation
Corr[X,Y]=0.5
83 83
Corr[X,Y]=0.8
Corr[X,Y]=1
82
82
81
81
80
80
79
79
78
78
24
26
28
30
32
34
36
26
28
30
32
34
36
77 24
78
79
80
81
82
83
26
28
30
32
34
36
F IGURE: Plus |Corr[X , Y ]| est proche de 1, plus la relation linaire entre X et Y est parfaite.
ch.3-p.84i
Corrlation
ch.3-p.85i
Corrlation
Proprits principales de la corrlation : Thorme Soient X , Y , X1 , X2 , Y1 , Y2 des variables alatoires et c1 , c2 , d1 , d2 R. Alors (i) Corr[c1 X + d1 , c2 Y + d2 ] = Corr[X , Y ] (ii) Corr[X , Y ] = Corr[Y , X ] (iii) Corr[X , c] = 0 (iv) Corr[X , X ] = 1 (v) |Corr[X , Y ]| 1, et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R (vi) X Y Corr[X , Y ] = 0.
ch.3-p.86i
Matrice de variance-covariance
Loprateur desprance E[] peut tre appliqu un vecteur ou une matrice, auquel cas on prend lesprance composante par composante. A un v.a. Z = (X , Y )T (par dfaut, les vecteurs dans la suite sont des vecteurs colonnes), il est alors classique dassocier son vecteur moyen Z = E[Z ] = et sa matrice de variance-covariance Z = Var[Z ] = E[(Z E[Z ])(Z E[Z ])T ] =E " X E[X ] ! X E[X ] !T # = Var[X ] Cov[X , Y ] Cov[X , Y ] Var[Y ] ! . E[X ] E[Y ] !
Y E[Y ]
Y E[Y ]
ch.3-p.87i
Matrice de variance-covariance
Soit A une matrice 2 2, b R2 (un vecteur colonne) et R. On vrie facilement que AZ +b = AZ + b AZ +b = AZ AT et bT Z + = b T Z + bT Z + = b T Z (b T )T = b T Z b. En particulier, b T Z b = bT Z + = Var[b T Z +] 0. On conclut que Z est toujours dnie positive (et bien entendu symtrique).
ch.3-p.88i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.89i
Motivation
Soient X et Y deux variables alatoires. Supposons que X est observ, mais pas Y . Il est commun de vouloir "prdire" Y sur la base de X . Exemples : - X = taille du pre 25 ans (en cm) - Y = taille du ls lorsquil aura 25 ans (en cm) - X = mesure du stress un examen (en pourcentage du maximum) - Y = note sur 20 obtenue cet examen - X = revenus annuels dun mnage belge (en milliers deuros) - Y = dpenses annuelles dun mnage belge (en milliers deuros)
Ceci demande didentier une fonction de rgression m() telle que Y m(X ). Le prdicteur de Y sera alors simplement Y = m(X ).
ch.3-p.89i
Rgression gnrale
Ceci demande didentier une fonction de rgression m() telle que Y m(X ). Dnition La fonction de rgression mreg est celle qui minimise lerreur quadratique moyenne E[(Y m(X ))2 ]. Si E[(Y mreg (X ))2 ] = 0, on a Y = mreg (X ) (voir (v), ch.2-p.32) ( Y = mreg (X ) = Y : prdiction sans erreur !) Donc si E[(Y mreg (X ))2 ] 0, on a Y mreg (X ) ( Y Y : prdiction raisonnable). La quantit E[(Y m(X ))2 ] = E[(Y Y )2 ] peut tre interprte comme une mesure de lerreur de prdiction. La dnition ci-dessus est donc trs naturelle. Thorme (i) mreg (x) = E[Y |X = x] pour tout x. (ii) E[(Y mreg (X ))2 ] = E[Var[Y |X ]].
ch.3-p.90i
Rgression gnrale
ch.3-p.91i
Rgression gnrale
F IGURE: Graphes de x mreg (x) = E[Y |X = x] (rouge) et x g (x) := mreg (x) p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.92i
Rgression linaire
F IGURE: Graphes de x mreg (x) = E[Y |X = x] (rouge) et x g (x) := mreg (x) p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.93i
Rgression gnrale
Preuve : (i) pour toute fonction m, on a E[(Y m(X ))2 |X ] = E[{(Y E[Y |X ]) + (E[Y |X ] m(X ))}2 |X ] = E[(Y E[Y |X ])2 |X ] + E[(E[Y |X ] m(X ))2 |X ] + 2E[(Y E[Y |X ])(E[Y |X ] m(X ))|X ] = Var[Y |X ] + (E[Y |X ] m(X ))2 + 2(E[Y |X ] m(X )) E[(Y E[Y |X ])|X ] = Var[Y |X ] + (E[Y |X ] m(X ))2 + 2(E[Y |X ] m(X )) (E[Y |X ] E[Y |X ]) = Var[Y |X ] + (E[Y |X ] m(X ))2 . En prenant lesprance, on obtient donc E[(Y m(X ))2 ] = E[Var[Y |X ]] + E[(E[Y |X ] m(X ))2 ]. ()
Cette expression est minimale lorsque E[(E[Y |X ] m(X ))2 ] = 0, ce qui se produira si et seulement si m(X ) = E[Y |X ]. (ii) Il suit de (*) que le minimum de E[(Y m(X ))2 ] qui en rsulte est E[Var[Y |X ]].
ch.3-p.94i
Rgression gnrale
Remarque : On a prouv (*) pour une fonction m quelconque. Si on prend m(x) = E[Y ] pour tout x, on obtient E[(Y E[Y ])2 ] = E[Var[Y |X ]] + E[(E[Y |X ] E[Y ])2 ], ce qui fournit Var[Y ] = = = = E[(Y E[Y ])2 ] E[Var[Y |X ]] + E[(E[Y |X ] E[Y ])2 ] E[Var[Y |X ]] + E[(E[Y |X ] E[E[Y |X ]])2 ] E[Var[Y |X ]] + Var[E[Y |X ]].
ch.3-p.95i
Rgression linaire
Parfois, la relation entre X et Y est linaire ou presque linaire. Exemple net : revenus - dpenses Exemple un peu moins net (mais encore justi) : le fast food On gagne alors se restreindre des fonctions "linaires" (en fait, ce sont plutt des fonctions du type x m(x) = x + ), car cela fournit un modle simple et efcace pour la relation entre X et Y . Dnition La fonction de rgression linaire mreglin est la fonction x m(x) = x + qui minimise lerreur quadratique moyenne E[(Y m(X ))2 ]. La qualit de la prdiction sera alors mesure par E[(Y mreglin (X ))2 ] E[(Y mreg (X ))2 ] .
ch.3-p.96i
Rgression linaire
2 2 2 Notons X = E[X ], Y = E[Y ], X = Var[X ], Y = Var[Y ], XY = Cov[X , Y ], et XY = Corr[X , Y ].
Remarques : lquation y = mreglin (x) de la droite de rgression peut donc scrire sous la forme (y Y ) = XY (x X ). Elle est de pente XY et passe par le point (X , Y ). Le signe de la pente est le signe de XY . Lerreur de prdiction est une fonction dcroissante en |XY |. iiiiiii Si |XY | = 1, la prdiction se fait sans erreur. iiiiiii Si |XY | = 0, Y = mreglin (X ) = Y et lerreur de prvision est maximale.
ch.3-p.97i
Rgression linaire
ch.3-p.98i
Rgression linaire
Preuve : (i) il sagit de trouver le (ou les) minimum(a) (XY , XY ) de la fonction (, ) h(, ) = = = E[(Y x )2 ] E[{(Y Y ) (X X ) + (Y X )}2 ] E[(Y Y )2 ] + 2 E[(X X )2 ] + (Y X )2 2E[(X X )(Y Y )] + 0 + 0 =
2 2 Y + 2 X + (Y X )2 2XY .
Le cours de math de BA2 indique que ces minima se trouvent parmi les solutions du systme 8 h > > < (, ) = 0 > h > : (, ) = 0.
ch.3-p.99i
Rgression linaire
Ce systme se rcrit (
2(Y X ) = 0, (
2 2X 2(Y X )X 2XY = 0
= Y X ,
qui est le couple (XY , XY ) donn dans le thorme (on montre facilement quil sagit dun minimum). (ii) La valeur associe de lerreur de prvision est alors h(XY , XY ) = = =
2 2 Y + 2 X + (Y XY X XY )2 2XY XY XY 2 2 2 Y + 2 Y + 02 22 Y XY XY 2 (1 2 )Y . XY
ch.3-p.100i
Rgression linaire
Attention : parfois, un tel modle linaire est viter !
F IGURE: Graphes de x mreg (x) = E[Y |X = x] et de x mreglin (x) = XY x + XY . Contrairement aux deux situations prcdentes, le modle linaire ne se justie pas ici.
ch.3-p.101i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.102i
f (x, y ) =
21 2
(x 1 ) (y 2 ) (x 1 )2 (y 2 )2 1 2 + 2 2 2 1 2 1 2 e 2(1 )
2 2 Ici, 1 , 2 R, 1 , 2 R+ , et (1, 1). 0
1 p
1 2
Pour rappel, la densit permet de calculer les probabilits que Z se ralise dans une certaine rgion B, via ZZ P[(X , Y ) B] = f (x, y ) dy dx B B2 .
B 2 2 Pour interprter les paramtres 1 , 2 , 1 , 2 , , nous allons considrer les distributions marginales et conditionnelles de cette loi. ch.3-p.102i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie de 2 2 paramtres 1 = 0, 2 = 0, 1 = 1, 2 = 1, = 0 (loi normale bivarie standard).
ch.3-p.103i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie de 2 2 paramtres 1 = 2, 2 = 1, 1 = 1.5, 2 = 3.5, = 0.65
ch.3-p.104i
Pour cela, nous aurons besoin de lgalit f (x, y ) = h1 (x)h2 (x, y ), o h1 (x) = et h2 (x, y ) = 22 1 p 1 2 e
2 (x 1 ) 1 e 21 21
1 2
1 1 (y 2 2 1 (x 1 ))2 22 (12 ) 2
(tablir cette galit est un exercice calculatoire facile). Il faut noter que
2 x h1 (x) est la fonction de densit de la loi N (1 , 1 ), 1 2 y h2 (x, y ) est, x, la densit de la loi N (2 + 2 1 (x 1 ), 2 (1 2 )). ch.3-p.105i
R Preuve : la factorisation f (x, y ) = h1 (x)h2 (x, y ) et lgalit h2 (x, y ) dy (qui dcoule du fait que y h2 (x, y ) est une densit) livrent Z Z f X (x) = f (x, y ) dy = h1 (x) h2 (x, y ) dy = h1 (x).
2 Ceci tablit le rsultat puisque x h1 (x) est la densit de la loi N (1 , 1 ). On prouve le rsultat pour Y de faon similaire.
Ceci montre donc que les distributions marginales sont normales (univaries) et que 2 2 1 = E[X ], 2 = E[Y ], 1 = Var[X ] et 2 = Var[Y ]. Il reste encore donner une interprtation .
ch.3-p.106i
Preuve : la factorisation f (x, y ) = h1 (x)h2 (x, y ) et le thorme prcdent livrent f Y |[X =x ] (y ) = f (x, y ) h1 (x)h2 (x, y ) = = h2 (x, y ), f X (x) f X (x)
ce qui tablit le rsultat puisque, comme on la vu, y h2 (x, y ) est, x, la densit 1 2 de la loi N (2 + 2 1 (x 1 ), 2 (1 2 )). On prouve le rsultat pour X |[Y = y ] de faon similaire.
Ce rsultat montre en particulier que 1 - x mregr (x) = E[Y |X = x] = 2 + 2 1 (x 1 ) est une fonction "linaire" de x. - Var[Y |X = x] ne dpend pas de x ; on parlera dhomoscdasticit.
ch.3-p.107i
F IGURE: La fonction de rgression x mregr (x) = E[Y |X = x] = 2 x + 10 est "linaire" 3 3 pour x (10, 30). Si la distribution de (X , Y ) tait normale bivarie, elle devrait ltre pour tout x et Var[Y |X = x] ne pourrait dpendre de x (on ne pourrait avoir d"htroscdasticit").
ch.3-p.108i
Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] = E[(X 1 )(Y 2 )] = E[E[(X 1 )(Y 2 )|X ]] = E[(X 1 )E[(Y 2 )|X ]]
1 = E[(X 1 )(E[Y |X ] 2 )] = E[(X 1 )2 1 (X 1 )] 1 = 2 1 Var[X ] = 2 1 . 2 Comme en outre Var[Y ] = 2 , ceci implique que
Corr[X , Y ] = p
ch.3-p.109i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie avec 2 2 1 = E[X ] = 2, 2 = E[Y ] = 1, 1 = Var[X ] = 1.5, 2 = Var[Y ] = 3.5, = Corr[X , Y ] = 0.65
ch.3-p.110i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie avec 2 2 1 = E[X ] = 0, 2 = E[Y ] = 0, 1 = Var[X ] = 1, 2 = Var[Y ] = 1, = Corr[X , Y ] = 0
ch.3-p.111i
Comme on la vu, cette factorisation de la densit implique que X Y . Nous avons vu prcdemment que limplication () nest pas vraie en gnral.
ch.3-p.112i
2 +
On retrouve le fait que pour la loi normale bivarie, la courbe de rgression gnrale concide avec la courbe de rgression linaire.
ch.3-p.113i
1 2
2 2
1 2
1 (y 2 )2 (x 1 )2 (x 1 ) (y 2 ) + 2 2 2 2 1 2 1 2 e 2(1 ) = 1 1 2 det T 1 x x 1 y y e 2
ch.3-p.114i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.115i
Motivation
Jusquici, nous nous sommes restreints aux vecteurs alatoires bivaris. Mais on a souvent besoin de considrer plus de deux variables alatoires simultanment, que ce soit pour tudier un portefeuille boursier compos de plus de deux actifs, pour prdire une variable sur la base de plusieurs autres variables (le rsultat lexamen sur la base du stress, du nombre dheures dtude, etc.), ou pour dcrire des situations plus complexes. Sans rentrer dans autant de dtails que dans le cas bivari, nous allons donc considrer des v.a. k -varis X = (X1 , . . . , Xk )T , o chaque X est une variable alatoire. On dnit la fonction de rpartition comme F (x1 , . . . , xk ) = P[X1 x1 , . . . , Xk xk ] pour tout (x1 , . . . , xk ).
ch.3-p.115i
Le cas discret
Dans le cas discret, chaque composante X na quun nombre ni ou inni dnom() brable de valeurs possibles : xi , i I () . La distribution de X est encore dtermine par la collection de toutes les valeurs possibles de X = (X1 , . . . , Xk )T qui en rsultent accompagnes des probabilits (k ) (1) correspondantes pi1 ...ik := P[X1 = xi1 , . . . , Xk = xik ]. On dtermine la probabilit que X se ralise dans un borlien B de dimension k via X P[X B] = pi1 ...ik
(i1 ,...,ik ):(xi
(1) 1
,...,xi
(k ) k
)B
(i1 ,...,ik )
ch.3-p.116i
Le cas discret
Pour des esprances du type E[g(X )], on utilisera plutt E[g(X )] = X
i
g(xi ) pi , o pi = P[X = xi ] =
()
()
()
()
pi1 ...ik ,
fonde sur la distribution marginale de X (valeurs possibles xi , de probabilits respectives pi ). De mme, des esprances du type E[g(X , Xm )] peuvent tre calcules via E[g(X , Xm )] = o pi ,im
(),(m) ()
X
i ,im
()
(m)
(),(m)
= P[X = xi , Xm = xim ] =
()
(m)
pi1 ...ik
ch.3-p.117i
Le cas discret
Plus gnralement, on peut aussi considrer des distributions marginales de dimension suprieure. Ceci est en fait ncessaire pour calculer les distributions conditionnelles puisque le dnominateur de P[X = xi |X1 = xi1 , . . . , X1 = xi1 , X+1 = xi+1 , . . . , Xk = xik ] = P[X1 = xi1 , . . . , Xk = xik ] P[X1 =
(1) xi1 , . . . , X1 (1) (k ) () (1) (1) (+1) (k )
= xi+1 , . . . , Xk = xik ]
(+1)
(k )
est associ une distribution marginale (k 1)-varie (on peut encore dnir des esprances et variances conditionnelles sur base de ces distributions conditionnelles).
Remarque : on vrie que X1 , . . . , Xk sont mutuellement indpendantes (comme (k ) (1) dni en page 66) si et seulement si pi1 ...ik = pi1 . . . pik pour tout i1 , . . . , ik . Ceci sera souvent utilis dans la partie "infrence statistique" du cours, o les k (= n) observations seront supposes tre des (ralisations de) variables alatoires mutuellement indpendantes.
ch.3-p.118i
La loi multinomiale
Une distribution multivarie discrte particulire : P Soient k , n N0 et p1 , . . . , pk [0, 1] tels que k p = 1. =1 Soit E une exprience alatoire k rsultats possibles, avec P[rsultat ] = p . Alors X = (X1 , . . . , Xk )T est de distribution multinomiale de paramtres n, p1 , . . . , pk (notation : X Multin(n, p1 , . . . , pk )) si X , = 1, . . . , k , compte le nombre de rsultats dans une suite de n rptitions indpendantes de E. Les valeurs possibles sont tous les (n1 , . . . , nk ) tels que Les probabilits correspondantes sont P[X1 = n1 , . . . , Xk = nk ] = Pk
=1
n = n.
n! n n p 1 . . . pk k . (n1 !) . . . (nk !) 1
La loi multinomiale
Il est aussi clair que, pour = m, on a X + Xm Bin(n, p + pm ). On a donc Var[X + Xm ] = n(p + pm )(1 p pm ). En utilisant lgalit Var[X +Xm ] = Var[X ]+Var[Xm ]+2Cov[X , Xm ], on obtient donc (exercice) Cov[X , Xm ] = np pm < 0. Les X ne sont donc pas indpendantes. Ce nest pas tonnant (pourquoi ?) Le signe de la covariance entre X et Xm nest pas tonnant non plus (pourquoi ?)
Un exemple de multinomiale : Au premier tour de llection prsidentielle franaise de 2007, on interroge n personnes en leur demandant pour lequel des k candidats elles ont lintention de voter. En notant X le nombre de sonds dclarant vouloir voter pour le candidat , (X1 , . . . , Xk )T Multin(n, p1 , . . . , pk ), o p est la proportion des Franais en faveur du candidat .
ch.3-p.120i
Le cas continu
Pour dcrire le cas continu, nous adoptons volontairement le mme schma de prsentation que pour le cas discret, dans le but de mettre en vidence les analogies fortes entre les deux types de formules.
Dans le cas continu (pour lequel la fonction de rpartition F est drivable k fois), on dnit la fonction de densit de probabilit f (x1 , . . . , xk ) := k F (x1 , . . . , xk ), x1 . . . xk
qui permet de calculer la probabilit que X = (X1 , . . . , Xk )T se ralise dans un borlien B de dimension k via Z P[X B] = f (x1 , . . . , xk ) dxk . . . dx1 ,
B
ch.3-p.121i
Le cas continu
Pour des esprances du type E[g(X )], on utilisera plutt Z E[g(X )] = g(x ) f X (x ) dx ,
o f X (x ) =
...
est la densit marginale de X . De mme, des esprances du type E[g(X , Xm )] peuvent tre calcules via E[g(X , Xm )] = o f (X ,Xm ) (x , xm ) = Z
...
Le cas continu
On peut ici aussi considrer des distributions marginales de dimension suprieure, comme cest le cas (au dnominateur) dans les densits conditionnelles f X |[X1 = x1 , . . . , X1 = x1 , X+1 = x+1 , . . . , Xk = xk ] (x ) = f (x1 , . . . , xk ) (X1 , . . . , X1 , X+1 , . . . , Xk ) (x1 , . . . , x1 , x+1 , . . . , xk ) f
(on peut encore dnir des esprances et variances conditionnelles sur base de ces densits conditionnelles).
Remarque : on vrie que X1 , . . . , Xk sont mutuellement indpendantes (comme dni en page 66) si et seulement si f (x1 , . . . , xk ) = f X1 (x1 ) . . . f Xk (xk ) x1 , . . . , xk . Pour la mme raison que dans le cas discret, ceci sera souvent utilis dans la partie "infrence statistique" du cours.
ch.3-p.123i
... ... .. .
...
Il est facile de vrier que, pour toute matrice (r k ) A et pour tout vecteur b Rr , on a E[AX + b] = AE[X ] + b et Var[AX + b] = AVar[X ]A .
ch.3-p.124i
C C C C. C C A
Soient Rk et une matrice (k k ) symtrique et dnie positive. Alors X = (X1 , . . . , Xk )T est de loi normale k -varie de paramtres et (notation : X Nk (, )) si X admet la densit f (x) = o x = (x1 , . . . , xk ) . Ceci gnralise donc la loi normale univarie (k = 1 ; voir ch.2-p.58) et la loi normale bivarie (k = 2 ; voir la page 114).
T
1 2
det
1 (x )T 1 (x ) , e 2
ch.3-p.125i
Remarque : ce quon appellera "loi normale k -varie standard" est le cas particulier obtenu pour = 0 et = Ik (la matrice identit de dimension k ).
ch.3-p.126i
Plan du chapitre 4
Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher
ch.4-p.127i
Plan du chapitre 4
Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher
ch.4-p.1i
Motivation
Vous souponnez quon sert "la Jefke" des gobelets de bire de moins de 25 cl en moyenne. Scandalis, vous dcidez de vrier si cest effectivement le cas (avant de contacter, le cas chant, les autorits). Comment pouvez-vous vous y prendre ?
Ce problme est un problme de dcision statistique. Il relve donc de la 2de partie du cours, mais on lutilisera ici pour motiver les rsultats de cette section. Notons dabord quon peut considrer la quantit de bire (en cl) servie dans un gobelet la Jefke comme une variable alatoire X (songez aux nombreux paramtres physiques inuenant la quantit de mousse, et donc celle de bire !) En langage probabiliste, vous voulez dterminer si E[X ] < 25 ou pas.
ch.4-p.1i
Motivation
Il est raisonnable de penser que X est une variable alatoire continue admettant une certaine densit f . La question considre devient donc Z ? E[X ] = x f (x) dx < 25.
Bien sr, cette expression intgrale ne permet pas dvaluer E[X ] (et donc ne permet pas non plus de trancher), parce que f est inconnue. Lide naturelle consiste considrer un chantillon (X1 , . . . , Xn ), associ n bires servies. On dira quil sagit dun chantillon alatoire simple si ces v.a. sont indpendantes et identiquement distribues ("i.i.d.") Ceci signie que ces v.a. sont mutuellement indpendantes, et partagent toutes la mme distribution (dans le cas prsent, elles sont toutes continues avec la densit f ). Lchantillon observ sera dsign par (x1 , . . . , xn ) (les minuscules sont souvent rserves aux valeurs numriques observes, tandis que les majuscules dsignent les v.a. dont ces valeurs observes sont des ralisations).
ch.4-p.2i
Motivation
Toutes les observations tant de densit f , elles portent toutes de linformation sur f , et donc sur E[X ]. Comment extraire cette information ? P 1 Il est naturel de calculer la moyenne empirique X = n n Xi et de fonder la i=1 conclusion sur la valeur que prend cette variable alatoire sur lchantillon observ (x1 , . . . , xn ). Des questions naturelles dans ce cadre sont : En quel sens X fournit-elle une information importante sur E[X ] ? Comment tenir compte de la variabilit intrinsque de X pour se convaincre raisonnablement que E[X ] < 25 (si cest possible) ? La seconde question est justie par le fait que X tant une fonction des v.a. X1 , . . . , Xn , elle est elle-mme une v.a., avec sa propre distribution : on parlera de distribution chantillonne.
ch.4-p.3i
Plan du chapitre 4
Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher
ch.4-p.4i
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. La distribution chantillonne de X (n) = (i) E[X (n) ] = et (ii) Var[X (n) ] = X n n n 1 2 1 X 2 1 1 X , Var[Xi ] = 2 = 2 (n 2 ) = Xi = 2 Var n2 n n n n
i=1 i=1 i=1 1 n
n n n 1X 1 1X 1 X E[Xi ] = = (n) = Xi = E n n n n
i=1 i=1 i=1
Pn
i=1
Xi vrie toujours
Donc la distribution de X (n) (i) reste de moyenne n dd (ii) devient de plus en plus concentre quand n grandit.
ch.4-p.4i
F IGURE: Graphes de la densit de X (n) pour n = 1, 2, 10, 20, 40, dans le cas o les observations sont i.i.d. de loi 24.7 + t5 (gauche) ou i.i.d. de loi Unif(0, 10) (droite). La moyenne reste en = 24.7 (gauche) ou en = 0+10 = 5 (droite), et la variance diminue quand n augmente. 2
ch.4-p.5i
ch.4-p.6i
2 0, n2
Il existe dautres concepts de "convergence stochastique". Dnition On dit que X (n) X presque srement (p.s.) si P[{ : X (n) () X ()}] = 1. Autrement dit, lorsque la convergence presque sre tient, il est certain (avec probabilit 1) que la convergence sera observe. On peut montrer que X (n) p.s. (cest la loi "forte" des grands nombres).
ch.4-p.8i
F IGURE: Pour chaque n, on a engendr X1 , . . . , Xn i.i.d. de loi Unif(0, 10) et on a calcul X (n) . Ce graphe de X (n) en fonction de n illustre la convergence p.s. de X (n) vers = E[Xi ] = 5.
ch.4-p.9i
Enn, un troisime concept de convergence en lien avec la loi des grands nombres est le suivant. Dnition On dit que X (n) X en L2 (ou en moyenne quadratique) si E[(X (n) X )2 ] 0. Ceci est justi par le fait que si E[(X (n) X )2 ] = 0, alors on a X (n) = X ; voir (v), ch.2-p.32 (plus prcisment, on a P[{ : X (n) () = X ()}] = 1). Comme E[(X (n) )2 ] = E[(X (n) E[X (n) ])2 ] = Var[X (n) ] = (n) en moyenne quadratique. X
2 n
0, on a aussi que
ch.4-p.10i
Le rsultat suivant est souvent utile. Thorme Soient (X (n) ), (Y (n) ) deux suites de variables alatoires et X , Y deux autres variables alatoires. Alors (i) X (n) X p.s. et Y (n) Y p.s. X (n) + Y (n) X + Y p.s. et X (n) Y (n) XY p.s. (ii) X (n) X en probabilit et Y (n) Y en probabilit X (n) + Y (n) X + Y en probabilit et X (n) Y (n) XY en probabilit. (iii) X (n) X en L2 et Y (n) Y en L2 X (n) + Y (n) X + Y en L2 .
ch.4-p.11i
Soit E une exprience alatoire. Soit (, A, P) un espace probabilis associ. Soit A A un vnement x, de probabilit p = P[A]. Soit X la v.a. qui vaut 1 si A se produit et 0 sinon. Soit (X1 , . . . , Xn ) un chantillon alatoire simple correspondant (qui est donc associ n rptitions indpendantes de E). Alors on a = E[X ] = 1 p + 0 (1 p) = p. Et la loi (forte) des grands nombres afrme que
X1 + . . . + Xn = X (n) p n
presque srement. Il sagit l de la dnition frquentiste des probabilits de BA1 (que notre dnition axiomatique identie comme un thorme).
ch.4-p.12i
F IGURE: Pour chaque n, on a engendr n reprises k = 32 anniversaires alatoirement et on a enregistr la proportion X (n) de fois o au moins deux anniversaires parmi les 32 concident. Le graphe de X (n) en fonction de n illustre la convergence p.s. de X (n) vers la probabilit quau moins deux anniversaires concident parmi 32.
ch.4-p.13i
// 2 = E[(X )2 ]
// 2 = E[X 2 ] 2 .
De manire tout fait similaire la variance thorique 2 , la premire expression est plus adapte linterprtation du concept, tandis que la seconde est plus commode pour lvaluation numrique de la variance.
ch.4-p.14i
(sous-estimation
n 1 X n (Xi X )2 , s2 = n1 n1 i=1
qui est videmment tel que E[S 2 ] = 2 . P 1 Par la loi forte des grands nombres, on a que n n Xi2 E[X 2 ] p.s. et que X i=1 p.s. Le thorme prcdent implique alors que ! n 1X 2 2 Xi X 2 E[X 2 ] 2 = 2 s = p.s., n
i=1
et donc aussi en probabilit. Bien sr, on a les mmes rsultats de convergence stochastique pour S 2 .
ch.4-p.15i
F IGURE: Pour chaque n, on a engendr X1 , . . . , Xn i.i.d. de loi Unif(0, 10) et on a calcul s2 . Ce graphe de s2 en fonction de n illustre la convergence p.s. de s2 vers 2 =
(100)2 12
8.33.
ch.4-p.16i
S2 .
On aura de nouveau que s p.s. et S p.s., ce qui est une consquence du thorme gnral suivant. Thorme Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. Soit g : R R une fonction continue. Alors (i) X (n) X p.s. g(X (n) ) g(X ) p.s. (ii) X (n) X en probabilit g(X (n) ) g(X ) en probabilit.
ch.4-p.17i
Plan du chapitre 4
Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher
ch.4-p.18i
Le thorme central-limite
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. On sait que (i) E[X (n) ] = 2 (ii) Var[X (n) ] =
n
(iii) Si n , X (n) (p.s., en probabilit, et en L2 ) Ces rsultats livrent un moyen destimer sur la base de X1 , . . . , Xn (par X (n) ), dune manire telle que si n , lestimation se fait nalement sans erreur. Si on sert une innit de bires, on pourra donc dcider sans se tromper si = E[X ] < 25 cl ou pas...
Bien entendu, on ne prendra jamais quun chantillon de taille n xe. Et pour ce n, quel quil soit, une certaine erreur sera commise dans lestimation de par X (n) . Il est videmment capital de pouvoir quantier cette erreur...
ch.4-p.18i
Le thorme central-limite
La difcult principale est la suivante : 2 Alors que (i) E[X (n) ] = et (ii) Var[X (n) ] = tiennent quelle que soit la distribution n "mre" (celle de X ), il nen va pas de mme du reste de la distribution de X (n) . En effet, les proprits dadditivit (ch.3-p.72) montrent que : Si X1 , . . . , Xn sont i.i.d. N (, 2 ), alors X1 + X2 + . . . + Xn N (n, n 2 ), de 2 2 sorte que X = (X1 + X2 + . . . + Xn )/n N ( n , n ) = N (, ). n n n2 Si X1 , . . . , Xn sont i.i.d. Bern(p) = Bin(1, p), alors X 1 Bin(n, p).
n
Ceci illustre le fait quil est priori difcile, pour un n x, de contrler lerreur X (n) : en effet, la distribution de X (n) dpend de la distribution "mre"... Laquelle est le plus souvent inconnue en pratique !
Le thorme central-limite
F IGURE: Graphes de la densit de X (n) pour n = 1, 2, 10, 20, 40, dans le cas o les observations sont i.i.d. de loi 24.7 + t5 (gauche) ou i.i.d. de loi Unif(0, 10) (droite). Dans les deux cas, la distribution de X (n) ressemble de plus en plus une loi normale mesure que n grandit.
ch.4-p.20i
Le thorme central-limite
Ce thorme si important est le suivant. Thorme ("Thorme central-limite" ou "TCL") Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 # " X (n) q x (x), P
2 n
Autrement dit : pour n grand, la distribution de n(X (n) ) (n) Z = est bien approxime par la loi N (0, 1). On pourra donc calculer des probabilits pour Z (n) (et donc pour X (n) ) en faisant comme sil sagissait dune variable normale standard.
ch.4-p.21i
Le thorme central-limite
Le TCL est associ un dernier concept de convergence : Dnition Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. Notons F (n) et F les fonctions de rpartition correspondantes. On dit que X (n) X en loi si F (n) (x) F (x) en tout point x o F est continue. Le TCL afrme donc simplement que Z (n) Z en loi, o Z N (0, 1). Parfois, on crira plutt Z (n) N (0, 1) en loi. La preuve du TCL ncessite le rsultat suivant (qui est comparer au thorme de la page 83 du chapitre 2). Thorme (de continuit) Supposons que X (n) et X admettent respectivement les fonctions gnratrices des moments MX (n) (t) et MX (t). Alors si MX (n) (t) MX (t) t, on a que X (n) X en loi.
ch.4-p.22i
Le thorme central-limite
Preuve du TCL : la stratgie est effectivement dutiliser le thorme de continuit. Pour ce faire, on a, par dnition de la fonction gnratrice des moments, " t n (n) # tZ (n) (X ) MZ (n) (t) = E e =E e =E e "
n t X (Xi ) # n i=1
Puisque les Xi sont indpendants et identiquement distribus, ceci livre # " # t t (X1 ) (Xn ) n n ... E e MZ (n) (t) = E e " = #! t t n (X1 ) n n = MX1 . E e n "
ch.4-p.23i
Le thorme central-limite
t Puisque n 0 si n , un dveloppement de Taylor centr en 0 se justie. Cela donne
t n MZ (n) (t) = MX1 n t 2 M (0) n t X1 = MX1 (0) + MX1 (0) + + ... 2 n n n t2 t E[(X1 )2 ] + . . . = 1 + E[X1 ] + 2 2 n n n t2 = 1+0+ +... , 2n qui tend vers e t /2 si n (ce que lon peut tablir en crivant f (n) = e ln f (n) , puis en utilisant la rgle de LHospital). Par le thorme de continuit, le TCL est donc dmontr, puisque t e t fonction gnratrice des moments de la loi N (0, 1) (voir ch.2-p.80).
2 2
/2
est la
ch.4-p.24i
Le thorme central-limite
En guise dillustration du thorme central-limite, on peut reconsidrer la situation suivante. Soit E une exprience alatoire. Soit (, A, P) un espace probabilis associ. Soit A A un vnement x, de probabilit p = P[A]. Soit X la v.a. qui vaut 1 si A se produit et 0 sinon. Soit (X1 , . . . , Xn ) un chantillon alatoire simple correspondant (qui est donc associ n rptitions indpendantes de E). Alors on a = E[X ] = p et 2 = Var[X ] = p(1 p). Donc le TCL afrme que, pour tout x, " # X (n) p P q x (x).
p(1p) n
Le thorme central-limite
Si p = P[obtenir "face" en lanant une pice] =
1 2
= = =
Il y a donc peu prs 95.45% de chance quon ait entre 40 et 60 fois "face" en 100 lancers dune pice de monnaie quilibre.
ch.4-p.26i
Le thorme central-limite
Pour ce genre de calcul, le thorme de de Moivre - Laplace fournit une alternative P au calcul fond sur la distribution binomiale de nX = n Xi ( Bin(n, p)). i=1 P[0.4 < X (n) 0.6] = = = P[40 < 100X (n) 60] P[40 < Bin(100, 1/2) 60] P[Bin(100, 1/2) = 41] + P[Bin(100, 1/2) = 42] + . . . + P[Bin(100, 1/2) = 60] =
60 X
k =41
0.9540
`100 1 k 1 100k 1 k 2 2
Remarques : - on voit que cette valeur exacte (on a calcul cette valeur sur base de la loi exacte de nX ) est trs proche de lapproximation fournie par le TCL. - Pour n grand, il y a des avantages numriques vidents utiliser le TCL.
ch.4-p.27i
Le thorme central-limite
Nanmoins, le caractre miraculeux du TCL est quil permet de calculer des probabilits aussi efcacement que ci-dessus dans les situations o on ignore la distribution "mre". Avant dillustrer ceci, nous rapportons deux rsultats supplmentaires sur les convergences stochastiques. Thorme (i) X (n) X en probabilit X (n) X en loi. Le rsultat suivant est utilis de faon continue en infrence statistique. Thorme (Lemme de Slutzky) Soient (X (n) ), (Y (n) ) deux suites de variables alatoires, X une autre variable alatoire, et a une constante. Alors (i) X (n) X en loi et Y (n) a en loi X (n) + Y (n) X + a en loi (ii) X (n) X en loi et Y (n) a en loi X (n) Y (n) Xa en loi (iii) X (n) X en loi et Y (n) a(= 0) en loi X (n) /Y (n) X /a en loi.
ch.4-p.28i
Le thorme central-limite
Un exemple type dapplication de ce thorme est le suivant.
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. Le TCL afrme que, en loi, X (n) n N (0, 1). Dautre part, on a vu que s p.s., donc aussi en probabilit et en loi. Le lemme de Slutzky livre donc que, en loi, X (n) X (n) s n = n / N (0, 1) / 1 = N (0, 1). s Le caractre miraculeux de ce rsultat est quil tient quelle que soit la distribution "mre" (et est donc applicable mme quand on ne la connat pas).
ch.4-p.29i
Le thorme central-limite
En posant z = 1 (1 ), le rsultat ci-dessus permet dcrire que h s i s P X (n) z/2 X (n) + z/2 n n
alors que X est une "estimation ponctuelle" du inconnu, lintervalle alatoire [X (n) s s 1.96 n , X (n) + 1.96 n ] constitue une "fourchette" ayant la proprit de contenir la valeur inconnue de avec une probabilit denviron 0.95 ! La longueur de cet intervalle, pour un niveau derreur x, donne une information de premire importance sur lincertitude qui rgne sur (la 2nde partie du cours donnera une interprtation plus prcise ce type de "fourchettes").
Pour = 0.05, ceci implique que, si n est grand, h s i s P X (n) 1.96 X (n) + 1.96 0.95 : n n
ch.4-p.30i
Le thorme central-limite
Si, dans le contexte des bires servies la Jefke, un chantillon X1 , . . . , X100 de n = 100 bires a men X (n) = 24.7 et on a h s i s X (n) 1.96 , X (n) + 1.96 = [24.5, 24.9], n n ce qui tend indiquer que < 25! s = 1.04,
ch.4-p.31i
Plan du chapitre 4
Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher
ch.4-p.32i
Le lemme de Fisher
La bire nest pas chre la Jefke, et on peut donc faire en sorte de fonder la dcision sur un chantillon alatoire simple de taille n trs grande. Mais il arrive quon soit amen travailler avec de petits chantillons. Cela peut sexpliquer par la raret des observations, par le cot norme pour obtenir des observations supplmentaires (cest le cas en gntique, par exemple), etc. Si n est trop petit (n < 30 ?), lapproximation de la loi de X (n) que fournit le TCL est trop peu prcise pour donner des rsultats satisfaisants en pratique. Que peut-on faire dans ce cas ?
Comme on va le montrer, on peut encore procder aux mmes types danalyse que ci-dessus, sous lhypothse (restrictive !) que la distribution "mre" soit normale.
ch.4-p.32i
Le lemme de Fisher
Le rsultat fondamental est le suivant. Thorme (lemme de Fisher) Soient X1 , . . . , Xn des variables alatoires i.i.d. N (, 2 ) (n 2). Alors 2 (i) X (n) N , n ns2 (ii) 2 2 n1 (iii) X s2 . Contrairement la loi des grands nombres et au TCL (qui, puisque n dans ces thormes, seront dits "asymptotiques"), le rsultat ci-dessus sera quali dexact. Ceci traduit le fait que le rsultat tient pour tout n x, et donc pourra tre utilis mme pour n petit.
ch.4-p.33i
Le lemme de Fisher
Le point (i) a t prouv la page 19 de ce chapitre. Pour montrer les points (ii)-(iii), nous utiliserons le lemme suivant. Lemme Soit A une matrice (k k ) symtrique (AT = A), idempotente (A2 = A), et de trace r ( N0 ). Soit B une matrice (s k ) et telle que BA = 0. Soit Z Nk (0, Ik ). Alors (i) Z TA Z 2 et (ii) Z TA Z BZ . r Preuve du lemme : (i) puisque A est symtrique, elle admet la dcomposition A = UU T , o U est une matrice (k k ) orthogonale (U TU = Ik = UU T ) et 0 1 1 0 . . . 0 B C B 0 2 . . . 0 C B C =B . . C. .. B . . C . B . . C @ A 0 0 . . . k
ch.4-p.34i
Le lemme de Fisher
2 Z .
Lidempotence de A implique que UU = A = A = (UU )(UU T ) = U 2 U T , ce qui indique que = 2 . Autrement dit, 2 = , cest--dire = 0 ou 1 . Le nombre de gaux 1 vaut trace[] = trace[U TU] = trace[UU T ] = trace[A] = r ; au prix dune permutation des colonnes de U, on peut faire en sorte que 1 = . . . = r = 1 et r +1 = . . . = k = 0. On a donc en fait Z TA Z = o la loi 2 r
r X =1
2 Z 2 , r
suit du fait que Z Nk (0, Ik ) implique que les Z sont i.i.d. N (0, 1).
ch.4-p.35i
Le lemme de Fisher
(ii) Par hypothse, on a 0 = BA = BUU T , ou de manire quivalente, ! Ir 0 , 0 = BU = BU 0 0 ce qui implique que BU = (0 |C) pour une certaine matrice (k r ) C. Donc on a que = f1 (Z1 , Z2 , . . . , Zr ). BZ = (BU)(U Z ) = (0 |C)Z = f2 (Zr +1 , Zr +2 , . . . , Zk ). Z TA Z = Puisque les Z sont mutuellement indpendants, on conclut que Z TA Z BZ . Pr 2 =1 Z T
ch.4-p.36i
Le lemme de Fisher
On peut maintenant tablir les points (ii)-(iii) du lemme de Fisher.
Preuve de (ii)-(iii) : posons Z = (Z1 , . . . , Zn )T , o Zi := (Xi )/. 1 Soit B = n 1T , o 1n := (1, 1, . . . , 1)T Rn , et soit A = In nB T B. n On vrie directement que X = Z + = BZ + n n 2 X 2 X` ` 2 ns 2 Zi nZ 2 = Z T Z n BZ = Z T Z n(Z T B T )(BZ ) Zi Z = = 2
i=1 i=1
ddddd
= Z TA Z .
Au vu du lemme, il suft donc de montrer que (a1) A est symtrique (a2) A est idempotente (a3) trace[A] = n 1 (b) BA = 0 (z) Z Nn (0, In ).
ch.4-p.37i
Le lemme de Fisher
Pour certains points, nous aurons besoin de lidentit BB T = (a1) AT = [In nB T B]T = (In )T n(B T B)T = In nB T B = A
1 T 1 1 n2 n n
1 n n2
1 n
(b) BA = B[In nB T B] = B n(BB T )B = B B = 0 (z) Les Xi tant i.i.d. N (, 2 ), on a que les Zi = (Xi )/ sont i.i.d. N (0, 1). Par le point (iv), ch.3-p.126, il en dcoule que Z = (Z1 , . . . , Zn )T Nn (0, In ).
ch.4-p.38i
Le lemme de Fisher
Thorme (lemme de Fisher) Soient X1 , . . . , Xn des variables alatoires i.i.d. N (, 2 ) (n 2). Alors 2 (i) X N , n ns2 (ii) 2 2 n1 (iii) X s2 . Rappelons que si Z N (0, 1) et Y 2 sont mutuellement indpendantes, alors p Z t . Y /
Le lemme de Fisher
Pour peu que la distribution "mre" soit normale, on peut donc crire (n 2) h i s s P X (n) tn1;/2 X (n) + tn1;/2 n1 n1 i h (n) X tn1;/2 = P tn1;/2 n 1 s P[tn1;/2 tn1 tn1;/2 ] = 1 , o tn1; dsigne le quantile dordre 1 de la loi tn1 . Par exemple, pour = 0.05 et n = 9, ceci fournit h i s s P X (n) 2.31 0.95. X (n) + 2.31 n1 n1 Si la quantit de bire servie dans un verre la Jefke est de loi normale, on peut donc, mme si on na en poche que de largent pour 9 bires, construire des "fourchettes" remplissant le mme rle que celles construites la page 30.
ch.4-p.40i
Rfrences I
Anderson, D., Sweeney, D., et Williams, T. (2001). Statistiques pour lEconomie et la Gestion. Bruxelles, De Boeck Universit. Dagnelie, P. (1998). Statistique Thorique et Applique. Tome 2 : Infrence Statistique Une et Deux Dimensions. Bruxelles, De Boeck Universit. Dehon, C., Droesbeke, J.J., et Vermandele, C. (2007). Elments de Statistique. Bruxelles : Editions de lUniversit de Bruxelles. Hasset, M.J., et Stewart, D.G. (2006). Probability for Risk Management. ACTEX Publications, Inc., Winsted, Connecticut. Isaac, R. (1995). The Pleasures of Probability. Springer, New York.
ch.4-p.41i
Rfrences II
Stirzaker, D. (2003). Probability and Random Variables. Cambridge University Press (Virtual Publishing). Stirzaker, D. (2003). Elementary Probability. Cambridge University Press, New York. Tijms, H. (2007). Understanding Probability. Chance Rules in Everyday Life. Cambridge University Press, New York. Wackerly, D.D., Mendenhall, W., et Scheaffer, R.L. (2008). Mathematical Statistics with Applications. Duxbury Press, 7me dition.
ch.4-p.42i