+STATS202 Partie1

Probabilits et infrence statistique (STAT-S202)
Partie I: Probabilits
Davy Paindaveine
2011-2012 (2me dition)
Universit libre de Bruxelles Solvay Brussels School of Economics and Management

ch.0-p.1i
Introduction
Deux parties
1
Probabilits : Davy Paindaveine, 1er quadrimestre Thorie : 24h (=122h) TP : 18h (=92h) http://www.ulb.ac.be//soco/statrope/cours/stat-s-202 http://homepages.ulb.ac.be/~dpaindav/teaching/stats202.html Infrence statistique : Catherine Dehon, 2nd quadrimestre Thorie : 24h (=122h) TP : 18h (=92h)
1re session
1 2
Probabilits : examen en janvier Infrence statistique : examen en juin
Une note unique (la moyenne des notes de janvier et de juin).

ch.0-p.2i
Introduction
2nde session Un double examen est organis lors dune mme demi-journe (1h30 2h pour chaque partie). Rgles de report(s) et de notation :
De la premire la seconde session, un tudiant bncie automatiquement du report de la note de la premire partie du cours (examen de janvier) ou de la seconde partie du cours (examen de juin), si celle-ci est au moins gale 10/20 [aucune dmarche administrative nest ncessaire]. Les notes infrieures 10/20 sont automatiquement annules. Ltudiant qui a obtenu un report de note et qui dcide de reprsenter lexamen correspondant lors dune session ultrieure renonce implicitement son ancienne note et seule la nouvelle note obtenue sera prise en considration, mme si celle-ci est infrieure celle obtenue antrieurement. La note pour la seconde session est la moyenne entre la note obtenue pour la premire partie (note de janvier ou note obtenue en seconde session) et la note obtenue pour le deuxime partie (note de juin ou note obtenue en seconde session).
ch.0-p.3i
Introduction
Report danne
Ltudiant bncie du report danne si la note nale du cours Probabilits et infrence statistique est au moins gale 12/20. Un tudiant qui ne se voit pas attribuer un report danne ne bnciera pas de "report partiel" lanne suivante. Il devra donc, quelles que soient les notes obtenues lanne prcdente, repasser les deux parties du cours.
ch.0-p.4i
Introduction
Linfrence statistique, quoi et pour quoi ?
ch.0-p.1i
Introduction
30 avril 2007 : le bureau de campagne de Nicolas Sarkozy juge que si la proportion p des Franais en faveur de Nicolas Sarkozy est 52%, il faut opter pour une n de campagne assez agressive, si p > 52%, il faut au contraire opter pour une n de campagne prudente. Comment dcider de ce quil faut faire ?
La dcision dpend de la valeur de p, qui est malheureusement inconnue. Puisquil est bien sr exclu dinterroger tous les franais pour valuer p, la seule possibilit consiste raliser un sondage : interroger 100 futurs votants sur leurs intentions de vote, disons.
ch.0-p.2i
Introduction
La statistique descriptive sarrte la description des rsultats de ce sondage.
Ceci ne dit cependant rien de tangible sur p : quelle que soit la valeur de p (0, 1), ce rsultat de 62% peut en effet se raliser, en raison des "variations alatoires" auxquelles le rsultat du sondage est soumis (mais la valeur p = 1%, par exemple, rend ce rsultat de 62% trs peu probable et est donc carter)
ch.0-p.3i
Introduction
Les probabilits = un processus dductif : Une connaissance parfaite de la population permet de "prdire" les caractristiques de lchantillon qui sera obtenu alatoirement. >< La statistique infrentielle = un processus inductif : Lchantillon observ permet dobtenir de linformation sur la population qui nest que trs partiellement connue.
Probabilits
Population
Infrence statistique
Echantillon
ch.0-p.4i
Introduction
Ce sont ainsi les probabilits qui engendrent la statistique infrentielle, laquelle va plus loin que la statistique descriptive : elle permet de tirer des conclusions (et donc de prendre des dcisions). Comme le cours le montrera, elle tablira ici que si on tolre une probabilit de 5% quon opte tort pour une n de campagne prudente, il convient dopter en effet pour la prudence (alors quun rsultat de sondage de 58% ne mnerait pas cette conclusion), quune "fourchette" pour p, associe un "taux derreur de 5%", est donne par [52.5%, 71.5%].
Clairement, toute "preuve statistique" comportera un risque derreur. Comment dnir cette erreur ? Comment la contrler ? (p.ex., comment choisir une taille de sondage assurant une erreur infrieure un seuil x par le cabinet Sarkozy ?) Comment interprter les rsultats des procdures dinfrence statistique ?
ch.0-p.5i
Introduction
Les domaines dapplications des probabilits et de linfrence statistique sont innombrables : Lconomie : quel est le lien entre les dpenses et les revenus des mnages ? Comment modliser/prvoir le PNB en fonction dautres grandeurs macroconomiques ? La nance : comment apprcier les risques associs aux divers actifs nanciers ? Comment construire un portefeuille optimisant les prots en minimisant le risque ? Les assurances : comment la compagnie doit-elle xer les primes pour pouvoir faire face (avec une probabilit sufsante) lensemble des sinistres qui se produiront cette anne ? La politique de lducation : quel est limpact dune augmentation de la taille des classes sur lefcacit de lenseignement ? La sant publique : quelle est limportance du tabagisme passif ? Comment valider un mdicament avant de lintroduire sur le march ? ...
ch.0-p.6i
Introduction
Mesures de probabilit
Variables alatoires
Vecteurs alatoires
Thormes limites et lemme de Fisher
ch.0-p.7i
Plan du chapitre 1
Mesures de probabilit Exprience alatoire, univers, vnements Mesures de probabilit Proprits des mesures de probabilit Analyse combinatoire Mesures de probabilit conditionnelle
ch.1-p.8i
Plan du chapitre 1
ch.1-p.1i
Exprience alatoire, univers, vnements
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = interroger un quiddam sur ses intentions de vote Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {Sarkozy, Royal} Un vnement A : Un sous-ensemble de Exemple : A = {Sarkozy} Remarques : - Si le rsultat de E appartient A, on dit que lvnement A se produit. - Dans la suite, lensemble de toutes les parties de (= lensemble de tous les vnements) sera not P().
ch.1-p.1i

Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer dun d Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {1, 2, 3, 4, 5, 6} Un vnement A : Un sous-ensemble de Exemples : A1 = {1}, A2 = {2, 4, 6}, A3 = {5, 6}, . . . Remarques : - Si A est un singleton, on dit que A est simple (e.g., A1 ). Sinon, on dit que A est compos (e.g., A2 , A3 ). - Les rsultats composs dintrt sexpriment plus aisment sans mathmatique (e.g., A2 = "obtenir un rsultat pair").
ch.1-p.2i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer de deux ds (distinguables) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} Un vnement A : Un sous-ensemble de Exemples : A1 = {(1, 4)}, A2 = {(6, 6)}, A3 = {(5, 6), (6, 5)}, . . . Remarque : - Les oprations ensemblistes , , c , . . . , associes aux oprations logiques correspondantes ("ou", "et", "non", . . . ), engendrent de nouveaux vnements. Exemple : A2 A3 = {(6, 6), (5, 6), (6, 5)}, i.e., "avoir une somme gale 12" ou "avoir une somme gale 11" = "obtenir une somme plus grande ou gale 11".
ch.1-p.3i
A1
A2
A1
A2
A1A2
"ou" inclusif
A1A2
"et"
A1
A2 A
A1A2
"ou" exclusif "non"
ch.1-p.4i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = crer une start-up dans le but de percer dans les 5 ans Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {percer, ne pas percer} Un vnement A : Un sous-ensemble de Exemples : A1 = {percer}, A2 = , A3 = , . . . Remarques : - est dit vnement impossible. - est dit vnement certain.
ch.1-p.5i
Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = lancer une pice de monnaie en lair jusqu obtenir p (pile) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = {p, (f , p), (f , f , p), (f , f , f , p), . . .} Un vnement A : Un sous-ensemble de Exemples : A1 = {p, (f , p), (f , f , p)}, A2 = {(f , f , f , p), (f , f , f , f , p), . . .}, . . . Remarques : - A linverse des exemples prcdents, cet est inni. - est ici inni dnombrable (cest--dire en bijection avec N).
ch.1-p.6i

Exprience alatoire E : Une exprience dont on ne peut prdire le rsultat avec certitude Exemple : E = mesurer le temps dattente du bus 71 (en minutes) Lunivers = {} : Lensemble de tous les rsultats possibles de E Exemple : = (0, ) Un vnement A : Un sous-ensemble de Exemples : A1 = (0, 15], A2 = [5, ), . . . Remarques : - est ici inni non dnombrable. - Les oprations ensemblistes sont encore permises. Exemple : "attendre entre 5 et 15 minutes"= [5, 15] = (0, 15] [5, ) = A1 A2 = "attendre au plus 15 minutes" et "attendre au moins 5 minutes".
ch.1-p.7i
Plan du chapitre 1
ch.1-p.8i
Bien entendu, nous dsirons mesurer la probabilit P[A] de chaque vnement. Ceci ncessite une fonction densemble P appele mesure de probabilit.
Si # < , ceci est strictement quivalent associer chaque lment i de P un nombre pi ( 0), qui sera la valeur de P[{i }]. Seule restriction : # pi = 1. i=1 valeurs possibles probabilits 1 p1 2 p2 ... ... # p#
La mesure de probabilit qui en rsulte est alors donne par P : P() A R X
i:i A
P[{i }].
Remarque : pour A = , on dnit P[A] = 0.

ch.1-p.8i
A 5 1
2 6
3 4
F IGURE: P[A] =
i:i A
P[{i }] = P[{1 }] + P[{5 }]
ch.1-p.9i
Exemple : si on reprend lexemple du lancer dun d ( = {1, 2, . . . , 6}), on peut 1 prendre p1 = p2 = . . . = p6 = 6 (hypothse dun d quilibr). Ceci mne P[obtenir un rsultat pair] = = = = P[{2, 4, 6}] P[{2}] + P[{4}] + P[{6}] 1 1 1 + + 6 6 6 1 2
ch.1-p.10i
Mais peut-tre le d est-il plutt caractris par 1 1 1 1 1 1 (p1 , p2 , p3 , p4 , p5 , p6 ) = , , , , , . 12 12 12 4 4 4 Dans ce cas, on obtient P[obtenir un rsultat pair] = = = = P[{2, 4, 6}] P[{2}] + P[{4}] + P[{6}] 1 1 1 + + 12 4 4 7 1 > 12 2
ch.1-p.11i
Comment choisir la mesure de probabilit P ? Le choix est parfois guid par les hypothses naturelles que lon fait (e.g., d quilibr). Dans la suite de la partie "probabilits" du cours, on supposera toujours que P est connue (ou que lon fait des hypothses nous permettant de dterminer P).
Mais si on ne connat pas P, on peut recourir linfrence statistique pour estimer P, pour confronter ce que lon croit tre vrai pour P des donnes empiriques...
ch.1-p.12i
Imaginons que 1000 lancers du mme d aient livr les donnes suivantes :
valeurs possibles 1 2 3 4 5 6
frquences observes 154 163 142 148 172 221
Est-ce que ceci permet (ou non) dinrmer lhypothse que le d est quilibr ?
Etudier la validit dune hypothse (ou dune thorie scientique) en la confrontant des donnes empiriques est lun des usages principaux de linfrence statistique.
ch.1-p.13i
Un cas particulier important : lquiprobabilit Si # < , on peut considrer le cas o pi = p i. Comme P#
i=1
pi = 1, on doit alors avoir pi = 1 # i.
On en dduit que, pour tout A P(), on a P[A] = X P[{i }] (#A fois)
i:i A
= =
1 1 1 + +... + # # #
nombre de cas favorables #A = . # nombre de cas possibles
ch.1-p.14i
Si est inni dnombrable, on dnit encore une mesure de probabilit en associant chaque lment i de un nombre pi ( 0) qui sera la valeur de P[{i }]. La P restriction devient pi = 1 (une srie). i=1 valeurs possibles probabilits 1 p1 2 p2 3 p3 ... ...
On calcule encore la probabilit dun vnement A au moyen de la rgle P : P() A avec P[] = 0. Remarque : bien sr, on ne peut pas avoir ici de situation dquiprobabilit! P (car pi = p i et pi = 1 sont incompatibles) i=1
ch.1-p.15i
R X
i:i A
P[{i }],
Exemple : si on reprend lexemple o on lance une pice jusqu obtenir face pour la premire fois ( = {p, (f , p), (f , f , p), (f , f , f , p), . . .}), il est naturel de prendre 1 1 1 1 (p1 , p2 , p3 , p4 , . . .) = , , , ,... , 2 4 8 16 P qui livre bien i=1 pi = 1. On calcule alors par exemple P[il faut au plus trois lancers] = = = ou P[il faut au moins trois lancers] = = = P[{(f , f , p), (f , f , f , p), . . .}] P[{(f , f , p)}] + P[{(f , f , f , f , p)}] + . . . 1 1 1 + +... = . 8 16 4
ch.1-p.16i
P[{p, (f , p), (f , f , p)}] P[{p}] + P[{(f , p)}] + P[{(f , f , p)}] 1 1 7 1 + + = 2 4 8 8
Dans les deux cas considrs ( ni, inni dnombrable), on peut vrier que la mesure de probabilit P satisfait toujours (A1) P[A] 0 pour tout A (A2) P[] = 1 (A3) P[A1 A2 . . .] = P[A1 ] + P[A2 ] + . . ., pour tout A1 , A2 , . . . P() tels que Ai Aj = si i = j. Il sagit l des trois axiomes qui dnissent, dans le cas gnral, ce quest une mesure de probabilit. Dans le dernier cas restant traiter (celui o est inni non dnombrable), on ne peut en effet chapper cette dnition axiomatique pour dnir le concept de mesure de probabilit...
ch.1-p.17i
Le cas o est inni non dnombrable est donc plus complexe. Pire : il est si complexe quil ny a en gnral pas de mesure de probabilit (cest--dire de fonction densemble vriant (A1)-(A2)-(A3)) pour tous les vnements A P(). Mais ce nest pas si grave car nous ne sommes jamais intresss par tous les vnements. La solution consistera dnir la mesure de probabilit sur une collection dvnements A plus petite que P(). Dans tous les cas, cette collection dvnements devra tre une -algbre. Dnition La collection A densembles de P() est une -algbre si A A A Ac A
A1 , A2 , . . . A A1 A2 . . . A Ceci implique notamment que (= c ) A, que les runions nies et intersections nies dlments de A sont encore des lments de A, etc.
ch.1-p.18i
Dans le cas gnral, on adopte alors la dnition suivante. Dnition Soit A une -algbre. La fonction densemble P :A A est une mesure de probabilit sur A si P[A] 0 pour tout A A P[] = 1 R P[A]
P[A1 A2 . . .] = P[A1 ] + P[A2 ] + . . ., pour tout A1 , A2 , . . . A tels que Ai Aj = si i = j. Point de terminologie : on dira que le triple (, A, P) qui en rsulte est un espace probabilis.
ch.1-p.19i
En gnral, on se restreint la -algbre la plus petite contenant les vnements qui nous intressent. Ainsi, si = R, on considrera la -algbre de Borel A = B = ({(x, y ] : x < y }), o ({(x, y ] : x < y }) dsigne la plus petite -algbre qui contient tous les intervalles de la forme (x, y ]. Remarques : Les lments B B sont appels les borliens.
(i) tous les intervalles de la forme (x, y ], (x, y ), [x, y ], [x, y ), (ii) les singletons {x}, et donc aussi (iii) les runions nies de tels vnements sont dans B ! (voir TP). Ceci implique quau moyen dun mesure de probabilit sur A = B, on sera capable de calculer la probabilit de tels ensembles.
ch.1-p.20i
Extension R+ : B+ = {B R+ : B B} Extension R+ : B+ = {B R+ : B B} 0 0 ... Extension R2 : B2 = ({(x1 , y1 ] (x2 , y2 ] : x1 < y1 , x2 < y2 })
C R1 R2
y2 x2
R3
R4
Le disque C appartient B2 car il se dcompose en une union dnombrable de rectangles : C = R1 R2 R3 R4 ...
x1
y1
Extension Rk : Bk = ({(x1 , y1 ] (x2 , y2 ] . . . (xk , yk ] : xi < yi i})

ch.1-p.21i
Exemple : si on reprend lexemple o on observe le temps dattente (en minutes) du bus 71 ( = R+ ), et si on fait lhypothse quun 71 passe exactement toutes les 10 0 minutes, on peut considrer la fonction densemble P:B A R P[A] = |A [0, 10]| |A [0, 10]| = , |R (0, 10)| 10
o |C| reprsente la mesure (la longueur pour un intervalle) de lensemble C. On vriera que P est bien une mesure de probabilit (exercice). On calcule par exemple P[attendre entre 5 et 15 minutes] = = = P[[5, 15]] |[5, 15] [0, 10]| 10 5 1 |[5, 10]| = = . 10 10 2
ch.1-p.22i
Plan du chapitre 1
ch.1-p.23i
Il dcoule des axiomes que toute mesure de probabilit vrie P[Ac ] = 1 P[A] 0 P[A] 1 P[] = 0
P[A1 \ A2 ] = P[A1 ] P[A1 A2 ] Si A1 A2 , alors P[A1 ] P[A2 ] Si A1 A2 = , alors P[A1 A2 ] = P[A1 ] + P[A2 ] P[A1 A2 ] = P[A1 ] + P[A2 ] P[A1 A2 ] (voir TP) Les mesures de probabilit associes aux cas o est ni ou inni dnombrable vriant (A1)-(A2)-(A3), elles satisfont de mme toutes les proprits ci-dessus.
ch.1-p.23i
A2
A1A2
ch.1-p.24i
Plan du chapitre 1
ch.1-p.25i
Analyse combinatoire
Revenons sur le cas important o # < et o on prend pi = (cas quiprobable). Puisque, comme on la vu, on a alors P[A] =
1 #
pour tout i
nombre de cas favorables #A = , # nombre de cas possibles
il est important de pouvoir compter le nombre dlments dun ensemble.
Cest lanalyse combinatoire, travers la rgle de multiplication et les concepts de permutations, arrangements, combinaisons, qui permet ce comptage dans des situations complexes.
ch.1-p.25i
Analyse combinatoire : rgle de multiplication
Le produit cartsien de deux ensembles A et B est dni par A B = {(a, b) : a A, b B}. La rgle de multiplication dit simplement que #(A B) = (#A) (#B). Plus gnralement, A B . . . F = {(a, b, . . . , f ) : a A, b B, . . . , f F } est de cardinalit (#A) (#B) . . . (#F ). Exemples : - Menu avec trois entres, deux plats, deux desserts 3*2*2=12 repas possibles - Paul le poulpe doit pronostiquer 8 rsultats de matchs dafle, ce qui donne 28 = 256 sries de pronostics possibles (pas 356!!!)
ch.1-p.26i
Analyse combinatoire : rgle de multiplication
ch.1-p.27i
Analyse combinatoire : permutations, arrangements

Soit A un ensemble avec #A = n. Dnition Une permutation est une suite ordonne (a1 , a2 , . . . , an ) des n lments de A. Il y a n! = n (n 1) . . . 2 1 permutations possibles. (convention pour la suite : 0! = 1) Dnition Une arrangement de longueur k (< n) est une suite ordonne (a1 , a2 , . . . , ak ) de k lments distincts de A. Il y a Ak = n (n 1) . . . (n k + 1) = n tels arrangements. n! (n k )!
ch.1-p.28i
Analyse combinatoire : combinaisons

Dnition Une combinaison de longueur k ( n) est un ensemble {a1 , a2 , . . . , ak } contenant k lments distincts de A. Lordre na pas dimportance ici, et il y a
k Cn =
telles combinaisons.
Ak n! n = k! k !(n k )!
(=
`n ) k
`n k Les coefcients binomiaux Cn = k , clbres entre autres pour leur rle dans le `n P fameux binme de Newton (x + y )n = n =0 k x k y nk , sont tels que k `n
k
` n
0
` ` = 1, n = n, n = 1 2 `n ` n `n+1 + k +1 = k +1 . k
n nk
n(n1) ,. . . 2
ch.1-p.29i
Analyse combinatoire : exemples
Dans un groupe de k personnes, quelle est la probabilit quau moins deux dentre elles aient la mme date danniversaire (on oublie les annes bissextiles) ? = {(a1 , . . . , ak ) : ai {1, 2, . . . , 365}} # < ( A = P()) P : situation dquiprobabilit Nombres de rpartitions danniversaires possibles : # = 365k Nombres de rpartitions danniversaires menant des anniversaires tous diff365! rents : Ak = (365k )! 365 P[anniversaires tous diffrents] =
365! (365k )! 365k
ck = P[au moins deux anniversaires identiques] = 1
365! (365k )! 365k
ch.1-p.30i
F IGURE: Probabilit quun moins deux anniversaires concident parmi k , en fonction de k

ch.1-p.31i

Considrons le jeu de lotto (version octobre 2011, o on choisit 6 numros parmi 45) et calculons la probabilit davoir exactement k bons numros (k 0, 1, . . . , 6}). =lensemble de tous les tirages possibles # < ( A = P()) P : situation dquiprobabilit ` Nombres de bulletins possibles : # = 45 6 `6 ` Nombres de bulletins avec k bons numros : k 456 6k
6 (k )(456) 6k (45) 6
ck = P[exactement k bons numros] = k ck 0 0.40 1 0.42 2 0.15 3 0.022
4 0.0014
5 0.000029
6 0.00000012
Remarque : c1 > c0 .
ch.1-p.32i
Plan du chapitre 1
ch.1-p.33i
Mesures de probabilit conditionnelle

Bien souvent, on dispose dune information qui permet de mettre jour la probabilit dun vnement. La forme la plus simple que peut prendre cette information est la connaissance quun certain vnement se soit produit.
Considrons un espace probabilis (, A, P). On sintresse la probabilit P[A] dun vnement A. On a linformation que lvnement B se produit. Dnition La probabilit conditionnelle de A sachant que B se produit est P[A|B] = P[A B] . P[B]
Remarque : - On suppose donc que P[B] > 0 (what else ?) - P[A|] = P[A] (linformation que se produit est inutile !)
ch.1-p.33i
F IGURE: Si on a linformation que B se produit, les cas possibles sont associs B et les cas favorables sont associs A B P[A|B] = P[A B]/P[B].
ch.1-p.34i
Exemple : si on prend un individu au hasard dans une compagnie satisfaisant Femme (F ) 25 75 100 Homme (H) 20 40 60
Manager (M) Non-manager (M c )
45 115 160
on obtient P[F ] = mais
100 60 > = P[H], 160 160
P[M|F ] =
P[M F ] 25/160 1 1 20/160 P[M H] = = < = = = P[M|H]. P[F ] 100/160 4 3 60/160 P[H]
ch.1-p.35i
F IGURE: P[F ] > P[H] mais P[M|F ] < P[M|H].

ch.1-p.36i

Exemple : Les parents du roi ont deux enfants. Quel est la probabilit que le roi ait une soeur ?
= {(G, G), (G, F ), (F , G), (F , F )}, avec 4 rsultats quiprobables. Linformation est ici reprsente par B = "lun des enfants est un garon". Alors, si on pose A = "lun des enfants est une lle", on obtient P[le roi a une soeur] = = = = P[A|B] P[A B] P[B] P[{(G, F ), (F , G), (F , F )} {(G, G), (G, F ), (F , G)}] P[(G, F ), (F , G), (G, G)] 2/4 2 P[{(G, F ), (F , G)}] = = . P[(G, F ), (F , G), (G, G)] 3/4 3
ch.1-p.37i

Les applications des probabilits conditionnelles sont trs nombreuses : Les contrats dassurance non-vie sont plus chers Charleroi qu Lasnes car P[subir un sinistre | habiter Charleroi] > P[subir un sinistre | habiter Lasnes]. Les contrats dassurance vie sont dautant plus chers quon avance en ge car P[dcder sous peu | tre vieux] > P[dcder sous peu | tre jeune]. Les probabilits conditionnelles sont aussi prsentes dans les fameuses tables de mortalit, qui reprennent (pour diffrents n) P[dcder avant n + 1 ans | on a atteint n ans]. Au golf, P[vous gagnez contre Tiger Woods] 0. Mais le systme de handicap permet toujours de faire en sorte que P[vous gagnez contre Tiger Woods | handicap] 1 . 2
ch.1-p.38i

Deux thormes sont trs utiles en relation avec les probabilits conditionnelles. Ils demandent tous les deux quon considre des vnements B1 , . . . , Bk A formant un partition de (ce qui signie que k Bi = et Bi Bj = pour i = j). i=1
B1
B2
B3
F IGURE: Partition de en B1 , B2 , B3 , B4 : exactement un des Bi se produit.

ch.1-p.39i
Thorme (Probabilit totale) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P Alors, A A, on a P[A] = k P[A|Bi ]P[Bi ]. i=1 Preuve : P[A] = = = P[(A B1 ) (A B2 ) . . . (A Bk )]
P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] + . . . + P[A|Bk ]P[Bk ].
P[A B1 ] + P[A B2 ] + . . . + P[A Bk ]
ch.1-p.40i

Thorme (Probabilit totale) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P Alors, A A, on a P[A] = k P[A|Bi ]P[Bi ]. i=1 Exemple : E = jouer un point o on sert au tennis A = gagner le point B1 = russir son 1er service (P[B1 ] = .70) B2 = rater son 1er service, mais russir le 2nd (P[B2 ] = .25) B3 = faire une double faute ( P[B3 ] = .05) Si P[A|B1 ] = .9 et P[A|B2 ] = .6, on obtient P[A] = = P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] + P[A|B3 ]P[B3 ] .70 .9 + .25 .6 + 0 0.05 = .78
ch.1-p.41i
Thorme (Formule de Bayes) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P[A|Bj ]P[Bj ] , j = 1, . . . , k . Alors, A A avec P[A] > 0, on a P[Bj |A] = Pk i=1 P[A|Bi ]P[Bi ] Preuve : P[Bj |A] = P[A|Bj ]P[Bj ] P[Bj A] = , P[A] P[A]
et le rsultat dcoule donc du thorme prcdent.
ch.1-p.42i

Thorme (Formule de Bayes) Supposons que B1 , . . . , Bk A forment une partition de et que P[Bi ] > 0 i. P[A|Bj ]P[Bj ] , j = 1, . . . , k . Alors, A A avec P[A] > 0, on a P[Bj |A] = Pk i=1 P[A|Bi ]P[Bi ] Exemple : E = faire un test HIV A = le test est positif B1 = la personne est malade (P[B1 ] = .003) B2 = la personne est saine ( P[B2 ] = .997) Si P[A|B1 ] = .95 et P[Ac |B2 ] = .95, on obtient P[B1 |A] = = P[A|B1 ]P[B1 ] P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] .95 .003 .05(!) .95 .003 + (1 .95) (1 .003)
ch.1-p.43i
En gnral, linformation B permet dafner la probabilit que A se produise : P[A|B] = P[A] (le fait que B se produise apporte vraiment de linformation sur le fait que A se produise). Si ce nest pas le cas, on dit que A et B sont indpendants. Dnition Soient A, B des vnements de probabilit non nulle. Alors : A et B sont indpendants P[A|B] = P[A] P[A B] = P[A]P[B] P[B|A] = P[B]. Remarques : - Les ouvrages de rfrence prfrent la dnition "A et B sont indpendants P[A B] = P[A]P[B]" car elle tolre que P[A] = 0 ou P[B] = 0. - Nanmoins, les autres dnitions ci-dessus sont plus importantes pour lintuition.
ch.1-p.44i
Extension un nombre ni n 3 vnements : Dnition Les vnements A1 , A2 , . . . , An sont mutuellement indpendants k = {2, 3, . . . , n}, 1 i1 < i2 < . . . < ik n, P[Ai1 Ai2 . . . Aik ] = P[Ai1 ]P[Ai2 ] . . . P[Aik ]. Extension un nombre inni (dnombrable) dvnements : Dnition Les vnements A1 , A2 , . . . sont mutuellement indpendants k = {2, 3, . . .}, 1 i1 < i2 < . . . < ik , P[Ai1 Ai2 . . . Aik ] = P[Ai1 ]P[Ai2 ] . . . P[Aik ].
ch.1-p.45i

Comme le montre lexemple suivant, il est capital daussi considrer k < n dans la premire dnition de la page prcdente.
E =lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} A = P() P : situation dquiprobabilit A1 = le rsultat du 1er d est un nombre pair A2 = le rsultat du 2nd d est un nombre impair A3 = la somme des deux rsultats est un nombre impair Ces vnements sont deux deux indpendants : 18 9 P[A1 A2 ] = 36 = 18 36 = P[A1 ]P[A2 ] 36 9 18 18 P[A1 A3 ] = 36 = 36 36 = P[A1 ]P[A3 ] 9 18 18 P[A2 A3 ] = 36 = 36 36 = P[A2 ]P[A3 ] Mais ils ne sont pas mutuellement indpendants car P[A1 A2 A3 ] = P[A1 A2 ] = 9 = 18 18 18 = P[A1 ]P[A2 ]P[A3 ]. 36 36 36 36
ch.1-p.46i
1 2 3 4 5 6
ch.1-p.47i
Plan du chapitre 2
Variables alatoires Dnition et exemples Distribution Esprance mathmatique Variance, risque, ingalit de Tchebychev Quelques distributions discrtes classiques Quelques distributions continues classiques Moments, fonction gnratrice des moments
ch.2-p.48i
Plan du chapitre 2
ch.2-p.1i
Dnition et exemples
Soit une exprience alatoire E. Soit un espace probabilis (, A, P) associ. Il est commun que le rsultat de E soit un nombre ou quon puisse naturellement associer un nombre au rsultat. Ceci conduit au concept de variable alatoire. Dnition Une variable alatoire (v.a.) est une fonction X : R X ()
vriant la condition technique que, pour tout borlien B B, [X B] A ()
o [X B] := X 1 (B) := { : X () B}. La v.a. est dite discrte si lensemble de ses valeurs possibles {X () : } est ni ou inni dnombrable. Remarque : ce stade, P ne joue aucun rle.
ch.2-p.1i
Dnition et exemples
XB
X( )
B X(2) X(1) X( ) X( )
ch.2-p.2i
Dnition et exemples
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( X = somme des rsultats de chaque d Autrement dit, X : (i, j) R X (i, j) = i + j.
A = P())
- Puisque A = P(), (*) est automatiquement satisfaite. Donc X est une v.a. - Puisque X () = {2, 3, . . . , 12} est ni, X est une v.a. discrte. Remarques gnrales : - Si est ni ou inni dnombrable, on peut toujours prendre A = P(). Comme ci-dessus, toute fonction X : R vrie alors (*) et est donc une v.a. - Si est ni ou inni dnombrable, toutes les v.a. sont discrtes.
ch.2-p.3i
Dnition et exemples
Si est inni non dnombrable, on peut par contre avoir des v.a. discrtes ou non discrtes.
F IGURE: E = lancer une chette. = lensemble de tous les points dimpact possibles (inni non dnombrable) A = B2 := ({(a1 , b1 ] (a2 , b2 ] : a1 < b1 , a2 < b2 }). Le nombre de points marqus X est une v.a. discrte >< la distance Y du point dimpact au centre est une v.a. non discrte
ch.2-p.4i
Distribution
Exemples : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) X = nombre de lancers ncessaires X est une v.a. discrte (avec une innit de valeurs possibles). E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme X est une v.a. non discrte. E = mesurer (en heures) la dure dune enchre eBay de 7 jours avec loption "achat immdiat" = (0, 7 24] = (0, 168] A=B X = la dure elle-mme X est une v.a. non discrte.
ch.2-p.5i
Plan du chapitre 2
ch.2-p.6i
Distribution : cas gnral

Considrons deux jeux pour lesquels il faut payer 10 euros pour jouer. Dans le 1er, on reoit un montant X1 gal 30 euros si on obtient un as en tirant une carte dans un jeu de 52 cartes, et 0 euro sinon. Dans le 2nd, on reoit un montant X2 gal 30 euros si on obtient face en lanant une pice de monnaie, et 0 euro sinon. Les v.a. X1 et X2 partagent le mme ensemble de valeurs possibles ({0, 30}), mais sont pourtant trs diffrentes. Clairement, une v.a. nest que trs partiellement caractrise par la seule collection de ses valeurs possibles !
Ce qui caractrise compltement une v.a. X est la distribution de X , qui est la collection de toutes les probabilits de la forme P[X B]ou, de manire quivalente, la loi de probabilit P X sur (R, B) dnie par P X [B] = P[X B]. Remarque : le rle de (*) est dassurer quon puisse calculer P[X B] B B. Comment dcrire efcacement la distribution de X ?
ch.2-p.6i
Distribution : cas discret
Si X est une v.a. discrte (et admet les valeurs possibles xi , i I), on a que X P[X = xi ] B B, P[X B] =
i:xi B
(1)
o [X = xi ] = X 1 ({xi }). Il en dcoule que la distribution de X est compltement caractrise par la collection {(xi , pi := P[X = xi ]) : i I} des valeurs possibles et des probabilits correspondantes. Distribution de X valeurs possibles x1 x2 probabilits p1 p2
... ...
(xk ) (pk )
Par abus de language, on appellera aussi ce tableau "distribution de X " (ce qui se justie par le fait quil permet de calculer, via (1), la distribution au sens strict).
ch.2-p.7i

Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( P : situation dquiprobabilit X = somme des rsultats de chaque d
A = P())
valeurs possibles probabilits
2
1 36
3
2 36
Distribution de X 4 5 6 7
3 36 4 36 5 36 6 36
8
5 36
9
4 36
10
3 36
11
2 36
12
1 36
ch.2-p.8i
Comme annonc, ceci dnit une loi de probabilit P X sur (R, B). Par exemple, on a 2 36 2 3 5 P X [{3, 4}] = P[X {3, 4}] = + = 36 36 36 P X [{3}] = P[X = 3] = 2 3 5 + = 36 36 36 4 5 12 3 + + = P X [[3.5, 5 + 2)] = P[X [3.5, 5 + 2)] = P[X {4, 5, 6}] = 36 36 36 36 P X [[3, 4]] = P[X [3, 4]] = P[X {3, 4}] = . . .
ch.2-p.9i

Exemple avec une innit de valeurs possibles : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) 1 1 1 P donn par (p1 , p2 , p3 , p4 , . . .) = ( 2 , 4 , 1 , 16 , . . .) 8 X = nombre de lancers ncessaires
Distribution de X valeurs possibles 1 2 3 1 1 1 probabilits 2 4 8
4
1 16
... ...
ch.2-p.10i
Distribution : * retour au cas gnral *

Soit X une v.a. (pas ncessairement discrte). Dnition La fonction de rpartition de X est la fonction F :R x Proprits caractristiques : limx F (x) = 0 et limx F (x) = 1 F est non dcroissante (x < x F (x) F (x )) En notant F (x + ) := limz x F (z), on a F (x + ) = F (x) (continuit droite) > Toute fonction F satisfaisant ces trois proprits est en fait la fonction de rpartition dune v.a.
ch.2-p.11i
[0, 1] P[X x].

Proprits supplmentaires : En notant F (x ) := limz x F (z), on a < F (x) F (x ) = P[X = x]. Une fonction de rpartition nest donc pas toujours continue gauche (et donc pas toujours continue). Pour tout a < b, on a F (b) F (a) = P[a < X b]. En particulier, on a que 1 F (a) = P[X > a] (ceci est obtenu en prenant la limite pour b ). Remarque : Il dcoule de (2) que F caractrise compltement la distribution de X (P X F ).
ch.2-p.12i
(2)
La fonction de rpartition permet de dnir une notion qui sera cruciale dans la partie "infrence statistique" du cours. Dnition Soit (0, 1) x. Le quantile dordre de la distribution de X est le nombre x = inf{x R : F (x) }. Sil existe un unique nombre c tel que F (c) = , alors x = c = F 1 (). Mais la dnition ci-dessus permet de dnir x mme dans les cas o il ny a pas de tel c. Terminologie : - x 1 est la mdiane 2 - x 1 et x 3 sont les 1er et 3me quartiles 4 4 - x i , i = 1, 2, . . . , 9 sont les dciles 10 - x i , i = 1, 2, . . . , 99 sont les percentiles
100
ch.2-p.13i

Soit X une v.a. discrte. Soit (xi , pi = P[X = xi ]), i I, sa distribution. P Alors on a F (x) = P[X x] = i:xi x pi .
1
F(x)
p3
p2 p1
x1
x2
x3
F IGURE: Fonction de rpartition dune v.a. discrte X (dans ce cas, X a 3 valeurs possibles). Il est ici vident que F donne une manire quivalente de fournir la distribution de X .
ch.2-p.14i
Distribution : cas continu

Une classe importante de v.a. non discrtes est celle des v.a. continues. Dnition La v.a. est dite continue si sa fonction de rpartition F est continue. Si X est une v.a. continue, on a donc P[X = x] = F (x) F (x ) = 0 x R,
ce qui montre que les v.a. continues sont dune nature fondamentalement diffrente de celle des v.a. discrtes. Exemples : la dure de vie dune batterie le temps dattente du 71 la quantit de pluie en aot prochain Bruxelles le valeur du PNB de la Belgique lors de la prochaine valuation () ...
ch.2-p.15i
Comme P[X = x] = 0 x dans le cas o X est une v.a. continue, on a que 1 F (a) = = et F (b) F (a) = = = = P[a < X b] P[a X b] P[a X < b] P[a < X < b]. P[X > a] P[X a]
Ceci montre comment dduire ces probabilits de la fonction de rpartition.
ch.2-p.16i

Exemple : E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme Supposons que la fonction de rpartition de X soit donne par 8 0 si x < 0 > > > > < 2 x F (x) = si 0 x < 2500 > 25002 > > > : 1 si x 2500.
Si le fabricant sengage rembourser sans frais la batterie dans le cas o celle-ci meurt avant 500 heures dutilisation, la probabilit que le fabricant doive faire ce geste vaut P[X 500] = P[X (, 500]] = F (500) F () = 5002 1 0= . 25002 25
ch.2-p.17i
F IGURE: Fonction de rpartition (F ) de la dure de vie de la batterie.

ch.2-p.18i

Si la drive f (x) = F (x) existe x (sauf ventuellement en un nombre ni de x R), le thorme fondamental du calcul diffrentiel et intgral permet dcrire Z b P[a < X b] = F (b) F (a) = f (x) dx,
a
ou plus gnralement, pour tout B B, P[X B] = Dnition
f (x) dx.
(3)
La fonction f (= F ) est appele fonction de densit de probabilit de X . Remarques : - En les x o F (x) nexiste pas, on donnera une valeur arbitraire (positive) f (x) : ceci naura aucune inuence sur le calcul des probabilits P[X B] via (3). Rx - On peut reconstruire F partir de f via F (x) = f (z) dz. La densit f fournit donc une autre caractrisation quivalente de la distribution de X (P X F f ).
ch.2-p.19i
Proprits de f : f (x) 0 x R R f (x) dx = 1
Toute fonction f satisfaisant ces deux proprits est en fait la fonction de densit de probabilit dune v.a. continue.
Interprtation de f (x) : Pour x petit, on a P[X (x, x + x]] = F (x + x) F (x) f (x) x, de sorte que f (x) mesure la "vraisemblance" que X se ralise dans un voisinage de x ; au plus grande la valeur de f (x), au plus il est probable que X se ralisera "autour de x".
ch.2-p.20i

Exemple : E = mesurer la dure de vie dune batterie (en heures) = (0, ) A=B X = la dure de vie elle-mme Si la fonction de rpartition de X est donne par 8 0 si x < 0 > > > > < x2 F (x) = si 0 x < 2500 > 25002 > > > : 1 si x 2500, on obtient la fonction de densit 8 > 0 > > > < 2x f (x) = > 25002 > > > : 0
si x < 0 si 0 x < 2500 si x 2500.

ch.2-p.21i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de la dure de vie de la batterie.
ch.2-p.22i
Sur base de la densit f , on peut recalculer que la probabilit que la batterie cde en moins de 500 heures vaut F (500) = P[X 500] = P[X (, 500]] = Z
500
f (x) dx =
500
500 2x x2 1 dx = . = 25002 25002 0 25

1 . 25
Clairement, 500 est lunique valeur telle que F (500) = 1 500 est le quantile dordre = 25 . Graphiquement (voir la page prcdente),
x = 500 est labscisse pour laquelle lordonne sur le graphe de F vaut Laire sous le graphe de f gauche de x = 500 vaut
1 . 25
1 . 25
ch.2-p.23i
Distribution
Il existe des v.a. qui ne sont ni discrtes ni continues... Exemple : E = mesurer (en heures) la dure dune enchre eBay de 7 jours avec loption "achat immdiat" = (0, 7 24] = (0, 168] A=B X = la dure elle-mme X est une v.a. non discrte.
ch.2-p.24i
Distribution
F IGURE: Fonction de rpartition (F ) de la dure lenchre (en heures). P[achat immdiat] = P[X < 168] = F (168 ) = 1/3 et P[lenchre va son terme] = P[X = 168] = F (168) F (168 ) = 2/3. On remarque aussi que la probabilit davoir un achat immdiat dans lintervalle [x, x + ] est dcroissante en x (ce qui est raisonnable).
ch.2-p.25i
Plan du chapitre 2
ch.2-p.26i
Esprance mathmatique
Souvent, on cherche rsumer linformation contenue dans la distribution un petit nombre dindicateurs, appels moments.
La dnition de ces moments requiert le concept desprance mathmatique. Dnition (i) Si la v.a. X est discrte, de distribution (xi , pi = P[X = xi ]), i I, lesprance P mathmatique de X est E[X ] = iI xi pi . (ii) Si la v.a. X est continue, et admet la fonction de densit f , lesprance R mathmatique de X est E[X ] = x f (x)dx. E[X ] est donc une moyenne pondre des valeurs possibles de X , o les poids sont dtermins par la vraisemblance de chaque valeur. Remarque : il est important de noter lanalogie trs forte entre les deux formules desprance mathmatique.
ch.2-p.26i
Exemple 1 (cas discret avec #I < ) : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( P : situation dquiprobabilit X = somme des rsultats de chaque d A = P())
2
1 36
3
2 36
Distribution de X 4 5 6 7
3 36 4 36 5 36 6 36
8
5 36
9
4 36
10
3 36
11
2 36
12
1 36
E[X ]
= = =
11 X i=1
xi pi 1 2 1 +3 + . . . + 12 36 36 36
2 7
ch.2-p.27i
Exemple 2 (cas discret avec #I = ) : E = on lance une pice jusqu obtenir pile pour la premire fois = {p, (f , p), (f , f , p), (f , f , f , p), . . .} ( A = P()) 1 1 1 P donn par (p1 , p2 , p3 , p4 , . . .) = ( 2 , 4 , 1 , 16 , . . .) 8 X = nombre de lancers ncessaires Distribution de X valeurs possibles 1 2 3 1 1 1 probabilits 2 4 8
X i=1
4
1 16
... ...
E[X ]
= = =
xi pi 1 1 1 1 +2 +3 +4 +... 2 4 8 16
1 2
ch.2-p.28i
Dans la suite, il sera utile de considrer lesprance de certaines transformes g(X ) de X (o g : R R). Dnition (i) Si la v.a. X est discrte, de distribution (xi , pi = P[X = xi ]), i I, lesprance P mathmatique de g(X ) est E[g(X )] = iI g(xi )pi . (ii) Si la v.a. X est continue, et admet la fonction de densit f , lesprance R mathmatique de g(X ) est E[g(X )] = g(x) f (x)dx. Cette dnition est problmatique car nous avons maintenant deux mthodes pour calculer E[g(X )] : la mthode 1 consiste utiliser directement la formule E[g(X )] donne dans la dnition ci-dessus. la mthode 2 consiste poser Y = g(X ), dterminer la distribution de Y , puis calculer E[g(X )] = E[Y ] selon la dnition de la page 26 de ce chapitre. Heureusement, ces deux mthodes fournissent toujours le mme rsultat.
ch.2-p.29i
Exemple : Considrons une v.a. discrte caractrise par Distribution de X x1 = 2 x2 = 1 x3 = 0
1 5 1 5 1 5
valeurs possibles xi probabilits pi
x4 = 1
1 5
x5 = 2
1 5
Considrons le calcul de E[X 2 ]. La mthode 1 livre directement E[X 2 ] = = =

n X i=1
(xi )2 pi 1 1 1 1 1 + (1)2 + (0)2 + (1)2 + (2)2 5 5 5 5 5
(2)2 10 =2 5
ch.2-p.30i
Pour la mthode 2, on obtient dabord la distribution de Y = X 2 : Distribution de Y = X 2 valeurs possibles yi y1 = 0 y2 = 1 (y ) 1 2 probabilits pi 5 5 (e.g., P[Y = 4] = P[[X = 2] [X = 2]] = Ceci donne alors E[X 2 ] = E[Y ] = = =
n X i=1 1 5
y3 = 4
2 5
1 5
1 = 2 , mais P[Y = 0] = P[X = 0] = 5 ) 5
yi pi
(y )
1 2 2 +1 +4 5 5 5
10 =2 5
ch.2-p.31i
Proprits principales de lesprance mathmatique : Thorme Soient X1 , X2 deux v.a. et a R. Alors (i) E[X1 + X2 ] = E[X1 ] + E[X2 ] (ii) E[aX1 ] = aE[X1 ] (iii) E[a] = a (iv) Si X1 X2 (au sens o X1 () X2 () ), alors E[X1 ] E[X2 ] (v) Si E[X ] = 0 et X 0q sens o X () 0 ), alors X = 0 (au q
2 2 (vi) |E[X1 X2 ]| E[X1 ] E[X2 ] (ingalit de Cauchy-Schwarz), et lgalit a lieu si et seulement si X2 = cX1 ou X1 = cX2 pour un certain c R.
De (i)-(ii), il dcoule en particulier que E[a1 X1 + a2 X2 ] = a1 E[X1 ] + a2 E[X2 ] pour toutes les v.a. X1 , X2 et toutes les constantes relles a1 , a2 . On dira que lesprance mathmatique est un oprateur linaire. En gnral, on na pas que E[X1 X2 ] = E[X1 ]E[X2 ]. Ainsi, dans lexemple prcdent, on a (E[X ])2 = 02 = 2 = E[X 2 ].
ch.2-p.32i
Plan du chapitre 2
ch.2-p.33i
Variance
Lesprance mathmatique E[X ] de X est une quantit qui donne une information sur la grandeur (ou position) de X , travers sa valeur moyenne (ou "attendue"). Mais E[X ] est loin de dcrire de faon prcise la distribution de X .
Exemple : Considrons deux actions A1 et A2 , et leur volution en une unit de temps xe. - Si lconomie reste telle quelle est, les deux actions vont augmenter de 5%. - Si lconomie samliore, A1 va prendre 10% et A2 50%. - Si lconomie se dtriore, A1 va perdre 10% et A2 50%. En outre, supposons que lconomie samliorera avec proba .2, se dtriorera avec proba .2, donc restera inchange avec proba .6. Si on note respectivement X1 et X2 le pourcentage pris par A1 et A2 , on a que E[X1 ] = (10%) .2 + 5% .6 + 10% .2 = 3% E[X2 ] = (50%) .2 + 5% .6 + 50% .2 = 3%
ch.2-p.33i
Variance
Les bnces attendus pour A1 et A2 concident... Mais les deux actions sont rellement diffrentes : Le risque associ A2 est beaucoup plus lev que celui associ A1 . Cette caractristique, qui est bien prsente dans la distribution de X1 et X2 , ne lest pas dans le rsum de ces distributions que constituent E[X1 ] et E[X2 ].
ch.2-p.34i
Variance
Pour mesurer le "risque" ou la variabilit dune variable alatoire, on a recours au concept de variance. Dnition La variance de la v.a. X est
2 X
= Var[X ] = E (X X )2 =
o X = E[X ].
iI (xi
X )2 pi
2
si X est discrte si X est continue,
(x X ) f (x)dx
La quantit |X X | (ou son carr (X X )2 ) mesure lcart de X sa valeur attendue X .
Var[X ] est alors la valeur attendue de cette cart (carr).

ch.2-p.35i
Variance
Proprits principales de la variance : Thorme Soient X1 , X2 deux v.a. et a R. Alors (i) Var[aX ] = a2 Var[X ] (ii) Var[X + a] = Var[X ] (iii) Var[a] = 0 (iv) Var[X ] = E[X 2 ] (X )2 (v) Si Var[X ] = 0, alors X = constante. Le point (iv), qui facilite le calcul de la variance en pratique, dcoule du fait que Var[X ] = E (X X )2 = E X 2 2X X + (X )2 = = = E[X 2 ] 2(X )2 + (X )2 E[X 2 ] (X )2 . E[X 2 ] 2X E[X ] + E[(X )2 ]
Le point (v) est une consquence directe du point (v) du thorme en page 32.
ch.2-p.36i
Variance
En pratique, on utilise ainsi Var[X ] = E[X ] (X ) =
2 2
iI (xi ) 2
pi (X )2
2
si X est discrte si X est continue.
x f (x)dx (X )
Exemple des deux actions : Puisque
2 E[X1 ] = (10%)2 .2 + (5%)2 .6 + (10%)2 .2 = 55(%)2 2 E[X2 ] = (50%)2 .2 + (5%)2 .6 + (50%)2 .2 = 1015(%)2 ,
on obtient
2 Var[X1 ] = E[X1 ] (X1 )2 = 55(%)2 (3%)2 = 46(%)2 2 Var[X2 ] = E[X2 ] (X2 )2 = 1015(%)2 (3%)2 = 1006(%)2 ,
ce qui traduit bien le ct plus volatile de la seconde action.

ch.2-p.37i
Ingalit de Tchebychev
Thorme (ingalit de Tchebychev) a > 0, P[|X X | > a X ] 1/a2 Ceci doit se lire "il y a moins dune chance sur a2 que X prenne une valeur au del de a fois la racine carre de la variance par rapport X ." Preuve : Soit a > 0. Posons Y = 1 0
2 si (X X )2 > a2 X sinon.
2 Clairement, on a toujours (X X )2 a2 X Y . Donc on a 2 2 2 X = E[(X X )2 ] E[a2 X Y ] = a2 X E[Y ]
2 2 = a2 X P[(X X )2 > a2 X ],
2 = a2 X (1 P[Y = 1] + 0 P[Y = 0])
ce qui fournit le rsultat.

ch.2-p.38i
Plan du chapitre 2
ch.2-p.39i
Quelques distributions discrtes classiques

(i) X est de distribution de Bernoulli de paramtre p( [0, 1]) (notation : X Bern(p)) si la distribution de X est donne par valeurs possibles probabilits 0 1p 1 p
Ceci modlise des situations o on na que deux rsultats possibles : succs (1) ou chec (0). On vrie directement quon a E[X ] = p et Var[X ] = p(1 p). Evidemment, pour un espace probabilis quelconque (, A, P), on a que, pour tout A A, la variable alatoire 1 si A se produit X = IA := 0 sinon est Bernoulli de paramtre p = P[A].
ch.2-p.39i
(ii) X est de distribution binomiale de paramtres n ( N0 ) et p ( [0, 1]) (notation : X Bin(n, p)) si la distribution de X est donne par Distribution de X 1 ... np(1 p)n1 . . .
0 (1 p)n
`n
k
k p k (1 p)nk
... ...
n pn
La v.a. X compte le nombre de succs dans une suite de n expriences de type "succs-chec" (o un succs se produit avec probabilit p) rptes de faon indpendantes. On vrie que E[X ] = np et Var[X ] = np(1 p).
ch.2-p.40i
F IGURE: Rpartition des probabilits de Bin(n, p), pour n = 8 et p = .1, .2, .5, .8, .9
ch.2-p.41i
(iii) X est de distribution de Poisson de paramtre ( R+ ) 0 (notation : X Poi() ou X P()) si la distribution de X est donne par Distribution de X 0 1 ... e e . . .
k e k /(k !)
... ...
La v.a. X compte le nombre de ralisations dun vnement rare au cours dune certaine priode de temps (nombre de dcs suite une maladie rare au cours dune anne, nombre de Ferrari passant par le boulevard Gnral Jacques au cours dune journe, etc.) On vrie que E[X ] = et Var[X ] = .
ch.2-p.42i
F IGURE: Rpartition des probabilits de Poi(), pour = 1, 5, 10.
ch.2-p.43i
Si n et p 0 de telle manire que np (> 0), on a que P[Bin(n, p) = k ] P[Poi() = k ] Ce rsultat justie linterprtation de la distribution de Poisson (=le comptage ldu nombre de ralisations dun vnement rare au cours dune certaine priode de temps) permet dapproximer une Bin(n, p) par une Poi(np) (pour n grand, p petit) est compatible avec le fait que E[X ] = et Var[X ] = . k N.
ch.2-p.44i
F IGURE: Approximation dune binomiale par une Poisson.
ch.2-p.45i
(iv) X est de distribution gomtrique de paramtre p ( (0, 1)) (notation : X Geom(p)) si la distribution de X est donne par Distribution de X 2 ... (1 p)p . . .
1 p
k (1 p)k 1 p
... ...
La v.a. X compte le nombre de rptitions (indpendantes) dune exprience de type succs-chec ncessaires pour avoir le premier succs. On vrie que E[X ] = 1/p et Var[X ] = (1 p)/p 2 .
ch.2-p.46i
F IGURE: Rpartition des probabilits de Geom(p), pour p = .8, .5, .2
ch.2-p.47i
On a donc considr les distributions (i) de Bernoulli, (ii) binomiales, (iii) de Poisson, et (iv) gomtriques. On pourrait encore prsenter les distributions (v) binomiales ngatives, (vi) hypergomtriques, (vii) ... Nous renvoyons cependant aux monographes donns en rfrence pour ltude de ces distributions supplmentaires.
ch.2-p.48i
Plan du chapitre 2
ch.2-p.49i
Quelques distributions continues classiques

(i) X est de distribution uniforme sur (a, b) ( < a < b < ) (notation : X Unif(a, b)) si X admet la fonction de densit dnie par 8 1 > < si x (a, b) ba f (x) = > : 0 sinon. Ceci fournit x a F (x) = > ba > > : 1 8 > > > < 0
si x a
si x (a, b) si x b.
1 h, ba qui est proportionnelle la longueur h de lintervalle [c, c + h], mais ne dpend pas de sa position (dtermine par c). P[c X c + h] = Le temps dattente du bus 71 est une v.a. de loi Unif(0, d), o d est lcart (suppos constant) entre deux bus !
ch.2-p.49i
Le nom de cette distribution est justi par le fait que, pour 0 c c + h 1, on a
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Unif(0, 1).
ch.2-p.50i
On a E[X ] = Z

x f (x)dx =
x
a
b x2 a+b 1 dx = . = ba 2(b a) a 2
Dautre part, comme Z E[X 2 ] =
x 2 f (x)dx =
b a
x2
1 dx ba a2 + ab + b 2 b 3 a3 = , 3(b a) 3
x3 3(b a)
b
a
on obtient Var[X ] = E[X 2 ] (E[X ])2 =
(b a)2 . 12
ch.2-p.51i
(ii) X est de distribution exponentielle de paramtre ( R+ ) 0 (notation : X Exp()) si X admet la fonction de densit dnie par 8 > 1 x / < e si x 0 f (x) = > : 0 sinon. Ceci fournit F (x) = 8 < 1 e x / : 0
si x 0 sinon.
On vriera facilement que
E[X ] = (exercice conseill).
et
Var[X ] = 2
ch.2-p.52i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Exp(), = 1, 2 et 4.
ch.2-p.53i
Cette distribution est souvent utilise pour modliser la dure de vie de certains composants. Mais, de faon surprenante, elle modlise la dure de vie dun composant "qui ne vieillit pas" ! Ceci est en lien avec le fait que la distribution exponentielle est "sans mmoire" : pour h > 0, on a P[X > x + h|X > x] = P[[X > x + h] [X > x]] P[X > x + h] = P[X > x] P[X > x]
e (x +h)/ 1 P[X x + h] = = e h/ = 1 P[X h] = P[X > h]. 1 P[X x] e x /
ch.2-p.54i
(iii) X est de distribution normale centre rduite (notation : X N (0, 1)) si X admet la fonction de densit dnie par
2 1 f (x) = (x) := e x /2 . 2
La fonction de rpartition associe F (x) = (x) := nadmet pas de forme explicite. On vrie que E[X ] = 0 et Var[X ] = 1. Z
x
(y ) dy
ch.2-p.55i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X N (0, 1). Le graphe de cette fonction de densit est souvent appele cloche de Gauss.
ch.2-p.56i
F IGURE: Table de la fonction de rpartition de la loi N (0, 1).

ch.2-p.57i

(iii) X est de distribution normale de paramtres ( R) et 2 ( R+ ) 0 (notation : X N (, 2 )) si la distribution de X est la mme que celle de Z + , o Z N (0, 1). On vriera (exercice conseill) que la densit de X est (x )2 1 x 1 2 2 , f (x) = e = 2 2 et que la fonction de rpartition de X est F (x) = ( x ). De la dnition ci-dessus, il dcoule directement que ( E[X ] = E[Z + ] = E[Z ] + =
Var[X ] = Var[Z + ] = Var[Z ] = 2 Var[Z ] = 2 ,
ce qui donne une interprtation claire aux paramtres de la loi N (, 2 ). Centrer-rduire une variable X N (, 2 ) La remplacer par Z = (X )/, qui, par dnition, est de loi N (0, 1).
ch.2-p.58i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X N (0, 1) et de X 1 N ( = 1, 2 = 4 ).

ch.2-p.59i
F IGURE: Lancien billet de 10 deutschemarks.
ch.2-p.60i
Dans des calculs ultrieurs, on utilisera beaucoup les proprits de symtrie des lois normales, qui dcoulent toutes de lidentit (x) = (x) x : Si X N (0, 1) (et x 0),
1 P[X < x] = P[X > x] (et en particulier P[X < 0] = P[X > 0] = 2 ), ce qui se rcrit (x) = 1 (x) et explique pourquoi on ne tabule que (x), x 0.
P[|X | > x] = 2P[X > x].
Si X N (, 2 ) (et x 0),
1 P[X < x] = P[X > + x] (et en particulier P[X < ] = P[X > ] = 2 )
P[|X | > x] = 2P[X > + x].
ch.2-p.61i

(iv) X est de distribution lognormale de paramtres ( R) et 2 ( R+ ) 0 (notation : X LN (, 2 )) si ln X N (, 2 ). De manire quivalente, X a la mme distribution que e +Z , o Z N (0, 1). On vriera (exercice conseill) que la fonction de rpartition de X est 8 > > (ln x) si x > 0 < F (x) = > > : 0 sinon
On en dduit que la mdiane de cette distribution vaut F 1 ( 1 ) = e . Enn, on peut 2 montrer que 2 2 2 + 2 et Var[X ] = (e 1)e 2 + . E[X ] = e
ch.2-p.62i
et que sa fonction de densit est 8 ((ln x) )2 > > > < 1 2 2 e f (x) = x 2 2 > > > : 0
si x > 0 sinon.
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X LN (0, 1) (mdiane=1, moyenne1.65, variance4.67) et de X LN ( = 1, 2 = 1 ) (mdiane2.72, moyenne 4 3.08, variance2.69).
ch.2-p.63i
(v) X est de distribution de Student degrs de libert ( N0 ) (notation : X t ) si X admet la fonction de densit dnie par f (x) = (( + 1)/2) (1 + x 2 /)(+1)/2 . (/2)
On peut montrer que E[X ] = 0 pour > 1 Remarques : - Quand , t N (0, 1). - Ces distributions sont utilises pour modliser des phnomnes o des vnements extrmes se produisent plus souvent que pour la loi normale ("queues lourdes"). - Au plus est petit, au plus ce phnomne de queues lourdes est prononc.
ch.2-p.64i
et
Var[X ] =
pour > 2.
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X t , = , 5, 1 (remarque : t = N (0, 1)).

ch.2-p.65i
(vi) X est de distribution chi-carr k degrs de libert (k N0 ) (notation : X 2 ) k si X admet la fonction de densit dnie par 8 k 1 x /2 1 > > si x 0 < k k x2 e 2 2 ( 2 ) f (x) = > > : 0 sinon, o x (x) = On peut montrer que ( E[X ] = k Var[X ] = 2k . R
0
t x 1 e t dt est la fonction Gamma dEuler.
ch.2-p.66i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X 2 , k = 1, 2, 3, 5, et 7. k
ch.2-p.67i
(vii) X est de distribution de Fisher-Snedecor (F) k1 et k2 degrs de libert (k1 , k2 N0 ) (notation : X Fk1 ,k2 ) si X admet la fonction de densit dnie par 8 s k > > (k1 x)k1 k2 2 1 > < si x 0 k1 k2 k1 +k2 x B( 2 , 2 ) (k1 x + k2 ) f (x) = > > > : 0 sinon, o (x, y ) B(x, y ) = On peut montrer que R1
0
t x 1 (1 t)y 1 dt est la fonction Beta. k2 k2 2
E[X ] = et Var[X ] =
pour k2 > 2
2 2k2 (k1 + k2 2) k1 (k2 2)2 (k2 4)
pour k2 > 4.
ch.2-p.68i
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X Fk1 ,k2 , k1 = 1, 2, 3, 5, et 7, et k2 = 3 dans chaque cas.
ch.2-p.69i

Les lois 2 , Fk1 ,k2 , t admettent les dnitions quivalentes suivantes, qui appak raissent ici comme des proprits de ces lois : X 2 X a la mme distribution que k mutuellement indpendantes.
k X i=1
Zi2 , o les Zi N (0, 1) sont
X Fk1 ,k2 X a la mme distribution que sont mutuellement indpendantes. X t X a la mme distribution que p sont mutuellement indpendantes.
Y1 /k1 , o Y1 21 et Y2 22 k k Y2 /k2
Z , o Z N (0, 1) et Y 2 Y /
La raison pour laquelle nous navons pas adopt ces proprits comme dnitions est que la notion dindpendance de v.a. ne sera dnie quau chapitre suivant. Nanmoins, nous insistons sur le fait quau terme du cours, ce sont les proprits ci-dessus qui devraient permettre chacun didentier les lois 2 , Fk1 ,k2 , ou t . k
ch.2-p.70i
Dans le cas continu aussi, nous renvoyons aux monographes donns en rfrence pour la prsentation dautres distributions continues classiques, parmi lesquelles les lois gamma, les lois beta, ...
ch.2-p.71i
Plan du chapitre 2
ch.2-p.72i
Moments
Pour mesurer la position dune v.a. X , on utilise son esprance X = E[X ]. 2 Pour mesurer la dispersion dune v.a. X , on utilise sa variance X = E[(X X )2 ]. Pour mesurer dautres caractristiques, on peut utiliser dautres moments. Dnition Soit k {1, 2, . . .} Le moment non centr dordre k de X : ,X = E[X k ]. k Le moment centr dordre k de X : k ,X = E[(X )k ]. 1,X
2 On a donc X = et X = 2,X . 1,X
Parfois, on mesure plutt la dispersion par lcart-type. Dnition Lcart-type de X est X = p Var[X ].
Lcart-type a lavantage de sexprimer dans les mmes units que X (en % plutt quen (%)2 dans lexemple faisant intervenir les deux actions).
ch.2-p.72i
Moments
En pratique, ,X = E[X k ] = k et k ,X = E[(X )k ] 1,X = ( ( P

iI (xi ) k
pi
si X est discrte si X est continue
x k f (x)dx
iI (xi
)k pi 1,X )k f (x)dx 1,X
(x
ch.2-p.73i
Moments
Sur la base du moment dordre 3, on peut fonder une mesure dasymtrie. Dnition Le coefcient dasymtrie (skewness) de X est 3,X 3,X 1,X := = 3 . (2,X )3/2 X Cette mesure est invariante sous changement de position et dchelle, au sens o 1,aX +b = 1,X pour tout a > 0 et tout b. Interprtation : - Si la distribution est symtrique par rapport une certaine valeur, on a 1 = 0. - Si la distribution est asymtrique gauche, on a 1 < 0. - Si la distribution est asymtrique droite, on a 1 > 0. (clarication sur la base de la gure suivante) Exemples typiques : salaires, dpenses,...
ch.2-p.74i
Moments
F IGURE: Rpartition des probabilits de Bin(n, p), pour np 8 et p = .1, .2, .5, .8, .9, avec = dans chaque cas la valeur numrique de 1 = (1 2p)/ np(1 p).
ch.2-p.75i
Moments
Sur la base du moment dordre 4, on peut fonder une mesure du poids des queues. Dnition Le coefcient daplatissement (kurtosis) de X est 4,X 4,X 3 = 4 3 . 2,X := (2,X )2 X Comme le coefcient dasymtrie, le coefcient daplatissement est invariant sous changement de position et dchelle : 2,aX +b = 2,X pour tout a > 0 et tout b. Interprtation : - Si la distribution a des queues "de mme poids que celles des distributions normales", on a 2 = 0. - Si les queues sont "plus lourdes", on a 2 > 0. - Si les queues sont "plus lgres", on a 2 < 0. (clarication sur la base de la gure suivante). Exemple typique : les returns dactions,...
ch.2-p.76i
Moments
F IGURE: Fonction de rpartition (F ) et fonction de densit (f ) de X t (= N (0, 1)) (rouge), de X t5 (vert), et de X t1 (bleu).
ch.2-p.77i
Moments
Lexemple prcdent montre que certains moments peuvent tres innis. Dnition Si E[|X k |] = , on dit que X nadmet pas de moment dordre k . Dans ce cas, on ne peut pas parler de E[X k ]. - On peut montrer que si E[|X k |] < , alors E[|X |] < < k . - Linexistence de certains moments est typiquement associe la prsence de queues lourdes (qui font diverger les sries/intgrales dnissant les moments correspondants). Par exemple, la distribution t nadmet pas de moment dordre k , ce qui est lorigine des restrictions sur la page 64.
ch.2-p.78i
Fonction gnratrice des moments

Dnition La fonction gnratrice des moments dune v.a. X est M: R R t M(t) := E[e ] =
tX
iI tx
e txi pi
e f (x)dx
Exemples pour quelques lois classiques : Loi discrte Bern(p) Bin(n, p) Poi() Geom(p) M(t) 1 p + pe t (1 p + pe t )n e (e 1) pe t 1 (1 p)e t
t
Loi continue
U(a, b)
Exp() N (, 2 ) 2 k
M(t) e tb e ta t(b a) 1 1 t e t+ 2
1 2t2
(1 2t)k /2 , t <
1 2
ch.2-p.79i

Exemple de calcul de M(t) : si X N (0, 1), M(t) = E[e ] =
tX
e f (x)dx
tx
e tx
x2 1 e 2 dx 2 (x t)2 2 dx
t2 Z e2 t e2,
2
1 e 2
= o la dernire galit dcoule du fait que
(x t )2 1 x e 2 2
est une fonction de densit (cest la densit de la loi N (t, 1)), et donc sintgre 1.
ch.2-p.80i
Remarque : Il arrive que cette fonction ne soit pas dnie (cest le cas si X t ). Comme son nom lindique, la fonction gnratrice des moments permet entre autres de calculer les moments de X . Thorme d k M(t) = ,X k dt k t=0
ch.2-p.81i

Soit X Bin(n, p). Comme vu plus haut, on a alors M(t) = (1 p + pe t )n . On obtient donc E[X ] = = 1 De mme, 2 = = = dM(t) = [n(1 p + pe t )n1 pe t ] = np. dt t=0 t=0
[n(n 1)(1 p + pe t )n2 p 2 e 2t + n(1 p + pe t )n1 pe t ] n(n 1)p 2 + np
d 2 M(t) 2 dt t=0
t=0
livre Var[X ] = ( )2 = n(n 1)p 2 + np (np)2 = np(1 p). 2 1 p En continuant, on pourrait obtenir lexpression 1 = (1 2p)/ np(1 p) donne la page 75.
ch.2-p.82i
Le rsultat suivant est galement trs important. Thorme Soient X et Y deux v.a. admettant respectivement les fonctions gnratrices des moments MX (t) et MY (t). Si MX (t) = MY (t) t, alors X et Y ont la mme distribution. Autrement dit, lune des manires de montrer que deux v.a. ont la mme distribution est de montrer quelles partagent la mme fonction gnratrice des moments. Ceci sera utilis dans la suite.
ch.2-p.83i
Plan du chapitre 3
Vecteurs alatoires Dnition, distribution jointe et fonction de rpartition Distribution jointe et distributions marginales Distributions conditionnelles Indpendance Covariance, corrlation, et matrice de variance-covariance Courbes de rgression Lois normales bivaries Distributions k -varies
ch.3-p.84i
Plan du chapitre 3
ch.3-p.1i
Dnition et distribution jointe

Gnralement, on sintresse plusieurs variables alatoires (v.a.) Dans ce cas, les outils du chapitres prcdents sappliquent encore, et apportent de linformation sur chaque v.a. dividuelle. Mais ils ne captureront pas le lien entre ces diverses v.a. Or ce lien est souvent dun grand intrt, que ce soit pour faire de la prvision dune variable sur la base des autres, pour juger de limpact de certaines variables sur une variable xe, pour dtecter un ventuel problme, ...
Exemple : X = la taille dun tre humain (en cm) Y = le poids de la mme personne (en kg) On mesure X et Y sur 1000 personnes...
ch.3-p.1i
ch.3-p.2i
F IGURE: Un individu " risque"...

ch.3-p.3i
F IGURE: ... Masqu dans les distributions individuelles de X et de Y .
ch.3-p.4i
Un autre exemple : "En bourse, il faut diversier pour diminuer le risque." Soient A1 , . . . , Ak des actifs nanciers. Soient X1 , . . . , Xk les valeurs (alatoires !) respectives de ces actifs (en euros). Un portefeuille est une quantit (alatoire) agrge, du type Z = c1 X1 + c2 X2 + . . . + ck Xk , o ci est le nombre de titres Ai en portefeuille. Le risque associ au portefeuille (qui est souvent mesur par Var[Z ]) dpend du risque individuel de chaque Ai (mesur par Var[Xi ]), mais aussi de la dpendance entre les Xi (cest une trs mauvaise ide de ne possder que des actions du secteur bancaire !)
ch.3-p.5i
Soit une exprience alatoire E. Soit un espace probabilis (, A, P) associ. Dnition Un vecteur alatoire (v.a.!) (bivari) est une fonction (X , Y ) : R2 (X (), Y ())
vriant la condition technique que, pour tout borlien B B2 , [(X , Y ) B] A o [(X , Y ) B] := { : (X (), Y ()) B}. Plus tard, on considrera aussi des v.a. k -varis (X1 , X2 , . . . , Xk ). Etendre la thorie ce cas est relativement simple (la notation devient seulement un peu lourde). ()
ch.3-p.6i
Dnition et exemples
B (X( ),Y( ))
1 (X(2),Y(2)) 2 (X(3),Y(3)) (X(4),Y(4))
[(X,Y)B]
(X(1),Y(1))
=
ch.3-p.7i
Distribution jointe, fonction de rpartition

Comme dans le cas des variables alatoires, lensemble des valeurs possibles {(X (), Y ()) : } ne dcrit le v.a. que trs partiellement. Ce qui dcrit compltement (X , Y ) est sa distribution jointe, cest--dire la mesure de probabilit P (X ,Y ) : B2 B [0, 1] P (X ,Y ) [B] = P[(X , Y ) B],
ou, de manire quivalente, sa fonction de rpartition : Dnition La fonction de rpartition de (X , Y ) est la fonction F : R2 (x, y ) [0, 1] P[X x, Y y ].
ch.3-p.8i
y0
(x0,y0)
x0
F IGURE: F (x0 , y0 ) = P[X x0 , Y y0 ]
ch.3-p.9i

Comme annonc, la distribution jointe P (X ,Y ) et la fonction de rpartition F fournissent la mme information sur (X , Y ).
En effet, A partir de P (X ,Y ) , on peut calculer directement F (x, y ) = P (X ,Y ) [(, x] (, y ]]. A partir de F , on obtient P (X ,Y ) [(a1 , b1 ] (a2 , b2 ]] = = P[a1 < X b1 , a2 < Y b2 ]
F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ),
ce qui permet de determiner P (X ,Y ) [B] pour nimporte quel B (puisque tout borlien B sobtient par runion/intersection dune collection dnombrable de tels rectangles (a1 , b1 ] (a2 , b2 ]).
ch.3-p.10i

y
b2
(a1,b2)
(b1,b2)
a2 (a1,a2)
(b1,a2)
a1
b1
F IGURE: P[a1 < X b1 , a2 < Y b2 ] = F (b1 , b2 ) F (a1 , b2 ) F (b1 , a2 ) + F (a1 , a2 ) (preuve gomtrique)
ch.3-p.11i
C R1 R2
y2 x2
R3
R4
x1
y1
F IGURE: Rappel du chapitre 1 : le disque C appartient B2 car il se dcompose en une union dnombrable de rectangles disjoints : C = R1 R2 R3 R4 ... Ce qui implique que P[(X , Y ) C] = P[(X , Y ) R1 ] + P[(X , Y ) R2 ] + P[(X , Y ) R3 ] + P[(X , Y ) R4 ] + . . .
ch.3-p.12i
Comme on vient de le voir, la fonction de rpartition F fournit linformation ncessaire pour obtenir P[(X , Y ) B] pour tout B. Nanmoins, le lien entre cette probabilit et F nest pas trs explicite.
Nous allons donc voir maintenant comment on peut calculer en pratique ces probabilits. Nous traiterons sparment les v.a. discrets et les v.a. continus. Dnition Le v.a. (X , Y ) est dit discret si lensemble de ses valeurs possibles {(X (), Y ()) : } est ni ou inni dnombrable. Dnition Le v.a. (X , Y ) est dit continu si sa fonction de rpartition F est continue.
ch.3-p.13i
Plan du chapitre 3
ch.3-p.14i
Distribution jointe et distributions marginales : le cas discret

Dnition Le v.a. (X , Y ) est dit discret si lensemble de ses valeurs possibles {(X (), Y ()) : } est ni ou inni dnombrable. Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue) Autrement dit, (X , Y ) : (i, j) R2 (i + j, |i j|).
Comme X () = {2, 3, . . . , 12} et Y () = {0, 1, . . . , 5} sont nis, (X , Y ) est clairement un v.a. discret.
ch.3-p.14i

Supposons que (X , Y ) soit un v.a. discret. Notons xi , i I, les valeurs possibles de X . Notons yj , j J , les valeurs possibles de Y . Lensemble des valeurs possibles de (X , Y ) {(xi , yj ) : i I, j J }. La distribution jointe de (X , Y ) est compltement caractrise par le tableau des valeurs possibles et des probabilits correspondantes pij := P[(X , Y ) = (xi , yj )] x1 p11 p12 . . . (p1 ) x2 p21 p22 . . . (p2 ) ... ... ... .. . ... (xk ) (pk 1 ) (pk 2 ) . . . (pk )
y1 y2 . . . (y ) grce la relation P[(X , Y ) B] =
i,j:(xi ,yj )B
P[(X , Y ) = (xi , yj )] B B2 .
ch.3-p.15i
y y4 y3
y2 y1 x1 x2 x3 x
F IGURE: Collection des valeurs possibles pour (X , Y ).
ch.3-p.16i
y y4 y3 B
y2 y1 x1 x2 x3 x
F IGURE: Calcul des probabilits : P[(X , Y ) B] = P[(X , Y ) = (x2 , y2 )] + P[(X , Y ) = (x2 , y3 )] + P[(X , Y ) = (x3 , y3 )].
ch.3-p.17i
y y4 y3
B=[X=x2]
y2 y1 x1 x2 x3 x
F IGURE: En guise de cas particulier important, on a P[X = x2 ] = P[(X , Y ) B] = P[(X , Y ) = (x2 , y1 )] + . . . + P[(X , Y ) = (x2 , y4 )].
ch.3-p.18i

Ceci explique comment calculer la distribution de X partir de la distribution jointe : X X pij P[(X , Y ) = (xi , yj )] = pi := P[X = xi ] =
jJ jJ
x1 p 1
x2 p 2
... ...
(xk ) (pk )
On parlera de distribution marginale (>< distribution jointe).
Cette distribution marginale est celle dune variable alatoire (>< vecteur alatoire). Comme au chapitre prcdent, on peut donc lutiliser pour calculer des probabilits du type P[X B], en calculer lesprance, la variance, etc. Par exemple, X xi pi , E[X ] =
iI
Var[X ] =
E[(X E[X ])2 ] =

2 2
E[X ] (E[X ]) =
iI (xi
E[X ])2 pi
2
(pour linterprtation) (pour le calcul).

ch.3-p.19i
iI (xi )
pi (E[X ])2

De mme, la distribution marginale de Y est donne par X X pij P[(X , Y ) = (xi , yj )] = pj := P[Y = yj ] =
iI iI

y y4 y3
y1 p1
y2 p2
... ...
(y ) (p )
y2 B=[Y=y1] y1 x1 x2 x3 x
ch.3-p.20i
On reporte souvent ces distributions marginales dans le tableau de la distribution jointe (auquel on peut aussi ajouter les esprances et variances marginales) : x1 p11 p12 . . . (p1 ) p 1 x2 ... p21 ... p22 ... . .. . . . (p2 ) . . . p 2 ... E[X ] Var[X ] (xk ) (pk 1 ) (pk 2 ) . . . (pk ) (pk )
y1 y2 . . . (y )
p1 p2 . . . (p ) 1
E[Y ]
Var[Y ]
Ce nest pas parce quon sintresse (X , Y ) quon ne sintresse pas aux distributions marginales !
ch.3-p.21i
Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue)
2 0 1 2 3 4 5
1 36 2 36 2 36 2 36 2 36 2 36
4
1 36
5
2 36
6
1 36
7
2 36
8
1 36
9
2 36
10
1 36
11
2 36
12
1 36
2 36 2 36
2 36 2 36 2 36
2 36
ch.3-p.22i

2 0 1 2 3 4 5
1 36 2 36 3 36 4 36 5 36 1 36 2 36 2 36 2 36 2 36 2 36 6 36
4
1 36
5
2 36
6
1 36
7
2 36
8
1 36
9
2 36
10
1 36
11
2 36
12
1 36 6 36 10 36 8 36 6 36 4 36 2 36
E[Y ] =
35 18
Var[Y ] =
665 324
2 36 2 36
2 36 2 36 2 36
2 36
1.94
2.05
5 36
4 36
3 36
2 36
1 36
E[X ] = 7 Var[X ] = 35 5.83 6

ch.3-p.23i
Distribution jointe et distributions marginales : le cas continu

Dnition Le v.a. (X , Y ) est dit continu si sa fonction de rpartition F est continue. Tout comme pour les variables alatoires, on va se restreindre au cas particulier o F est drivable (dans ce cas bivari, deux fois) sauf ventuellement en un nombre ni de points (x, y ). On adopte la dnition suivante. Dnition La fonction de densit de (X , Y ) est la fonction (x, y ) f (x, y ) = On peut alors montrer que, pour tout B B2 , ZZ P[(X , Y ) B] = f (x, y ) dy dx,
B 2F (x, y ). x y
ce qui indique que la fonction de densit dtermine la distribution jointe de (X , Y ).
ch.3-p.24i

Proprits de f : f (x, y ) 0 (x, y ) R2 RR f (x, y ) dy dx = 1 R2
Toute fonction f satisfaisant ces proprits est en fait la densit dun v.a. continu.
Pour B = (a1 , b1 ] (a2 , b2 ], on obtient P[(X , Y ) B] = P[a1 < X b1 , a2 < Y b2 ] = En particulier, on a F (x, y ) = P[ < X x, < Y y ] = Z
x
b1
a1
Z
y
b2
f (x, y ) dy dx.
a2
f (x, y ) dy dx;
f et F fournissent donc deux descriptions quivalentes de la distribution P (X ,Y ) (P (X ,Y ) F f ).

ch.3-p.25i

En pratique, lvaluation de cette "intgrale double" se fait de faon squentielle (en traitant dabord une variable comme constante) : Z b1 Z b2 P[a1 < X b1 , a2 < Y b2 ] = f (x, y ) dy dx
a1 a2
a1
b1 Z
b2
f (x, y ) dy
a2
une fonction de x
{z
dx
ou, de manire quivalente (le rsultat est le mme !), Z b2 Z b1 P[a1 < X b1 , a2 < Y b2 ] = f (x, y ) dx dy
a2 a1
b2 a2
Z |
b1
f (x, y ) dx
a1
une fonction de y
{z
dy
}
ch.3-p.26i
b2
b2
a2
a2
a1
F IGURE: R b1 R b2
a1 a2
b1
. . . dy dx F IGURE:
a1
R b2 R b1
a2 a1
b1
. . . dx dy
ch.3-p.27i
Exemple : Une chane de restauration rapide vend des hamburgers selon deux modalits distinctes : un comptoir traditionnel un drive-in Soit X la proportion du temps o le comptoir traditionnel est occup le jeudi. Soit Y la proportion du temps o le drive-in est occup le jeudi. Supposons que (X , Y ) admet la fonction de densit 8 > 6 (x + y 2 ) si (x, y ) [0, 1] [0, 1] < 5 f (x, y ) = > : 0 sinon.
ch.3-p.28i
F IGURE: Graphe ( gauche) et courbes de niveau ( droite) de (x, y ) f (x, y ).

ch.3-p.29i

Le manager est satisfait si le comptoir traditionnel est occup au moins la moiti du temps et le drive-in au moins un quart du temps, ce qui arrive avec la probabilit P[1/2 X 1, 1/4 Y 1], laquelle vaut Z = Z
1 1 1/2
f (x, y ) dy dx
1/4 1
Z dx = Z Z
1
1/4
f (x, y ) dx dy
1/2 1
1/2 1
1/4
6 (x + y 2 ) dy 5
1/4 1
1/2
6 (x + y 2 ) dx 5
dy
y =1 y3 6 xy + dx 3 1/2 5 y =1/4 Z
1 1/2
2 x =1 6 x + y 2x dy 2 1/4 5 x =1/2 = Z
1 1/4
9x 63 + 10 160 1
dx
9 3y 2 + 20 5 1
dy
9x 2 63x = + 20 160
1/2
171 = 320
9y y3 = + 20 5
1/4
171 320
ch.3-p.30i
Exercice : En procdant de la mme faon, montrer que la fonction de rpartition Z x Z y F (x, y ) = f (x, y ) dy dx

est donne par 8 > 0 > > > > > 1 > > xy (3x + 2y 2 ) > > 5 > > > < 1 F (x, y ) = x(3x + 2) > 5 > > > > 1 > 2 > > > 5 y (3 + 2y ) > > > > : 1
si x < 0 ou y < 0 si (x, y ) [0, 1] [0, 1] si x [0, 1] et y > 1 si x > 1 et y [0, 1] sinon.
ch.3-p.31i

Comme dans le cas discret, on peut dduire de la distribution jointe les distributions marginales : d X d d F (x) = P[X x] = P[ < X x, < Y < ] dx dx dx Z Z x Z d f (x, y ) dy , f (x, y ) dy dx = = dx R et de mme, f Y (y ) = f (x, y ) dx. f X (x) = Il faut noter lanalogie avec les formules discrtes P[X = xi ] = P[Y = yj ] = X
jJ
P[(X , Y ) = (xi , yj )] P[(X , Y ) = (xi , yj )].
X
iI
ch.3-p.32i
Dans le cas du fast food, ceci donne 1 Z Z 1 6xy 2y 3 2 6x 6 (x + y 2 ) dy = + + , 0 x 1, f X (x) = f (x, y ) dy = = 5 5 5 0 5 5 0 f Y (y ) = Z

f (x, y ) dx =
1 0
2 1 3x 6xy 2 6y 2 3 6 (x + y 2 ) dx = + , 0 y 1. = + 5 5 5 0 5 5
(et ces fonctions prennent la valeur zro ailleurs).
ch.3-p.33i
F IGURE: Fonctions de densit marginales de X et de Y .
ch.3-p.34i
Ces distributions marginales permettent encore de calculer, comme au chapitre prcdent, des probabilits du type P[X B], P[Y B], lesprance et la variance de X et de Y , etc. Par exemple, Z E[X ] = x f X (x) dx,
Var[X ] =
E[(X E[X ])2 ] =

2 2
E[X ] (E[X ]) =
(x E[X ])2 f X (x) dx x f (x) dx (E[X ])

2 X 2
ch.3-p.35i

A titre dillustration, on a par exemple Z 1 h h 1 ii Z 1 h 13 2 6x 1i =P X dx = . . . = ,1 = + f X (x) dx = P X 2 2 5 5 20 1/2 1/2 Z 1 h h h 1 ii Z 1 1i 27 6y 2 3 P Y =P Y dy = . . . = ,1 = + f Y (y ) dy = 4 4 5 5 32 1/4 1/4 2 3 dx = . . . = 5 5 5 0 0 Z 1 Z 1 2 6y 3 3 dy = . . . = E[Y ] = + y f Y (y ) dy = y 5 5 5 0 0 E[X ] = x f X (x) dx = x 6x + Var[X ] = E[X 2 ] (E[X ])2 = 11 = ... = 0.073 5 150 0 Z 1 3 2 2 = ... = = 0.08 Var[Y ] = E[Y 2 ] (E[Y ])2 = y 2 f Y (y ) dy 5 25 0 x 2 f X (x) dx
ch.3-p.36i
3 2

On a montr comment on pouvait calculer des probabilits via la formule ZZ P[(X , Y ) B] = f (x, y ) dy dx
B
seulement pour des zones rectangulaires du type B = (a1 , b1 ] (a2 , b2 ]. Mais les applications conduisent souvent des zones non rectangulaires.
Par exemple, le manager du fast food pourrait sintresser la probabilit que le drive-in soit plus utilis que le comptoir traditionnel.
y
Ceci correspond P[X Y ] = P[(X , Y ) Btr ], o Btr = {(x, y ) [0, 1] [0, 1] : x y }.
tr
x
ch.3-p.37i
y
1
Btr
1
y Btr
F IGURE: P[X Y = P[(X , Y ) Btr ] = ] R1 R 1 f (x, y ) dy dx = . . . = 1 x 0 2
F IGURE: P[X Y = P[(X , Y ) Btr ] = ] R1Ry 1 f (x, y ) dx dy = . . . = 2 0 0

ch.3-p.38i
Parfois, cest la structure mme du v.a. qui est non rectangulaire...
Exemple : Soit X les revenus annuels nets dun mnage belge (en milliers deuros). Soit Y les dpenses annuelles de ce mnage (en milliers deuros). Supposons que (X , Y ) admet la fonction de densit 8 1 > < (x 10)(y 10) si 10 < y < x < 30 20000 f (x, y ) = > : 0 sinon.
ch.3-p.39i
y
30
10
10
30
x
F IGURE: Graphe de (x, y ) f (x, y )
F IGURE: La zone colore est celle o la densit f (x, y ) est non nulle
ch.3-p.40i
Plan du chapitre 3
ch.3-p.41i
Distributions conditionnelles
Dans le chapitre 1, nous avons vu que connatre la ralisation dun vnement permettait en gnral dafner la probabilit de ralisation dun autre vnement. Ici, on considre une situation o on connat la valeur qua prise lune des variables alatoires et on est dsireux de savoir si cette information permet dafner la probabilit que lautre variable prenne sa valeur dans une certaine rgion, lesprance ou la variance de lautre variable, ou (plus gnralement) la distribution de lautre variable.
Au contraire des distributions marginales, les distributions conditionnelles permettent dapprhender le lien entre X et Y .
ch.3-p.41i
Distributions conditionnelles : le cas discret

Soit (X , Y ) un v.a. discret. Notons encore xi , i I, les valeurs possibles de X , et yj , j J , les valeurs possibles de Y . Supposons que la distribution jointe de (X , Y ) est dtermine par x1 p11 p12 . . . (p1 ) x2 p21 p22 . . . (p2 ) ... ... ... .. . ... (xk ) (pk 1 ) (pk 2 ) . . . (pk )
y1 y2 . . . (y ) o pij = P[X = xi , Y = yj ]. Rappelons que
pi := P[X = xi ] = pj := P[Y = yj ] =
X
jJ iI
pij , pij .
ch.3-p.42i

Pour chaque xi , la distribution conditionnelle de Y |[X = xi ] est donne par P[Y = yj |X = xi ] = valeurs possibles probabilits P[X = xi , Y = yj ] pij = P[X = xi ] pi y1
pi1 pi
y2
pi2 pi
... ...
(y )
pi ( pi )
Comme pour toute distribution discrte univarie, on peut en calculer lesprance et la variance (qui seront dites ici "conditionnelles") : E[Y |X = xi ] = ( P
jJ (yj
X
jJ
yj
pij , pi
p
Var[Y |X = xi ] =
2 pij jJ (yj ) pi
E[Y |X = xi ])2 p ij
(E[Y |X = xi ])2
ch.3-p.43i

Exemple : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( A = P()) X = somme des rsultats de chaque d Y = diffrence des rsultats de chaque d (en valeur absolue) Distributions conditionnelles de Y sachant les diverses valeurs de X :
2 0 1 2 3 4 5 1 1 1 1 1 1 1
2 3 1 2 2 5 1 3
4
1 3
5
1 2
6
1 5
7
1 3
8
1 5
9
1 2
10
1 3
11 1
12 1
2 5 1 3
2 5 1 2 2 5
2 3
Sachant [X = 3] = {(1, 2), (2, 1)}, le rsultat de E est encore alatoire, mais plus Y !
ch.3-p.44i

Distributions conditionnelles de Y sachant les diverses valeurs de X , avec les esprances et variances correspondantes :
2 0 1 2 3 4 5 1 E Var 0 0 1 1 0 1 1.33 0.89 1 2 1 1 2.4 2.24 1 1
2 3 1 2 2 5 1 3
4
1 3
5
1 2
6
1 5
7
1 3
8
1 5
9
1 2
10
1 3
11 1
12 1
2 5 1 3
2 5 1 2 2 5
2 3
1 3 2.67
1 2.4 2.24
1 2 1
1 1.33 0.89
1 1 0
1 0 0
Les fonctions xi E[Y |X = xi ] et xi Var[Y |X = xi ] portent souvent une information importante sur le lien entre X et Y .
ch.3-p.45i
Jusquici, on a suppos que X prenait une certaine valeur xe xi .
Si on rend X son caractre alatoire, on obtient deux nouvelles variables alatoires : - la v.a. "moyenne conditionnelle E[Y |X ]", de distribution
valeurs possibles probabilits E[Y |X = x1 ] p1 = P[X = x1 ] E[Y |X = x2 ] p2 = P[X = x2 ] ... ... (E[Y |X = xk ]) (pk = P[X = xk ])
- la v.a. "variance conditionnelle Var[Y |X ]", de distribution

valeurs possibles probabilits Var[Y |X = x1 ] p1 = P[X = x1 ] Var[Y |X = x2 ] p2 = P[X = x2 ] ... ... (Var[Y |X = xk ]) (pk = P[X = xk ])
ch.3-p.46i

Un miracle : Thorme E[E[Y |X ]] = E[Y ]. Preuve : E[E[Y |X ]] = X
iI iI
E[Y |X = xi ] pi yj pij pi pi
(dnitions de E[] et de E[Y |X ]) (expression de E[Y |X = xi ])
XX
jJ
XX
iI jJ jJ
yj pij
X X X yj pj = E[Y ]. pij = yj
iI jJ ch.3-p.47i

Distributions conditionnelles de Y sachant les diverses valeurs de X , avec les esprances et variances correspondantes (+ illustration du miracle) :
2 0 1 2 3 4 5 1 E[Y |X = xi ] Var[Y |X = xi ] pi 0 0
1 36
3 1
4
1 3
5
1 2
6
1 5
7
1 3
8
1 5
9
1 2
10
1 3
11 1
12 1
2 3 1 2
2 5 1 3 2 5 1 3
2 5 1 2 2 5
2 3
1 1 0
2 36
1 1.33 0.89
3 36
1 2 1
4 36
1 2.4 2.24
5 36 1 36
1 3 2.67
6 36
1 2.4 2.24
5 36 1 36
1 2 1
4 36 35 (= 18
1 1.33 0.89
3 36
1 1 0
2 36
1 0 0
1 36
E[E[Y |X ]] = 0
+1
+ ... =
E[Y ]!)
ch.3-p.48i
On a E[E[Y |X ]] = E[Y ]. Par contre, il est en gnral faux que E[Var[Y |X ]] = Var[Y ]. Mais on a le rsultat suivant. Thorme E[Var[Y |X ]] = Var[Y ] Var[E[Y |X ]]. Ce thorme sera prouv la page 95 de ce chapitre.
ch.3-p.49i

Bien entendu, tout ce que lon vient de faire pour les distributions conditionnelles de Y sachant X peut galement se faire pour les distributions conditionnelles de X sachant Y ... Pour chaque yj , la distribution conditionnelle de X |[Y = yj ] est donne par valeurs possibles probabilits
P[X =xi ,Y =yj ] P[Y =yj ] pij pj
x1
p1j pj
x2
p2j pj
... ...
(xk )
kj ( pj )
o P[X = xi |Y = yj ] =
. Et on peut dnir X
iI
E[X |Y = yj ] = Var[X |Y = yj ] = X
iI
xi
pij , pj pij , pj
(xi E[X |Y = yj ])2 ...
ch.3-p.50i
Distributions conditionnelles de X sachant les diverses valeurs de Y , avec les esprances et variances correspondantes :
2 0 1 2 3 4 5
1 6 1 5 1 4 1 3 1 2
4
1 6
5
1 5
6
1 6
7
1 5
8
1 6
9
1 5
10
1 6
11
1 5
12
1 6
E 1 1 1 1 1 1 7 7 7 7 7 7
Var 11.67 8 5 2.67 1 0
1 4 1 3
1 4 1 3 1 2
1 4
(on a encore que E[E[X |Y ]] = E[X ] et E[Var[X |Y ]] = Var[X ] Var[E[X |Y ]]).
ch.3-p.51i
Distributions conditionnelles : le cas continu

Par analogie avec le cas discret o on a P[Y = yj |X = xi ] = P[X = xi , Y = yj ] P[X = xi ]
et P[X = xi |Y = yj ] =
P[X = xi , Y = yj ] , P[Y = yj ]
les densits conditionnelles de Y |[X = x] et de X |[Y = y ] sont dnies par f Y |[X =x ] (y ) = f (x, y ) f X (x)
et f X |[Y =y ] (x) =
f (x, y ) . f Y (y )
Il sagit de densits de variables alatoires (><vecteurs alatoires) : on a Z b P[a Y b|X = x] = f Y |[X =x ] (y ) dy ,

a
et on dnit E[Y |X = x] = Var[Y |X = x] = ( R R
y f Y |[X =x ] (y ) dy ,
(y E[Y |X = x])2 f Y |[X =x ] (y ) dy y 2 f Y |[X =x ] (y ) dy (E[Y |X = x])2

ch.3-p.52i
Dans le cas du fast food, ceci donne en particulier (pour chaque x [0, 1]) f (x, y ) = (y ) = X f (x) 3(x + y 2 ) 3x + 1 0 Z
f ce qui livre
Y |[X =x ]
si y [0, 1] sinon,
E[Y |X = x] = et
y f Y |[X =x ] (y ) dy =
6x + 3 3(x + y 2 ) dy = . . . = 3x + 1 12x + 4
Var[Y |X = x] = = Z
1 0
y 2 f Y |[X =x ] (y ) dy (E[Y |X = x])2 6x + 3 12x + 4 2 = ... = 60x 2 + 44x + 3 . 80(3x + 1)2
y2
3(x + y 2 ) dy 3x + 1
ch.3-p.53i
F IGURE: Graphe de x g(x) := E[Y |X = x] : au plus le comptoir traditionnel est occup, au moins le drive-in lest.
ch.3-p.54i
F IGURE: Graphes de x g(x) := E[Y |X = x] (rouge) et x g (x) := E[Y |X = x] p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.55i
Notre second exemple dans le cas continu : Soit X les revenus annuels nets dun mnage belge (en milliers deuros). Soit Y les dpenses annuelles de ce mnage (en milliers deuros). Supposons que (X , Y ) admet la fonction de densit 8 1 > < (x 10)(y 10) si 10 < y < x < 30 20000 f (x, y ) = > : 0 sinon.
ch.3-p.56i
F IGURE: Gauche : au plus on gagne, au plus on dpense en moyenne (mais lincertitude augmente). Droite : au plus on dpense, au plus on gagne en moyenne (et lincertitude diminue).
ch.3-p.57i
Dans le cas continu, on peut dnir la v.a. "moyenne conditionnelle E[Y |X ]" comme la variable alatoire prenant la valeur E[Y |X = x] avec densit f X (x), et la v.a. "variance conditionnelle Var[Y |X ]" comme la variable alatoire prenant la valeur Var[Y |X = x] avec densit f X (x). Alors, comme dans le cas discret, on a le rsultat suivant. Thorme (i) E[E[Y |X ]] = E[Y ]. (ii) E[Var[Y |X ]] = Var[Y ] Var[E[Y |X ]]. Exercice : adapter la preuve de (i) au cas continu. (notre future preuve de (ii) sappliquera tant au cas continu quau cas discret).
ch.3-p.58i

A titre dillustration : dans le cas du fast food, on a E[E[Y |X ]] = Z
E[Y |X = x] f X (x) dx 6x + 3 12x + 4 2 (3x + 1) dx 5
Z Z
0 1
1 (6x + 3) dx 10 1
0
= =
1 (3x 2 + 3x) 10
3 , 5
ce qui concide bien avec E[Y ] (voir la page 36).
ch.3-p.59i
Plan du chapitre 3
ch.3-p.60i
Indpendance
Un cas particulier de "lien" entre X et Y est la situation dindpendance. Dnition X et Y sont indpendants (notation : X Y ) Pour tout B1 , B2 B, [X B1 ] [Y B2 ] (au sens du chapitre 1) Pour tout B1 , B2 B, P[X B1 , Y B2 ] = P[X B1 ]P[Y B2 ]. Si ces probabilits sont non nulles, ceci se rcrit P[Y B2 |X B1 ] = P[Y B2 ] ou P[X B1 |Y B2 ] = P[X B1 ], ce qui est plus compatible avec lintuition dindpendance.
Pour les ds : 0 = P[X = 12, Y = 5] = P[X = 12]P[Y = 5] = Pour le fast food : 171 = P[ 1 X 1, 320 2
1 4
1 36
2 . 36
Y 1] = P[ 1 X 1]P[ 1 Y 1] = 2 4
13 20
27 . 32
Dans les deux cas, X et Y ne sont donc pas indpendants.

ch.3-p.60i
Indpendance
Le rsultat suivant prsente dautres caractrisations de lindpendance. Thorme X Y x, y , F (x, y ) = F X (x)F Y (y ), o F X (x) = P[X x] et F Y (y ) = P[Y y ] i, j, P[X = xi , Y = yj ] = P[X = xi ]P[Y = yj ] (cas discret) x, y , f (x, y ) = f X (x)f Y (y ) (cas continu) i, j, P[Y = yj |X = xi ] = P[Y = yj ] (cas discret) x, y , f Y |[X =x ] (y ) = f Y (y ) (cas continu) i, j, P[X = xi |Y = yj ] = P[X = xi ] (cas discret) x, y , f X |[Y =y ] (x) = f X (x) (cas continu) On a que X Y exactement quand les distributions marginales et conditionnelles concident (ce qui est intuitivement clair !), une situation o, en particulier, les fonctions desprances conditionnelles x E[Y |X = x] et y E[X |Y = y ] (comme celles de variances conditionnelles) sont constantes.
ch.3-p.61i
Indpendance
F IGURE: Les revenus (X ) et les dpenses annuelles (Y ) ne sont donc pas indpendants...
ch.3-p.62i
Indpendance
Exemple de situation dindpendance (cas discret) : E = lancer de deux ds (distinguables) = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (6, 6)} ( X = rsultat du 1er d X = rsultat du 2nd d 1 1 2 3 4 5 6
1 36 1 36 1 36 1 36 1 36 1 36 1 6
A = P())
2
1 36 1 36 1 36 1 36 1 36 1 36 1 6
3
1 36 1 36 1 36 1 36 1 36 1 36 1 6
4
1 36 1 36 1 36 1 36 1 36 1 36 1 6
5
1 36 1 36 1 36 1 36 1 36 1 36 1 6
6
1 36 1 36 1 36 1 36 1 36 1 36 1 6 1 6 1 6 1 6 1 6 1 6 1 6
i, j pij = pi pj X Y
ch.3-p.63i
Indpendance
Cette indpendance se traduit aussi par le fait que, pour chaque xi , la distribution conditionnelle de Y |[X = xi ] concide avec la distribution marginale de Y 1 1 2 3 4 5 6
1 6 1 6 1 6 1 6 1 6 1 6
2
1 6 1 6 1 6 1 6 1 6 1 6
3
1 6 1 6 1 6 1 6 1 6 1 6
4
1 6 1 6 1 6 1 6 1 6 1 6
5
1 6 1 6 1 6 1 6 1 6 1 6
6
1 6 1 6 1 6 1 6 1 6 1 6
dddddd
yj 1 2 3 4 5 6
pj
1 6 1 6 1 6 1 6 1 6 1 6
ch.3-p.64i
Indpendance
Exemple de situation dindpendance (cas continu) : Au dessus de lavenue Hger, on observe le temps X (en min) jusqu la prochaine arrive dun bus 71 (direction ville) le temps Y (en min) jusqu la prochaine arrive dun tram 94 (direction ville) En supposant quun 71 passe exactement toutes les 10 minutes et quun 94 passe exactement toutes les 8 minutes, (X , Y ) admet alors la densit 8 > 1 < si (x, y ) [0, 10] [0, 8] 80 f (x, y ) = > : 0 sinon. On vrie aisment que 8 < 1 si x [0, 10] 10 f X (x) = : 0 sinon 8 < 1 8 f Y (y ) = : 0
et
si y [0, 8] sinon,
ce qui implique que f (x, y ) = f X (x)f Y (y ) x, y . On a donc X Y .

ch.3-p.65i
Indpendance
Puisquon a dni au chapitre 1 lindpendance mutuelle de plus de deux vnements, on peut adopter les extensions suivantes de la dnition en page 60. Dnition X1 , X2 , . . . , Xk sont mutuellement indpendantes Pour tout B1 , B2 , . . . , Bk B, [X1 B1 ], [X2 B2 ], . . . , [Xk Bk ] sont mutuellement indpendants (au sens du chapitre 1) Dnition X1 , X2 , . . . , sont mutuellement indpendantes Pour tout B1 , B2 , . . . B, [X1 B1 ], [X2 B2 ], . . . sont mutuellement indpendants (au sens du chapitre 1) Ceci sera particulirement important pour linfrence statistique, qui supposera (dans ce cours) que les observations sont des ralisations de v.a. indpendantes (pas de couples dans les sondages, ni de "sries chronologiques" !)
ch.3-p.66i
Indpendance
Exemple : X1 = nombre daccidents de voiture par jour Ixelles X2 = nombre daccidents de voiture par jour Etterbeek X3 = nombre daccidents de voiture par jour Uccle Lensemble des valeurs possibles de (X1 , X2 , X3 ) est N N N. Si la distribution jointe est dtermine par P[X1 = k1 , X2 = k2 , X3 = k3 ] = e 1 2 3 11 22 33 , (k1 !)(k2 !)(k3 !)
k k k
1 , 2 , 3 > 0,
X1 , X2 et X3 sont mutuellement indpendantes (exercice). Remarques : - Xi Poi(i ), i = 1, 2, 3. - Si 1 = 2 = 3 , les trois distributions marginales concident : on dira que X1 , X2 et X3 sont i.i.d. ("indpendantes et identiquement distribues").
ch.3-p.67i
Indpendance
Soit (X , Y ) un vecteur alatoire et g : R2 R est une fonction xe. Dans la suite, nous devrons considrer des esprances du type E[g(X , Y )], qui font intervenir simultanment les deux variables alatoires X et Y . Nous adoptons la dnition suivante. Dnition (i) Si le v.a. (X , Y ) est discret, de distribution (xi , yj , pij = P[X = xi , Y = yj ]), i I, j J , lesprance mathmatique de g(X , Y ) est XX g(xi , yj )pij . E[g(X , Y )] =
iI jJ
(ii) Si le v.a. (X , Y ) est continu, et admet la fonction de densit (x, y ) f (x, y ), lesprance mathmatique de g(X , Y ) est Z Z E[g(X , Y )] = g(x, y ) f (x, y ) dy dx.

On peut aussi dnir des versions conditionnelles de telles esprances :

ch.3-p.68i
Indpendance
Dnition (i) Si le v.a. (X , Y ) est discret, de distribution (xi , yj , pij = P[X = xi , Y = yj ]), i I, j J, X X pij g(xi , yj ) g(xi , yj )P[Y = yj |X = xi ] = E[g(X , Y )|X = xi ] = . pi
jJ jJ
(ii) Si le v.a. (X , Y ) est continu, et admet la fonction de densit (x, y ) f (x, y ), lesprance mathmatique de g(X , Y ) est Z E[g(X , Y )|X = x] = g(x, y ) f Y |[X =x ] (y ) dy

g(x, y )
f (x, y ) dy . f X (x)
(iii) Dans les deux cas, on dnit la variable alatoire E[g(X , Y )|X ] travers la relation E[g(X , Y )|X ]() = E[g(X , Y )|X = X ()]. Alors (exercices) (i) E[E[g(X , Y )|X ]] = E[g(X , Y )] dsssddiddddddd (ii) E[h(X )g(X , Y )|X ] = h(X )E[g(X , Y )|X ].
ch.3-p.69i
Indpendance
Thorme Supposons que X Y . Alors E[XY ] = E[X ] E[Y ]. Preuve : dans le cas continu (le cas discret est laiss comme exercice), on a E[XY ] = = Z Z
Z Z
xy f (x, y ) dy dx xy f X (x)f Y (y ) dy dx Z

x f X (x) dx
y f Y (y ) dy
= E[X ] E[Y ].
Remarque : lhypothse dindpendance ne peut tre retire (pour un contre-exemple, voir ch.2-p.32).
ch.3-p.70i
Indpendance
Supposons encore que X Y . Quelles que soient les fonctions f , g, on a encore h(X ) g(Y ) (exercice), ce qui implique que E[h(X )g(Y )] = E[h(X )] E[g(Y )]. En particulier, ceci tablit le rsultat suivant sur la fonction gnratrice des moments de la somme de deux variables alatoires indpendantes. Thorme Supposons que X Y . Alors MX +Y (t) := E[e t(X +Y ) ] = E[e tX ]E[e tY ] = MX (t)MY (t).
ch.3-p.71i
Indpendance
Ceci permet de prouver certaines proprits dadditivit. Thorme Supposons que X Y . Alors (i) X Bin(n1 , p) et Y Bin(n2 , p) X + Y Bin(n1 + n2 , p). (ii) X Poi(1 ) et Y Poi(2 ) X + Y Poi(1 + 2 ). 2 2 2 2 (iii) X N (1 , 1 ) et Y N (2 , 2 ) X + Y N (1 + 2 , 1 + 2 ). 2 2 2 (iv) X k1 et Y k2 X + Y k1 +k2 . Preuve : (i) comme on la vu en ch.2-p.82, on a MX (t) = (1 p + pe t )n si X Bin(n, p). Par consquent, lindpendance entre X et Y fournit MX +Y (t) = MX (t)MY (t) = (1p +pe t )n1 (1p +pe t )n2 = (1p +pe t )n1 +n2 = MZ (t), o Z Bin(n1 + n2 , p). Puisque deux variables alatoires partageant la mme fonction gnratrice des moments ont la mme distribution (ch.2-p.83), on en dduit que X + Y Bin(n1 + n2 , p). (ii)-(iv) Exercice : conclure de la mme faon en utilisant le fait que MX (t) = e (e 1) 1 2 2 si X Poi(), que MX (t) = e t+ 2 t si X N (, 2 ), et que MX (t) = (1 2t)k /2 2 si X k .
t
ch.3-p.72i
Plan du chapitre 3
ch.3-p.73i
Motivation
Considrons un portefeuille boursier ne contenant quun seul titre de lactif A1 et un seul titre de lactif A2 . Sa valeur (alatoire) est donc Z = X + Y, o X est la valeur (alatoire) de A1 et Y est la valeur (alatoire) de A2 .
La valeur attendue pour Z est son esprance E[Z ]. Puisque E[Z ] = E[X ] + E[Y ], on peut valuer cette valeur attendue sur la seule base des distributions marginales de X et de Y . Quen est-il du risque de Z , qui est en gnral mesur par Var[Z ] ?
ch.3-p.73i
Motivation
Les proprits de lesprance mathmatique fournissent Var[Z ] = = = = E[(X + Y E[X + Y ])2 ] E[(X + Y E[X ] E[Y ])2 ] E[{(X E[X ]) + (Y E[Y ])}2 ] E[(X E[X ])2 ] + E[(Y E[Y ])2 ] +E[2(X E[X ])(Y E[Y ])] = Var[X ] + Var[Y ] + 2 E[(X E[X ])(Y E[Y ])].
On voit donc que le risque de la somme Z = X + Y nest pas gal la somme des risques associs X et Y . Le risque de Z peut tre plus grand ou plus petit suivant que la covariance entre X et Y est positive ou ngative... Dnition La covariance entre X et Y est la quantit Cov[X , Y ] = E[(X E[X ])(Y E[Y ])].
ch.3-p.74i
Covariance
Dnition La covariance entre X et Y est la quantit Cov[X , Y ] = E[(X E[X ])(Y E[Y ])]. Thorme (i) Var[X + Y ] = Var[X ] + Var[Y ] + 2 Cov[X , Y ] (ii) Cov[X , Y ] = E[XY ] E[X ] E[Y ] (iii) Si X Y , Cov[X , Y ] = 0 (iv) Si X Y , Var[X + Y ] = Var[X ] + Var[Y ] . Preuve : (i) ceci a t prouv la page prcdente. (ii) On a Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] = E[XY X E[Y ] E[X ]Y + E[X ]E[Y ]] = E[XY ] E[Y ]E[X ] E[X ]E[Y ] + E[X ]E[Y ] = E[XY ] E[X ]E[Y ]. (iii) Le rsultat dcoule directement de (ii) et du thorme en page 70. (iv) Ceci est une consquence triviale de (i) et (iii).
ch.3-p.75i
Covariance
La dnition de covariance Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] conduit aux formules P ( P (cas discret) iI jJ (xi E[X ])(yj E[Y ])pij Cov[X , Y ] = R R (x E[X ])(y E[Y ]) f (x, y ) dy dx (cas continu), qui permettent dinterprter facilement la variance (voir ci-dessous).
se rvle beaucoup plus pratique pour lvaluation de la covariance. La situation est donc similaire celle de la variance.
Par contre, lexpression Cov[X , Y ] = E[XY ] E[X ]E[Y ], qui mne aux expressions ( P P (cas discret) iI jJ xi yj pij E[X ]E[Y ] Cov[X , Y ] = R R xy f (x, y ) dy dx E[X ]E[Y ] (cas continu),
ch.3-p.76i
Covariance
Comment interprter la covariance Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] ?
y y
E[Y] (X,Y)
+
E[X]
+
E[Y]
+
x E[X]
+
(X,Y)
F IGURE: A gauche, (X , Y ) se ralise dans la zone o (X E[X ])(Y E[Y ]) > 0. A droite, (X , Y ) se ralise dans la zone o (X E[X ])(Y E[Y ]) < 0. Si (X , Y ) se ralise plus souvent dans les zones "+" (ou de faon plus extrme), Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] sera positif, et inversment.
ch.3-p.77i
Covariance
83
82
Prix de l'actif 2 (Y)
81
80
79
77
78
26
28
30
32
34
77
78
79
80
81
82
83
+
26 28 30 32
34
Prix de l'actif 1 (X)
F IGURE: A gauche, Cov[X , Y ] > 0 ; on parlera de dpendance positive (dans ce cas, le portefeuille est risque : Var[X + Y ] > Var[X ] + Var[Y ] ; X = Dexia et Y = ING ?) ddi iiiidiiiiiiiiiiiA droite, Cov[X , Y ] < 0 ; on parlera de dpendance ngative (dans ce cas, le portefeuille est moins risque : Var[X + Y ] < Var[X ] + Var[Y ] ; X = Dexia et Y = AngloGold ?)
ch.3-p.78i
Covariance
F IGURE: A gauche, Cov[X , Y ] = 0.01 (dpendance ngative) aaaaaaaaaaaaaaaaaaaaa iaiwiiiiiiiii A droite, Cov[X , Y ] 7.11 (dpendance positive)
ch.3-p.79i
Covariance
Ceci est compatible avec le fait que, comme on la vu, X Y Cov[X , Y ] = 0. Ceci laisse penser que la covariance est une mesure de dpendance. Il faut cependant insister sur le fait quil sagit dune mesure de dpendance trs imparfaite... Car il est faux que Cov[X , Y ] = 0 X Y . Des exemples simples seront considrs au TP, mais on a en fait dj considr un exemple de ce type...
ch.3-p.80i
Covariance
2 0 1 2 3 4 5
1 36 2 36 2 36 2 36 2 36 2 36
4
1 36
5
2 36
6
1 36
7
2 36
8
1 36
9
2 36
10
1 36
11
2 36
12
1 36
2 36 2 36
2 36 2 36 2 36
2 36
On a vu que X et Y ne sont pas indpendants. Pourtant, on a Cov[X , Y ] = 0 (exercice), ce qui nest pas si surprenant...
ch.3-p.81i
Covariance
Proprits supplmentaires de la covariance : Thorme Soient X , X1 , X2 , Y , Y1 , Y2 des variables alatoires et c, c1 , c2 R. Alors (i) Cov[c1 X1 + c2 X2 , Y ] = c1 Cov[X1 , Y ] + c2 Cov[X2 , Y ] (ii) Cov[X , c1 Y1 + c2 Y2 ] = c1 Cov[X , Y1 ] + c2 Cov[X , Y2 ] (iii) Cov[X , Y ] = Cov[Y , X ] (iv) Cov[X , c] = 0 (v) Cov[X , X ] = Var[X ] p p (vi) |Cov[X , Y ]| Var[X ] Var[Y ], et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R. Le point (vi) dcoule de lingalit de Cauchy-Schwarz (exercice), qui a t vue en ch.2-p.32.
ch.3-p.82i
Corrlation
Plutt que la covariance, on a souvent recours la corrlation, qui est une version normalise de la covariance, dont on peut non seulement interprter le signe mais aussi la valeur absolue. Dnition La corrlation entre X et Y est la quantit Corr[X , Y ] = p Proprits importantes : Thorme (i) les signes de Corr[X , Y ] et de Cov[X , Y ] concident. (ii) |Corr[X , Y ]| 1, et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R. Cov[X , Y ] p . Var[X ] Var[Y ]
ch.3-p.83i
Corrlation
Corr[X,Y]=0.5
83 83
Corr[X,Y]=0.8
Corr[X,Y]=1
82
82
Prix de l'actif 2 (Y)
81
81
80
80
79
79
78
78
24
26
28
30
32
34
36
26
28
30
32
34
36
77 24
78
79
80
81
82
83
26
28
30
32
34
36
F IGURE: Plus |Corr[X , Y ]| est proche de 1, plus la relation linaire entre X et Y est parfaite.
ch.3-p.84i
Corrlation
F IGURE: A gauche, Corr[X , Y ] 0.13. A droite, Corr[X , Y ] 0.49
ch.3-p.85i
Corrlation
Proprits principales de la corrlation : Thorme Soient X , Y , X1 , X2 , Y1 , Y2 des variables alatoires et c1 , c2 , d1 , d2 R. Alors (i) Corr[c1 X + d1 , c2 Y + d2 ] = Corr[X , Y ] (ii) Corr[X , Y ] = Corr[Y , X ] (iii) Corr[X , c] = 0 (iv) Corr[X , X ] = 1 (v) |Corr[X , Y ]| 1, et lgalit a lieu si et seulement si Y = cX + d ou X = cY + d pour certains c, d R (vi) X Y Corr[X , Y ] = 0.
ch.3-p.86i
Matrice de variance-covariance
Loprateur desprance E[] peut tre appliqu un vecteur ou une matrice, auquel cas on prend lesprance composante par composante. A un v.a. Z = (X , Y )T (par dfaut, les vecteurs dans la suite sont des vecteurs colonnes), il est alors classique dassocier son vecteur moyen Z = E[Z ] = et sa matrice de variance-covariance Z = Var[Z ] = E[(Z E[Z ])(Z E[Z ])T ] =E " X E[X ] ! X E[X ] !T # = Var[X ] Cov[X , Y ] Cov[X , Y ] Var[Y ] ! . E[X ] E[Y ] !
Y E[Y ]
Y E[Y ]
ch.3-p.87i
Matrice de variance-covariance
Soit A une matrice 2 2, b R2 (un vecteur colonne) et R. On vrie facilement que AZ +b = AZ + b AZ +b = AZ AT et bT Z + = b T Z + bT Z + = b T Z (b T )T = b T Z b. En particulier, b T Z b = bT Z + = Var[b T Z +] 0. On conclut que Z est toujours dnie positive (et bien entendu symtrique).
ch.3-p.88i
Plan du chapitre 3
ch.3-p.89i
Motivation
Soient X et Y deux variables alatoires. Supposons que X est observ, mais pas Y . Il est commun de vouloir "prdire" Y sur la base de X . Exemples : - X = taille du pre 25 ans (en cm) - Y = taille du ls lorsquil aura 25 ans (en cm) - X = mesure du stress un examen (en pourcentage du maximum) - Y = note sur 20 obtenue cet examen - X = revenus annuels dun mnage belge (en milliers deuros) - Y = dpenses annuelles dun mnage belge (en milliers deuros)
Ceci demande didentier une fonction de rgression m() telle que Y m(X ). Le prdicteur de Y sera alors simplement Y = m(X ).
ch.3-p.89i
Rgression gnrale
Ceci demande didentier une fonction de rgression m() telle que Y m(X ). Dnition La fonction de rgression mreg est celle qui minimise lerreur quadratique moyenne E[(Y m(X ))2 ]. Si E[(Y mreg (X ))2 ] = 0, on a Y = mreg (X ) (voir (v), ch.2-p.32) ( Y = mreg (X ) = Y : prdiction sans erreur !) Donc si E[(Y mreg (X ))2 ] 0, on a Y mreg (X ) ( Y Y : prdiction raisonnable). La quantit E[(Y m(X ))2 ] = E[(Y Y )2 ] peut tre interprte comme une mesure de lerreur de prdiction. La dnition ci-dessus est donc trs naturelle. Thorme (i) mreg (x) = E[Y |X = x] pour tout x. (ii) E[(Y mreg (X ))2 ] = E[Var[Y |X ]].
ch.3-p.90i
Rgression gnrale
F IGURE: Graphes de x mreg (x) = E[Y |X = x].
ch.3-p.91i
Rgression gnrale
F IGURE: Graphes de x mreg (x) = E[Y |X = x] (rouge) et x g (x) := mreg (x) p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.92i
Rgression linaire
F IGURE: Graphes de x mreg (x) = E[Y |X = x] (rouge) et x g (x) := mreg (x) p 2 Var[Y |X = x] (bleu) ; x, on a P[g (x) Y g+ (x)|X = x] 1 (Tchebychev). 2
ch.3-p.93i
Rgression gnrale
Preuve : (i) pour toute fonction m, on a E[(Y m(X ))2 |X ] = E[{(Y E[Y |X ]) + (E[Y |X ] m(X ))}2 |X ] = E[(Y E[Y |X ])2 |X ] + E[(E[Y |X ] m(X ))2 |X ] + 2E[(Y E[Y |X ])(E[Y |X ] m(X ))|X ] = Var[Y |X ] + (E[Y |X ] m(X ))2 + 2(E[Y |X ] m(X )) E[(Y E[Y |X ])|X ] = Var[Y |X ] + (E[Y |X ] m(X ))2 + 2(E[Y |X ] m(X )) (E[Y |X ] E[Y |X ]) = Var[Y |X ] + (E[Y |X ] m(X ))2 . En prenant lesprance, on obtient donc E[(Y m(X ))2 ] = E[Var[Y |X ]] + E[(E[Y |X ] m(X ))2 ]. ()
Cette expression est minimale lorsque E[(E[Y |X ] m(X ))2 ] = 0, ce qui se produira si et seulement si m(X ) = E[Y |X ]. (ii) Il suit de (*) que le minimum de E[(Y m(X ))2 ] qui en rsulte est E[Var[Y |X ]].
ch.3-p.94i
Rgression gnrale
Remarque : On a prouv (*) pour une fonction m quelconque. Si on prend m(x) = E[Y ] pour tout x, on obtient E[(Y E[Y ])2 ] = E[Var[Y |X ]] + E[(E[Y |X ] E[Y ])2 ], ce qui fournit Var[Y ] = = = = E[(Y E[Y ])2 ] E[Var[Y |X ]] + E[(E[Y |X ] E[Y ])2 ] E[Var[Y |X ]] + E[(E[Y |X ] E[E[Y |X ]])2 ] E[Var[Y |X ]] + Var[E[Y |X ]].
Ceci dmontre donc le thorme nonc la page 49.
ch.3-p.95i
Rgression linaire
Parfois, la relation entre X et Y est linaire ou presque linaire. Exemple net : revenus - dpenses Exemple un peu moins net (mais encore justi) : le fast food On gagne alors se restreindre des fonctions "linaires" (en fait, ce sont plutt des fonctions du type x m(x) = x + ), car cela fournit un modle simple et efcace pour la relation entre X et Y . Dnition La fonction de rgression linaire mreglin est la fonction x m(x) = x + qui minimise lerreur quadratique moyenne E[(Y m(X ))2 ]. La qualit de la prdiction sera alors mesure par E[(Y mreglin (X ))2 ] E[(Y mreg (X ))2 ] .
ch.3-p.96i
Rgression linaire
2 2 2 Notons X = E[X ], Y = E[Y ], X = Var[X ], Y = Var[Y ], XY = Cov[X , Y ], et XY = Corr[X , Y ].
Thorme (i) mreglin (x) = XY x + XY , o XY = XY Y X et XY = Y XY X .
2 (ii) E[(Y mreglin (X ))2 ] = (1 2 )Y . XY
Remarques : lquation y = mreglin (x) de la droite de rgression peut donc scrire sous la forme (y Y ) = XY (x X ). Elle est de pente XY et passe par le point (X , Y ). Le signe de la pente est le signe de XY . Lerreur de prdiction est une fonction dcroissante en |XY |. iiiiiii Si |XY | = 1, la prdiction se fait sans erreur. iiiiiii Si |XY | = 0, Y = mreglin (X ) = Y et lerreur de prvision est maximale.
ch.3-p.97i
Rgression linaire
F IGURE: Graphes de x mreg (x) = E[Y |X = x] et de x mreglin (x) = XY x + XY .
ch.3-p.98i
Rgression linaire
Preuve : (i) il sagit de trouver le (ou les) minimum(a) (XY , XY ) de la fonction (, ) h(, ) = = = E[(Y x )2 ] E[{(Y Y ) (X X ) + (Y X )}2 ] E[(Y Y )2 ] + 2 E[(X X )2 ] + (Y X )2 2E[(X X )(Y Y )] + 0 + 0 =
2 2 Y + 2 X + (Y X )2 2XY .
Le cours de math de BA2 indique que ces minima se trouvent parmi les solutions du systme 8 h > > < (, ) = 0 > h > : (, ) = 0.
ch.3-p.99i
Rgression linaire
Ce systme se rcrit (
2(Y X ) = 0, (
2 2X 2(Y X )X 2XY = 0
et admet pour unique solution = XY Y Y XY = = XY 2 X Y X X X
= Y X ,
qui est le couple (XY , XY ) donn dans le thorme (on montre facilement quil sagit dun minimum). (ii) La valeur associe de lerreur de prvision est alors h(XY , XY ) = = =
2 2 Y + 2 X + (Y XY X XY )2 2XY XY XY 2 2 2 Y + 2 Y + 02 22 Y XY XY 2 (1 2 )Y . XY
ch.3-p.100i
Rgression linaire
Attention : parfois, un tel modle linaire est viter !
F IGURE: Graphes de x mreg (x) = E[Y |X = x] et de x mreglin (x) = XY x + XY . Contrairement aux deux situations prcdentes, le modle linaire ne se justie pas ici.
ch.3-p.101i
Plan du chapitre 3
ch.3-p.102i
Lois normales bivaries

2 2 Le v.a. Z = (X , Y ) est de loi normale bivarie de paramtres 1 , 2 , 1 , 2 , si Z admet la fonction de densit
f (x, y ) =
21 2
(x 1 ) (y 2 ) (x 1 )2 (y 2 )2 1 2 + 2 2 2 1 2 1 2 e 2(1 )
2 2 Ici, 1 , 2 R, 1 , 2 R+ , et (1, 1). 0
1 p
1 2
Pour rappel, la densit permet de calculer les probabilits que Z se ralise dans une certaine rgion B, via ZZ P[(X , Y ) B] = f (x, y ) dy dx B B2 .
B 2 2 Pour interprter les paramtres 1 , 2 , 1 , 2 , , nous allons considrer les distributions marginales et conditionnelles de cette loi. ch.3-p.102i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie de 2 2 paramtres 1 = 0, 2 = 0, 1 = 1, 2 = 1, = 0 (loi normale bivarie standard).
ch.3-p.103i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie de 2 2 paramtres 1 = 2, 2 = 1, 1 = 1.5, 2 = 3.5, = 0.65
ch.3-p.104i

2 2 Pour interprter les paramtres 1 , 2 , 1 , 2 , , nous allons considrer les distributions marginales et conditionnelles de cette loi.
Pour cela, nous aurons besoin de lgalit f (x, y ) = h1 (x)h2 (x, y ), o h1 (x) = et h2 (x, y ) = 22 1 p 1 2 e
2 (x 1 ) 1 e 21 21
1 2
1 1 (y 2 2 1 (x 1 ))2 22 (12 ) 2
(tablir cette galit est un exercice calculatoire facile). Il faut noter que
2 x h1 (x) est la fonction de densit de la loi N (1 , 1 ), 1 2 y h2 (x, y ) est, x, la densit de la loi N (2 + 2 1 (x 1 ), 2 (1 2 )). ch.3-p.105i

Thorme
2 2 Soit Z = (X , Y ) de loi normale bivarie de paramtres 1 , 2 , 1 , 2 , . 2 2 Alors X N (1 , 1 ) et Y N (2 , 2 ).
R Preuve : la factorisation f (x, y ) = h1 (x)h2 (x, y ) et lgalit h2 (x, y ) dy (qui dcoule du fait que y h2 (x, y ) est une densit) livrent Z Z f X (x) = f (x, y ) dy = h1 (x) h2 (x, y ) dy = h1 (x).
2 Ceci tablit le rsultat puisque x h1 (x) est la densit de la loi N (1 , 1 ). On prouve le rsultat pour Y de faon similaire.
Ceci montre donc que les distributions marginales sont normales (univaries) et que 2 2 1 = E[X ], 2 = E[Y ], 1 = Var[X ] et 2 = Var[Y ]. Il reste encore donner une interprtation .
ch.3-p.106i

Thorme
2 2 Soit Z = (X , Y ) de loi normale bivarie de paramtres 1 , 2 , 1 , 2 , . 1 2 2 Alors Y |[X = x] N (2 + 2 1 (x 1 ), 2 (1 )) et 1 2 X |[Y = y ] N (1 + 1 2 (y 2 ), 1 (1 2 )).
Preuve : la factorisation f (x, y ) = h1 (x)h2 (x, y ) et le thorme prcdent livrent f Y |[X =x ] (y ) = f (x, y ) h1 (x)h2 (x, y ) = = h2 (x, y ), f X (x) f X (x)
ce qui tablit le rsultat puisque, comme on la vu, y h2 (x, y ) est, x, la densit 1 2 de la loi N (2 + 2 1 (x 1 ), 2 (1 2 )). On prouve le rsultat pour X |[Y = y ] de faon similaire.
Ce rsultat montre en particulier que 1 - x mregr (x) = E[Y |X = x] = 2 + 2 1 (x 1 ) est une fonction "linaire" de x. - Var[Y |X = x] ne dpend pas de x ; on parlera dhomoscdasticit.
ch.3-p.107i
F IGURE: La fonction de rgression x mregr (x) = E[Y |X = x] = 2 x + 10 est "linaire" 3 3 pour x (10, 30). Si la distribution de (X , Y ) tait normale bivarie, elle devrait ltre pour tout x et Var[Y |X = x] ne pourrait dpendre de x (on ne pourrait avoir d"htroscdasticit").
ch.3-p.108i
Ceci nous permet maintenant dinterprter le paramtre .
1 2 Puisque E[X ] = 1 , E[Y ] = 2 , Var[X ] = 1 et E[Y |X ] = 2 + 2 1 (X 1 ), on a
Cov[X , Y ] = E[(X E[X ])(Y E[Y ])] = E[(X 1 )(Y 2 )] = E[E[(X 1 )(Y 2 )|X ]] = E[(X 1 )E[(Y 2 )|X ]]
1 = E[(X 1 )(E[Y |X ] 2 )] = E[(X 1 )2 1 (X 1 )] 1 = 2 1 Var[X ] = 2 1 . 2 Comme en outre Var[Y ] = 2 , ceci implique que
Corr[X , Y ] = p
2 1 Cov[X , Y ] p = = . 1 2 Var[X ] Var[Y ]
ch.3-p.109i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie avec 2 2 1 = E[X ] = 2, 2 = E[Y ] = 1, 1 = Var[X ] = 1.5, 2 = Var[Y ] = 3.5, = Corr[X , Y ] = 0.65
ch.3-p.110i
F IGURE: Densit ( gauche) et courbes de niveau ( droite) de la loi normale bivarie avec 2 2 1 = E[X ] = 0, 2 = E[Y ] = 0, 1 = Var[X ] = 1, 2 = Var[Y ] = 1, = Corr[X , Y ] = 0
ch.3-p.111i

Thorme Soit (X , Y ) un v.a. de loi normale bivarie. Alors X Y Cov[X , Y ] = 0 Preuve : () Cette implication est toujours vraie (voir la page 75). () Supposons que Cov[X , Y ] = 0. Ceci implique que Corr[X , Y ] = = 0. La densit de (X , Y ) prend donc la forme (y 2 )2 1 (x 1 )2 + 2 2 1 1 2 f (x, y ) = e 2 21 2 1 (x 1 )2 ! 1 (y 2 )2 ! 2 2 1 1 1 2 e 2 e 2 = f X (x)f Y (y ). 21 22
Comme on la vu, cette factorisation de la densit implique que X Y . Nous avons vu prcdemment que limplication () nest pas vraie en gnral.
ch.3-p.112i

Remarque : La fonction de rgression linaire mreglin est donne par x mreglin (x) = = = = = = XY x + XY Y Y x + Y XY X XY X X 2 2 x + 2 1 1 1 2 (x 1 ) 1
2 +
E[Y |X = x] mreg (x).
On retrouve le fait que pour la loi normale bivarie, la courbe de rgression gnrale concide avec la courbe de rgression linaire.
ch.3-p.113i

Nous terminons la prsentation de ces lois par leur notation matricielle.
Dsignons le vecteur moyen et la matrice de variance-covariance par = 1 2 ! et =

2 1
1 2
2 2
1 2
On vriera alors facilement que f (x, y ) = 21 2 1 p 1 2
1 (y 2 )2 (x 1 )2 (x 1 ) (y 2 ) + 2 2 2 2 1 2 1 2 e 2(1 ) = 1 1 2 det T 1 x x 1 y y e 2
ch.3-p.114i
Plan du chapitre 3
ch.3-p.115i
Motivation
Jusquici, nous nous sommes restreints aux vecteurs alatoires bivaris. Mais on a souvent besoin de considrer plus de deux variables alatoires simultanment, que ce soit pour tudier un portefeuille boursier compos de plus de deux actifs, pour prdire une variable sur la base de plusieurs autres variables (le rsultat lexamen sur la base du stress, du nombre dheures dtude, etc.), ou pour dcrire des situations plus complexes. Sans rentrer dans autant de dtails que dans le cas bivari, nous allons donc considrer des v.a. k -varis X = (X1 , . . . , Xk )T , o chaque X est une variable alatoire. On dnit la fonction de rpartition comme F (x1 , . . . , xk ) = P[X1 x1 , . . . , Xk xk ] pour tout (x1 , . . . , xk ).
ch.3-p.115i
Le cas discret
Dans le cas discret, chaque composante X na quun nombre ni ou inni dnom() brable de valeurs possibles : xi , i I () . La distribution de X est encore dtermine par la collection de toutes les valeurs possibles de X = (X1 , . . . , Xk )T qui en rsultent accompagnes des probabilits (k ) (1) correspondantes pi1 ...ik := P[X1 = xi1 , . . . , Xk = xik ]. On dtermine la probabilit que X se ralise dans un borlien B de dimension k via X P[X B] = pi1 ...ik
(i1 ,...,ik ):(xi
(1) 1
,...,xi
(k ) k
)B
et on calcule des esprances selon E[g(X1 , . . . , Xk )] = X g(xi1 , . . . , xik ) pi1 ...ik .

(1) (k )
(i1 ,...,ik )
ch.3-p.116i
Le cas discret
Pour des esprances du type E[g(X )], on utilisera plutt E[g(X )] = X
i
g(xi ) pi , o pi = P[X = xi ] =
()
()
()
()
(i1 ,...,i1 ,i+1 ,...,ik ) ()
pi1 ...ik ,
fonde sur la distribution marginale de X (valeurs possibles xi , de probabilits respectives pi ). De mme, des esprances du type E[g(X , Xm )] peuvent tre calcules via E[g(X , Xm )] = o pi ,im
(),(m) ()
X
i ,im
g(xi , xim ) pi ,im ,
()
(m)
(),(m)
= P[X = xi , Xm = xim ] =
()
(m)
(i1 ,...,i1 ,i+1 ,...,im1 ,im+1 ,...,ik )
pi1 ...ik
caractrise la distribution marginale (bivarie) de (X , Xm ).
ch.3-p.117i
Le cas discret
Plus gnralement, on peut aussi considrer des distributions marginales de dimension suprieure. Ceci est en fait ncessaire pour calculer les distributions conditionnelles puisque le dnominateur de P[X = xi |X1 = xi1 , . . . , X1 = xi1 , X+1 = xi+1 , . . . , Xk = xik ] = P[X1 = xi1 , . . . , Xk = xik ] P[X1 =
(1) xi1 , . . . , X1 (1) (k ) () (1) (1) (+1) (k )
(1) xi1 , X+1
= xi+1 , . . . , Xk = xik ]
(+1)
(k )
est associ une distribution marginale (k 1)-varie (on peut encore dnir des esprances et variances conditionnelles sur base de ces distributions conditionnelles).
Remarque : on vrie que X1 , . . . , Xk sont mutuellement indpendantes (comme (k ) (1) dni en page 66) si et seulement si pi1 ...ik = pi1 . . . pik pour tout i1 , . . . , ik . Ceci sera souvent utilis dans la partie "infrence statistique" du cours, o les k (= n) observations seront supposes tre des (ralisations de) variables alatoires mutuellement indpendantes.
ch.3-p.118i
La loi multinomiale
Une distribution multivarie discrte particulire : P Soient k , n N0 et p1 , . . . , pk [0, 1] tels que k p = 1. =1 Soit E une exprience alatoire k rsultats possibles, avec P[rsultat ] = p . Alors X = (X1 , . . . , Xk )T est de distribution multinomiale de paramtres n, p1 , . . . , pk (notation : X Multin(n, p1 , . . . , pk )) si X , = 1, . . . , k , compte le nombre de rsultats dans une suite de n rptitions indpendantes de E. Les valeurs possibles sont tous les (n1 , . . . , nk ) tels que Les probabilits correspondantes sont P[X1 = n1 , . . . , Xk = nk ] = Pk
=1
n = n.
n! n n p 1 . . . pk k . (n1 !) . . . (nk !) 1
Clairement, X Bin(n, p ). On a donc E[X ] = np et Var[X ] = np (1 p ).

ch.3-p.119i
La loi multinomiale
Il est aussi clair que, pour = m, on a X + Xm Bin(n, p + pm ). On a donc Var[X + Xm ] = n(p + pm )(1 p pm ). En utilisant lgalit Var[X +Xm ] = Var[X ]+Var[Xm ]+2Cov[X , Xm ], on obtient donc (exercice) Cov[X , Xm ] = np pm < 0. Les X ne sont donc pas indpendantes. Ce nest pas tonnant (pourquoi ?) Le signe de la covariance entre X et Xm nest pas tonnant non plus (pourquoi ?)
Un exemple de multinomiale : Au premier tour de llection prsidentielle franaise de 2007, on interroge n personnes en leur demandant pour lequel des k candidats elles ont lintention de voter. En notant X le nombre de sonds dclarant vouloir voter pour le candidat , (X1 , . . . , Xk )T Multin(n, p1 , . . . , pk ), o p est la proportion des Franais en faveur du candidat .
ch.3-p.120i
Le cas continu
Pour dcrire le cas continu, nous adoptons volontairement le mme schma de prsentation que pour le cas discret, dans le but de mettre en vidence les analogies fortes entre les deux types de formules.
Dans le cas continu (pour lequel la fonction de rpartition F est drivable k fois), on dnit la fonction de densit de probabilit f (x1 , . . . , xk ) := k F (x1 , . . . , xk ), x1 . . . xk
qui permet de calculer la probabilit que X = (X1 , . . . , Xk )T se ralise dans un borlien B de dimension k via Z P[X B] = f (x1 , . . . , xk ) dxk . . . dx1 ,
B
et on calcule des esprances selon Z Z E[g(X1 , . . . , Xk )] = ...
g(x1 , . . . , xk ) f (x1 , . . . , xk ) dxk . . . dx1 .
ch.3-p.121i
Le cas continu
Pour des esprances du type E[g(X )], on utilisera plutt Z E[g(X )] = g(x ) f X (x ) dx ,
o f X (x ) =
...
f (x1 , . . . , xk ) dxk . . . dx+1 dx1 . . . dx1
est la densit marginale de X . De mme, des esprances du type E[g(X , Xm )] peuvent tre calcules via E[g(X , Xm )] = o f (X ,Xm ) (x , xm ) = Z
g(x , xm ) f (X ,Xm ) (x , xm ) dxm dx ,
...
f (x1 , . . . , xk ) dxk . . . dxm+1 dxm1 . . . dx+1 dx1 . . . dx1
est la densit marginale de (X , Xm ).

ch.3-p.122i
Le cas continu
On peut ici aussi considrer des distributions marginales de dimension suprieure, comme cest le cas (au dnominateur) dans les densits conditionnelles f X |[X1 = x1 , . . . , X1 = x1 , X+1 = x+1 , . . . , Xk = xk ] (x ) = f (x1 , . . . , xk ) (X1 , . . . , X1 , X+1 , . . . , Xk ) (x1 , . . . , x1 , x+1 , . . . , xk ) f
(on peut encore dnir des esprances et variances conditionnelles sur base de ces densits conditionnelles).
Remarque : on vrie que X1 , . . . , Xk sont mutuellement indpendantes (comme dni en page 66) si et seulement si f (x1 , . . . , xk ) = f X1 (x1 ) . . . f Xk (xk ) x1 , . . . , xk . Pour la mme raison que dans le cas discret, ceci sera souvent utilis dans la partie "infrence statistique" du cours.
ch.3-p.123i
Vecteur moyen et matrice de variance-covariance

Par analogie avec le cas bivari, nous dnissons le vecteur moyen et la matrice de variance-covariance du v.a. X = (X1 , . . . , Xk )T respectivement comme le vecteur 0 1 E[X1 ] B C B E[X2 ] C B C E[X ] = B . C B . C . A @ E[Xk ] Var[X ] = E[(X E[X ])(X E[X ])T ] 0 Var[X1 ] Cov[X1 , X2 ] B B Cov[X2 , X1 ] Var[X2 ] B B . B . B . @ Cov[Xk , X1 ] Cov[Xk , X2 ]
et la matrice (symtrique et dnie positive ; la preuve est similaire celle bivarie)
... ... .. .
Cov[X1 , Xk ] Cov[X2 , Xk ] . . . Var[Xk ]
...
Il est facile de vrier que, pour toute matrice (r k ) A et pour tout vecteur b Rr , on a E[AX + b] = AE[X ] + b et Var[AX + b] = AVar[X ]A .
ch.3-p.124i
C C C C. C C A
La loi normale k-varie
Une distribution multivarie continue particulire :
Soient Rk et une matrice (k k ) symtrique et dnie positive. Alors X = (X1 , . . . , Xk )T est de loi normale k -varie de paramtres et (notation : X Nk (, )) si X admet la densit f (x) = o x = (x1 , . . . , xk ) . Ceci gnralise donc la loi normale univarie (k = 1 ; voir ch.2-p.58) et la loi normale bivarie (k = 2 ; voir la page 114).
T
1 2
det
1 (x )T 1 (x ) , e 2
ch.3-p.125i
La loi normale k-varie

On peut montrer que (i) = E[X ] et = Var[X ]. (ii) Pour toute matrice (r k ) A et pour tout vecteur b Rr , AX + b Nr (A + b, AA ). En particulier, si on prend A = (0, . . . , 0, 1, 0, . . . , 0) (avec le "1" en position ) et b = 0, on obtient que X N1 ( , ). (iii) Si est une matrice diagonale, X1 , . . . , Xk sont mutuellement indpendantes.
2 (iv) Si X N1 ( , ), = 1, . . . , k , sont mutuellement indpendantes, X = (X1 , . . . , Xk )T Nk (, ) , o = (1 , . . . , k )T et est diagonale 2 avec = , = 1, . . . , k .
Remarque : ce quon appellera "loi normale k -varie standard" est le cas particulier obtenu pour = 0 et = Ik (la matrice identit de dimension k ).
ch.3-p.126i
Plan du chapitre 4
Thormes limites et lemme de Fisher Motivation La loi des grands nombres Le thorme central-limite et le lemme de Slutzky Le lemme de Fisher
ch.4-p.127i
Plan du chapitre 4
ch.4-p.1i
Motivation
Vous souponnez quon sert "la Jefke" des gobelets de bire de moins de 25 cl en moyenne. Scandalis, vous dcidez de vrier si cest effectivement le cas (avant de contacter, le cas chant, les autorits). Comment pouvez-vous vous y prendre ?
Ce problme est un problme de dcision statistique. Il relve donc de la 2de partie du cours, mais on lutilisera ici pour motiver les rsultats de cette section. Notons dabord quon peut considrer la quantit de bire (en cl) servie dans un gobelet la Jefke comme une variable alatoire X (songez aux nombreux paramtres physiques inuenant la quantit de mousse, et donc celle de bire !) En langage probabiliste, vous voulez dterminer si E[X ] < 25 ou pas.
ch.4-p.1i
Motivation
Il est raisonnable de penser que X est une variable alatoire continue admettant une certaine densit f . La question considre devient donc Z ? E[X ] = x f (x) dx < 25.
Bien sr, cette expression intgrale ne permet pas dvaluer E[X ] (et donc ne permet pas non plus de trancher), parce que f est inconnue. Lide naturelle consiste considrer un chantillon (X1 , . . . , Xn ), associ n bires servies. On dira quil sagit dun chantillon alatoire simple si ces v.a. sont indpendantes et identiquement distribues ("i.i.d.") Ceci signie que ces v.a. sont mutuellement indpendantes, et partagent toutes la mme distribution (dans le cas prsent, elles sont toutes continues avec la densit f ). Lchantillon observ sera dsign par (x1 , . . . , xn ) (les minuscules sont souvent rserves aux valeurs numriques observes, tandis que les majuscules dsignent les v.a. dont ces valeurs observes sont des ralisations).
ch.4-p.2i
Motivation
Toutes les observations tant de densit f , elles portent toutes de linformation sur f , et donc sur E[X ]. Comment extraire cette information ? P 1 Il est naturel de calculer la moyenne empirique X = n n Xi et de fonder la i=1 conclusion sur la valeur que prend cette variable alatoire sur lchantillon observ (x1 , . . . , xn ). Des questions naturelles dans ce cadre sont : En quel sens X fournit-elle une information importante sur E[X ] ? Comment tenir compte de la variabilit intrinsque de X pour se convaincre raisonnablement que E[X ] < 25 (si cest possible) ? La seconde question est justie par le fait que X tant une fonction des v.a. X1 , . . . , Xn , elle est elle-mme une v.a., avec sa propre distribution : on parlera de distribution chantillonne.
ch.4-p.3i
Plan du chapitre 4
ch.4-p.4i
La loi des grands nombres
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. La distribution chantillonne de X (n) = (i) E[X (n) ] = et (ii) Var[X (n) ] = X n n n 1 2 1 X 2 1 1 X , Var[Xi ] = 2 = 2 (n 2 ) = Xi = 2 Var n2 n n n n
i=1 i=1 i=1 1 n
n n n 1X 1 1X 1 X E[Xi ] = = (n) = Xi = E n n n n
i=1 i=1 i=1
Pn
i=1
Xi vrie toujours
P P o on a utilis lindpendance mutuelle des Xi (pour Var[ i . . .] = i Var[. . .]).
Donc la distribution de X (n) (i) reste de moyenne n dd (ii) devient de plus en plus concentre quand n grandit.
ch.4-p.4i
F IGURE: Graphes de la densit de X (n) pour n = 1, 2, 10, 20, 40, dans le cas o les observations sont i.i.d. de loi 24.7 + t5 (gauche) ou i.i.d. de loi Unif(0, 10) (droite). La moyenne reste en = 24.7 (gauche) ou en = 0+10 = 5 (droite), et la variance diminue quand n augmente. 2
ch.4-p.5i

Ceci suggre que pour n grand, la probabilit est trs leve que lunique ralisation observe de X (n) soit proche de = E[X ]. En fait, quand n grandit, cette probabilit pourrait sapprocher arbitrairement de 1... Ceci est conrm par le rsultat suivant. Thorme (Loi faible des grands nombres) Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 > 0, P[|X (n) | > ] 0. Ceci peut aussi scrire : > 0, P X (n) [ , + ] 1, ce qui signie que > 0, > 0, il existe n0 tel que si n n0 , alors P X (n) [ , + ] 1 . On peut prendre = 109 et = 109 ! (mais a conduira un grand n0 ).
ch.4-p.6i

Thorme (Loi faible des grands nombres) Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 > 0, P[|X (n) | > ] 0. 2 Preuve : xons > 0. Puisque E[X (n) ] = et Var[X (n) ] = , lingalit de Tchebyn chev fournit q h h i i 1 P |X (n) | > a = P |X (n) E[X (n) ]| > a Var[X (n) ] 2 a n pour tout a > 0. Pour a = n/, on obtient P[|X (n) | > ] quand n .
ch.4-p.7i
2 0, n2

Dnition Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. On dit que X (n) X en probabilit si > 0, P[|X (n) X | > ] 0. La loi (faible) des grands nombres afrme donc que X (n) en probabilit (dans ce cas, la limite est une variable alatoire dgnre).
Il existe dautres concepts de "convergence stochastique". Dnition On dit que X (n) X presque srement (p.s.) si P[{ : X (n) () X ()}] = 1. Autrement dit, lorsque la convergence presque sre tient, il est certain (avec probabilit 1) que la convergence sera observe. On peut montrer que X (n) p.s. (cest la loi "forte" des grands nombres).
ch.4-p.8i
F IGURE: Pour chaque n, on a engendr X1 , . . . , Xn i.i.d. de loi Unif(0, 10) et on a calcul X (n) . Ce graphe de X (n) en fonction de n illustre la convergence p.s. de X (n) vers = E[Xi ] = 5.
ch.4-p.9i
Enn, un troisime concept de convergence en lien avec la loi des grands nombres est le suivant. Dnition On dit que X (n) X en L2 (ou en moyenne quadratique) si E[(X (n) X )2 ] 0. Ceci est justi par le fait que si E[(X (n) X )2 ] = 0, alors on a X (n) = X ; voir (v), ch.2-p.32 (plus prcisment, on a P[{ : X (n) () = X ()}] = 1). Comme E[(X (n) )2 ] = E[(X (n) E[X (n) ])2 ] = Var[X (n) ] = (n) en moyenne quadratique. X
2 n
0, on a aussi que
ch.4-p.10i

Il existe des liens entre les divers sens de convergence. Thorme (i) X (n) X p.s. X (n) X en probabilit. (ii) X (n) X en L2 X (n) X en probabilit. Le point (i) explique quon parle de loi forte et de loi faible des grands nombres.
Le rsultat suivant est souvent utile. Thorme Soient (X (n) ), (Y (n) ) deux suites de variables alatoires et X , Y deux autres variables alatoires. Alors (i) X (n) X p.s. et Y (n) Y p.s. X (n) + Y (n) X + Y p.s. et X (n) Y (n) XY p.s. (ii) X (n) X en probabilit et Y (n) Y en probabilit X (n) + Y (n) X + Y en probabilit et X (n) Y (n) XY en probabilit. (iii) X (n) X en L2 et Y (n) Y en L2 X (n) + Y (n) X + Y en L2 .
ch.4-p.11i

Avant de continuer, nous considrons un cas particulier important de la loi des grands nombres.
Soit E une exprience alatoire. Soit (, A, P) un espace probabilis associ. Soit A A un vnement x, de probabilit p = P[A]. Soit X la v.a. qui vaut 1 si A se produit et 0 sinon. Soit (X1 , . . . , Xn ) un chantillon alatoire simple correspondant (qui est donc associ n rptitions indpendantes de E). Alors on a = E[X ] = 1 p + 0 (1 p) = p. Et la loi (forte) des grands nombres afrme que
nombre de ralisations de A parmi les n

n
X1 + . . . + Xn = X (n) p n
presque srement. Il sagit l de la dnition frquentiste des probabilits de BA1 (que notre dnition axiomatique identie comme un thorme).
ch.4-p.12i
F IGURE: Pour chaque n, on a engendr n reprises k = 32 anniversaires alatoirement et on a enregistr la proportion X (n) de fois o au moins deux anniversaires parmi les 32 concident. Le graphe de X (n) en fonction de n illustre la convergence p.s. de X (n) vers la probabilit quau moins deux anniversaires concident parmi 32.
ch.4-p.13i

Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. Souvent, on a aussi besoin destimer 2 . Ceci peut se faire au moyen de la variance empirique s2 =
n 1X (Xi X )2 n i=1 n 1 X 2 2 (Xi + X 2Xi X ) n i=1 ! ! n n X 1X 2 2 2 1 Xi + X Xi X n n i=1 i=1 ! n 1X 2 Xi X 2 n i=1
// 2 = E[(X )2 ]
// 2 = E[X 2 ] 2 .
De manire tout fait similaire la variance thorique 2 , la premire expression est plus adapte linterprtation du concept, tandis que la seconde est plus commode pour lvaluation numrique de la variance.
ch.4-p.14i

Dans la seconde partie du cours, on vriera que E[s2 ] = en moyenne), et on prfre donc parfois utiliser S2 =
n1 2 n
(sous-estimation
n 1 X n (Xi X )2 , s2 = n1 n1 i=1
qui est videmment tel que E[S 2 ] = 2 . P 1 Par la loi forte des grands nombres, on a que n n Xi2 E[X 2 ] p.s. et que X i=1 p.s. Le thorme prcdent implique alors que ! n 1X 2 2 Xi X 2 E[X 2 ] 2 = 2 s = p.s., n
i=1
et donc aussi en probabilit. Bien sr, on a les mmes rsultats de convergence stochastique pour S 2 .
ch.4-p.15i
F IGURE: Pour chaque n, on a engendr X1 , . . . , Xn i.i.d. de loi Unif(0, 10) et on a calcul s2 . Ce graphe de s2 en fonction de n illustre la convergence p.s. de s2 vers 2 =
(100)2 12
8.33.
ch.4-p.16i
Si on veut estimer lcart-type plutt que la variance 2 , il est naturel dutiliser s = s2 ou S=
S2 .
On aura de nouveau que s p.s. et S p.s., ce qui est une consquence du thorme gnral suivant. Thorme Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. Soit g : R R une fonction continue. Alors (i) X (n) X p.s. g(X (n) ) g(X ) p.s. (ii) X (n) X en probabilit g(X (n) ) g(X ) en probabilit.
ch.4-p.17i
Plan du chapitre 4
ch.4-p.18i
Le thorme central-limite
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. On sait que (i) E[X (n) ] = 2 (ii) Var[X (n) ] =
n
(iii) Si n , X (n) (p.s., en probabilit, et en L2 ) Ces rsultats livrent un moyen destimer sur la base de X1 , . . . , Xn (par X (n) ), dune manire telle que si n , lestimation se fait nalement sans erreur. Si on sert une innit de bires, on pourra donc dcider sans se tromper si = E[X ] < 25 cl ou pas...
Bien entendu, on ne prendra jamais quun chantillon de taille n xe. Et pour ce n, quel quil soit, une certaine erreur sera commise dans lestimation de par X (n) . Il est videmment capital de pouvoir quantier cette erreur...
ch.4-p.18i
La difcult principale est la suivante : 2 Alors que (i) E[X (n) ] = et (ii) Var[X (n) ] = tiennent quelle que soit la distribution n "mre" (celle de X ), il nen va pas de mme du reste de la distribution de X (n) . En effet, les proprits dadditivit (ch.3-p.72) montrent que : Si X1 , . . . , Xn sont i.i.d. N (, 2 ), alors X1 + X2 + . . . + Xn N (n, n 2 ), de 2 2 sorte que X = (X1 + X2 + . . . + Xn )/n N ( n , n ) = N (, ). n n n2 Si X1 , . . . , Xn sont i.i.d. Bern(p) = Bin(1, p), alors X 1 Bin(n, p).
n
Si X1 , . . . , Xn sont i.i.d. Poi(), alors X 1 Poi(n). n Si X1 , . . . , Xn sont i.i.d. 2 , alors X 1 2 . k nk

n
Ceci illustre le fait quil est priori difcile, pour un n x, de contrler lerreur X (n) : en effet, la distribution de X (n) dpend de la distribution "mre"... Laquelle est le plus souvent inconnue en pratique !
Mais on est sauv par LE thorme le plus important en probabilit et en statistique...

ch.4-p.19i
F IGURE: Graphes de la densit de X (n) pour n = 1, 2, 10, 20, 40, dans le cas o les observations sont i.i.d. de loi 24.7 + t5 (gauche) ou i.i.d. de loi Unif(0, 10) (droite). Dans les deux cas, la distribution de X (n) ressemble de plus en plus une loi normale mesure que n grandit.
ch.4-p.20i
Ce thorme si important est le suivant. Thorme ("Thorme central-limite" ou "TCL") Soit (X1 , . . . , Xn ) un chantillon alatoire simple. Supposons que 2 = Var[Xi ] < . P 1 Posons = E[Xi ] et X (n) = n n Xi . Alors i=1 # " X (n) q x (x), P
2 n
o x (x) = P[N (0, 1) x] est la fonction de rpartition de la loi N (0, 1).
Autrement dit : pour n grand, la distribution de n(X (n) ) (n) Z = est bien approxime par la loi N (0, 1). On pourra donc calculer des probabilits pour Z (n) (et donc pour X (n) ) en faisant comme sil sagissait dune variable normale standard.
ch.4-p.21i
Le TCL est associ un dernier concept de convergence : Dnition Soient (X (n) ) une suite de variables alatoires et X une autre variable alatoire. Notons F (n) et F les fonctions de rpartition correspondantes. On dit que X (n) X en loi si F (n) (x) F (x) en tout point x o F est continue. Le TCL afrme donc simplement que Z (n) Z en loi, o Z N (0, 1). Parfois, on crira plutt Z (n) N (0, 1) en loi. La preuve du TCL ncessite le rsultat suivant (qui est comparer au thorme de la page 83 du chapitre 2). Thorme (de continuit) Supposons que X (n) et X admettent respectivement les fonctions gnratrices des moments MX (n) (t) et MX (t). Alors si MX (n) (t) MX (t) t, on a que X (n) X en loi.
ch.4-p.22i
Preuve du TCL : la stratgie est effectivement dutiliser le thorme de continuit. Pour ce faire, on a, par dnition de la fonction gnratrice des moments, " t n (n) # tZ (n) (X ) MZ (n) (t) = E e =E e =E e "
n t X (Xi ) # n i=1
# t t (X1 ) (Xn ) = E e n ... e n . "
Puisque les Xi sont indpendants et identiquement distribus, ceci livre # " # t t (X1 ) (Xn ) n n ... E e MZ (n) (t) = E e " = #! t t n (X1 ) n n = MX1 . E e n "
ch.4-p.23i
t Puisque n 0 si n , un dveloppement de Taylor centr en 0 se justie. Cela donne
t n MZ (n) (t) = MX1 n t 2 M (0) n t X1 = MX1 (0) + MX1 (0) + + ... 2 n n n t2 t E[(X1 )2 ] + . . . = 1 + E[X1 ] + 2 2 n n n t2 = 1+0+ +... , 2n qui tend vers e t /2 si n (ce que lon peut tablir en crivant f (n) = e ln f (n) , puis en utilisant la rgle de LHospital). Par le thorme de continuit, le TCL est donc dmontr, puisque t e t fonction gnratrice des moments de la loi N (0, 1) (voir ch.2-p.80).
2 2
/2
est la
ch.4-p.24i
En guise dillustration du thorme central-limite, on peut reconsidrer la situation suivante. Soit E une exprience alatoire. Soit (, A, P) un espace probabilis associ. Soit A A un vnement x, de probabilit p = P[A]. Soit X la v.a. qui vaut 1 si A se produit et 0 sinon. Soit (X1 , . . . , Xn ) un chantillon alatoire simple correspondant (qui est donc associ n rptitions indpendantes de E). Alors on a = E[X ] = p et 2 = Var[X ] = p(1 p). Donc le TCL afrme que, pour tout x, " # X (n) p P q x (x).
p(1p) n
Ce cas particulier porte le nom de thorme de de Moivre - Laplace.

ch.4-p.25i
Si p = P[obtenir "face" en lanant une pice] =
1 2
et n = 100, ceci donne
En particulier, on calcule que
X (n) p 1 q N (0, 1). = 20 X (n) 2 p(1p)

n
P[0.4 < X (n) 0.6]
= = =
(2) (2) 0.9545
h i 1 P 0.1 < X (n) 0.1 2 i h 1 2 P 2 < 20 X (n) 2 h i P 2 < N (0, 1) 2
Il y a donc peu prs 95.45% de chance quon ait entre 40 et 60 fois "face" en 100 lancers dune pice de monnaie quilibre.
ch.4-p.26i
Pour ce genre de calcul, le thorme de de Moivre - Laplace fournit une alternative P au calcul fond sur la distribution binomiale de nX = n Xi ( Bin(n, p)). i=1 P[0.4 < X (n) 0.6] = = = P[40 < 100X (n) 60] P[40 < Bin(100, 1/2) 60] P[Bin(100, 1/2) = 41] + P[Bin(100, 1/2) = 42] + . . . + P[Bin(100, 1/2) = 60] =
60 X
Dans lexemple considr, on pourrait en effet galement procder comme suit :
k =41
0.9540
`100 1 k 1 100k 1 k 2 2
Remarques : - on voit que cette valeur exacte (on a calcul cette valeur sur base de la loi exacte de nX ) est trs proche de lapproximation fournie par le TCL. - Pour n grand, il y a des avantages numriques vidents utiliser le TCL.
ch.4-p.27i
Nanmoins, le caractre miraculeux du TCL est quil permet de calculer des probabilits aussi efcacement que ci-dessus dans les situations o on ignore la distribution "mre". Avant dillustrer ceci, nous rapportons deux rsultats supplmentaires sur les convergences stochastiques. Thorme (i) X (n) X en probabilit X (n) X en loi. Le rsultat suivant est utilis de faon continue en infrence statistique. Thorme (Lemme de Slutzky) Soient (X (n) ), (Y (n) ) deux suites de variables alatoires, X une autre variable alatoire, et a une constante. Alors (i) X (n) X en loi et Y (n) a en loi X (n) + Y (n) X + a en loi (ii) X (n) X en loi et Y (n) a en loi X (n) Y (n) Xa en loi (iii) X (n) X en loi et Y (n) a(= 0) en loi X (n) /Y (n) X /a en loi.
ch.4-p.28i
Un exemple type dapplication de ce thorme est le suivant.
Soit X une v.a. de moyenne = E[X ] et de variance 2 = Var[X ] < . Soit (X1 , . . . , Xn ) un chantillon alatoire simple associ. Le TCL afrme que, en loi, X (n) n N (0, 1). Dautre part, on a vu que s p.s., donc aussi en probabilit et en loi. Le lemme de Slutzky livre donc que, en loi, X (n) X (n) s n = n / N (0, 1) / 1 = N (0, 1). s Le caractre miraculeux de ce rsultat est quil tient quelle que soit la distribution "mre" (et est donc applicable mme quand on ne la connat pas).
ch.4-p.29i
En posant z = 1 (1 ), le rsultat ci-dessus permet dcrire que h s i s P X (n) z/2 X (n) + z/2 n n
alors que X est une "estimation ponctuelle" du inconnu, lintervalle alatoire [X (n) s s 1.96 n , X (n) + 1.96 n ] constitue une "fourchette" ayant la proprit de contenir la valeur inconnue de avec une probabilit denviron 0.95 ! La longueur de cet intervalle, pour un niveau derreur x, donne une information de premire importance sur lincertitude qui rgne sur (la 2nde partie du cours donnera une interprtation plus prcise ce type de "fourchettes").
Pour = 0.05, ceci implique que, si n est grand, h s i s P X (n) 1.96 X (n) + 1.96 0.95 : n n
h i X (n) = P z/2 n z/2 P[z/2 N (0, 1) z/2 ] = 1 . s
ch.4-p.30i
Si, dans le contexte des bires servies la Jefke, un chantillon X1 , . . . , X100 de n = 100 bires a men X (n) = 24.7 et on a h s i s X (n) 1.96 , X (n) + 1.96 = [24.5, 24.9], n n ce qui tend indiquer que < 25! s = 1.04,
ch.4-p.31i
Plan du chapitre 4
ch.4-p.32i
Le lemme de Fisher
La bire nest pas chre la Jefke, et on peut donc faire en sorte de fonder la dcision sur un chantillon alatoire simple de taille n trs grande. Mais il arrive quon soit amen travailler avec de petits chantillons. Cela peut sexpliquer par la raret des observations, par le cot norme pour obtenir des observations supplmentaires (cest le cas en gntique, par exemple), etc. Si n est trop petit (n < 30 ?), lapproximation de la loi de X (n) que fournit le TCL est trop peu prcise pour donner des rsultats satisfaisants en pratique. Que peut-on faire dans ce cas ?
Comme on va le montrer, on peut encore procder aux mmes types danalyse que ci-dessus, sous lhypothse (restrictive !) que la distribution "mre" soit normale.
ch.4-p.32i
Le lemme de Fisher
Le rsultat fondamental est le suivant. Thorme (lemme de Fisher) Soient X1 , . . . , Xn des variables alatoires i.i.d. N (, 2 ) (n 2). Alors 2 (i) X (n) N , n ns2 (ii) 2 2 n1 (iii) X s2 . Contrairement la loi des grands nombres et au TCL (qui, puisque n dans ces thormes, seront dits "asymptotiques"), le rsultat ci-dessus sera quali dexact. Ceci traduit le fait que le rsultat tient pour tout n x, et donc pourra tre utilis mme pour n petit.
ch.4-p.33i
Le lemme de Fisher
Le point (i) a t prouv la page 19 de ce chapitre. Pour montrer les points (ii)-(iii), nous utiliserons le lemme suivant. Lemme Soit A une matrice (k k ) symtrique (AT = A), idempotente (A2 = A), et de trace r ( N0 ). Soit B une matrice (s k ) et telle que BA = 0. Soit Z Nk (0, Ik ). Alors (i) Z TA Z 2 et (ii) Z TA Z BZ . r Preuve du lemme : (i) puisque A est symtrique, elle admet la dcomposition A = UU T , o U est une matrice (k k ) orthogonale (U TU = Ik = UU T ) et 0 1 1 0 . . . 0 B C B 0 2 . . . 0 C B C =B . . C. .. B . . C . B . . C @ A 0 0 . . . k
ch.4-p.34i
Le lemme de Fisher
Si on pose (Z1 , . . . , Zk )T := Z := U TZ ( Nk (U T 0, U TIk U) = Nk (0, Ik )), on a donc Z TA Z = Z T(UU T )Z = (U TZ )T (U TZ ) = Z T Z =

T 2 T k X =1
2 Z .
Lidempotence de A implique que UU = A = A = (UU )(UU T ) = U 2 U T , ce qui indique que = 2 . Autrement dit, 2 = , cest--dire = 0 ou 1 . Le nombre de gaux 1 vaut trace[] = trace[U TU] = trace[UU T ] = trace[A] = r ; au prix dune permutation des colonnes de U, on peut faire en sorte que 1 = . . . = r = 1 et r +1 = . . . = k = 0. On a donc en fait Z TA Z = o la loi 2 r
r X =1
2 Z 2 , r
suit du fait que Z Nk (0, Ik ) implique que les Z sont i.i.d. N (0, 1).
ch.4-p.35i
Le lemme de Fisher
(ii) Par hypothse, on a 0 = BA = BUU T , ou de manire quivalente, ! Ir 0 , 0 = BU = BU 0 0 ce qui implique que BU = (0 |C) pour une certaine matrice (k r ) C. Donc on a que = f1 (Z1 , Z2 , . . . , Zr ). BZ = (BU)(U Z ) = (0 |C)Z = f2 (Zr +1 , Zr +2 , . . . , Zk ). Z TA Z = Puisque les Z sont mutuellement indpendants, on conclut que Z TA Z BZ . Pr 2 =1 Z T
ch.4-p.36i
Le lemme de Fisher
On peut maintenant tablir les points (ii)-(iii) du lemme de Fisher.
Preuve de (ii)-(iii) : posons Z = (Z1 , . . . , Zn )T , o Zi := (Xi )/. 1 Soit B = n 1T , o 1n := (1, 1, . . . , 1)T Rn , et soit A = In nB T B. n On vrie directement que X = Z + = BZ + n n 2 X 2 X` ` 2 ns 2 Zi nZ 2 = Z T Z n BZ = Z T Z n(Z T B T )(BZ ) Zi Z = = 2
i=1 i=1
ddddd
= Z TA Z .
Au vu du lemme, il suft donc de montrer que (a1) A est symtrique (a2) A est idempotente (a3) trace[A] = n 1 (b) BA = 0 (z) Z Nn (0, In ).
ch.4-p.37i
Le lemme de Fisher
Pour certains points, nous aurons besoin de lidentit BB T = (a1) AT = [In nB T B]T = (In )T n(B T B)T = In nB T B = A
1 T 1 1 n2 n n
1 n n2
1 n
(a2) A2 = [In nB T B][In nB T B] = In 2nB T B + n2 B T (BB T )B = In nB T B = A

1 (a3) trace[A] = trace[In ] n trace[B T B] = n n trace[BB T ] = n n trace[ n ] = n 1
(b) BA = B[In nB T B] = B n(BB T )B = B B = 0 (z) Les Xi tant i.i.d. N (, 2 ), on a que les Zi = (Xi )/ sont i.i.d. N (0, 1). Par le point (iv), ch.3-p.126, il en dcoule que Z = (Z1 , . . . , Zn )T Nn (0, In ).
ch.4-p.38i
Le lemme de Fisher
Thorme (lemme de Fisher) Soient X1 , . . . , Xn des variables alatoires i.i.d. N (, 2 ) (n 2). Alors 2 (i) X N , n ns2 (ii) 2 2 n1 (iii) X s2 . Rappelons que si Z N (0, 1) et Y 2 sont mutuellement indpendantes, alors p Z t . Y /
Il dcoule donc du lemme de Fisher que n (X (n) ) (X (n) ) n1 = r tn1 . ns2 s / (n 1) 2

ch.4-p.39i
Le lemme de Fisher
Pour peu que la distribution "mre" soit normale, on peut donc crire (n 2) h i s s P X (n) tn1;/2 X (n) + tn1;/2 n1 n1 i h (n) X tn1;/2 = P tn1;/2 n 1 s P[tn1;/2 tn1 tn1;/2 ] = 1 , o tn1; dsigne le quantile dordre 1 de la loi tn1 . Par exemple, pour = 0.05 et n = 9, ceci fournit h i s s P X (n) 2.31 0.95. X (n) + 2.31 n1 n1 Si la quantit de bire servie dans un verre la Jefke est de loi normale, on peut donc, mme si on na en poche que de largent pour 9 bires, construire des "fourchettes" remplissant le mme rle que celles construites la page 30.
ch.4-p.40i
Rfrences I
Anderson, D., Sweeney, D., et Williams, T. (2001). Statistiques pour lEconomie et la Gestion. Bruxelles, De Boeck Universit. Dagnelie, P. (1998). Statistique Thorique et Applique. Tome 2 : Infrence Statistique Une et Deux Dimensions. Bruxelles, De Boeck Universit. Dehon, C., Droesbeke, J.J., et Vermandele, C. (2007). Elments de Statistique. Bruxelles : Editions de lUniversit de Bruxelles. Hasset, M.J., et Stewart, D.G. (2006). Probability for Risk Management. ACTEX Publications, Inc., Winsted, Connecticut. Isaac, R. (1995). The Pleasures of Probability. Springer, New York.
ch.4-p.41i
Rfrences II
Stirzaker, D. (2003). Probability and Random Variables. Cambridge University Press (Virtual Publishing). Stirzaker, D. (2003). Elementary Probability. Cambridge University Press, New York. Tijms, H. (2007). Understanding Probability. Chance Rules in Everyday Life. Cambridge University Press, New York. Wackerly, D.D., Mendenhall, W., et Scheaffer, R.L. (2008). Mathematical Statistics with Applications. Duxbury Press, 7me dition.
ch.4-p.42i

+STATS202 Partie1

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

+STATS202 Partie1

Hochgeladen von

Copyright:

Verfügbare Formate

Probabilits et infrence statistique (STAT-S202)

2011-2012 (2me dition)

Universit libre de Bruxelles Solvay Brussels School of Economics and Management

Probabilits : examen en janvier Infrence statistique : examen en juin

Une note unique (la moyenne des notes de janvier et de juin).

Thormes limites et lemme de Fisher

Exprience alatoire, univers, vnements

Exprience alatoire, univers, vnements

Exprience alatoire, univers, vnements

Exprience alatoire, univers, vnements

Exprience alatoire, univers, vnements

Exprience alatoire, univers, vnements

Exprience alatoire, univers, vnements

La mesure de probabilit qui en rsulte est alors donne par P : P() A R X

Remarque : pour A = , on dnit P[A] = 0.

P[{i }] = P[{1 }] + P[{5 }]

frquences observes 154 163 142 148 172 221

pi = 1, on doit alors avoir pi = 1 # i.

On en dduit que, pour tout A P(), on a P[A] = X P[{i }] (#A fois)

nombre de cas favorables #A = . # nombre de cas possibles

P[{p, (f , p), (f , f , p)}] P[{p}] + P[{(f , p)}] + P[{(f , f , p)}] 1 1 7 1 + + = 2 4 8 8

Le disque C appartient B2 car il se dcompose en une union dnombrable de rectangles : C = R1 R2 R3 R4 ...

Extension Rk : Bk = ({(x1 , y1 ] (x2 , y2 ] . . . (xk , yk ] : xi < yi i})

nombre de cas favorables #A = , # nombre de cas possibles

il est important de pouvoir compter le nombre dlments dun ensemble.

Analyse combinatoire : rgle de multiplication

Analyse combinatoire : rgle de multiplication

Analyse combinatoire : permutations, arrangements

Analyse combinatoire : combinaisons

Analyse combinatoire : exemples

ck = P[au moins deux anniversaires identiques] = 1

365! (365k )! 365k

Analyse combinatoire : exemples

F IGURE: Probabilit quun moins deux anniversaires concident parmi k , en fonction de k

Analyse combinatoire : exemples

ck = P[exactement k bons numros] = k ck 0 0.40 1 0.42 2 0.15 3 0.022

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

Manager (M) Non-manager (M c )

on obtient P[F ] = mais

100 60 > = P[H], 160 160

Mesures de probabilit conditionnelle

F IGURE: P[F ] > P[H] mais P[M|F ] < P[M|H].

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

F IGURE: Partition de en B1 , B2 , B3 , B4 : exactement un des Bi se produit.

Mesures de probabilit conditionnelle

P[A|B1 ]P[B1 ] + P[A|B2 ]P[B2 ] + . . . + P[A|Bk ]P[Bk ].

P[A B1 ] + P[A B2 ] + . . . + P[A Bk ]

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

et le rsultat dcoule donc du thorme prcdent.

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

Mesures de probabilit conditionnelle

vriant la condition technique que, pour tout borlien B B, [X B] A ()

Distribution : cas gnral

Distribution : cas discret

Distribution : cas discret