Beruflich Dokumente
Kultur Dokumente
Semestre
Sections
Module
Matire
: IV
: A, B, C et D
: ECHANTILLONNAGE ET ESTIMATIONS
Echantillonnage et estimations
RAPPELS STATISTIQUES
Adil ELMARHOUM
Echantillonnage et estimations
Soit X la variable alatoire qui caractrise le rsultat de l'exprience alatoire "jet d'un d
homogne".
X est une variable alatoire discrte, elle peut prendre les valeurs entires 1, 2, 3, 4, 5, et 6.
Soit X la variable alatoire qui caractrise le nombre de garons dans une famille de
quatre enfants.
X est une variable alatoire discrte, elle peut prendre les valeurs entires 0, 1, 2, 3, et 4.
p( x) 1
3
Adil ELMARHOUM
Echantillonnage et estimations
La distribution cumule des probabilits est appele fonction de rpartition :
x
F (x) = p (X x) =
p( x)
0 F(x) 1
Exemple :
Soit X la variable alatoire qui caractrise le rsultat de l'exprience alatoire "jet d'un d
homogne".
X est une variable alatoire discrte, elle peut prendre les valeurs entires 1, 2, 3, 4, 5, et 6
avec la probabilit constante 1/6.
Distribution de probabilit de X
x
1
2
3
4
5
6
Total
p(x)
1/6
1/6
1/6
1/6
1/6
1/6
1
F(x)
1/6
2/6
3/6
4/6
5/6
6/6
La notion de distribution de probabilit n'a donc plus de sens dans le cas continu. Par contre la
fonction de rpartition conserve toute sa signification.
Adil ELMARHOUM
Echantillonnage et estimations
Pour une variable alatoire continue, on calcule la probabilit d'observer une valeur comprise
dans un intervalle donn [x ; x+x].
p(x X x+x) = p(X x+x) - p(X x) = F(x+x) - F(x)
Cette probabilit tend vers p(x) quand x tend vers 0.
lim p( x X x x) lim F ( x x) F ( x)
x 0
lim
x 0
x 0
F ( x x ) F ( x )
dF
lim x dx F ' ( x) f ( x)
x 0
La fonction f(x), drive de la fonction de rpartition F(x), est appele fonction de densit de
probabilit.
L'ensemble des valeurs admissibles pour une variable alatoire continue et la fonction de
densit de probabilit correspondante dfinissent une distribution de probabilit thorique
continue.
Le produit f(x)dx est appel lment de probabilit, c'est l'quivalent de la probabilit p(x)
pour une variable alatoire discontinue.
Pour une variable alatoire continue, le cumul de la fonction de densit de probabilit est gal
1:
f ( x)dx 1
F(x) =
f ( x)dx
f ( x)dx
a
Exemple :
Soit une variable alatoire continue X dfinie par la fonction de densit de probabilit :
si 0 x 1
k
f ( x)
0
sinon
Adil ELMARHOUM
Echantillonnage et estimations
Pour dterminer la constante k, il faut :
f ( x)dx 1
k dx 1
0
kx
k 1
si 0 x 1
1
f (x)
0
sinon
F(x) =
f ( x )dx
0 dx 0
Si 0 x 1 :
x
F(x) =
f ( x )dx
0 dx 1 dx x
Si x > 1 :
x
F(x) =
f ( x )dx
0 dx 1 dx 0 dx 1
si x 0
F (x) x
1
si 0 x 1
si x 1
Adil ELMARHOUM
Echantillonnage et estimations
Dfinition
E( X )
x p( x)
Cas continu :
E( X )
x f ( x)dx
Exemple :
Soit X la variable alatoire qui caractrise le nombre de garons dans une famille de
quatre enfants.
Distribution de probabilit de X
x
0
1
2
3
4
Total
E( X )
p(x)
0,0625
0,2500
0,3750
0,2500
0,0625
1
F(x)
0,0625
0,3125
0,6875
0,9375
1
Dans une famille de quatre enfants on doit s'attendre avoir deux garons.
Exemple :
Soit une variable alatoire continue X dfinie par la fonction de densit de probabilit :
si 0 x 1
1
f (x)
0
sinon
1
x 1
E ( X ) x dx
]
2 2
1
Adil ELMARHOUM
Echantillonnage et estimations
1.2.
Proprits
Cas discret :
E ( g ( X ))
g ( x) p ( x )
Cas continu : E ( g ( X ))
g ( x) f ( x)dx
Exemple :
Cas discret :
E ( X )
x p( x)
E(a) = a
E (ax b) a
xp( x) b p( x)
E (ax b) aE ( X ) b
L'esprance d'un produit est le produit des esprances si les variables sont indpendantes :
E(X Y) = E(X) E(Y)
Dfinition
Comme pour la moyenne, la variance d'une variable alatoire conserve la mme dfinition
que la variance d'une variable statistique. C'est l'esprance mathmatique des carrs des carts
par rapport l'esprance.
8
Adil ELMARHOUM
Echantillonnage et estimations
Cas discret :
Cas continu :
( x E ( X )) p( x)
( x E ( X )) f ( x)dx
Soit X la variable alatoire qui caractrise le nombre de garons dans une famille de
quatre enfants.
Distribution de probabilit de X
x
0
1
2
3
4
Total
E( X )
p(x)
0,0625
0,2500
0,3750
0,2500
0,0625
1
F(x)
0,0625
0,3125
0,6875
0,9375
1
E ( X )
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
Soit une variable alatoire continue X dfinie par la fonction de densit de probabilit :
1
f (x)
0
si 0 x 1
sinon
1
x 1
E ( X ) x dx
] 2
2
1
x3 1
E ( X ) x dx
]
3 3
1
V ( X ) E ( X ) E ( X )
1 1 1
3 4 12
1
12
2.2.
Proprits
La variance d'une somme est la somme des variances si les variables sont indpendantes :
V(X + Y) = E[((X + Y) - E(X+Y))]
V(X + Y) = E[(X + Y - E(X) - E(Y))]
V(X + Y) = E[((X-E(X)) + (Y-E(Y)))]
V(X + Y) = E[(X-E(X)) + 2 (X-E(X)) (Y-E(Y)) + (Y-E(Y))]
V(X + Y) = E[(X-E(X))] + 2 E[(X-E(X)) (Y-E(Y))] + E[(Y-E(Y))]
10
Adil ELMARHOUM
Echantillonnage et estimations
Si X et Y sont indpendantes, on peut crire :
E[(X-E(X)) (Y-E(Y))] = E(X-E(X)) E(Y-E(Y)) = 0
V(X + Y) = E[(X-E(X))] + E[(Y-E(Y))]
V(X + Y) = V(X) + V(Y)
La variance d'une diffrence est la somme des variances si les variables sont
indpendantes :
V(X - Y) = E[((X - Y) - E(X-Y))]
V(X - Y) = E[(X - Y - E(X) + E(Y))]
V(X - Y) = E[((X-E(X)) - (Y-E(Y)))]
V(X - Y) = E[(X-E(X)) - 2 (X-E(X)) (Y-E(Y)) + (Y-E(Y))]
V(X - Y) = E[(X-E(X))] - 2 E[(X-E(X)) (Y-E(Y))] + E[(Y-E(Y))]
Une variable alatoire est dite centre si son esprance mathmatique est nulle, elle est dite
rduite si son cart-type est gal 1.
Toute variable alatoire peut tre transforme en une variable centre rduite par le
changement de variable
X E( X )
.
lim P( X n a ) = 0
0,
Ceci signifie que lcart entre le paramtre calcul partir de lchantillon et la vraie valeur
du paramtre de la population est trs faible quand la taille de lchantillon est grande. Cet
cart peut tre mesur par la variance. Ainsi on parle de convergence en probabilit si :
limV(X n) = 0
n
11
Adil ELMARHOUM
Echantillonnage et estimations
Exemple 1 :
Soit Xn une variable alatoire qui dsigne le nombre de succs obtenus lors de n prlvements
dans une population finie de taille N et dont la proportion de succs est p.
Dsignons par Fn
Xn
la frquence relative (pourcentage) des succs.
n
et
V(Xn) = N n n p q
N 1
On dmontre :
E( Fn ) = E( X n ) = 1 E( X n ) = 1 n p = p
n
n
n
pq
V( Fn ) = V( X n ) = 1 V( X n ) = 1 N n n p q = N n
n
n
n N 1
N 1 n
lim V ( Fn ) = 0
n
et
V(Xn) = n p q
On dmontre :
E( Fn ) = E( X n ) = 1 E( X n ) = 1 n p = p
n
n
n
pq
V( Fn ) = V( X n ) = 1 V( X n ) = 1 n p q =
n
n
n
n
lim V ( Fn ) = 0
n
Adil ELMARHOUM
Echantillonnage et estimations
Exemple 2 :
Soient Xi (i=1 n) n variables alatoires indpendantes et ayant la mme loi de probabilit.
E(Xi) = m
V(Xi) =
et
Xi
Dsignons par : X n i 1
n
On dmontre :
n
E( X n ) = E(
Xi
i 1
) = 1 E(Xi) = 1 nm = m
n i 1
n
V( X n ) = V(
Xi
i 1
) = 1 V(Xi) = 1 n N n = N n
n i 1
n
N 1
N 1 n
limV(X n) = 0
n
Xi
La moyenne X n i 1
n
vers m.
On dmontre :
n
E( X n ) = E(
Xi
i 1
) = 1 E(Xi) = 1 nm = m
n i 1
n
V( X n ) = V(
Xi
i 1
) = 1 V(Xi) = 1 n =
n i 1
n
n
limV(X n) = 0
n
Xi
La moyenne X n i 1
n
vers m.
13
Adil ELMARHOUM
Echantillonnage et estimations
X E( X )
.
Quelle que soit la variable alatoire X, la probabilit d'un intervalle [E(X)-k , E(X)+k] a
pour borne infrieure 1
1
.
k
1
k
V(X)
ou
P( X E(X) < ) 1
V(X)
Demonstration :
V (X )
( x E( X )) p( x)
avec :
S1 =
( x E ( X )) p( x)
pour
x < E(X)-k
S2 =
( x E ( X )) p( x)
pour
E(X)-k x E(X)+
S3 =
( x E ( X )) p( x)
pour
x > E(X)+
V ( X ) S1 S 2 S 3
V ( X ) S1 S 3
Pour S1
x < E(X) - k
x - E(X) < - k
(x - E(X)) > k
( x E ( X )) p ( x) k p ( x)
1
S1 k
p ( x)
1
14
Adil ELMARHOUM
Echantillonnage et estimations
Pour S3
x > E(X) + k
x - E(X) > k
(x - E(X)) > k
( x E ( X )) p ( x) k p ( x)
3
S 3 k
p ( x)
3
V ( X ) S1 S 3
V ( X ) k
p ( x) k p ( x)
1
V ( X ) k (
p ( x) p ( x))
1
p ( x ) p ( x) 1 p
1
On note :
2 ( x)
2 ( x)
2 ( x)
p( E ( X ) k X E ( X ) k )
Or V ( X )
On a donc :
k (1 p)
1 k (1 p)
1
1 p
k
p 1
1
k
15
Adil ELMARHOUM
Echantillonnage et estimations
1
k
ou encore :
P(E(X)- < X < E(X)+ ) 1
V(X)
ou
P( X E(X) < ) 1
V(X)
Xi
moyenne X n i 1
n
on obtient :
P( f n p < ) 1
pq
n
et
16
P( X m < ) 1
n
Adil ELMARHOUM
Echantillonnage et estimations
q=1-p
La variable alatoire X qui caractrise le nombre de succs au cours d'une seule exprience
alatoire est appele variable de Bernoulli, elle prend les valeurs entires 0 et 1 avec les
probabilits respectives q et p.
Loi de probabilit d'une variable Bernoulli
x
0
1
Total
p(x)
q
P
1
Esprance mathmatique
E(X) =
xp( x) 0 q 1 p p
Variance
E(X) =
x p( x) 0 q 1 p p
17
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
On lance une pice de monnaie une seule fois. Soit X la variable alatoire qui caractrise le
nombre de piles obtenues. X est une variable de Bernoulli, elle prend les valeurs entires 0 et
1 avec la probabilit constante 0,5.
Loi de probabilit de X
x
0
1
Total
p(x)
0,5
0,5
1
q=1-p
Les probabilits p et q restent constantes au cours d'une suite d'expriences alatoires. C'est le
cas des prlvements d'individus au hasard dans une population infinie ou le prlvement
d'individus dans une population finie, lorsque les individus sont remis en place au fur et
mesure des prlvements.
La variable alatoire X qui caractrise le nombre de succs au cours de n expriences
alatoires indpendantes est appele variable binomiale, elle prend les valeurs entires de 0
n.
La probabilit d'obtenir x succs et donc (n-x) checs au cours de n expriences alatoires
indpendantes est, pour x = 0, 1, ..., n :
p( x)
x
n
p x q nx
Adil ELMARHOUM
Echantillonnage et estimations
et
V(Xi) = pq
Esprance mathmatique
Variance et cart-type
Exemple :
Dans un lot important de pices, dont 10 % sont dfectueuses, on prlve un chantillon de 20
pices. Quelle est la probabilit d'obtenir plus de deux pices dfectueuses ?
19
Adil ELMARHOUM
Echantillonnage et estimations
On dfinit la variable alatoire X comme tant le nombre de pices dfectueuses qu'on peut
obtenir dans l'chantillon. La variable X peut prendre les valeurs entires de 0 20.
La population des pices peut tre considre comme une population pratiquement infinie. La
probabilit de succs, c'est dire la probabilit qu'une pice choisie soit dfectueuse, est
constante et gale 0,1. La variable alatoire X suit donc une loi binomiale de paramtre 20 et
0,1.
X = B(20 ; 0,1)
La probabilit d'avoir plus de deux pices dfectueuses dans l'chantillon est :
P(X > 2) = 1 - p(X 2) = 1 - p(0) - p(1) - p(2)
p ( X 2) 1
0
20
0,10 0,9 20
1
20
0,11 0,919
2
20
0,12 0,918
L'esprance mathmatique :
E(X) = np = 20 0,1 = 2 pices dfectueuses.
Dans un chantillon de 20 pices, on peut s'attendre avoir deux pices dfectueuses.
La variance :
V(X) = npq = 20 0,1 0,9 = 1,8
3.3. Proprits
Additivit
X2 = B(n2 , p)
Xk = B(nk , p)
X1 + X2 + + Xk = B(n1 + n2 + + nk , p)
Formule de rcurrence
p ( n x)
p( x)
q ( x 1)
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
Distribution de la variable B(4 , 1/2)
x
0
1
2
3
4
Total
p(x)
0,0625
0,2500
0,3750
0,2500
0,0625
1
C C
p( x)
C
n1
nx
n2
21
Adil ELMARHOUM
Echantillonnage et estimations
Une variable alatoire X qui sui une loi hypergomtrique de paramtres N, n1, et n est
dsigne par :
X = H(N, n1 , n)
n1
N
La proportion des individus de la population qui ne possdent pas le caractre tudi est :
q
Esprance mathmatique :
Variance et cart-type :
n2
N
E(X) = np
V(X) = N n npq
N 1
et
N-n npq
N-1
Exemple :
Dans une population de 40 personnes, dont 6 personnes sont originaires du Sud, 14 du Nord,
12 de l'Est et 8 de l'Ouest, on choisit au hasard un chantillon de 4 personnes.
La variable alatoire X dsigne le nombre d'individus de l'chantillon qui sont originaire du
Nord.
La population tant finie et les prlvements s'effectuent sans remise, la variable X suit donc
une loi hypergomtrique de paramtres :
X = H(40, 14, 4)
22
Adil ELMARHOUM
Echantillonnage et estimations
La distribution de cette variable est telle que, pour x = 0, 1, 2, 3, 4 :
0
C C
p (0)
C
14
4
26
0,1636
40
C C
p (1)
C
14
3
26
0,3983
40
C C
p ( 2)
C
14
2
26
0,3236
40
C C
p (3)
C
14
26
0,1036
40
C C
p ( 4)
C
14
0
26
0,0110
40
Distribution de probabilit de X
x
0
1
2
3
4
Total
p(x)
0,1636
0,3983
0,3236
0,1036
0,0110
1
14
0,35
40
La proportion des individus de la population qui ne sont pas originaires du Nord est :
q
26
0,65
40
Esprance mathmatique :
Variance et cart-type :
Ecart type :
0,84 0,92
23
Adil ELMARHOUM
Echantillonnage et estimations
C C
p( x)
C
n1
nx
n2
devient
fastidieux. On peut dmonter dans ce cas que lorsque l'effectif de la population (N) tend vers
l'infini et la proportion des individus possdant le caractre tudi (p) est constante ou tend
vers une constante, la loi hypergomtrique tend vers une loi binomiale de paramtre n et p.
On peut dans ce cas effectuer les calculs de probabilits de faon approximatives l'aide de la
formule de la loi binomiale. En pratique, l'approximation est satisfaisante ds que la
proportion des individus prlevs est infrieure 5 %.
n
0,05
N
N 20 n
ou
Exemple :
Soit la variable hypergomtrique H(100, 30, 4)
La distribution de cette variable est telle que, pour x = 0, 1, 2, 3, 4 :
x
C C
p( x)
C
30
4 x
70
100
p(x)
0,2338
0,4188
0,2679
0,0725
0,0070
1
La distribution de cette variable peut tre calcule l'aide de l'approximation par la loi
binomiale de paramtres 4 et 0,3. Les probabilits approximatives sont telle que, pour x = 0,
1, 2, 3, 4 :
p( x)
x
4
0,3 x 0,7 4 x
Adil ELMARHOUM
Echantillonnage et estimations
V. LOI DE POISSON
5.1. Dfinition
La loi de poisson intervient pour des phnomnes statistiques dont le nombre de ralisation
varie de 0 l'infini et dont la frquence moyenne de ralisation est connue.
Exemple :
Nombre d'appels reus par un standard tlphonique.
Nombre d'accidents de la circulation.
Nombre de visiteur d'un centre commercial.
em m x
x!
Une variable alatoire X qui suit une loi de poisson de paramtre m est dsigne par :
X = P(m)
Exemple :
Un port a les moyens techniques de recevoir au maximum 4 bateaux ptroliers par jour. Le
reste est envoy vers un autre port. Quelle est la probabilit qu'un jour donn, le port ne puisse
recevoir tous les bateaux qui se prsentent, si on sait qu'en moyenne 3 bateaux se prsentent
par jour.
Dsignons par la variable alatoire X, le nombre de bateaux qui se prsentent un jour donn.
X suit une loi de poisson de paramtre 3.
X = P(3)
25
Adil ELMARHOUM
Echantillonnage et estimations
La probabilit qu'un jour donn, le port ne puisse recevoir tous les bateaux qui se prsentent
est :
P(X > 4) = 1 - p(X 4) = 1 - p(0) - p(1) - p(2) - p(3) - p(4)
p ( X 4) 1
e 3 3 0 e 3 31 e 3 3 2 e 3 33 e 3 3 4
0!
1!
2!
3!
4!
X2 = P(m2)
Xk = P(mk)
X1 + X2 + + Xk = P(m1 + m2 + + mk)
m
x 1
Exemple :
Soit la distribution de poisson de paramtre 3.
X = P(3)
La distribution de cette variable est telle que, pour x = 0, 1, 2, 3, 4,
p( x)
e 3 3 x
x!
26
Adil ELMARHOUM
Echantillonnage et estimations
Les probabilits p(x) peuvent tre calcules par rcurrence de la manire suivante :
p(0) = e-3 = 0,0498
p (1) 0,0498
3
0,1494
1
p (2) 0,1494
3
0,2240
2
p (3) 0, 2240
3
0,2240
3
p (4) 0, 2240
3
0,1680
4
27
Adil ELMARHOUM
Echantillonnage et estimations
La probabilit d'avoir plus d'une ampoule dfectueuse dans l'chantillon est :
p(X > 1) = 1 - p(X 1) = 1 - p(0) - p(1)
p ( X 1) 1
0
20
0,05 0 0,95 20
1
20
0,051 0,9519
La probabilit d'avoir plus d'une ampoule dfectueuse dans l'chantillon peut tre calcule de
faon approximative l'aide de la loi de poisson de paramtre 200,05 = 1, puisque la
probabilit p est infrieure 0,1 (0,05) et le produit np est infrieur 5 (200,05 = 1) :
p(X > 1) = 1 - p(X 1) = 1 - p(0) - p(1)
p ( X 1) 1
e 1 10 e 1 11
0!
1!
28
Adil ELMARHOUM
Echantillonnage et estimations
1 xm
(
)
2
f ( x)dx 1
La loi normale dpend de deux paramtres m et . Une variable alatoire X qui suit une loi
normale de paramtres m et est dsigne par :
X = N(m , )
29
Adil ELMARHOUM
Echantillonnage et estimations
Une variable normale rduite est dfinie par la fonction de densit de probabilit suivante :
f(z) 1 e z2
2
Toute variable normale X de paramtres m et peut tre transforme en une variable normale
rduite par le changement de variable suivant :
Z X m
En particulier la loi normale rduite est symtrique par rapport l'axe des abscisses et
caractrise par l'existence d'un maximum en z = 0 et f(z) =
1
2
0,40 .
La fonction de rpartition correspond l'aire comprise entre cette courbe et l'axe des
abscisses.
normale rduite.
30
Adil ELMARHOUM
Echantillonnage et estimations
Table de la fonction de rpartition
Cette table donne les valeurs de la fonction de rpartition (z) pour des valeurs positives z
d'une variable normale rduite. En raison de la symtrie de f(z), on peut dduire les valeurs
(z) pour les valeurs ngatives de z :
(-z) = p(Z -z) = p(Z > z) = 1 - p(Z z) = 1 - (z)
(-z) = 1 - (z)
Pour une variable normale quelconque X de paramtre m et :
F(x) p(X x) p( X m x m) p(Z z) (z)
F(x) = (z)
Pour lire une valeur (z) dans la table, il suffit de lire l'intersection entre la ligne
correspondante la valeur de z et la colonne correspondante au deuxime chiffre aprs la
virgule de z.
31
Adil ELMARHOUM
Echantillonnage et estimations
TABLE DE LA FONCTION DE REPARTITION DE LA LOI NORMALE REDUITE
z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159
0,8413
0,8643
0,8849
0,90320
0,91924
0,93319
0,94520
0,95543
0,96407
0,97128
0,97725
0,98214
0,98610
0,98928
0,99180
0,99379
0,99534
0,99653
0,99744
0,99813
0,99865
0,99903
0,99931
0,99952
0,99966
0,99977
0,99984
0,99989
0,99993
0,99995
0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,90490
0,92073
0,93448
0,94630
0,95637
0,96485
0,97193
0,97778
0,98257
0,98645
0,98956
0,99202
0,99396
0,99547
0,99664
0,99752
0,99819
0,99869
0,99906
0,99934
0,99953
0,99968
0,99978
0,99985
0,99990
0,99993
0,99995
0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,90658
0,92220
0,93574
0,94738
0,95728
0,96562
0,97257
0,97831
0,98300
0,98679
0,98983
0,99224
0,99413
0,99560
0,99674
0,99760
0,99825
0,99874
0,99910
0,99936
0,99955
0,99969
0,99978
0,99985
0,99990
0,99993
0,99996
0,03
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,90824
0,92364
0,93699
0,94845
0,95818
0,96638
0,97320
0,97882
0,98341
0,98713
0,99010
0,99245
0,99430
0,99573
0,99683
0,99767
0,99831
0,99878
0,99913
0,99938
0,99957
0,99970
0,99979
0,99986
0,99990
0,99994
0,99996
0,04
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7703
0,7995
0,8264
0,8508
0,8729
0,8925
0,90988
0,92507
0,93822
0,94950
0,95907
0,96712
0,97381
0,97932
0,98382
0,98745
0,99036
0,99266
0,99446
0,99585
0,99693
0,99774
0,99836
0,99882
0,99916
0,99940
0,99958
0,99971
0,99980
0,99986
0,99991
0,99994
0,99996
0,05
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,91149
0,92647
0,93943
0,95053
0,95994
0,96784
0,97441
0,97982
0,98422
0,98778
0,99061
0,99286
0,99461
0,99598
0,99702
0,99781
0,99841
0,99886
0,99918
0,99942
0,99960
0,99972
0,99981
0,99987
0,99991
0,99994
0,99996
0,06
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,91309
0,92785
0,94062
0,95154
0,96080
0,96856
0,97500
0,98030
0,98461
0,98809
0,99086
0,99305
0,99477
0,99609
0,99711
0,99788
0,99846
0,99889
0,99921
0,99944
0,99961
0,99973
0,99981
0,99987
0,99992
0,99994
0,99996
0,07
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,91466
0,92922
0,94179
0,95254
0,96164
0,96926
0,97558
0,98077
0,98500
0,98840
0,99111
0,99324
0,99492
0,99621
0,99720
0,99795
0,99851
0,99893
0,99924
0,99946
0,99962
0,99974
0,99982
0,99988
0,99992
0,99995
0,99996
0,08
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,91621
0,93056
0,94295
0,95352
0,96246
0,96995
0,97615
0,98124
0,98537
0,98870
0,99134
0,99343
0,99506
0,99632
0,99728
0,99801
0,99856
0,99897
0,99926
0,99948
0,99964
0,99975
0,99983
0,99988
0,99992
0,99995
0,99997
0,09
05359
05753
06141
06517
06879
07224
07549
07852
08133
08389
08621
08830
090147
0,91774
0,93189
0,94408
0,95449
0,96327
0,97062
0,97670
0,98169
0,98574
0,98899
0,99158
0,99361
0,99520
0,99643
0,99736
0,99807
0,99861
0,99900
0,99929
0,99950
0,99965
0,99976
0,99983
0,99989
0,99992
0,99995
0,99997
Exemple :
La valeur de (1,36) correspond l'intersection entre la ligne correspondante 1,3 et la
colonne correspondante 0,06, on peut lire la valeur 0,91309.
(-2,24) = 1 - (2,24) = 1 - 0,98745 = 0,01255
32
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
Pour qu'une pice fabrique par une machine soit utilisable, sa longueur doit tre comprise
entre 14,7 et 15,3 cm, sinon elle est rejete. Sachant que la longueur de cette pice est une
variable normale de paramtres 15 cm et 0,2 cm, quelle proportion de pices peuvent tre
rejetes.
Si on dsigne par la variable X la longueur des pices, X suit une loi normale :
X = N(15 ; 0,2)
La probabilit de rejet d'une pice est :
p(rejet) = 1 p(accepter)
p(accepter) = p(14,7 X 15,3) = p(X 15,3) p(X 14,7)
p(accepter) = p( X 15
0,2
15,315
14,715
) - p( X 15
)
0,2
0,2
0,2
Exemple :
Pour se rendre son travail un ouvrier prend deux bus. La dure du trajet du premier bus est
une variable normale de paramtres 27 minutes et 5 minutes. La dure du trajet du deuxime
bus est une variable normale de paramtres 30 minutes et 2 minutes. Quelle est la probabilit
que cet ouvrier n'arrive pas en retard s'il dispose d'une heure ?
33
Adil ELMARHOUM
Echantillonnage et estimations
Dsignons par X1 La dure du trajet du premier bus : X1 = N(27 ; 5).
Dsignons par X2 La dure du trajet du deuxime bus : X2 = N(30 ; 2).
Dsignons par X la dure totale des deux trajets : X = X1 + X2.
La variable X est la somme de deux variables normales indpendantes, elle suit donc une loi
normale :
X = N(30+27 ; 5 2 ) = N(57 ; 5,4)
Pour ne pas arriver en retard la dure totale des deux trajets ne doit pas dpasser 60 minutes.
Exemple :
Une caisse d'assurance maladie reoit 120 personnes pour l'obtention de remboursements. On
suppose que la somme rembourser chaque personne est une variable alatoire de moyenne
1000 dirhams et d'cart type 600 dirhams. La caisse dispose de 130000 dirhams. Quelle est le
risque que cette somme ne soit pas suffisante pour rembourser toutes les personnes ?
Dsignons par Xi (i = 1 120) la somme rembourser chaque personne.
Dsignons par X la somme totale que la caisse doit payer aux 120 personnes.
X = X1 + X2 + + X120
D'aprs le thorme central limite, on peut affirmer que X suit une loi normale de moyenne la
somme des moyennes et d'cart type la racine carre de la somme des variances.
X N(1201000; 120600 ) N(120000;6572,67)
34
Adil ELMARHOUM
Echantillonnage et estimations
La somme de 130000 dh ne sera pas suffisante si la somme totale rembourser aux 120
personnes dpasse 130000 dh :
p(X > x)
ou
La recherche de ces probabilits est souvent longue, car il faut dterminer individuellement et
d'additionner les diffrentes probabilits p(X = x).
p(X < 10) = p(0)+p(1)+p(2)+p(3)+p(4)+p(5)+p(6)+p(7)+p(8)+p(9)
Lorsque le paramtre n de la loi binomiale est grand et les probabilits de succs p et d'chec
q ne sont pas trop petites, on peut effectuer ce calcul d'une manire approche l'aide de la loi
normale de paramtres np et npq .
En pratique l'approximation est satisfaisante lorsque les produits np et nq sont suprieurs 5 :
B(n ; p) N(np ;
npq )
Pour amliorer la qualit de l'approximation de la loi binomiale, qui est discrte, par la loi
normale, qui est continue, on introduit gnralement une correction de continuit de 0,5. Les
diffrentes probabilits deviennent :
Exemple :
On suppose que la probabilit qu'un tudiant russisse un examen est de 0,8. Quelle est la
probabilit qu'au moins 75 tudiants parmi 100 tudiants russissent l'examen ?
Dsignons par X le nombre d'tudiants qui russissent l'examen.
35
Adil ELMARHOUM
Echantillonnage et estimations
X est une variable discrte qui prend les valeurs entires de 0 100. Elle suit une loi
binomiale de paramtres 100 et 0,8.
X = B(100 ; 0,8)
La probabilit qu'au moins 75 tudiants parmi 100 tudiants russissent l'examen est :
p(X 75)
Les produits np et nq sont respectivement 1000,8 = 80 et 1000,2 = 20, ils sont suprieurs
5. On peut donc effectuer le calcul de cette probabilit d'une manire approche l'aide de la
loi normale de paramtres np = 80 et npq = 4.
X = B(100 ; 0,8) N(80 ; 4)
Pour amliorer la qualit de l'approximation on introduit la correction de continuit, la
probabilit p(X 75) devient :
p(X 75 + 0,5) = 1 - p(X < 75,5)
p(X 75,5)1 p( X 80
4
75,580
)1 p(Z 1,13)
4
36
Adil ELMARHOUM
Echantillonnage et estimations
f ( x) c x 2 e
x
2
Le paramtre k est une constante entire positive appele nombre de degrs de libert, on dit
variable Khi carr k degr de libert, dsigne par k dl.
f ( x)dx 1
0
La variable Khi deux de Pearson correspond aussi la somme des carrs de k variables
normales rduites indpendantes.
Soient Z1, Z2, , Zk k variables normales rduites indpendantes, on peut dmontrer :
k dl = Z1 + Z2 + + Zk
3.1.2. Caractristiques de la loi k dl
On peut dmontrer que :
Esprance mathmatique
: E( k dl) = k
Variance
: V( k dl) = 2 k
k1 dl + k2 dl + + kn dl = (k1+k2++kn) dl
Une variable Khi carr k degr de libert peut donc tre considre comme tant la somme
37
Adil ELMARHOUM
Echantillonnage et estimations
de k variables Khi carr 1 degr de libert indpendantes.
3.1.4. Table de la loi Khi deux de Pearson
La table de la loi Khi carr dpend du paramtre k, elle donne les valeurs de k dl pour les
valeurs de la fonction de rpartition F( k dl).
38
Adil ELMARHOUM
Echantillonnage et estimations
0,0005
0,06393
0,02100
0,0153
0,0639
0,158
0,299
0,485
0,710
0,972
1,26
1,59
1,93
2,31
2,70
3,11
3,54
3,98
4,44
4,91
5,40
5,90
6,40
6,92
7,45
7,99
8,54
9,09
9,66
10,2
10,8
0,001
0,05157
0,02200
0,0243
0,0908
0,210
0,381
0,598
0,857
1,15
1,48
1,83
2,21
2,62
3,04
3,48
3,94
4,42
4,90
5,41
5,92
6,45
6,98
7,53
8,08
8,65
9,22
9,80
10,4
11,0
11,6
0,005
0,04393
0,0100
0,0717
0,207
0,412
0,676
0,989
1,34
1,73
2,16
2,60
3,07
3,57
4,07
4,60
5,14
5,70
6,26
6,84
7,43
8,03
8,64
9,26
9,89
10,5
11,2
11,8
12,5
13,1
13,8
0,01
0,025
0,03157 0,03982
0,0201 0,0506
0,115
0,216
0,297
0,484
0,554
0,831
0,872
1,24
1,24
1,69
1,65
2,18
2,09
2,70
2,56
3,25
3,05
3,82
3,57
4,40
4,11
5,01
4,66
5,63
5,23
6,26
5,81
6,91
6,41
7,56
7,01
8,23
7,63
8,91
8,26
9,59
8,90
10,3
9,54
11,0
10,2
11,7
10,9
12,4
11,5
13,1
12,2
13,8
12,9
14,6
13,6
15,3
14,3
16,0
15,0
16,8
39
0,05
0,1
0,2
0,3
0,4
0,02393 0,0158 0,0642 0,148 0,275
0,103
0,211
0,446 0,713 1,02
0,352
0,584 1,00
1,42 1,87
0,711
1,06
1,65
2,19 2,75
1,15
1,61
2,34
3,00 3,66
1,64
2,20
3,07
3,83 4,57
2,17
2,83
3,82
4,67 5,49
2,73
3,49
4,59
5,53 6,42
3,33
4,17
5,38
6,39 7,36
3,94
4,87
6,18
7,27 8,30
4,57
5,58
6,99
8,15 9,24
5,23
6,30
7,81
9,03
10,2
5,89
7,04
8,63
9,93
11,1
6,57
7,79
9,47
10,8
12,1
7,26
8,55
10,3
11,7
13,0
7,96
9,31
11,2
12,6
14,0
8,67
10,1
12,0
13,5
14,9
9,39
10,9
12,9
14,4
15,9
10,1
11,7
13,7
15,4
16,9
10,9
12,4
14,6
16,3
17,8
11,6
13,2
15,4
17,2
18,8
12,3
14,0
16,3
18,1
19,7
13,1
14,8
17,2
19,0
20,7
13,8
15,7
18,1
19,9
21,7
14,6
16,5
18,9
20,9
22,6
15,4
17,3
19,8
21,8
23,6
16,2
18,1
20,7
22,7
24,5
16,9
18,9
21,6
23,6
25,5
17,7
19,8
22,5
24,6
26,5
18,5
20,6
23,4
25,5
27,4
Adil ELMARHOUM
Echantillonnage et estimations
TABLE DE LA LOI KHI DEUX DE PEARSON (SUITE)
k/p
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,5
0,455
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,3
11,3
12,3
13,3
14,3
15,3
16,3
17,3
18,3
19,3
20,3
21,3
22,3
23,3
24,3
25,3
26,3
27,3
28,3
29,3
0,6
0,708
1,83
2,95
4,04
5,13
6,21
7,28
8,35
9,41
10,5
11,5
12,6
13,6
14,7
15,7
16,8
17,8
18,9
19,9
21,0
22,0
23,0
24,1
25,1
26,1
27,2
28,2
29,2
30,3
31,3
0,7
1,07
2,41
3,67
4,88
6,06
7,23
8,38
9,52
10,7
11,8
12,9
14,0
15,1
16,2
17,3
18,4
19,5
20,6
21,7
22,8
23,9
24,9
26,0
27,1
28,2
29,2
30,3
31,4
32,5
33,5
0,8
1,64
3,22
4,64
5,99
7,29
8,56
9,80
11,0
12,2
13,4
14,6
15,8
17,0
18,2
19,3
20,5
21,6
22,8
23,9
25,0
26,2
27,3
28,4
29,6
30,7
31,8
32,9
34,0
35,1
36,3
0,9
2,71
4,61
6,25
7,78
9,24
10,6
12,0
13,4
14,7
16,0
17,3
18,5
19,8
21,1
22,3
23,5
24,8
26,0
27,2
28,4
29,6
30,8
32,0
33,2
34,4
35,6
36,7
37,9
39,1
40,3
0,95
3,84
5,99
7,81
9,49
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
32,7
33,9
35,2
36,4
37,7
38,9
40,1
41,3
42,6
43,8
0,975
5,02
7,38
9,35
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,5
36,8
38,1
39,4
40,6
41,9
43,2
44,5
45,7
47,0
0,9995
12,1
15,2
17,7
20,0
22,1
24,1
26,0
27,9
29,7
31,4
33,1
34,8
36,5
38,1
39,7
41,3
42,9
44,4
46,0
47,5
49,0
50,5
52,0
53,5
54,9
56,4
57,9
59,3
60,7
62,2
Pour lire une valeur k dl dans la table, il suffit de lire l'intersection entre la colonne
correspondante la valeur de la probabilit cumule F( k dl) et la ligne correspondante aux
degrs de libert k.
Exemple :
La valeur de 10 dl pour une probabilit de 0,95 correspond l'intersection entre la colonne
correspondante 0,95 et la ligne correspondante 10, on peut lire la valeur 18,3.
0,95 10 dl = 18,3
0,05 20 dl = 10,9
40
Adil ELMARHOUM
Echantillonnage et estimations
3.1.5. Approximation de la loi Khi deux par la loi normale
Une variable Khi carr k degrs de libert peut donc tre considre comme tant la somme
de k variables Khi carr 1 degr de libert indpendantes.
De ce fait, et par application du thorme central limite, on peut affirmer que la loi Khi deux
tend vers une loi normale de paramtres k et 2k . Ce qui permet de rsoudre les problmes
relatifs aux distributions de nombre de degrs de libert k lev. Toutefois, la convergence
vers la loi normale est relativement lente, l'approximation est gnralement satisfaisante
lorsque k est suprieur 100. pour un nombre de degr de libert compris entre 30 et 100, on
prfre faire usage de la racine carre. On peut en effet dmonter que la transformation :
Z = 2 2k 1
est trs proche de la loi normale centre rduite. On peut aussi utiliser la transformation
inverse :
(Z 2k 1)
2
Exemple 1 :
La lecture de la table Khi deux donne :
0,95 30 dl = 43,8
En utilisant l'approximation de la loi Khi deux par la transformation ci dessus on obtient :
(Z0.95 2301)
2
(1.65 59)
43.8
2
41
Adil ELMARHOUM
Echantillonnage et estimations
Exemple 2 :
La valeur de 0,95 150 dl ne se trouve pas dans la table statistique. Le nombre de degrs de
libert tant trs grand, on peut utiliser lapproximation par la loi normale de moyenne 150 et
dcart type 2150 17,32 .
En passant la loi normale centre rduite on obtient :
0,95150dl 150
= Z0,95
17,32
do :
0,95 30 dl = Z0,95 x 17,32 + 150
0,95 30 dl = 1,65 x 17,32 + 150 = 178,58
t
f (t ) c (1 )
k
k 1
2
Le paramtre k est une constante entire positive appele nombre de degrs de libert, on dit
variable t k degr de libert, dsigne par t k dl.
f (t )dt 1
La variable t de Student correspond aussi au quotient dune variable normale rduite par la
racine carre d'une variable k dl indpendante de la premire variable.
Soient Z une variable normale rduite et k dl une variable Khi carr k degrs de libert,
indpendantes. On peut dmontrer :
tkdl
Z
kdl
k
42
Adil ELMARHOUM
Echantillonnage et estimations
3.2.2. Caractristiques de la loi t k dl
On peut dmontrer que :
Variance
43
Adil ELMARHOUM
Echantillonnage et estimations
TABLE DE LA LOI T DE STUDENT
k/p
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
80
100
200
500
0,6
0,325
0,289
0,277
0,271
0,267
0,265
0,263
0,262
0,261
0,260
0,260
0,259
0,259
0,258
0,258
0,258
0,257
0,257
0,257
0,257
0,257
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,255
0,254
0,254
0,254
0,254
0,253
0,253
0,7
0,727
0,617
0,584
0,569
0,559
0,553
0,549
0,546
0,543
0,542
0,540
0,539
0,538
0,537
0,536
0,535
0,534
0,534
0,533
0,533
0,532
0,532
0,532
0,531
0,531
0,531
0,531
0,530
0,530
0,530
0,529
0,527
0,527
0,526
0,525
0,525
0,524
0,8
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,848
0,846
0,845
0,843
0,842
0,842
0,9
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,292
1,290
1,286
1,283
1,282
0,95
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,664
1,660
1,653
1,648
1,645
0,975
12,71
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,990
1,984
1,972
1,965
1,960
0,99
31,82
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,374
2,365
2,345
2,334
2,326
0,995
63,66
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,639
2,626
2,601
2,586
2,576
0,999 0,9995
318,3 636,6
22,33 31,60
10,22 12,94
7,173 8,610
5,893 6,859
5,208 5,959
4,785 5,405
4,501 5,041
4,297 4,781
4,144 4,587
4,025 4,437
3,930 4,318
3,852 4,221
3,787 4,140
3,733 4,073
3,686 4,015
3,646 3,965
3,611 3,922
3,579 3,883
3,552 3,850
3,527 3,819
3,505 3,792
3,485 3,767
3,467 3,745
3,450 3,725
3,435 3,707
3,421 3,690
3,408 3,674
3,396 3,659
3,385 3,646
3,307 3,551
3,232 3,460
3,195 3,415
3,174 3,389
3,131 3,339
3,106 3,310
3,090 3,291
Pour lire une valeur tkdl dans la table, il suffit de lire l'intersection entre la colonne
correspondante la valeur de la probabilit cumule F(t k dl) et la ligne correspondante aux
degrs de libert k.
Exemple :
La valeur de t 10 dl pour une probabilit de 0,95 correspond l'intersection entre la colonne
correspondante 0,95 et la ligne correspondante 10, on peut lire la valeur 1,812.
t 0,95 10 dl = 1,812
t 0,7 20 dl = 0,533
44
Adil ELMARHOUM
Echantillonnage et estimations
3.2.4. Approximation de la loi t de Student par la loi normale
Lorsque le nombre de degrs de libert k est trs lev, la loi t de Student peut tre
directement assimile la loi normale rduite sans effectuer aucun changement de variable.
Ce qui permet de rsoudre les problmes relatifs aux distributions t de nombre de degrs de
libert lev. L'approximation est gnralement satisfaisante lorsque k est suprieur 30.
Exemple :
La lecture de la table t donne :
t 0,95 80 dl = 1,664
et
t 0,8 80 dl = 0,846
En utilisant l'approximation de la loi t par la loi normale rduite, on peut lire dans la table de
la fonction de rpartition de la loi normale rduite la valeur de z pour F(z) = 0,95 qui est gale
1,65.
La lecture de la table de la fonction de rpartition de la loi normale rduite montre que la
valeur de z pour F(z) = 0,80 est gale 0,84.
On constate que l'approximation est satisfaisante.
f ( x) c
k1
1
x2
( k1 x k 2 )
k 1 k 2
2
Les paramtres k1 et k2 sont deux constantes entires positives appeles nombre de degrs de
libert, on dit variable F k1 et k2 degrs de libert, dsigne par F k1 et k2 dl.
f ( x)dx 1
0
45
Adil ELMARHOUM
Echantillonnage et estimations
Soient deux variables Khi deux k1 dl et k2 dl indpendantes. On peut dmontrer :
k1dl
Fk1etk 2 dl
k 2dl
k1
k2
1
est une variable F k2 et k1 dl.
F
: E(F k1 et k2 dl) =
k2
pour k2 > 2.
k2 2
Variance
: V(F k1 et k2 dl) =
2k 2 ( k1 k 2 )
pour k2 > 4.
k1 ( k 2 2)(k 2 4)
46
Adil ELMARHOUM
Echantillonnage et estimations
TABLE DE LA LOI F DE FISHER (p = 0,95)
K1
k2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
22
24
26
28
30
40
50
60
80
100
200
500
1
161
18,5
10,1
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,84
4,75
4,67
4,60
4,54
4,49
4,45
4,41
4,38
4,35
4,30
4,26
4,23
4,20
4,17
4,08
4,03
4,00
4,96
4,94
4,89
4,86
3,84
10 15
200 216 225 230 234 237 239 241 242 246
19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4
9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70
6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86
5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62
5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94
4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,51
4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22
4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01
4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85
3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,72
3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,62
3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,53
3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,46
3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40
3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,35
3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,31
3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,27
3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,23
3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20
3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,15
3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,11
3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,07
3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,04
3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01
3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 1,92
3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,87
3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,84
3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,79
3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,77
3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,72
3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,90 1,85 1,69
3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,67
47
20
30
248
19,4
8,66
5,80
4,56
3,87
3,44
3,15
2,94
2,77
2,65
2,54
2,46
2,39
2,33
2,28
2,23
2,19
2,16
2,12
2,07
2,03
1,99
1,96
1,93
1,84
1,78
1,75
1,70
1,68
1,62
1,59
1,57
250
19,5
8,62
5,75
4,50
3,81
3,38
3,08
2,86
2,70
2,57
2,47
2,38
2,31
2,25
2,19
2,15
2,11
2,07
2,04
1,98
1,94
1,90
1,87
1,84
1,74
1,69
1,65
1,60
1,57
1,52
1,48
1,46
252
19,5
8,58
5,70
4,44
3,75
3,32
3,02
2,80
2,64
2,51
2,40
2,31
2,24
2,18
2,12
2,08
2,04
2,00
1,97
1,91
1,86
1,82
1,79
1,76
1,66
1,60
1,56
1,51
1,48
1,41
1,38
1,35
253
19,5
8,55
5,66
4,41
3,71
3,27
2,97
2,76
2,59
2,46
2,35
2,26
2,19
2,12
2,07
2,02
1,98
1,94
1,91
1,85
1,80
1,76
1,73
1,70
1,59
1,52
1,48
1,43
1,39
1,32
1,28
1,24
Adil ELMARHOUM
Echantillonnage et estimations
TABLE DE LA LOI F DE FISHER (p = 0,975)
K1
k2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
22
24
26
28
30
40
50
60
80
100
200
500
9 10 15 20 30
648 800 864 900 922 937 948 957 963 969 985 993 1001 1008 1013 1016
38,5 39,0 39,2 39,2 39,3 39,3 39,4 39,4 39,4 39,4 39,4 39,4 39,5 39,5 39,5 39,5
17,4 16,0 15,4 15,1 14,9 14,7 14,6 14,5 14,5 14,4 14,3 14,2 14,1 14,0 14,0 13,9
12,2 10,6 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,56 8,46 8,38 8,32 8,29
10,0 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,33 6,23 6,14 6,08 6,05
8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5,17 5,07 4,98 4,92 4,88
8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,57 4,47 4,36 4,28 4,21 4,18
7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 4,00 3,89 3,81 3,74 3,70
7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,67 3,56 3,47 3,40 3,37
6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,42 3,31 3,22 3,15 3,12
6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,33 3,23 3,12 3,03 2,96 2,92
6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,18 3,07 2,96 2,87 2,80 2,76
6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,05 2,95 2,84 2,74 2,67 2,63
6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 2,95 2,84 2,73 2,64 2,56 2,53
6,20 4,76 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,76 2,64 2,55 2,47 2,44
6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,79 2,68 2,57 2,47 2,40 2,36
6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,72 2,62 2,50 2,41 2,33 2,29
5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,67 2,56 2,44 2,35 2,27 2,23
5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,62 2,51 2,39 2,30 2,22 2,18
5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,46 2,35 2,25 2,17 2,13
5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,50 2,39 2,27 2,17 2,09 2,05
5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,44 2,33 2,21 2,11 2,02 1,98
5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,39 2,28 2,16 2,05 1,97 1,92
5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,34 2,23 2,11 2,01 1,92 1,88
5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,31 2,20 2,07 1,97 1,88 1,84
5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,18 2,07 1,94 1,83 1,74 1,69
5,34 3,98 3,39 3,06 2,83 2,67 2,55 2,46 2,38 2,32 2,11 1,99 1,87 1,75 1,66 1,60
5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,06 1,94 1,82 1,70 1,60 1,54
5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,36 2,28 2,21 2,00 1,88 1,75 1,63 1,53 1,47
5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 1,97 1,85 1,71 1,59 1,48 1,42
5,10 3,76 3,18 2,85 2,63 2,47 2,35 2,26 2,18 2,11 1,90 1,78 1,64 1,51 1,39 1,32
5,05 3,72 3,14 2,81 2,59 2,43 2,31 2,22 2,14 2,07 1,86 1,74 1,60 1,46 1,34 1,25
5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,83 1,71 1,57 1,43 1,30 1,21
1017 1018
39,5 39,5
13,9 13,9
8,27 8,26
6,03 6,02
4,86 4,85
4,16 4,14
3,68 3,67
3,35 3,33
3,09 3,08
2,90 2,88
2,74 2,72
2,61 2,60
2,50 2,49
2,41 2,40
2,33 2,32
2,26 2,25
2,20 2,19
2,15 2,13
2,10 2,09
2,02 2,00
1,95 1,94
1,90 1,88
1,85 1,83
1,81 1,79
1,66 1,64
1,57 1,55
1,51 1,48
1,43 1,40
1,38 1,35
1,27 1,23
1,19 1,14
1,13 1,00
Pour lire une valeur F k1 et k2 dl dans la table, il suffit de lire l'intersection entre la colonne
correspondante la valeur de k1 et la ligne correspondante la valeur de k2.
Exemple :
La valeur de F 10 et 15 dl pour une probabilit de 0,95 correspond dans la table de la loi F pour
p=0,95, l'intersection entre la colonne correspondante 10 et la ligne correspondante 15,
on peut lire la valeur 2,54.
F 0,95 10 et 15 dl = 2,54
F 0,975 15 et 20 dl = 2,57
48
Adil ELMARHOUM
Echantillonnage et estimations
Zi
i 2
et quelle est, pour k = 10, la valeur de x telle que : P(X > x) = 0,1?
9. Dterminez la valeur de la mdiane de la distribution Khi carr deux degrs de libert.
10. Pour une variable Khi carr 40 degrs de libert, dterminez les valeurs 1 et 2 telles
que : F(1) = 0,05 et F(2) = 0,95.
49
Adil ELMARHOUM
Echantillonnage et estimations
PREMIERE PARTIE
THEORIE DECHANTILLONNAGE
50
Adil ELMARHOUM
Echantillonnage et estimations
THEORIE DECHANTILLONNAGE
I. Rle de lchantillonnage
Lorsquon souhaite collecter les informations sur une population, deux possibilits soffrent :
La premire solution consiste observer ou interroger tous les lments de la population,
cest ce quon appelle une enqute complte ou enqute exhaustive ou recensement. La
seconde solution consiste observer ou interroger une partie de la population, cest ce quon
appelle enqute partielle ou sondage. Les lments de la population qui sont rellement
observs constituent lchantillon et lopration qui consiste choisir ces lments est appele
chantillonnage.
Lalternative dcrite ci-dessus se prsente dans beaucoup de situations et le recours la
deuxime solution cest dire lenqute partielle et la pratique la plus courante.
Par rapport lenqute complte, lenqute partielle offre une srie davantages. Le cot
global de lenqute partielle est en gnral plus rduit que le cot global dune enqute
complte. Lenqute par sondage est plus rapide que lenqute complte, surtout lorsque la
caractristique tudie prsente des modifications assez importantes au cours du temps. Les
erreurs dobservations sont plus rduites que dans lenqute exhaustive. En fin dans certaines
situations particulires, lenqute partielle est la seule solution possible, cest le cas lorsque
lobservation prsente un caractre destructif.
II. VOCABULAIRE
Enqute : ensemble des oprations de collecte et de traitement de donnes relatives
quelques domaines que ce soit.
Population : rassemblement de tous les cas qui rpondent un ensemble de caractres
spcifiques. Appele aussi univers ou ensemble statistique, cest lensemble des lments
auxquels on sintresse.
Unit de base : unit dchantillonnage ou unit de sondage, cest llment pris en
considration dans lenqute.
Recensement : Enqute complte ou enqute exhaustive, cest une enqute au cours de
laquelle toutes les units de base de la population sont observes.
Sondage : Enqute incomplte, enqute partielle ou enqute par chantillonnage,
cest une enqute au cours de laquelle seulement une partie des units de base de la
population sont observe.
Echantillon : ensemble des units de base slectionnes et rellement observes au cours
dun sondage.
51
Adil ELMARHOUM
Echantillonnage et estimations
Echantillonnage : ensemble des oprations qui permettent de slectionner de faon organise
les lments de lchantillon.
Base de sondage : numration ou prsentation ordonne de toutes les units de base
constituant la population.
Erreur dchantillonnage : cart entre les rsultats obtenus auprs dun chantillon et ce que
nous apprendrait un recensement comparable de la population. Plus la taille de lchantillon
est grande plus lerreur dchantillonnage diminue.
Fraction ou taux de sondage : proportion des units de la population qui font partie de
lchantillon. Cest le rapport entre la taille de lchantillon n, et la taille de la population N.
f n x100
N
Constituer la base de sondage qui correspond la liste complte et sans rptition des
lments de la population ;
Numroter ces lments de 1 N ;
Procder, laide dune table de nombres alatoires ou dun gnrateur de nombres
pseudo alatoires la slection des units diffrentes qui constitueront lchantillon.
52
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
On souhaite avoir un chantillon alatoire et simple de 5 entreprises parmi une
population de 22 entreprises. On dispose de la base de sondage cest dire la liste
complte et sans rptitions des 22 entreprises numrotes de 1 22. On prend un
extrait dune table de nombre alatoire par exemple :
10480
22368
24130
42167
37570
77921
15011
46573
48390
93093
39975
06907
01536
25595
22527
06243
81837
11008
02011
85393
97265
61680
16656
42751
81647
30995
76393
07856
06121
27756
91646
89198
64809
16376
91782
53498
fn
N
wi N i
N
ni wi n f Ni
53
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
Dans une population de 10000 entreprises, rparties en 500 petites entreprises, 3000
moyennes entreprises et 2000 grandes entreprises, on souhaite avoir un chantillon de 500
entreprises.
Fraction de sondage constante : f = 500 / 1000 = 0.05 %
Strate
Petite
Moyenne
Grande
Total
Effectif de la strate
5000
3000
2000
10000
Taille de lchantillon
5000 * 0,05 = 250
3000 * 0,05 = 150
2000 * 0,05 = 100
500
b) Rpartition optimale
Cette deuxime solution consiste rpartir leffort dchantillonnage de faon ingale dans
les diffrentes strates. Elle tient compte de quatre facteurs :
-
le nombre dunits choisir dans chacune des strates est donn par :
ni k w i i
ci
avec
G
w i i ci
Exemple :
Dans la population des 10000 entreprises, on a pu avoir les informations suivantes :
Strate
Petite
Moyenne
Grande
Dispersion lintrieur
de la strate, mesure par
lcart type i.
0,8
1,5
2,2
le nombre dentreprises choisir dans chacune des strates est donn par :
G
5000
=
= 449,42
w i i ci
0,50,8 50 0,31,5 75 0,22,2 100
0,5 0,8
= 26 petites entreprises
50
0,3 1,5
n1 449,42
= 24 moyennes entreprises
75
0,2 2,2
n1 449,42
= 20 grandes entreprises
100
n1 449,42
54
Adil ELMARHOUM
Echantillonnage et estimations
Connaissant k, on choisit le plus souvent, pour dbuter, un nombre alatoire, i, compris entre
1 et k. le rang des units slectionnes est alors i, i+2k, i+3k,
Lchantillonnage systmatique est facile prparer et, en gnral facile excuter, il rduit
le temps consacr la localisation des units slectionnes.
Si les lments de la population se prsentent dans un ordre alatoire (pas de tendance)
lchantillonnage systmatique est quivalent lchantillonnage alatoire et simple. Par
contre si les lments de la population prsentent une tendance, lchantillonnage
systmatique est plus prcis que lchantillonnage alatoire.
55
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
On veut slectionner un chantillon de 30 entreprises au sein dune population de
1800 entreprises.
k 1800 60
30
Ainsi on va tirer une entreprise toutes les 60 en partant dun nombre tir alatoirement entre 1
et 60.
Supposons ce nombre est le 15. On va donc slectionner la 15me entreprise puis la 75me, la
135me. jusqu la 1755me ce qui nous donnera lchantillon de 30 entreprises.
Enquts ralises dans la rue, les lieux publics, en sortie de super march
Questionnaires figurant dans les magasines et renvoys spontanment.
56
Adil ELMARHOUM
Echantillonnage et estimations
3.2.4. Echantillonnage par Quotas.
Lchantillonnage par quotas est lchantillonnage non probabiliste le plus connu, et
finalement le mieux accept comme substitut aux mthodes probabilistes dans le cas o ces
dernires rencontreraient des contraintes de base de sondage. Mais la reprsentativit de la
population tudie reste douteuse.
Lchantillonnage par quotas consiste tudier la structure de la population selon des critres
choisis (quotas) empiriquement. Lchantillon est ensuite construit de manire constituer
une reproduction en miniature de la population sur ces critres.
Lchantillonnage par quotas est une forme simplifie de lchantillonnage stratifi fraction
de sondage constante. Les quotas reprsentent les variables de stratification.
Une fois les quotas sont fixs, les individus sont slectionns la convenance de lenquteur.
Les critres servant de base la dfinition des quotas ne doivent pas tre nombreux. Au-del
de 3 critres, la dmarche devient complexe. Les quotas doivent tre construits sur une base
de donnes fiables ( statistiques disponibles ) indiquant la rpartition de la population sur les
critres choisis. Les critres les plus utiliss dans les tudes de march sont conomiques et
socio-dmographiques en particulier lge, le sexe, la catgorie socioprofessionnelle,
Exemple :
On souhaite avoir un chantillon de 1000 individus. La structure de la population selon trois
critres est la suivante :
1) Age
Age
20 29 ans
30 49 ans
50 60 ans
Total
2) Sexe x Age
Structure de la population
Age
Sexe
20 29 ans
30 49 ans
50 60 ans
Masculin Fminin
48 %
52 %
49 %
51 %
45 %
55 %
Total
100 %
100 %
100 %
Rpartition de lchantillon
Age
Sexe
20 29 ans
30 49 ans
50 60 ans
Masculin Fminin
192
208
172
178
113
137
57
Total
400
350
250
Adil ELMARHOUM
Echantillonnage et estimations
AGE
20-29
30-49
50-60
CSP
Sexe
M
F
M
F
M
F
Sans
Artisans Prof
librales
30%
5%
6%
9%
25%
2%
10%
8%
5%
15%
22%
15%
4%
10%
16%
14%
2%
25%
22%
18%
1%
20%
20%
6%
Rpartition de lchantillon
CSP
Sexe
M
F
M
F
M
F
Sans
Etudiant Agric
19
31
14
36
7
48
58
52
9
7
2
1
10%
15%
8%
20%
6%
35%
Etudiant Agric
10
4
26
18
28
27
Artisans Prof
librales
12
17
21
17
38
26
28
25
25
20
27
8
25%
30%
15%
24%
17%
13%
48
62
26
43
19
18
15%
10%
20%
12%
10%
5%
28
21
33
21
12
8
100%
100%
100%
100%
100%
100%
192
208
172
178
113
137
La taille de lchantillon doit tre celle qui permet datteindre le meilleur quilibre entre le
risque de commettre des erreurs dchantillonnage, le cot induit par ces erreurs, et le cot de
lchantillonnage lui-mme.
Afin de dterminer la taille de lchantillon, nous utiliserons lingalit de Bienaym
Tchebycheff ou la loi normale.
58
Adil ELMARHOUM
Echantillonnage et estimations
4.1.1. Taille dchantillon pour estimer une moyenne.
-
P( X m < ) 1
n
avec :
n
: taille de lchantillon ;
: prcision souhaite ;
X
: moyenne de lchantillon ;
m
: moyenne de la population.
: Ecart- type dchantillon, il est souvent inconnu, il faut avoir des informations
antrieures ou mener une tude pilote.
Pour obtenir un maximum de fiabilit dans les rsultats, on commence par se fixer une marge
d'erreur "" que l'on accepte. On se fixe ensuite un seuil de confiance (1-), qui reprsente la
probabilit minimale pour que la moyenne calcule partir de lchantillon ne scarte pas de
la moyenne de la population de plus de . Ceci scrit :
P( X m < ) 1-
En rapprochant les deux formules on obtient :
1 = 1-
n
et donc :
Exemple :
Un parc de loisirs souhaite estimer 10dh prs le montant moyen dachats effectus par
chaque visiteur, cest dire on se fixe une marge d'erreur de 10 dans l'analyse des rsultats :
= 10
Une tude pilote mene sur 50 visiteurs choisis au hasard a montr que lcart- type des
achats est : = 100 dh.
59
Adil ELMARHOUM
Echantillonnage et estimations
Si on se fixe un seuil de confiance (1-) = 95%, La taille de lchantillon est donc :
100 2000
100,05
pq
n
avec :
n
: taille de lchantillon ;
: prcision souhaite ;
fn
: proportion ou frquence relative dans lchantillon ;
p
: proportion dans la population (q = 1 p). Elle est souvent inconnue, il faut avoir des
informations antrieures ou mener une tude pilote, sinon on utilise une proportion de 50 %.
Pour obtenir un maximum de fiabilit dans les rsultats, on commence par se fixer une marge
d'erreur "" que l'on accepte. On se fixe ensuite un seuil de confiance (1-), qui reprsente la
probabilit minimale pour que la frquence calcule partir de lchantillon ne scarte pas de
la proportion dans la population de plus de . Ceci scrit :
P( f n p < ) 1-
pq
n = 1-
et donc :
pq
Exemple :
Le parc souhaite estimer la proportion des visiteurs qui font des achats cinq points prs,
cest dire on se fixe une marge d'erreur de 5% dans l'analyse des rsultats :
= 0,05
Lenqute pilote a estim cette proportion 65%, cest dire p = 0,65
60
Adil ELMARHOUM
Echantillonnage et estimations
n 0,650,35 1820
0,050,05
4.2. UTILISATION DE LA LOI NORMALE
On applique cette mthode si la variable suit une loi normale ou si elle peut tre approche par
la loi normale.
P( X m < ) 1-
avec :
: prcision souhaite ;
X
m
: moyenne de lchantillon ;
: moyenne de la population.
Daprs le thorme central limite, la variable alatoire X suit une loi normale dont les
paramtres sont :
E( X n ) = m
V( X n ) =
n
X
n
P( X m < ) 1-
P( X m) 1-
61
Adil ELMARHOUM
Echantillonnage et estimations
P( X m ) 1-
n
n
n
P( n Z n ) 1-
( n ) ( n ) 1-
( n )[1( n )] 1-
2( n )1 1-
( n ) 1-
2
On se reporte la table de distribution de la loi Normale centre rduite, et on cherche la
valeur correspondante une probabilit gale 1- , cette valeur de z sera dsigne par Z1
2
2
On a alors :
n Z
= 1 2
n Z12
Exemple :
Reprenons lexemple du parc de loisirs qui souhaite estimer 10dh prs le montant moyen
dachats effectus par chaque visiteur, cest dire on se fixe une marge d'erreur de 10 dans
l'analyse des rsultats :
= 10
Une tude pilote mene sur 50 visiteurs choisis au hasard a montr que lcart- type des
achats est : = 100 dh.
Si on se fixe un seuil de confiance (1-) = 95%, La taille de lchantillon est donc :
62
Adil ELMARHOUM
Echantillonnage et estimations
b) Cas des prlvements dans une population finie sans remise :
E( X n ) = m
V( X n ) = N n
N 1 n
X N n 1 n
N 1 n
N
n
n N
N n
Z1
n Z
N n 1 2 N
n Z
N n 1 2 N
n Z1 n Z1
2
2 N
n(1 Z1 ) Z1
2 N
2
Z1-2 N
N Z1-2
: prcision souhaite ;
fn
: proportion ou frquence relative dans lchantillon ;
p
: proportion dans la population (q = 1 p). Elle est souvent inconnue, il faut avoir des
informations antrieures ou mener une tude pilote, sinon on utilise une proportion de 50 %.
63
Adil ELMARHOUM
Echantillonnage et estimations
Daprs le thorme central limite, la variable alatoire fn suit une loi normale dont les
paramtres sont :
a) Cas des prlvements dans une population finie avec remise ou dans une
population infinie sans remise :
E( fn ) = p
V( fn ) =
pq
n
fn
pq
n
P( f n p < ) 1-
P( fn p) 1-
fn p
P(
) 1-
pq
pq
pq
n
n
n
P( n Z n ) 1-
pq
pq
( n ) ( n ) 1-
pq
pq
( n )[1 ( n )] 1-
pq
pq
2( n )1 1-
pq
( n ) 1-
2
pq
On se reporte la table de distribution de la loi Normale centre rduite, et on cherche la
valeur correspondante une probabilit gale 1- , cette valeur de z sera dsigne par Z1
2
2
64
Adil ELMARHOUM
Echantillonnage et estimations
On a alors :
n Z
= 1
2
pq
n Z12 pq
Exemple :
Reprenons lexemple du parc de loisirs qui souhaite estimer la proportion des
visiteurs qui font des achats cinq points prs, cest dire on se fixe une marge
d'erreur de 5% dans l'analyse des rsultats :
= 0,05
Lenqute pilote a estim cette proportion 65%, cest dire p = 0,65
Si on se fixe un seuil de confiance (1-) = 95%, on se reporte la table de
distribution de la loi Normale, et on cherche la valeur correspondante une
probabilit (1-/2) = 0,975, ce qui donne Z = 1,96.
La taille de lchantillon est donc :
E( fn ) = p
pq
V( fn ) = N n
N 1 n
Lcart type de la frquence est donc :
fn
pq
n
N n
N 1
pq
1 n
N
n
n N = Z
1
2
pq N n
n Z pq
N n 1 2 N
65
Adil ELMARHOUM
Echantillonnage et estimations
n Z pq
1
N n
2 N
nZ1
pq
pq
n Z1
2 N
n(1 Z1
pq
pq
) Z1
N
2
Z1-2 p q N
n
N Z1-2 p q
V. DISTRIBUTIONS DECHANTILLONNAGE
La notion de distribution dchantillonnage est la base des mthodes dinfrence statistique
dont les deux principales applications sont les problmes destimation et les tests
dhypothses. Les premiers ont pour but destimer, partir dun chantillon, la valeur
numrique dun ou de plusieurs paramtres de la population, et de dterminer la prcision de
cette ou de ces estimations. Les seconds ont pour but de vrifier la vracit dune hypothse
mise au dpart au sujet dune ou de plusieurs populations.
A tout paramtre de population , on peut associer une srie infinie de valeurs observes t, t,
t , , calcules partir dchantillons successifs de mme effectif, prlevs dans des
conditions identiques. Ces valeurs peuvent tre considres comme des valeurs observes
dune mme variable alatoire T, et cette variable est fonction des diffrentes variables
alatoires correspondant chacun des individus de lchantillon :
T = f (X1, X2, , Xn)
En supposant que lchantillon est alatoire et simple, la variable alatoire T possde une
distribution de probabilit, dite distribution d chantillonnage. On peut donc calculer
lesprance E(T) et la variance V(T) de cette distribution.
La distribution dchantillonnage est donc la distribution des diffrentes valeurs que peut
prendre la variable alatoire T, pour les diffrents chantillons possibles. Son cart type T est
appel erreur standard.
Les principales distributions dchantillonnage sont la distribution dchantillonnage de la
moyenne, la distribution dchantillonnage de la variance et la distribution dchantillonnage
de la proportion.
66
Adil ELMARHOUM
Echantillonnage et estimations
xi
i 1
et quon ait calcul la moyenne : x
x'i
Il en sera de mme pour les moyennes dautres chantillons prlevs dans les mmes
conditions :
xi''
x'' i 1
n
On peut considrer la suite des premires observations x1, x1, x1, des diffrents
chantillons comme des valeurs observes dune mme variable alatoire X1, la suite des
deuximes observations des diffrents chantillons comme des valeurs observes dune mme
variable alatoire X2, etc.
Les moyennes observes
x,
x' ,
alatoire
Xi
X i 1
n
Comme X1, X2, , Xn, la variable alatoire X possde une distribution de probabilit, dite
distribution d chantillonnage de la moyenne. On peut donc calculer lesprance et la
variance de cette distribution, en supposant que lchantillon est alatoire et simple, les
variables alatoires X1, X2, , Xn ont toutes la mme distribution de probabilit, dont la
moyenne est dsigne par m et la variance par .
67
Adil ELMARHOUM
Echantillonnage et estimations
E(Xi) = m
V(Xi) =
et
On dmontre alors :
n
E( X ) = E(
Xi
) = 1 E(Xi) = 1 nm = m
n i 1
n
i 1
n
n
V( X ) = V(
Xi
) = 1 V(Xi) = 1 n =
n i 1
n
n
i 1
X est appel erreur standard de la moyenne dun chantillon alatoire est simple
n
Dans le cas dune population finie deffectif N, au sein de laquelle est prlev, sans remise, un
chantillon alatoire est simple deffectif n, la variance de la moyenne est :
V( X ) = N n
N 1
N n
n N 1
(x x)
i
v(x) i 1
68
Adil ELMARHOUM
Echantillonnage et estimations
n
(x ' x')
i
v(x') i 1
(x " x")
i
v(x") i 1
Ces variances peuvent tre considres comme des valeurs observes dune mme variable
alatoire :
n
(X i X )
V(X) i 1
Comme X1, X2, , Xn, la variable alatoire V(X) possde une distribution de probabilit, dite
distribution d chantillonnage de la variance. On peut donc calculer lesprance
mathmatique et la variance de cette distribution, en supposant que lchantillon est alatoire
et simple, les variables alatoires X1, X2, , Xn ont toutes la mme distribution de
probabilit, dont la moyenne est dsigne par m et la variance par .
E(Xi) = m
V(Xi) =
et
E(V(X)) = E(
(X i X )
i 1
) = E(
i 1
E(V(X)) = E(
) = E(
i 1
i 1
i 1
E(V(X)) = E( i 1
(X i m)
i 1
i 1
E(V(X)) = E(
(X i m X m)
(X i m)
2(X m) i1
i1
(X m)
n
(X i m)
E(V(X)) = E( i 1
2(X m)(X m) (X m) )
E(V(X)) = E( (X m) )
69
Adil ELMARHOUM
Echantillonnage et estimations
E(V(X)) = E( ) E( (X m) )
E(V(X)) = -
n
E(V(X)) n1
n
Pour la variance de la distribution dchantillonnage de la variance, on dmontre, dans le cas
dune population normale :
2(n1) 4
V(V(X)) = E[(V(X) E(V(X)))] = E[(V(X) n1 )] =
.
n
n
Dans le cas dune population finie deffectif N, au sein de laquelle est prlev, sans remise, un
chantillon alatoire est simple deffectif n, lesprance mathmatique de la variance est :
E(V(X))
N n1
N 1 n
n
(xi x)
i 1
possde une distribution khi deux (n-1) degr de libert.
fn X n
n
70
Adil ELMARHOUM
Echantillonnage et estimations
fn' X n'
n
fn" X n"
n
Ces frquences peuvent tre considres comme des valeurs observes dune mme variable
alatoire :
Fn X n
n
La variable alatoire Fn possde une distribution de probabilit, dite distribution
d chantillonnage de la proportion. On peut donc calculer lesprance et la variance de cette
distribution, en supposant que lchantillon est alatoire et simple.
On peut dmontrer alors :
E(Fn) = E( X n ) = 1 E( X n ) = 1 n p = p
n
n
n
pq
V(Fn) = V( X n ) = 1 V( X n ) = 1 n p q =
n
n
n
n
Fn
pq
est appel erreur standard de la frquence dun chantillon alatoire est simple
n
Dans le cas dune population finie deffectif N, au sein de laquelle est prlev, sans remise, un
chantillon alatoire est simple deffectif n, la variance de la frquence est :
pq
V(Fn) = V( X n ) = 1 V( X n ) = 1 N n n p q = N n
n
n
n N 1
N 1 n
N n pq
Lerreur standard est alors : Fn
N 1
71
Adil ELMARHOUM
Echantillonnage et estimations
Adil ELMARHOUM
Echantillonnage et estimations
11. Un certain type dampoule lectrique a une dure de vie moyenne de 1500 heures et un cart
type de 150 heures. Trois ampoules sont branches de telle manire que, si lune delles est
grille, les autres continuent fonctionner. En supposant que les dures de vie suivent une loi
de Laplace Gauss, quelle est la probabilit pour que lclairage fonctionne (a) au moins
pendant 5000 heures. (b) au plus pendant 4200 heures ?
12. Lcart type des poids dune trs grande population de personnes est 10 kg On extrait de cette
population des chantillons de 200 personnes chacun. On calcule alors les carts types pour
chaque chantillon. (a) Trouver la moyenne et lcart type de la distribution dchantillonnage
des carts types. (b) Quel est le pourcentage dchantillons qui a un cart type plus grand que
11 Kg ?
13. Les poids de 1500 pignons suivent une loi de Laplace-Gauss de moyenne 22,40 kg et cart
type 0,048 kg Dterminer pour 300 chantillons alatoires de taille 36 de cette population la
moyenne et l'cart-type thoriques de la distribution d'chantillonnage des moyennes,
l'chantillonnage tant (a) non exhaustif, (b) exhaustif.
14. Combien d'chantillons alatoires du Problme 13 ont-ils leur moyenne (a) comprise entre
22,39 et 22,41 Kg, (b) plus grande que 22,42 Kg, (c) plus petite que 22,37 Kg, (d) plus petite
que 22,38 ou plus grande que 22,41 Kg ?
15. Les poids des colis reus dans un grand magasin ont une moyenne de 300 kg et un cart-type
de 50 kg, Quelle est la probabilit pour que 25 colis reus au hasard et chargs sur un montecharge dpassent la limite de scurit du monte-charge, qui est 8200 kilogrammes.
16. Trouver la probabilit pour que parmi les 200 prochains enfants natre (a) il y ait moins de
40 % de garons, (b) il y ait entre 43 % et 57 % de filles, (c) il y ait plus de 54 % de garons.
On supposera que la naissance d'un garon et la naissance d'une fille sont quiprobables.
17. Etant donn 1000 chantillons de 200 enfants chacun, pour combien d'chantillons a-t-on une
chance de trouver (a) moins de 40 % de garons, (b) entre 40 % et 60 % de filles, (c) 53 % ou
plus de filles ?
18. Un fabricant expdie 1000 lots de 100 ampoules lectriques chacun. Si 5 % des ampoules
sont normalement dfectueuses, dans combien de lots peut-on avoir (a) moins de 90 bonnes
ampoules, (b) 98 bonnes ampoules ou davantage ?
19. A et B fabriquent deux types de cbles ayant comme charges de rupture respectives 4000 et
4500 kilogrammes avec des carts-types de 300 et 200 kilogrammes. Si l'on teste 100 cbles
de la marque A et 50 cbles de la marque B, quelle est la probabilit pour que la rsistance de
rupture moyenne de B ait (a) au moins 600 kilogrammes de plus que A, (b) au moins 450
kilogrammes de plus que A ?
20. Les rsultats d'une lection montrent qu'un des candidats a obtenu 65 % des voix. Trouver la
probabilit pour que deux chantillons alatoires, chacun correspondant 200 votants,
indiquent plus de 10 % de diffrence dans les proportions de gens qui ont vot pour ce
candidat.
73
Adil ELMARHOUM
Echantillonnage et estimations
21. Le voltage moyen d'une batterie est 15,0 volts avec un cart-type de 0,2 volt. Quelle est la
probabilit pour que quatre batteries de ce type, branches en srie, aient un voltage combin
de 60,8 volts ou plus ?
22. Une firme fabrique un bien dont la dure de vie est en moyenne 1800 heures avec un cart
type de 200 heures. (a) Trouver la probabilit qu'un chantillon alatoire de 100 units de ce
bien a une moyenne de vie suprieure 1825. (b) Trouver la probabilit qu'un chantillon
alatoire de 100 Units de ce bien une moyenne de vie de pas plus de 1775 et pas moins de
1760.
23. Une population est constitue des cinq nombres 2, 3, 6, 8, 11. On considre tous les
chantillons non exhaustifs possibles de taille deux de cette population. Trouver (a) la
moyenne de la population, (b) cart type de la population, (c) la moyenne de la distribution
d'chantillonnage des moyennes, (d) cart type de la distribution d'chantillonnage des
moyennes, c'est--dire l'erreur quadratique moyenne des moyennes.
24. rsoudre le problme 23 dans le cas dun chantillon exhaustif.
25. Dans le but dtudier lintention dachat dun produit, on dcide de raliser un sondage.
Combien de personnes doit-on interroger pour que la frquence empirique ne sloigne pas de
la vraie proportion de 1% et ce avec une probabilit au moins gale 95%?
26. Des sachets de sucre granul, dont le poids moyen est de 1,01 kg avec un cart type de 50
grammes, sont mis dans des cartons contenant chacun 100 sachets. Le poids dun carton vide
est de 500 grammes. On procde par sondage au contrle du poids des sachets de sucre
granul. (a) en utilisant lIBT, dterminer le nombre de sachets de sucre granul quon doit
contrler pour que le poids moyen de lchantillon ne soit pas loin de la vraie moyenne de
plus ou moins 20 grammes, avec une probabilit au moins gale 0,99. (b) Reprendre la
mme question en supposant que le poids moyen est distribu normalement, et que
lchantillon sera tir dun stock de 4000 sachets. (c) On choisit au hasard un carton rempli,
quelle est la probabilit que le poids de ce carton soit infrieur 100 kg ?
27. Un avion (Boeing 747) peut transporter 100 passagers et leurs bagages, Il pse 120 tonnes
sans bagages, ni passagers mais quipage compris et plein de carburant. les consignes de
scurit imposent au commandant de bord de ne pas dcoller si le poids de l'appareil charg
dpasse 129,42 tonnes. les 100 places ont t rserves. Le poids d'un voyageur est une
variable alatoire d'esprance mathmatique 70 kg et de variance 100 kg Le poids de ses
bagages est une V.A. de moyenne 20 kg et de variance 100 kg Toutes les variables sont
supposes indpendantes. (a) L'esprance mathmatique du poids de l'appareil au moment du
dcollage est-elle conforme aux normes de scurit ? (b) Calculer l'cart type du poids total de
l'appareil. (c) En admettant 1'IBT, quelle est la probabilit maximale pour que le poids rel de
l'appareil au moment du dcollage dpasse 129,42 tonnes ?
28. Une enqute sur l'emploi a pour but destimer le taux d'activit dans un pays. Dans les
statistiques disponibles, la population active du pays est estime 10000000 personnes sur
une population totale de 40 millions de personnes. Dtermines la taille de l'chantillon si l'on
accepte une erreur de 1% . avec une probabilit de 0,95.
74
Adil ELMARHOUM
Echantillonnage et estimations
29. Le rendement de la main duvre dune usine est chiffr par une production moyenne par jour
et par ouvrier de 72 units avec un cart type de 6 units. (a) on a observ la production
journalire dun chantillon alatoire de 25 ouvriers. Dterminer la loi et les paramtres de la
moyenne de l'chantillon. (b) Quelle est la probabilit pour que la moyenne de cet chantillon
soit infrieure 63 ? (c) Quelle est la probabilit pour que l'cart entre la moyenne de cet
chantillon et celle de la population soit suprieur 3 ?
30. Un standard tlphonique reoit en moyenne 400 appels par jour avec un cart type
de 9,5. (a) Quelle est la probabilit pour quen une journe donne, le nombre
dappels soit compris entre 360 et 440. (b) Quelle est la probabilit pour que le
nombre moyen dappels par jour en une priode dun mois soit compris entre 380 et
420 ?
31. Afin destimer le revenu mensuel moyen dans un secteur de production. Quelle doit
tre la taille de lchantillon de salaris interroger pour que la moyenne empirique
ne sloigne pas de la moyenne de la population de 100 dh avec une probabilit au
moins gale 0,95 sachant que lcart type est de 500 dh par salari ?
32. On souhaite raliser une enqute sur la consommation des mnages afin destimer la
dpense moyenne par mnage. Quelle doit tre la taille de lchantillon de mnages si
la population est compose de 5 millions de mnages et que lerreur admise ne doit
pas dpasser 100 dh avec une probabilit de 0,99 ? lcart type de la dpense des
mnages est de 2000 dh.
33. On souhaite raliser une enqute sur lemploi afin destimer le taux de chmage. La
population active est de 5 millions de personnes. Quelle doit tre la taille de
lchantillon pour que la frquence empirique ne sloigne pas du vrai taux de
chmage et ce avec une probabilit de 0,95 de 2%. Une enqute rcente avait donn
un taux de chmage de 12 %
34. Dans le cadre d'une tude socio-conomique, on s'intresse aux habitants de 18 units
urbaines, rparties en deux rgions. L'enqute devrait comporter 500 interviews. Comme on
dispose de 10 enquteurs et qu'on souhaite que chaque enquteur n'opre que dans une seule
unit urbaine, on souhaite se limiter l'tude de 10 units urbaines. On considre qu'un
enquteur peut raliser 10 interviews dans la mme journe. En fonction de la rpartition des
units urbaines par rgion et de leurs nombres d'habitants, expliquez, de faon aussi dtaille
que possible la manire dont on pourrait organiser cette enqute, en prcisant notamment dans
quelles units urbaines il y aurait lieu d'envoyer les enquteurs.
75
Adil ELMARHOUM
Echantillonnage et estimations
Rgion 1
Units urbaines Nombres dhabitants
1
93600
2
45400
3
38900
4
36500
5
35100
6
32900
7
28100
8
26400
Rgion 2
Units urbaines Nombres dhabitants
9
117100
10
107100
11
61200
12
51000
13
43800
14
38900
15
37800
16
33500
17
25800
18
25300
35. Dans une rgion regroupant environ 3 millions dhabitants runis en un peu plus de 1500
communes, on dsire raliser une enqute au cours de laquelle 0,5 pour mille des habitants
devraient tre interrogs. En effectuant une stratification base sur la distribution de
frquences donne ci-dessous, combien dinterviews devrait-on raliser dans chacune des
catgories de communes. Si de plus pour des raisons de facilit, on dcidait de ne pas
effectuer moins de 10 interviews par commune, dans combien de communes diffrentes de
chacune des catgories les enquteurs devraient-ils se rendre ?
Nombre dhabitants
Moins de 1000
1000 2000
2000 5000
5000 10000
10000 20000
plus de 20000
Total
Nombre de communes
900
300
200
80
40
10
1530
36. Un sondage vise tudier la notorit dune marque. Pour cela on dispose de 12 enquteurs
durant un mois. (a) Sachant que le rendement par jour et par enquteur est distribu selon une
loi normale de moyenne 5, et cart type 1, dterminer la taille de l'chantillon retenue no telle
que : P(n >no ) = 0,025. (b) On propose de stratifier la population selon lge. Sachant que la
population se rpartit comme suit, dterminer la rpartition de l'chantillon:
Age
moins de 20 ans
entre 20 et 30 ans
entre 30 et 60 ans
plus de 60
ans
Effectifs
5500 000
2500 000
1250 000
250 000
37. On sintresse au pourcentage de fusibles dfectueux dans un lot de 50 sacs contenant
chacun 10000 fusibles. Les sacs proviennent de diffrents fournisseurs qui affirment
en gnral que le proportion de fusibles dfectueux ne dpasse pas 1%. Lerreur
accepte sur ce pourcentage est de 0,1% au niveau de confiance 0,95. (a) Dterminer
la taille de cet chantillon en utilisant l'IBT, et en supposant la normalit de la
variable. Laquelle de ces deux tailles doit-on retenir ? et pourquoi ? (b) Prciser de
quel type de sondage s'agit-il : Si on tire n fusibles en prlevant n/50 par sac. Si on
choisit d'abord K sacs et on tire ensuite ni fusibles par sac. Si on mlange le contenu
des 50 sacs, et on tire n fusibles. (c) Quel est le procd de tirage, le mieux adapt ?
76
Adil ELMARHOUM
Echantillonnage et estimations
38. Un sondage vise une population dentreprises rparties en quatre rgions contenant
respectivement 360, 840, 600 et 1200 entreprises. Le budget rserv pour cette
enqute est de 44 320 DH, Les cart-types sont estims 0,2 ; 0,1 ; 0,2 ; 0,4
respectivement pour les quatre rgions. Les cots de ralisation par questionnaire sont
respectivement de 225 DH, 196 DH, 400H. et 324 DH. (a) Etablir une stratification
optimale de lchantillon dterminer. (b) Prciser le niveau derreur que lon doit
accepter avec la taille de lchantillon calcule, en admettant un niveau de confiance
de 0,99 et une proportion thorique de 0,3.
39. Le budget alloue une enqute est de 132500 dh. Cette enqute est destine
estimer le taux de chmage quon a estim priori gal 10 %. Les frais de
dplacement quotidien sont valus 1000 dh par enquteur. La rmunration dun
enquteur est de 170 dh par jour. Les charges fixes sont de 20000 dh. (a) Dterminer
la taille de lchantillon si en tolre une erreur de moins de 1 % avec un niveau de
confiance de 95% (b) Dterminer la taille maximale permise par le budget alloue si
le rendement par enquteur est de 6 questionnaires par jour. (c) Quel niveau derreur
faut-il accepter si on ralise lenqute avec le budget allou ?
40. Une machine automatique fabrique des entretoises destines un montage de roulements. La
longueur de ces entretoises doit tre comprise, au sens large, entre 37,45 et 37,55 mm. La
variable alatoire X, qui associe chaque entretoise sa longueur, est une variable gaussienne
de moyenne 37,50 mm.
1) Quel doit tre lcart type de la variable alatoire X pour que 998 sur 1000 des pices
fabriques soient bonnes ?
2) On prlve un chantillon non exhaustif dans la production. Quel doit tre leffectif de
cet chantillon pour que la moyenne des longueurs des pices prleves appartienne
lintervalle [37,495 ; 37,505] avec une probabilit de 0,95 ?
41. Une machine fabrique des disques pleins en grande srie. On suppose que la variable alatoire
X qui, chaque disque tir au hasard, associe son diamtre suit la loi normale de moyenne
12,8 mm et dcart type 2,1 mm.
a)
Quelle loi suit la variable alatoire, qui tout chantillon alatoire non
exhaustif de taille 49, associe la moyenne des diamtres des disques de cet
chantillon ?
b)
Dterminer un intervalle centr en 12,8 tel que la moyenne des diamtres prendra ses
valeurs dans cet intervalle avec la probabilit 0,95.
c)
77
Adil ELMARHOUM
Echantillonnage et estimations
DEUXIEME PARTIE
78
Adil ELMARHOUM
Echantillonnage et estimations
I. ESTIMATION PONCTUELLE
Lestimation ponctuelle ou lestimation de point dun paramtre est la connaissance de la
seule valeur estime de ce paramtre. Les paramtres les plus recherchs sont la moyenne, la
variance et la proportion.
E(Tn) =
Tout estimateur qui satisfait cette condition est dit sans biais ou non biais.
b) la variance minimale
Une deuxime qualit dun bon estimateur est de possder une prcision suffisante. Cette
prcision peut tre mesure par le moment dordre deux par rapport .
E[(Tn - )]
79
Adil ELMARHOUM
Echantillonnage et estimations
Pour les estimateurs non biaiss, ce moment se confond avec la variance :
E[(Tn - )] = V(Tn)
On peut dmonter qu tout paramtre correspond une valeur minimum de E[(Tn - )].
La fonction qui correspond ce minimum dfinit lestimateur de variance minimum.
Dans le cas des estimateurs non biaiss, cette variance vaut :
1
d log f(x,)
nE[(
)]
d
Un estimateur non biais dont la variance est gale ce minimum est appel estimateur non
biais de variance minimum ou estimateur efficace.
c) convergence en probabilit
un estimateur Tn converge en probabilit vers si :
0,
lim P(Tn ) = 0
n
Ce ci signifie que lcart entre le paramtre calcul partir de lchantillon et la vraie valeur
du paramtre de la population est trs faible quand la taille de lchantillon est grande. Cet
cart peut tre mesur par la variance. Ainsi on parle de convergence en probabilit si :
limV(Tn) = 0
n
Un estimateur qui converge en probabilit est dit consistant.
1.1.2. la mthode du maximum de vraisemblance
Ayant dfinit les principales qualits des estimateurs, la mthode du maximum de
vraisemblance permet le plus souvent dobtenir des estimateurs possdant ces qualits. Le
principe de cette mthode est de choisir comme estimation de tout paramtre la valeur la
plus vraisemblable, cest dire celle qui a la plus grande probabilit de provoquer lapparition
des valeurs observes dans lchantillon. Cette probabilit est appele fonction de
vraisemblance. Cest la probabilit ou la densit de probabilit relative aux valeurs observes
x1, x2, , xn, exprime en fonction du paramtre de la population.
80
Adil ELMARHOUM
Echantillonnage et estimations
Pour un chantillon alatoire et simple et pour une population dfinie par un seul paramtre ,
la fonction de vraisemblance est :
dL()
0
d
ou en annulant la drive de son logarithme :
d log L()
0
d
1.2.
Estimation de la moyenne
La meilleure estimation de la moyenne m dune population, qui puisse tre dduite dun
chantillon alatoire et simple, est la moyenne de lchantillon.
m x
La dispersion des diffrentes estimations possibles autour de cette moyenne gnrale, est
mesure par lerreur standard de la moyenne :
X
n
f(x,m)
1 e 12 ( x m)
2
81
Adil ELMARHOUM
Echantillonnage et estimations
La fonction de vraisemblance est :
L(m) =
1 e 12 ( xn m)
1 e 12 ( x1 m) 1 e 12 ( x2 m)
2
2
2
1 xim)
n (
1
L(m) = (
) e 2
i 1
n xim
1
(
)
2i1
d logL(m) 1 n
=
(xim)
dm
i
1
lestimation du maximum de vraisemblance de la moyenne de la population, est telle que :
n
1
(xim) = 0
i1
n
i1
i1
(xim) = xinm = 0
n
m=
xi
i1
=x
82
Adil ELMARHOUM
Echantillonnage et estimations
X
i 1
dmontr que :
n
E( X n ) = E(
Xi
i 1
) = 1 E(Xi) = 1 nm = m
n i 1
n
En effet, pour lensemble des chantillons qui peuvent tre rencontrs, on doit retrouver, en
moyenne, la vraie valeur de la population.
b) la variance minimale
Pour une population normale, la densit de probabilit est :
f(x,m)
1 e 12 ( x m)
2
d log f(x,m)
= xm
dm
nE[(
d log f(x,m)
)] = n E[( xm )] = n E[(X-m)] = n
dm
1
=
d log f(x,m)
n
nE[(
)]
dm
Comme cette valeur est aussi la variance de la distribution dchantillonnage de la moyenne,
n
X
i 1
83
Adil ELMARHOUM
Echantillonnage et estimations
c) convergence en probabilit
n
i 1
dmontr que :
V( X n ) =
n
limV(X n) = 0
n
n
Xi
la moyenne X n i 1
n
vers m.
1.3.
Estimation de la variance
f(x,)
1 e12( xm)
2
L() =
1 e 1 ( x1m) 1 e 1 ( x2m)
2
2
2
2
1 e 1 ( xnm)
2
2
(xim)
i 1
n
L() = ( 1 ) e 2
2
n
Log L() = nlog(2) - 21 (xim)
2
i1
84
Adil ELMARHOUM
Echantillonnage et estimations
La drive de cette fonction par rapport est :
d log L()
d
n
2
n
+ 21 4 (xim)
i1
n
2
n
+ 21 4 (xim) = 0
i1
n (xi m) = 0
i 1
(xi m)
= i1
(xi m)
= i1
dmontr que :
E(V(X)) n 1
n
Contrairement la moyenne, la meilleure estimation de la variance dune population, qui
puisse tre dduite dun chantillon alatoire et simple, nest pas la variance de lchantillon
v(x). En effet, pour lensemble des chantillons qui peuvent tre rencontrs, on ne retrouve
pas, en moyenne, la vraie valeur de la population, on obtient ainsi, en moyenne, une valeur
infrieure la variance de la population.
le biais est :
E(V(X)) - =
n
85
Adil ELMARHOUM
Echantillonnage et estimations
Ce biais peut tre corrig en multipliant la variance de lchantillon par le facteur n . On
n1
obtient alors lestimation :
n v(x) =
n1
(x x)
i
i 1
n1
n1
Lerreur standard de cette estimation est, dans le cas dune population normale :
^
2(n1) 4
v( ) v( n ) = n
=
n1
n1
n
2
n1
p fn
La dispersion des diffrentes estimations possibles autour de cette proportion gnrale, est
mesure par lerreur standard de la proportion :
fn
fn(1 fn)
n
86
Adil ELMARHOUM
Echantillonnage et estimations
Estimateur du maximum de vraisemblance :
Pour un chantillon alatoire et simple deffectif n, dont x individus possdent le caractre
tudi, la fonction de vraisemblance est :
x
L(p) = C n px (1-p)n-x
C nx
d logL(p) x n x
=
dp
p 1 p
lestimation du maximum de vraisemblance de la variance de la population, est telle que :
x - n x = 0
p 1 p
(1-p) x p (n-x) = 0
x np = 0
^
p= x
n
La frquence fn de lchantillon est donc un estimateur du maximum de vraisemblance de la
proportion de la population.
Fn X n
n
dmontr que :
E(Fn) = p
En effet, pour lensemble des chantillons qui peuvent tre rencontrs, on doit retrouver, en
moyenne, la vraie valeur de la population.
87
Adil ELMARHOUM
Echantillonnage et estimations
b) convergence en probabilit
Fn X n
n
dmontr que :
V( fn ) =
pq
n
limV(f n) = 0
n
la frquence relative
Fn X n
n
probabilit vers p.
p(T1 T2) = 1 -
Lintervalle [T1 , T2] est appel intervalle de confiance.
La probabilit que le paramtre se trouve lextrieur de cet intervalle est donc :
88
Adil ELMARHOUM
Echantillonnage et estimations
p( X 1 m X 2 ) = 1 -
ou dune autre faon :
X 1 = X - d1
X 2 = X + d2
et
Comme, pour une population normale, la variable X est elle-mme normale de moyenne m et
dcart type
X , on peut crire :
n
p( xm d1 ) = p(m x d2 ) =
2
n
n
n
n
p(Z1 d1 ) = p(Z 2 d2 ) =
2
n
n
p(Z1 d1 ) = p(Z 2 d2 ) = 1 -
2
n
n
( d1 ) = ( d2 ) = 1 -
2
n
n
89
Adil ELMARHOUM
Echantillonnage et estimations
Si on dsigne par Z1 la valeur de la variable normale rduite lue dans la table :
2
d1 = d2 = Z
1
2
n
n
il en rsulte :
d1 = d2 = Z1
n
2
Les limites de confiances sont donc :
X 1 = X - Z1
n
2
X 2 = X + Z1
n
2
et
n
2
X Z1
X T1
n
2
X Z1
n
2
90
Adil ELMARHOUM
Echantillonnage et estimations
p(1 2) = 1 -
(xi x)
possde une
p( i1
(xi x)
i 1
(xi x)
i1
(xi x)
)=1-
ou encore :
p( i 1
(xi x)
< i1
> i1
) = 1 - /2
) = /2
(xi x)
i 1
= 1
(xi x)
< i1
) = p( i 1
(xi x)
(xi x)
p( i 1
(xi x)
(xi x)
i1
(xi x)
p( i 1
(xi x)
(xi x)
) = /2
i 1
1 = i1
1
(xi x)
(xi x)
et
2 = i1
91
Adil ELMARHOUM
Echantillonnage et estimations
p(p1 p p2) = 1 -
ou dune autre faon :
p1= fn - d1 et
p2 = fn + d2
fn p
d1 ) = p( p f n d2 ) =
2
p(1 p)
p(1 p)
p(1 p)
p(1 p)
n
n
n
n
p(Z1
d1 ) = p(Z 2 d2 ) =
2
p(1 p)
p(1 p)
n
n
p(Z1
d1 ) = p(Z 2 d2 ) = 1 -
2
p(1 p)
p(1 p)
n
n
d1 ) = ( d2 ) = 1 -
2
p(1 p)
p(1 p)
n
n
92
Adil ELMARHOUM
Echantillonnage et estimations
Si on dsigne par Z1 la valeur de la variable normale rduite lue dans la table :
2
d1
=
p(1 p)
n
d2
= Z1
p(1 p)
2
n
il en rsulte :
p(1 p)
n
d1 = d2 = Z1
p(1 p)
n
et
p2 = fn + Z1
p(1 p)
n
fn Z1
1,05
1,35
1,25
1,15
1,08
1,32
1,35
1,05
1,15
1,25
1,30
1,10
1,25
1,15
mx
i 1
1,2
16
(x
x )
i 1
16 1
93
0,11
Adil ELMARHOUM
Echantillonnage et estimations
Lintervalle de confiance de la moyenne un niveau de confiance de 95 % (=5%):
La distribution de la population parent tant inconnue et la taille de lchantillon infrieure
30, lintervalle de confiance de la moyenne est dfini par :
^
X T1
n
2
La valeur de T1 15 degrs de libert est : t 0,975 = 2,131
2
0,11
X T1 = 1,2 2,131
n
16
2
X 1 = 1,2 2,131
0,11
= 1,14
16
et
X 2 =1,2 + 2,131
0,11
= 1,26
16
1 = i1
1
(xi x)
(xi x)
2 = i1
et
0,025 = 6,26
0,975 = 27,49
et
Lcart type est la racine carre de la variance, ses limites de confiance sont donc :
16
^
16
( xi x)
i 1
0,11 15
0,08
27,49
(x
x )
i 1
0,11 15
0,17
6, 26
94
Adil ELMARHOUM
Echantillonnage et estimations
Exemple 2 : intervalle de confiance de la proportion
On tudie le pourcentage d'utilisation d'une machine. 400 observations ont t effectues qui
ont donn le rsultat suivant :
p = fn = 320 = 0,8
400
p(1 p)
n
p1= fn - Z1
p(1 p)
= 0,80 1,96
n
p2 = fn + Z1
p(1 p)
= 0,80 + 1,96
n
0,8(10,8)
= 0,76
400
0,8(10,8)
= 0,84
400
95
Adil ELMARHOUM
Echantillonnage et estimations
f (x,) =
1 exp( x )
f (x,) = 0
si x > 0
si x < 0
96
Adil ELMARHOUM
Echantillonnage et estimations
Ex 5 : Un chantillon de 15 tudiants d'une facult a donn les notes suivantes :
13 ; 06 ; 12 ; 10 ; 10 ; 16 ; 02 ; 04 ; 11 ; 12 ; 12 ; 05 ; 07 ; 08 ; 13
a) Estimer la note moyenne et l'cart type des notes pour l'ensemble des tudiants de la
facult.
b) Donner des estimations par intervalle de confiance pour la moyenne et l'cart type.
(=5%).
Ex 6 : Dans une entreprise produisant un article dtermin on veut estimer sa dure de vie en
heures. cette fin on a observ un chantillon de 16 units dont les rsultats sont (en 1000
heures) :
1,10
1,30
1,05
1,35
1,25
1,15
1,08
1,32
1,35
1,05
1,15
1,25
1,30
1,10
1,25
1,15
97
Adil ELMARHOUM
Echantillonnage et estimations
Ex 11 : un confiseur vend des boites de bonbons dun certain modle. On note X la masse
dune boite pleine. Les peses de 8 boites ont conduit aux masses (en kg) :
1,22 ; 1,23 ; 1,21 ; 1,19 ; 1,23 ; 1,24 ; 1,18 ; 1,21.
a) Donner pour E(X) un intervalle de confiance au risque de 5%.
b) En supposant que la variance de X soit connue et gale la variance observe, donner
pour E(X) un intervalle de confiance au seuil de confiance 95% et comparer avec le a).
c) On suppose maintenant que lon a trouv la mme moyenne et la mme variance
quobserves mais avec 16 observations au lieu de 8. Reprendre les questions a) et b).
Ex 12 : aprs avoir pes 12 pamplemousses dune mme provenance, on donne pour
lesprance mathmatique m du poids X dun pamplemousse, lintervalle de confiance au
niveau de confiance 95% : 390 g m 520 g. En dduire la moyenne observe et lcart type
observ.
Ex 13 : Un promoteur dsire tudier le nombre de garage qu'il est souhaitable de construire
avec un ensemble de logements, afin que les occupants puissent y ranger leur voiture. Pour
cela il fait effectuer une enqute par sondage auprs d'un chantillon de mnages susceptibles
d'habiter ces appartements.
a) On interroge un chantillon de 3238 mnages. On trouve parmi eux 1943 possesseurs
d'une voiture. Estimez, partir de cet chantillon, la proportion des mnages ayant une
voiture. Degr de confiance 99 %.
b) partir de la proportion estime, combien de mnages faudrait-il interroger pour
construire, avec un risque d'erreur de 5 %, un intervalle de confiance d'amplitude 0,04 ?
Ex 14 : On tudie le pourcentage d'utilisation d'une machine. 400 observations ont t
effectues qui ont donn le rsultat suivant :
a) Entre quelles limites peut-on fixer le taux d'utilisation de la machine avec un degr de
confiance de 95 % ?
b) On fait un plus grand nombre d'observations. On obtient le mme pourcentage d'utilisation
ce qui permet, avec un risque d'erreur de 5 %, de fixer les limites de confiance [78,4 % ;
81,6 %]. Combien a-t-on fait d'observations ?
Ex 15 : Un chantillon alatoire de 50 notes (sur 100) dans une population de 200 a donn
une moyenne de 75 et un cart type de 10.
a) Quelles sont les limites de confiance 95 % pour estimer la moyenne des 200 notes ?
b) Avec quel degr de confiance peut-on dire que la moyenne des 200 notes est de 75
plus ou moins 1 ?
Ex 16 : Un chantillon de 150 lampes de marque A a donn une dure de vie moyenne de
1400 heures et un cart type de 120 heures. Un chantillon de 200 lampes de marque B a
donn une dure de vie moyenne de 1200 heures et un cart type de 80 heures. Dterminer les
limites de confiances 95 % de la diffrence des dures de vie moyennes des marques A et B.
98
Adil ELMARHOUM
Echantillonnage et estimations
Ex 17 : Sur un chantillon de 400 adultes et de 600 adolescents ayant regard un certain
programme de tlvision, 100 adultes et de 300 adolescents lont apprci. Calculer les
limites de confiances 99 % de la diffrence des frquences des adultes et des adolescents qui
ont regard et apprci le programme.
Ex 18 : Une compagnie fabrique des roulements billes ayant un poids moyen de 0,638 Kg et
un cart type de 0,012 Kg Calculer les limites de confiance 95 % des poids de lots
comprenant 100 roulements chacun.
Ex 19 : Dans une population de 579 individus, divise en quatre strates comprenant
respectivement 53 ; 190 ; 231 ; et 105 individus, on a prlev un chantillon de 58 individus,
dont 10 dans la premire strate, 14 dans la deuxime, 21 dans la troisime et 13 dans la
quatrime. En fonction des rsultats suivants, estimez la moyenne de la population globale et
lerreur standard de cette moyenne, en considrant lchantillon comme :
a) Alatoire et simple ;
b) Stratifi.
Strates Sommes Sommes des carrs
1
54
1004
2
127
3081
3
388
13270
4
553
39667
Ex 20 : En vue destimer la note moyenne des lves dune cole, on a choisi de faon
alatoire et simple six classes, et dans chacune de ces classes on a choisit alatoirement 4
lves. En fonction des rsultats obtenus et repris ci-dessous :
a) Estimer la note moyenne des lves de lcole ;
b) Dterminer lintervalle de confiance 95 % de cette estimation.
Classes
Elves
1
2
3
4
11,69
12,32
12,32
11,90
11,79
11,97
12,07
12,06
11,84
11,59
11,25
11,80
12,30
11,91
12,05
12,23
11,83
11,77
12,15
11,66
11,95
11,87
11,65
11,87
f(x,)
x
1
e 2
2
Adil ELMARHOUM
Echantillonnage et estimations
TROISIEME PARTIE
100
Adil ELMARHOUM
Echantillonnage et estimations
Un test statistique est une mthode permettant de prendre une dcision partir dinformations
fournies par un chantillon.
Les tests statistiques ou les tests dhypothses ont pour but de vrifier, partir de
donnes observes dans un ou plusieurs chantillons, la validit de certaines
hypothses relatives une ou plusieurs populations.
On peut distinguer diffrents types de tests, en fonction des hypothses auxquelles on a
affaire.
Les tests de comparaison une norme ou tests de conformit sont destins comparer
entre eux une population thorique et un chantillon observ. Ils servent vrifier si un
chantillon donn peut tre considr comme extrait dune population possdant telle
caractristique particulire (telle moyenne, telle variance, ). Le test se fait en vrifiant si la
diffrence entre la valeur observe et la valeur thorique du paramtre considr peut tre
attribue au hasard ou non.
Les tests dhomognit ou dgalit ont pour but de comparer entre elles un certain nombre
de populations, laide dun mme nombre dchantillons.
Les tests dajustement sont destins vrifier si un chantillon observ peut tre extrait
dune population donne.
Les tests dindpendance ont pour but de contrler, partir dun chantillon, lindpendance
de deux ou plusieurs critres de classification, gnralement qualitatifs.
101
Adil ELMARHOUM
Echantillonnage et estimations
Lensemble des valeurs observes pour lesquelles lhypothse nulle est admissible forme la
rgion dacceptation. Les autres valeurs constituent la rgion de rejet. Les valeurs limites sont
appeles valeurs critiques.
La dcision dpend donc de lchantillon. Ainsi quelle que soit la dcision prise, le hasard
de lchantillonnage peut fausser les conclusions. Quatre situations doivent en effet tre
envisages:
Lacceptation de l'hypothse nulle alors qu'elle est vraie, le rejet de l'hypothse nulle alors
qu'elle est vraie, l'acceptation de l'hypothse nulle alors qu'elle est fausse, le rejet de
l'hypothse nulle alors qu'elle est fausse.
Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais il n'en est
malheureusement pas de mme dans les deux cas intermdiaires. L'erreur qui consiste
rejeter une hypothse vraie est appele erreur de premire espce et dsigne par RH0/H0.
Accepter une hypothse fausse est une erreur de seconde espce, elle est dsigne par
AH0/H1.
Les probabilits daboutir de telles conclusions errones sont les risques de premire et de
deuxime espce, dsigns respectivement par et .
= p(RH0/H0)
= p(AH0/H1)
Le risque de premire espce est appel aussi seuil de signification du test, fix trs souvent
5 %. La probabilit contraire de dsigne le niveau de confiance du test.
1- = p(AH0/H0)
La probabilit contraire de dsigne la puissance du test.
1- = p(RH0/H1)
On peut prsenter une table de dcision comme suit :
Dcision prise
Accepter H0
Accepter H1
H0
1-
: erreur de premire espce
Hypothse
Niveau de confiance
vraie
H1 : erreur de deuxime espce
1-
Puissance du test
La dtermination des valeurs limites de la rgion dacceptation de lhypothse nulle dpend
de lhypothse alternative H1, ainsi on distingue le test bilatral et le test unilatral.
Adil ELMARHOUM
Echantillonnage et estimations
H0 : = t0 et
H1 : t0
p(A1 t0 A2) = 1 -
p(t0 < A1) = p(t0 > A2) = /2
2.2. Test unilatral
Un test est dit unilatral si lhypothse alternative dsigne quune caractristique est
strictement suprieure ou infrieure lautre. On parle respectivement de test unilatral
droite ou gauche.
2.2.1 Test unilatral droite
Les hypothses formules du test unilatral droite sont :
H0 : = t0 et
H1 : > t0
p(t0 A) = 1 -
p(t0 > A) =
103
Adil ELMARHOUM
Echantillonnage et estimations
2.2.2. Test unilatral gauche
Les hypothses formules du test unilatral gauche sont :
H0 : = t0 et
H1 : < t0
p(t0 < A) =
p(t0 A) = 1 -
pour rcapituler, la dmarche dun test statistique est forme des tapes suivantes :
1.
2.
3.
4.
5.
6.
m = m0
104
Adil ELMARHOUM
Echantillonnage et estimations
Variable de dcision :
On extrait de la population un chantillon alatoire et simple dans lequel la moyenne observe
VD = x
Pour une population normale dcart type connu, la variable de dcision est elle-mme
normale de moyenne m0 et dcart type. La variable de dcision centre rduite est donc :
xm0
VDR =
n
VDR est alors une variable normale rduite N(0 ; 1).
Si la distribution de la population parent est inconnue, la quasi-variance sera utilise comme
estimation de la variance de la population. Pour un effectif suffisamment lev, la variable de
dcision peut toujours tre considre comme une variable approximativement normale. Cest
gnralement le cas lorsque leffectif est suprieur 30. Dans le cas contraire (n < 30), la
variable de dcision rduite VDR peut toujours tre considre comme une variable de
Student (n-1) degr de libert.
Rgion dacceptation :
La rgion dacceptation dpend de lhypothse alternative H1.
a) Test bilatral :
H0 : m = m0
et
H1 : m m0
Les valeurs critiques qui dlimitent la rgion dacceptation sont, pour une distribution
normale rduite ou asymptotiquement normale rduite, Z1 et Z2 telles que :
p(Z1 VDR Z2) = 1 -
Z1 = Z
2
Z2 = Z1
105
Adil ELMARHOUM
Echantillonnage et estimations
La rgion dacceptation est donc lintervalle [ Z ; Z1 ].
2
H0 : m = m0 et
H1 : m > m0
La valeur critique qui dlimitent la rgion dacceptation est, pour une distribution normale
rduite ou asymptotiquement normale rduite, Z telle que :
p(VDR Z) = 1 -
Z = Z1
H0 : m = m0 et
H1 : m < m0
La valeur critique qui dlimitent la rgion dacceptation est, pour une distribution normale
rduite ou asymptotiquement normale rduite, Z telle que :
p(VDR < Z) =
Z = Z
Remarque :
106
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
Le diamtre des billes fabriques par une machine est en moyenne de 6 mm. Pour contrler si
la machine est bien rgle, on a prlev un chantillon de 50 billes et on a mesur leur
diamtre. On a trouv :
x 2462
350
m = 6 H1 : m 6
H0
Variable de dcision :
La variable de dcision du test correspond lestimation de m qui est la moyenne de
lchantillon :
xi
VD = 350 7
50 50
La variable de dcision peut tre considre comme une variable approximativement normale.
La variance de la population peut tre estime par la quasi-variance.
(xi x) n 50 2462
=
= (
7) = 0,24
n1
n1
49 50
0,24 = 0,49
50
n
Rgion dacceptation :
La rgion dacceptation est lintervalle [ Z ; Z1 ].
2
107
Adil ELMARHOUM
Echantillonnage et estimations
Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui dlimitent la rgion
dacceptation sont :
Z = Z0,025 = -1,96
2
Z1 = Z0,975 = 1,96
2
m1 = m2
Variable de dcision :
La variable de dcision du test correspond la diffrence entre les moyennes observes des
deux chantillons :
VD = x1 - x 2
Une distinction est faite entre le cas de deux populations de variances ingales et le cas de
deux populations de variances gales.
a) cas de deux populations de variances ingales
Pour des populations normales (variances connues), les variables x1 - x 2 sont des variables
normales de moyennes respectivement m1 et m2 et dcarts type respectivement 1 et 2 .
n1
n2
108
Adil ELMARHOUM
Echantillonnage et estimations
La variable de dcision est elle-mme normale de moyenne (m1-m2) et dcart
type 1 2 .
n1 n2
Sous lhypothse nulle, (m1-m2)=0. La variable de dcision centre rduite :
(x1 x2)
1 2
n1 n2
VDR =
Est donc une variable normale rduite N(0 ; 1).
Si les distributions des populations parents sont inconnues, pour des effectifs suffisamment
levs, la variable de dcision peut toujours tre considre comme une variable
approximativement normale. Cest gnralement le cas lorsque les effectifs sont suprieurs
30. Dans le cas contraire, la variable de dcision rduite VDR peut toujours tre considre
comme une variable de Student (n1 + n2 - 2) degr de libert.
b) cas de deux populations de variances ingales
Dans le cas o les populations sont de variances gales, une estimation de la variance
commune aux deux populations est donne par :
VDR =
(x1 x 2)
^
^
( 1 1 )
n1 n2
n1 n2
VDR =
(x1 x 2)
(x1 x2)
(xi x1)(xi x 2) ( 1 1 )
n1n2 2
n1 n2
Si les distributions des populations parents sont inconnues, pour des effectifs suffisamment
levs, la variable de dcision peut toujours tre considre comme une variable
approximativement normale. Cest gnralement le cas lorsque les effectifs sont suprieurs
30. Dans le cas contraire, la variable de dcision rduite VDR peut toujours tre considre
comme une variable de Student (n1 + n2 - 2) degr de libert.
109
Adil ELMARHOUM
Echantillonnage et estimations
Rgion dacceptation :
La rgion dacceptation dpend de lhypothse alternative H1.
a) Test bilatral :
H0 : m1 = m2 et
H1 : m1 m2
Les valeurs critiques qui dlimitent la rgion dacceptation sont, pour des distributions
normales rduites ou asymptotiquement normales rduites, Z1 et Z2 telles que :
p(Z1 VDR Z2) = 1 -
p(VDR < Z1) = /2
Z1 = Z
2
Z2 = Z1
H1 : m1 > m2
La valeur critique qui dlimitent la rgion dacceptation est, pour des distributions normales
rduites ou asymptotiquement normales rduites, Z telle que :
p(VDR Z) = 1 -
Z = Z1
H1 : m1 < m2
La valeur critique qui dlimitent la rgion dacceptation est, pour des distributions normales
rduites ou asymptotiquement normales rduites, Z telle que :
p(VDR < Z) =
Z = Z
110
Adil ELMARHOUM
Echantillonnage et estimations
72
67
52
54
46
58
59
54
58
63
66
59
54
57
63
55
61
55
66
75
Pour rpondre cette question, on doit raliser un test de comparaison de deux moyennes.
Hypothse nulle :
Ce test a pour but de vrifier si lassiduit moyenne m1 des filles est ou nest pas gale
lassiduit moyenne m2 des garons.
Il sagit dun test bilatral :
H0 : m1 = m2 et
H1 : m1 m2
Variable de dcision :
Les deux chantillons sont indpendants, les populations sont de variances gales, la variable
de dcision centre rduite est donc:
VDR =
(x1 x2)
(xi x1)(xi x 2) ( 1 1 )
n1n2 2
n1 n2
58,361,1
= - 0,88
514,1390,9 1 1
( )
10102 10 10
Rgion dacceptation :
VDR = 0,88
111
Adil ELMARHOUM
Echantillonnage et estimations
VDR < t1 , on accepte donc lhypothse nulle. Cest dire, il ny a pas de diffrence
2
m1 = m2
Variable de dcision :
Soient deux sries de n observations chacune, x1, x2, , xn, et y1, y2, , yn . On travaille avec
la srie des diffrences :
di = xi yi
La variable de dcision du test correspond la moyenne des diffrences :
VD = d
Pour une population normale, la variable de dcision est elle-mme normale de moyenne. La
variable de dcision centre rduite est donc :
VDR = ^d
d
n
VDR est alors une variable normale rduite N(0 ; 1).
Si la distribution de la population parent est inconnue, pour un effectif suffisamment lev, la
variable de dcision peut toujours tre considre comme une variable approximativement
normale. Cest gnralement le cas lorsque leffectif est suprieur 30. Dans le cas contraire
(n < 30), la variable de dcision rduite VDR peut toujours tre considre comme une
variable de Student (n-1) degr de libert.
Rgion dacceptation :
La rgion dacceptation est identique celle du test prcdent. Elle dpend toujours de
lhypothse alternative H1.
112
Adil ELMARHOUM
Echantillonnage et estimations
a) Test bilatral :
H1 : m1 m2
H0 : m1 = m2 et
H1 : m1 > m2
H1 : m1 < m2
113
Adil ELMARHOUM
Echantillonnage et estimations
H1 : m1 > m2
Variable de dcision :
Les deux chantillons sont associs par paires, la variable de dcision centre rduite est donc:
114
Adil ELMARHOUM
Echantillonnage et estimations
Ho: m1 = m2 = ... = mJ
H1: au moins une des moyennes est diffrente des autres.
En effet, l'analyse de variance est une technique d'analyse statistique qui permet de tester
globalement l'galit des moyennes de J populations normales dans lesquelles on suppose que les
variances sont gales (12 22 .... 2J 2 ), mme si elles demeurent inconnues. L'analyse de
variance constitue une extension J populations normalement distribues, J 2, du test de
comparaison des moyennes de deux chantillons indpendants.
115
Adil ELMARHOUM
Echantillonnage et estimations
Matrice des donnes
Population
P1 : N(m1,1) P1 : N(m2,2)
P1 : N(mj,j)
Y11
Y12
Y21
Y22
yn11
yn22
ynjj
Total
T1
T2
Tj
Moyenne
Y1
Y2
Yj
Variance
S1
S 2
S j
N n1 n 2 ...n J
Y1j
Y2j
Moyenne gnrale = Y
Grand total = T
2T
a) Estimation de par
2T , est obtenu partir de l'ensemble des N n1 n 2 ...n J
Un premier estimateur de , not
observations en divisant la somme totale des carrs, STC, par ses degrs de libert, soit (N-1). La
statistique qui en dcoule est donne par l'expression suivante:
J
2T
STC
N 1
nj
ij
j1 i 1
N 1
2M
b) Estimation de par
2M , est obtenu cette fois en mesurant la variabilit existante
Un deuxime estimateur de , not
entre les moyennes des chantillons. On l'appelle parfois la moyenne des carrs inter-groupes, ou
la moyenne des carrs due aux traitements. Dans ce qui suit, on la nomme la moyenne des carrs
due au facteur (MCF); elle est calcule en divisant la somme des carrs due au facteur (SCF) par
ses degrs de libert, (J-1):
116
Adil ELMARHOUM
Echantillonnage et estimations
J
2M MCF SCF
J 1
n Y Y
j
j 1
J 1
2C
c) Estimation de par
Un troisime estimateur de est obtenu cette fois en combinant les variances intra-chantillons
( S12 , S22 , ..., S2J ) dj prsentes dans le tableau des donnes. La pondration attribue S2j sera
gale aux degrs de libert de cette statistique, soit n j 1, j=1, 2, ..., J. L'estimateur est appel la
moyenne des carrs due l'erreur (MCE) et il est donn par les expressions quivalentes suivantes:
J
2C MCE
SCE
NJ
n j 1S2j
j1
N J
nj
ij
Yj
j1 i 1
NJ
Les trois sommes de carrs prsentes plus haut ne sont pas totalement indpendantes les unes des
autres. Il existe en effet un rsultat important qui montre que la somme totale des carrs est gale
la somme des deux autres sommes de carrs:
nj
STC Yij2
j i i 1
2
J
j
T2
N
T
T2
SCF
N
j i n j
SCE = STC - SCF
117
Adil ELMARHOUM
Echantillonnage et estimations
Tableau d'analyse de variance un seul facteur
Il est d'usage de prsenter les rsultats d'une analyse de variance un seul facteur dans un tableau
comme celui-ci:
Analyse de variance un facteur
Source de variation
Facteur
SCF
J-1
MCF
Erreur
SCE
N-J
MCE
Totale
SCT
N-1
MCF
MCE
Quand Ho est vraie, MCF et MCE constituent deux estimateurs indpendants de de sorte que le
MCF
rapport F
obit une loi de Fisher avec ( J-1 ) et ( N-J ) degrs de libert. En vertu
MCE
mme de la construction du rapport F , on devra rejeter l'hypothse nulle de l'galit des moyennes
MCF
Ho : 1 = 2 = ... = J au seuil si et seulement si la valeur de F
est plus grande
MCE
que la valeur critique de la table F(J-1) et (N-J) dl.
Exemple :
Un manufacturier japonais de puces lectroniques songe implanter une nouvelle usine au Maroc
afin de desservir tout le march nord-africain. Il hsite entre trois villes: Tanger, Casablanca et
Eljadida. Selon son point de vue, le critre le plus important prendre en considration pour
dterminer l'emplacement de cette nouvelle usine est l'assiduit au travail des ouvriers.
Le manufacturier a visit au hasard dans chacune des villes considres cinq grandes usines de
fabrication et il a obtenu des administrateurs le taux d'absentisme par 3500 journes de travail.
Les rsultats sont reproduits dans le tableau ci-dessous.
Donnes numriques
Ville
Echantillon
Total
Tanger
Y 1 = 129,4
Y 3 = 167
J=3
N = 15
Y = 144,67
T = 2170
118
Moyenne
Variance
S1 = 180,3
Y 2 = 137,6
S 2 = 539,8
S 3 = 340
Adil ELMARHOUM
Echantillonnage et estimations
A un seuil de 5%, peut-on conclure que le taux d'absentisme au travail est le mme en moyenne
dans ces 3 villes?
On calcule en premier lieu les trois sommes des carrs:
J nj
STC
Yij2
j i i 1
J T2
j
SCF
T 647 688 835 2170 3908,93
nj
N
5
5
5
15
j i
Facteur
3908,93
1954,467
Erreur
4240,40
12
353,367
Totale
8149,33
14
5,53
A un seuil = 5%, on ne peut pas conclure que l'assiduit des travailleurs leur travail soit la
mme en moyenne dans ces 3 villes puisque la valeur observe 5,53 de F est suprieure la
valeur critique F 0,95 2 et 12 dl = 3,89 obtenue de la distribution de Fisher 2 et 12 degrs
de libert.
Adil ELMARHOUM
Echantillonnage et estimations
T2 et Y2 dsignent le total et la moyenne des observations quand le premier facteur est maintenu
son deuxime niveau (l'indice sur lequel la sommation a t effectue est remplac par un ).
Toutes les combinaisons possibles des modalits des facteurs donnent lieu IJ traitements. A
remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est--dire une seule
valeur numrique dans chacune des cellules du tableau.
Matrice des donnes
Facteur A \ Facteur B
.....
Total
Moyenne
Y11
Y12 .....
Y1J
T1
Y1
Y21
Y22 ......
Y2J
T2
Y2
YIJ
TI
YI
TJ
....
Y32 ......
....... etc.........
YI1
YI2 ....
T1
Total
Y1
Moyenne
....
T2
Y2
YJ
....
D.L.
Facteur A
SCFA
I-1
MCFA
MCFA / MCE
Facteur B
SCFB
J-1
MCFB
MCFB / MCE
Erreur
SCE
(I-1)(J-1)
MCE
Totale
STC
IJ-1
Les diverses sommes des carrs et moyennes des carrs sont calcules l'aide des formules
suivantes:
I
STC Yij2
i 1 j1
T2
IJ
120
Adil ELMARHOUM
Echantillonnage et estimations
I
Ti2 T 2
IJ
i 1 J
SCFA
T2j T 2
SCFB
IJ
j1 I
J
En se basant sur les rsultats prsents au tableau, on dduit que les tests sur le facteur A et sur le
facteur B s'effectuent exactement comme dans le cas de lanalyse de variance un facteur, savoir
au moyen des statistiques :
MCA
F A
MCE
MCB
F B
MCE
Exemple :
Sur le march, il existe quatre machines diffrentes, M1, M2, M3, et M4 pouvant servir
l'assemblage d'un produit haute teneur technologique. On a alors dcid de toutes les essayer et
d'utiliser les oprateurs qualifis pour comparer les dites machines. Comme ce travail exige
beaucoup de dextrit manuelle de la part de l'usager, on s'attend ce qu'il y ait des diffrences
importantes entre oprateurs et peut-tre aussi entre machines. C'est dans un ordre alatoire et en
laissant couler beaucoup de temps entre les tests que les oprateurs ont t assigns aux machines
afin de contrler l'effet d'apprentissage. Voici les temps (en minutes) mesurs lors de ces tests.
Donnes numriques
Oprateurs \ Machines M1
O1
42
O2
39
O3
38
O4
43
O5
44
Total
206
Moyenne
41,2
M2
45
41
39
45
45
215
43
M3
55
52
48
54
56
265
53
M4
50
46
42
48
49
235
47
Total
192
178
167
190
194
921
Moyenne
48
44,5
41,75
47,5
48,5
46,05
Y a-t-il des diffrences significatives au niveau 5% entre les cinq oprateurs d'une part et entre les
quatre machines d'autre part quant au temps moyen ncessaire l'assemblage de ce produit?
121
Adil ELMARHOUM
Echantillonnage et estimations
On calcule en premier lieu les quatre sommes des carrs:
I
STC
Yij2
i 1 j 1
SCFA
SCFB
I T2
i T 192 ... 194 921 131,20
J
IJ
4
20
i 1
J T2
j
j 1
D.L.
Facteur A= Hommes
131,2
32,8
51,79
Facteur B = Machines
410,15
136,72
215,87
Erreur
7,6
12
0,63
Totale
548,95
19
En examinant les valeurs F observes 51,79 et 215,87 qui sont toutes deux suprieurs aux valeurs
thoriques F 0,95 4 et 12 dl = 3,26 et F 0,95 3 et 12 dl = 3,49 on peut rejeter les deux
hypothses nulles et conclure qu'il y a d'une part, des diffrences significatives entre les cinq
oprateurs quant au temps moyen ncessaire l'assemblage de ce produit et d'autre part, des
diffrences significatives entre les quatre machines.
122
Adil ELMARHOUM
Echantillonnage et estimations
1
Y111
Y112
...
Y11K
...
2
Y121
Y122
...
Y12K
...
Y211
Y212
...
Y21K
Y221
Y222
...
Y22K
Total
T1
T2
Moyenne
Y1
Y2
1
...
...
...
...
J
Y1J1
Y1J2
...
Y1JK
...
T1
Moyenne
Y1
...
...
YIJ1
YIJ2
...
YIJK
TI
YI
TJ
T = grand
total
Y J
123
Total
Y=
moyenne
gnrale
Adil ELMARHOUM
Echantillonnage et estimations
SCFA
SCFB
SCI
SCE
STC
MCFA
MCFB
MCI
MCE
I-1
J-1
(I-1)(J-1)
IJ(K-1)
IJK-1
MCFA / MCE
MCFB / MCE
MCI / MCE
Les sommes des carrs et les moyennes des carrs sont calcules l'aide des formules
suivantes:
I
STC Yijk2
i 1 j1 k1
I
SCFA
i 1
T2
IJK
Ti2 T 2
JK IJK
T2j T 2
SCFB
IJK
j1 IK
J
2
2
I
J
Tij
Tj
Ti2
T2
SCI
IJK
i 1 j1 K
i 1 JK
j 1 IK
I
En se basant sur les rsultats prsents au tableau, on dduit que les tests sur la prsence
dinteraction, sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de
lanalyse de variance un facteur, savoir au moyen des statistiques :
~
F I MCI
MCE
~
FA MCA
MCE
~
FB MCB
MCE
124
Adil ELMARHOUM
Echantillonnage et estimations
L'analyse de variance doit vrifier en premier lieu si l'interaction entre les deux facteurs est
importante; si la rponse est ngative, on pourra considrer ensuite les deux autres tests
disponibles dans le tableau de l'analyse de la variance.
La prsence dinteraction entre les deux facteurs signifie que les rsultats sous les niveaux
d'un facteur se comportent diffremment selon les diffrents niveaux de l'autre facteur.
Exemple :
Il est difficile de prdire le temps ncessaire pour apprendre programmer en langage C++.
On a demand 24 programmeurs qui ne connaissaient pas ce langage de prdire le nombre
dheures ncessaires pour apprendre les principales commandes en langage C++ et effectuer
ensuite un certain projet. Les programmeurs ont t classifis selon leur type dexprience et
leur nombre dannes dexprience. Quand le projet fut termin, tous sans exception avaient
sous-estim le temps effectivement requis pour accomplir cette tche. Dans le tableau qui
suit, on a ces erreurs de prvision (en heures).
Donnes numriques
TYPE DEXPRIENCE
Sur petits systmes
seulement
Total
Total
167
341
508
Que ce soit sous l'angle Type d'exprience ou Nombre d'annes d'exprience, existe-t-il
globalement des diffrences significatives entre les groupes?
L'analyse de ces donnes doit vrifier en premier lieu si l'interaction entre les deux facteurs
est importante; si la rponse est ngative, on pourra considrer ensuite les deux autres tests
disponibles dans le tableau de l'analyse de la variance et rpondre aux deux questions cidessus.
Calculons d'abord les quatre sommes des carrs:
I J K 2
STC Yijk
T 25 12 ... 24 508 2737,33
IJK
24
i 1 j 1k 1
SCFA
I T2
i T 167 341 508 1261,50
JK
IJK
12
24
i 1
125
Adil ELMARHOUM
Echantillonnage et estimations
2
J T j
SCFB
T 242 149 117 508 1054,08
IJK
8
8
8
24
j 1 IK
2
2
J T j
I J Tij
I Ti2
SCI
T
IJK
i 1 j 1 K
i 1 JK
j 1 IK
SCI = 85 ... 79 167 341 242 149 117 508 61,75
4
12
8
24
SCE STC SCFA SCFB SCI 2737,33 1261,50 1054,08 61,75 360
Facteur A:
Type d'exprience
Facteur B:
Nombre d'annes d'exprience
Interaction
Erreur
Totale
1261,5
1261,5
63,075
1054,08
527,04
26,35
61,75
360
2737,33
2
18
23
30,875
20
1,54
En examinant en tout premier lieu le test sur linteraction, on peut vrifier que la valeur FI =
1,54 est infrieure la valeur critique de la table, soit F 0,95 2 et 18 dl = 3,55. on doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs Type d'exprience et
Nombre d'annes d'exprience.
Cette constatation justifie la poursuite de l'analyse de la variance. Comme les valeurs FA=
63,075 et FB =26,35 sont suprieures respectivement aux valeurs critiques de la table F 0,95
1 et 18 dl = 4,41 et F 0,95 2 et 18 dl = 3,55, on doit conclure qu'aussi bien sous l'angle
Type d'exprience que Nombre d'annes d'exprience, il existe globalement des
diffrences significatives entre les groupes.
126
Adil ELMARHOUM
Echantillonnage et estimations
= 0
Variable de dcision :
On extrait un chantillon alatoire non exhaustif de taille n. La variable de dcision du test
correspond :
(xi x)
i 1
VD =
La variable de dcision possde une distribution khi deux (n-1) degrs de libert.
Rgion dacceptation :
La rgion dacceptation dpend de lhypothse alternative H1.
Test bilatral :
H0 : = 0 et
H1 : 0
Les valeurs critiques qui dlimitent la rgion dacceptation sont 1 et 2 telles que :
p(1 VD 2) = 1 -
p(VD < 1) = /2
1 =
2
p(VD > 2) = /2
p(VD 2) = 1-/2
2 = 1
Adil ELMARHOUM
Echantillonnage et estimations
H1 : > 0
= 1
H1 : < 0
5,2
5,2
5,4
5,9
6,3
6,3
6,8
6,9
6,9
7,0
7,0
= 1,4 = 1,96
H1 : 1,96
Variable de dcision :
La variable de dcision du test correspond :
(xi x)
VD = i1
6, 6
= 3,37
1,96
Adil ELMARHOUM
Echantillonnage et estimations
Rgion dacceptation :
Les valeurs critiques qui dlimitent la rgion dacceptation sont : et 1
2
et
0,975 = 21,9
1 = 2
Variable de dcision :
Soient deux chantillons alatoires et non exhaustifs prlevs dans les deux populations. La
variable de dcision du test correspond au rapport des deux variances observes des deux
chantillons :
^
VD = 1
^
2
La variable de dcision sui une loi de Fisher avec (n1-1) et (n2-1) degr de libert.
Les tables de la loi de Fisher ne donnent que des valeurs suprieures lunit. Cest la raison
pour laquelle la variable de dcision correspond au rapport de variances qui est suprieur
lunit, do lchantillon 1 est celui qui a la plus grande variance.
129
Adil ELMARHOUM
Echantillonnage et estimations
Rgion dacceptation :
Le test dgalit de deux variances est en gnral un test bilatral. Il prcde gnralement le
test de comparaison des moyennes de deux chantillons indpendants.
H0
1 = 2
et
1 2
H1
Les valeurs critiques qui dlimitent la rgion dacceptation sont F1 et F2 telles que :
p(F1 VD F2) = 1 -
p(VD < F1) = /2
F1 = F
F2 = F1
Les tables de la loi de Fisher ne donnent que des valeurs suprieures lunit, de telle sorte
que seule est possible la comparaison avec F1 , et on rejette lhypothse nulle si la variable
2
Exemple :
Pour savoir si les filles sont plus assidues que les garons ou non, on a choisi de manire
alatoire et simple un premier chantillon de 10 filles et de faon indpendante, un deuxime
chantillon de 10 garons. En fonction des rsultats ci-dessous relatifs aux notes dassiduits
(note sur 100), peut-on supposer, au seuil de 5 %, que les variances des deux populations sont
gales ?
Assiduit
des filles
Assiduit
des garons
72
67
52
54
46
58
59
54
58
63
66
59
54
57
63
55
61
55
66
75
Pour rpondre cette question, on doit raliser un test de comparaison de deux variances.
Hypothse nulle :
Ce test a pour but de vrifier si la variance 1 de la population des filles est ou nest pas gale
la variance 2 de la population des garons.
Il sagit dun test bilatral : H0
1 = 2
et
130
H1
1 2
Adil ELMARHOUM
Echantillonnage et estimations
Variable de dcision :
^
57,12
VD = 1 =
= 1,31
^
43,43
2
Rgion dacceptation :
Pour = 0,05 la valeur de F1 avec 9 et 9 degrs de libert est :
2
F0,975 = 4,03
La variable de dcision est infrieure F1 , on accepte donc lhypothse dgalit des
2
p = p0
Variable de dcision :
On extrait de la population un chantillon alatoire et simple dans lequel la proportion
observe fn est en gnral diffrente de p0, il sagit dexpliquer cette diffrence.
La variable de dcision du test correspond lestimation de p qui est la frquence de
lchantillon :
VD = fn
131
Adil ELMARHOUM
Echantillonnage et estimations
Comme, la distribution de la proportion suit une loi normale de moyenne p et dcart type
p(1 p)
condition que la taille de lchantillon soit suprieure ou gale 30 (n 30) et le
n
produit n p 5, la variable de dcision rduite :
fn p0
p0(1 p0)
n
VDR =
et
H1 : p p0
Les valeurs critiques qui dlimitent la rgion dacceptation sont les valeurs dune variable
normale rduite Z1 et Z2 telles que :
p(Z1 VDR Z2) = 1 -
p(VDR < Z1) = /2
Z1 = Z
2
Z2 = Z1
Remarque :
Puisque la rgion dacceptation est symtrique, on rejette lhypothse nulle si :
VDR > Z1
132
Adil ELMARHOUM
Echantillonnage et estimations
et
H1 : p > p0
La valeur critique qui dlimitent la rgion dacceptation est la valeur dune variable normale
rduite Z telle que :
p(VDR Z) = 1 -
Z = Z1
et
H1 : p < p0
La valeur critique qui dlimitent la rgion dacceptation est la valeur dune variable normale
rduite Z telle que :
p(VDR < Z) =
Z = Z
H0
p = 0,52
H1 : p < 0,52
Variable de dcision :
La variable de dcision du test correspond la frquence fn de lchantillon :
VD = fn = 800 = 0,50
1600
133
Adil ELMARHOUM
Echantillonnage et estimations
pq
(la
n
fn p0
=
p0(1 p0)
n
VDR =
0,500,52
= - 1,60
0,52(10,52)
1600
Rgion dacceptation :
La rgion dacceptation est lintervalle [ Z ; +[.
Au seuil de signification de 95 % ( = 0,05) :
Z = Z0,05 = -1,65
p1 = p2
Variable de dcision :
Il sagit de comparer deux proportions observes. Soient deux chantillons alatoires de taille
respectivement n1 et n2 extraits de deux populations. Les frquences observes fn1 et fn2
Sont gnralement diffrentes, il sagit dexpliquer cette diffrence.
f n1 X1
n1
et
134
f n2 X 2
n2
Adil ELMARHOUM
Echantillonnage et estimations
La variable de dcision du test correspond la diffrence entre les frquences observes des
deux chantillons :
VD = fn1 fn2
Comme, les distributions des deux proportions suivent des lois normales de moyennes
p1 (1 - p1)
p2 (1 - p 2)
respectivement p1 et p2 et dcarts types respectifs
et
condition
n1
n2
que la taille de lchantillon soit suprieure ou gale 30 (n 30) et le produit n p 5, la
variable de dcision est elle-mme normale de moyenne (p1-p2) et dcart type
p1 (1 p1)
p2 (1 p2)
.
n1
n2
Sous lhypothse nulle p1 = p2 , il y a la mme proportion inconnue p dans les deux
populations. Cette proportion peut tre estime par la frquence observe fn1+n2 dans
lchantillon unique qui est la runion des deux chantillons.
fn1+n2 =
n1 f n1 n2 f n2
X1 X 2
=
n1 n2
n1 n2
Sous lhypothse nulle, la variable de dcision suit une loi normale de moyenne (p1-p2) = 0 et
dcart type :
p (1 p)
p (1 p)
n1
n2
f n1 n2 (1 f n1 n2)( 1 1 )
n1
n2
VDR =
f n1 f n2
f n1 n2(1 f n1 n2)( 1 1 )
n1 n2
135
Adil ELMARHOUM
Echantillonnage et estimations
Test bilatral :
H0 : p1 = p2
H1 : p1 p2
et
et
H1 : p1 > p2
et
H1 : p1 < p2
et
136
H1 : p1 p2
Adil ELMARHOUM
Echantillonnage et estimations
Variable de dcision :
Daprs les donnes :
f n1 74 = 0,64
115
f n2 81 = 0,77
105
f n2 n2 155 = 0,70
220
VDR =
f n1 f n2
f n1 n2(1 f n1 n2)( 1 1 )
n1 n2
0,640,77
= -2,10
1
1
0,70(10,70)(
)
115 105
Rgion dacceptation :
Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR > Z1 , on rejette donc lhypothse nulle. Cest dire, il y a une diffrence
2
Ho: p1 = p2 = ... = pk
H1: au moins une des proportions est diffrente des autres.
Variable de dcision :
Soient k chantillons alatoires de taille respectivement n1, n2 , , nk extraits de k
populations. Il sagit de comparer les effectifs observs nij dans les k chantillons et les
effectifs attendus ou thoriques sous lhypothse nulle.
137
Adil ELMARHOUM
Echantillonnage et estimations
Effectifs observs
Avoir le
caractre tudi
Ne pas avoir le
caractre tudi
Total
Echantillon 1
n11
Echantillon 2
n21
Echantillon k
nk1
n12
n22
nk12
n1.
n2.
nk.
Sous lhypothse nulle p1 = p2 = ... = pk, il y a la mme proportion inconnue p dans les k
populations. Cette proportion peut tre estime par la frquence observe f dans lchantillon
unique qui est la runion des k chantillons.
n11n21...nk1
f = n1.n2....nk.
sous lhypothse nulle, les effectifs thoriques sont :
Effectifs thoriques
Avoir le
caractre tudi
Ne pas avoir le
caractre tudi
Total
Echantillon 1
f n1.
Echantillon 2
f n2.
Echantillon k
f nk.
(1 f) n1.
(1 f) n2.
(1 f) nk1.
n1.
n2.
nk.
On est amen confronter les effectifs observs et les effectifs thoriques. On calcule la
variable de dcision VD :
VD =
i1
]
fni.
(1 f)ni.
On peut dmonter que la variable de dcision est une variable alatoire Khi deux avec (k-1)
degr de libert.
138
Adil ELMARHOUM
Echantillonnage et estimations
Rgion dacceptation :
La variable de dcision est nulle lorsque les effectifs observs sont touts gales aux effectifs
attendus, cest dire, lorsquil y a concordance absolue entre la distribution observe et la
distribution thorique. La valeur de la variable de dcision est dautant plus grande que les
carts entre les effectifs observs et attendus sont plus grands. La valeur critique qui dlimite
la rgion dacceptation est telle que :
p(VD < ) = 1 - = 1-
Le test tant toujours unilatral, la rgion dacceptation est donc lintervalle [0 ; 1-[.
On rejettera donc lhypothse nulle lorsque la valeur de la variable de dcision est suprieure
ou gale 1- avec (k-1) degrs de libert.
Exemple :
Lors dune campagne lectorale, un parti politique a effectu un sondage pour valuer les
intentions de vote en faveur de ce parti. Quatre chantillons indpendants ont t choisis dans
quatre villes diffrentes. On a obtenu les rsultats suivants :
Rabat
94
240
334
Tanger
58
230
288
Oujda
60
252
312
Agadir
43
197
240
945860 43
139
Adil ELMARHOUM
Echantillonnage et estimations
Sous lhypothse nulle, les effectifs thoriques sont :
Effectifs thoriques
Rabat
73,48
260,52
334
Tanger
63,36
224,64
288
Oujda
68,64
243,36
312
Agadir
52,8
187,2
240
VD =
(94 73,48) (240 260,52) (5863,36) (230 224,64) (60 68,64) (252 243,36)
73,48
260,52
63,36
224,64
68,64
243,36
(4352,8) (197 187,2)
= 11,65
52,8
187,2
La variable de dcision est une variable alatoire Khi deux avec 3 degrs de libert.
Rgion dacceptation :
La rgion dacceptation est donc lintervalle [0 ; 1-[.
Au seuil de signification de 5 %, la valeur 0,95 3 degrs de libert est gale 7,81.
La valeur de la variable de dcision est suprieure la valeur 0,95 3 degrs de libert, on
rejettera donc lhypothse nulle, cest dire au seuil de signification de 5 %, la proportion de
la population des lecteurs qui ont lintention de voter pour ce parti nest pas identique dans
les quatre villes.
140
Adil ELMARHOUM
Echantillonnage et estimations
pi 1
i 1
i 1
i 1
(ni npi )
i 1 npi
VD =
On peut dmonter que la variable de dcision est une variable alatoire Khi deux avec (k-1)
degr de libert. k correspond au nombre de calasses aprs regroupement.
141
Adil ELMARHOUM
Echantillonnage et estimations
La variable de dcision peut tre calcule plus facilement par :
k (ni npi )
k ni 2ni npi npi
k
k 2ni npi
k npi
k
=
= ni -
+
= ni - 2n + n
npi
i 1 npi
i 1
i 1 npi
i 1 npi
i 1 npi
i 1 npi
VD =
ni
VD = npi - n
i 1
Cas dune distribution incompltement dfinie :
Lorsque la distribution thorique nest pas compltement dfinie, le ou les paramtres qui
caractrisent cette distribution doivent tout dabord tre estims. On peut calculer ensuite les
^
ni
VD = i 1 ^ - n
n pi
Le nombre de degr de libert (k-1) doit tre rduit du nombre de paramtres estims.
Rgion dacceptation :
La variable de dcision est nulle lorsque les effectifs observs sont touts gales aux effectifs
attendus, cest dire, lorsquil y a concordance absolue entre la distribution observe et la
distribution thorique. La valeur de la variable de dcision est dautant plus grande que les
carts entre les effectifs observs et attendus sont plus grands. La valeur critique qui dlimite
la rgion dacceptation est telle que :
p(VD < ) = 1 -
= 1-
Le test tant toujours unilatral, la rgion dacceptation est donc lintervalle [0 ; 1-[.
On rejettera donc lhypothse nulle lorsque la valeur de la variable de dcision est suprieure
ou gale 1-.
Exemple :
Le tableau suivant donne la distribution de frquences des nombres de garons observs dans
1600 familles de 4 enfants, considres comme choisies au hasard au sein dune trs large
population. En fonction de ces rsultats, peut-on affirmer, au seuil de 5 %, que le nombre de
garons suit une loi binomiale ?
142
Adil ELMARHOUM
Echantillonnage et estimations
Nombre de garons Nombre de familles
0
113
1
367
2
576
3
426
4
118
Total
1600
Pour rpondre cette question, on doit raliser un test dajustement dans le but de comparer la
distribution observe la une distribution binomiale.
Hypothse nulle :
H0 : ni = npi
avec
i 1
i 1
ni = npi = n
Variable de dcision :
Pour comparer la distribution thorique et la distribution observe, on est amen confronter
les effectifs observs ni et les effectifs attendus ou thoriques correspondants npi. on doit
calculer alors les probabilits pi en utilisant la loi binomiale.
La probabilit davoir un garon est suppose gale 0,5, la loi binomiale qui caractrise le
nombre de garons dans une famille de 4 enfants a pour paramtre 4 et 0,5.
En utilisant la formule de la loi binomiale, on trouve les probabilits suivantes :
p ( x)
p x q n x
p(x)
0,0625
0,2500
0,3750
0,2500
0,0625
1
143
Adil ELMARHOUM
Echantillonnage et estimations
Le tableau suivant regroupe les effectifs observs ni et les effectifs attendus ou thoriques
correspondants npi.
x
0
1
2
3
4
Total
ni
113
367
576
426
118
1600
npi
100
400
600
400
100
1600
Les effectifs thoriques sont tous suprieures 5, on peut calculer la variable de dcision :
VD =
VD =
ni
np
i
i 1
-n
Rgion dacceptation :
La rgion dacceptation est lintervalle [0 ; 1-[.
Pour = 0,05, la valeur de 1- avec 4 degrs de libert est : 0,95 = 9,49
La valeur de la variable de dcision est suprieure 1- , on rejette donc lhypothse nulle.
ni.
pij fi. f.j avec fi. =
n et
f.j =
n.j
n
144
Adil ELMARHOUM
Echantillonnage et estimations
ni. et n.j sont les effectifs marginaux, et nij les effectifs conjoints.
Les effectifs attendus correspondants sont donc :
ni.n.j
ni. n.j
n pij = n fi. f.j = n n n =
n
les effectifs attendus doivent touts tre suprieurs ou gales 5.
Formulation de lhypothse nulle :
Pour comparer la distribution thorique et la distribution observe, on est amen confronter
^
les effectifs observs nij et les effectifs attendus ou thoriques correspondants n pij .
Lhypothse nulle est lindpendance des deux critres de classification.
^
H0 : nij = n pij
Variable de dcision :
la comparaison des effectifs observs et attendus se fait comme pour les tests dajustement, en
calculant la variable de dcision suivante :
p q
VD =
nij
^
i 1 j 1 n p
-n
ij
On dmontre que la variable de dcision est une variable alatoire Khi deux avec (p-1)(q-1)
degr de libert.
Rgion dacceptation :
La valeur critique qui dlimite la rgion dacceptation est telle que :
p(VD < ) = 1 -
= 1-
Le test tant toujours unilatral, la rgion dacceptation est donc lintervalle [0 ; 1-[.
On rejettera donc lhypothse nulle lorsque la valeur de la variable de dcision est suprieure
ou gale 1-.
145
Adil ELMARHOUM
Echantillonnage et estimations
Exemple :
Un tour oprateur souhaite segmenter son march. Il se demande sil existe un lien entre le
choix dune destination de vacances et le niveau dinstruction. Les donnes recueillies ont t
structures sous forme de d tableau de contingence.
Niveau
dinstruction
Primaire
Secondaire
Suprieur
Total
Destination de vacances
Mer Montagne
Dsert
300
50
100
250
80
20
50
120
30
600
250
150
Total
450
350
200
1000
Hypothse nulle :
Lhypothse nulle est lindpendance des deux critres de classification.
^
H0 : nij = n pij
Variable de dcision :
^
ni.n.j
Les effectifs attendus sont estims par la formule : n pij =
n
Niveau
Destination de vacances
dinstruction Mer Montagne
Dsert
Primaire
270
112,5
67,5
Secondaire
210
87,5
52,5
Suprieur
120
50
30
Total
600
250
150
Total
450
350
200
1000
p q
nij
VD = ^ - n = 300 50 100 250 ... 30 - 1000 = 220,91
270 112,5 67,5 210
30
i 1 j 1n p
ij
Rgion dacceptation :
La rgion dacceptation est lintervalle [0 ; 1-[.
Le nombre de degrs de libert est gal (3-1)(3-1) = 4.
Pour = 0,05, la valeur de 1- avec 4 degrs de libert est 0,95 = 9,49.
La valeur de la variable de dcision est suprieure 1- , on rejette donc lhypothse nulle.
On conclut donc que le niveau dinstruction a une influence sur le choix dune destination
touristique.
146
Adil ELMARHOUM
Echantillonnage et estimations
147
Adil ELMARHOUM
Echantillonnage et estimations
Ex 7 : On prlve dans la production d'une machine, un chantillon de 100 tiges mtalliques.
La moyenne des longueurs des tiges de cet chantillon est 100,04 cm avec un cart-type de
0,16 cm. La machine est rgle en principe pour obtenir des tiges de 100 cm.
1) Au risque de 5 %, peut-on dire que la machine est bien rgle ?
2) Reprendre la question prcdente avec un risque de 1 %.
Ex 8 : Pour une lection, on effectue un sondage pour valuer les intentions de vote en faveur
du candidat M. Dans la ville de casa, sur 450 personnes interroges, 52% ont l'intention de
voter pour M. Dans la ville de rabat, sur 300 personnes interroges, 49 % ont l'intention de
voter pour M. Au risque de 5%, y a-t-il une diffrence d'intention de vote dans ces deux
villes?
Ex 9 : Un spcialiste en marketing a fait modifier la mthode traditionnellement utilise pour
effectuer la promotion d'un certain produit. A titre exprimental, il a observ dans 10 points de
vente le nombre dunits vendues en une semaine en utilisant la mthode existante. La semaine
daprs, les mmes points de vente ont utilis la nouvelle mthode de promotion, on a observ le
nombre dunits vendues en cette semaine en utilisant. Les donnes recueillies sont comme suit :
Ancienne mthode: 48, 46, 47, 43, 46, 45, 49, 46, 47, 44.
Nouvelle mthode: 56, 49, 53, 51, 48, 52, 55, 53, 49, 50.
La nouvelle mthode de promotion a-t-elle un effet positif sur les ventes ( = 5%)?
190
210
200
204
202
203
195
189
194
194
208
195
205
206
196
205
198
200
206
201
198
197
Ces deux rsultats sont-ils significativement diffrents en ce qui concerne le poids moyen %
148
Adil ELMARHOUM
Echantillonnage et estimations
Ex 13 : Au concours dentre une cole, lpreuve de culture gnrale est note de 0 50.
on tire au hasard un chantillon de 100 candidats et lon relve que les notes quils ont
obtenues se classent en cinq tranches de la manire suivante :
Tranches de notes Nombre de candidats
10
Note 10
20
10 < Note 20
30
20 < Note 30
20
30 < Note 40
20
40 < Note 50
Le jury se demande sil est justifi de considrer que la distribution des notes suit une
loi normale dans la population de tous les candidats.
Ex 14 : 24 ttes dovin ont reu 6 alimentations diffrentes pour constituer 4
rptitions et on a enregistr les gains moyens quotidiens en poids suivants :
Alim. 1
590
760
700
640
Alim. 2
460
430
540
470
Alim. 3
600
460
610
510
Alim. 4
640
660
720
580
Alim. 5
690
600
550
480
Alim. 6
690
650
680
740
Catgorie d'ge
Moins de 20 ans
Entre 20 et 45 ans
Plus de 45 ans
Total
Fminin
27
39
54
120
Masculin
32
45
62
139
Total
59
84
116
259
On suppose que les nombres dunits achetes obissent des lois normales, que les variances
sont gales dans ces six populations.
Quant au nombre dunits achetes en moyenne, peut-on affirmer au niveau = 0.01 qu'il y a une
diffrence significative entre hommes et femmes d'une part, et entre les trois groupes d'ge, d'autre
part?
149
Adil ELMARHOUM
Echantillonnage et estimations
Ex 16 : Une entreprise commerciale succursales multiples procde un sondage dans ses
magasins de rabat et casa. A rabat, sur 1000 clients interrogs, 350 dclarent souhaiter que le
magasin reste ouvert jusqu 21 heures tandis qu casa, sur 900 clients, 280 ont mis ce
mme vu. Lentreprise peut-elle, au seuil de signification de 5%, considrer que sa clientle
de rabat ragit comme celle de casa ?
Ex 17 : Une machine fabrique des pices identiques. La moyenne des poids de 50 pices
prleves dans la production est 68,2 grammes avec un cart-type de 2,5 grammes. On
effectue un rglage sur la machine. On prlve un nouvel chantillon de 50 pices. On trouve
un poids moyen de 67, 5 grammes avec un cart-type de 2, 8 grammes. Peur-on affirmer, au
risque 5 % que le rglage a modifi le poids des pices ?
Ex 18 : Les ventes quotidiennes d'ordinateurs ralises par une socit informatique durant
les 3 premiers mois de 2001, du lundi au jeudi sont comme suit :
Janvier 2010
Fvrier 2010
Mars 2010
lundi
13
9
8
7
9
5
8
12
7
15
14
10
mardi
8
6
6
7
11
4
9
5
17
14
12
13
mercred 6
i
10
7
4
10
2
8
3
6
14
12
13
jeudi
6
10
12
9
10
8
4
9
1
10
7
5
En supposant les conditions de lanalyse de la variance satisfaites, peut-on dire quil y a une
diffrence significative un seuil de 5% entre les moyennes des ventes ralises chaque mois et
entre les moyennes des ventes ralises chaque jour ?
Ex 19 : Dans une population, soit p1, la proportion d'hommes possdant le baccalaurat et p2
la proportion de femmes possdant le baccalaurat. Le tableau suivant correspond la
rpartition de 200 individus choisis au hasard dans cette population.
Possdent le bac
ne possdent pas le bac
hommes femmes
32
26
64
78
Adil ELMARHOUM
Echantillonnage et estimations
Ex 20 : Dans un pays M, le gouvernement a annonc que le taux de chmage est de 15,6 %.
Contestant ce chiffre, les dputs de l'opposition ont fait appel un institut de sondage. Celui
ci a ralis une tude couvrant 4900 personnes en ge d'activit et a trouv que le taux de
chmage est de 16,4 %. Avec un niveau de confiance de 0,95 ; estimez-vous que l'opposition
a raison de contester le chiffre annonc par le gouvernement ?
Ex 21 : Une enqute a t ralise au prs dun chantillon de 500 individus prlev au sein
dune population cible de 4 millions d'individus. Les donnes que l'on possde sur cette
population sont les suivantes :
Hommes 48% soit 1,92 millions dhommes
Femmes 58% soit 2,08 millions de femmes
Sexe
Niveau dinstruction
Aucun
Primaire
Secondaire
Formation professionnelle
Suprieur
Total
Hommes
%
Effectifs
35
672000
30
576000
15
288000
13
249600
7
134400
100
1920000
Femmes
%
Effectifs
50
1040000
25
520000
10
208000
10
208000
5
104000
100
2080000
Total
1712000
1096000
496000
457600
238400
4000000
Au dpouillement, on a trouv que les individus qui ont form lchantillon ont les
caractristiques suivantes :
Sexe
Niveau dinstruction
Aucun
Primaire
Secondaire
Formation professionnelle
Suprieur
Total
Hommes
%
Effectifs
32
61
28
54
18
35
14
27
8
15
100
192
Femmes
%
Effectifs
54
112
23
48
12
25
8
17
3
6
100
208
Total
173
102
60
44
21
400
Echantillonnage et estimations
Ex 24 : Le tableau suivant donne le nombre dtudiants qui ont t brillants et
mdiocres devant trois examinateurs :
Brillants
Mdiocres
Total
Examinateur1
50
5
55
Examinateur2
47
14
61
Examinateur3
56
8
64
Total
153
27
180
152
Adil ELMARHOUM