Beruflich Dokumente
Kultur Dokumente
Enqute et Sondage
Laurent Rouvire
Prambule
Rsum : En prsence dune taille de population trs leve, on a souvent recours un
plan de sondage pour valuer une caractristique prcise de cette population. Dit brtalement, le sondage consiste mesurer la caractre sur une partie de la population (appele
chantillon). Le statisticien doit ensuite tendre les tendances observes sur lchantillon
la population entire. Une telle procdure soulve plusieurs difficults telles que le choix
des personnes sonder ou encore leur nombre. Plusieurs plans de sondage sont prsents
dans ce cours. La mise en oeuvre pratique ainsi que les proprits mathmatiques de ces
diffrents plans sont tudis en dtail. Les diffrents concepts sont illustrs par de nombreux
exemples et exercices.
Mots cls :
stratifis.
Nhsitez pas menvoyer par courrier les devoirs que vous avez faits. Vous pouvez
posez des questions sur la copie, jy rpondrai.. Rdigez proprement.
Vous pouvez menvoyer par mail vos questions sur ce cours, jy rponds assez rapidement
en gnral ( condition que les questions soient bien dtailles...)
Si vous avez de grandes difficults de comprhesion, vous pouvez passer mon bureau
(contactez moi avant pour tre sr que je sois la !).
Modalits dvaluation Vous aurez un examen crit de deux heures en fin danne
universitaire. Vous naurez droit aucun document, seulement une calculatrice. Un formulaire sera distribu.
Bon courage...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
5
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
9
10
11
11
14
15
16
16
17
17
18
20
.
.
.
.
.
.
.
.
.
23
23
24
26
26
27
27
28
32
35
A Intervalle de confiance pour une moyenne dans un plan de sondage alatoire simple
39
AES-Sondage
Laurent Rouvire
41
53
57
61
65
69
H Un dernier problme...
73
Chapitre 1
Introduction
1.1
Il existe deux approches pour connatre les caractristiques statistiques dun caractre sur
une population.
Le recensement est lapproche descriptive. Il consiste mesurer le caractre sur toute
la population.
Le sondage est lapproche infrentielle. Lorsque le recensement nest pas possible pour
des raisons de cot, de temps ou cause de certaines contraintes (test destructif par
exemple), on a recours un sondage, cest--dire ltude statistique sur un sousensemble de la population totale, appel chantillon. Si lchantillon est constitu
de manire correcte, les caractristiques statistiques de lchantillon seront proches de
celles de la population totale.
Exemple 1.1
Je dsire connatre lge moyen de TOUS les tudiants de Rennes 2.
Recensement : je demande lge tous les tudiants et je calcule la moyenne... a risque
dtre long ! ! !
Sondage : je choisis une partie des tudiants (chantillon), je calcule la moyenne des
ges sur cette partie en esprant que cette moyenne soit proche de lge moyen de
tous les tudiants.
Nous voyons sur cet exemple que la mise au point dun sondage ncessite plusieurs choix
pour le statisticien :
comment choisir les tudiants ?
combien dtudiants doit-on choisir ?
comment doit-on formuler la rponse :
sous la forme dune valeur, cest dire que lon donne une estimation de lge moyen
sous la forme dun rel (24.8 ans par exemple) ;
sous la forme dun ensemble de valeurs. On pourra par exemple donner une fourchette
ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que lestimation est satisfaisante ? Dit autrement suis-je capable de donner une
estimation de lerreur commise par la prdiction. On pourra par exemple dire lge
moyen des tudiants de Rennes 2 se trouvent dans lintervalle [23.4 ;26.3] avec un
niveau de confiance de 95%..
AES-Sondage
Laurent Rouvire
Introduction
Lobjectif de ce cours consiste tudier des procdures de sondage pour lesquelles nous
pourrons rpondre ces questions. Nous allons dans ce chapitre prsenter le contexte, les
notations ainsi que les critres permettant dvaluer la qualit dun sondage. Nous proposerons dans les chapitres 2 et 3 diffrentes mthodes de sondage permettant destimer des
moyennes et proportions.
1.2
Modlisation et notation
Nous prsentons dans cette partie le cadre dtude et introduisons les notations qui seront
utilises tout au long de ce cours.
On sintresse une population U composs dindividus ou units (tudiants de Rennes
2). Chaque unit est reprsente par un numro allant de 1 N :
U = {U1 , . . . , UN } = base de sondage.
On souhaite valuer une caractristique de la population (lge par exemple). On note Xi
la valeur de ce caractre mesur sur lindividu i (Xi est donc ici lge du ime individu). On
peut utiliser un sondage pour estimer lge moyen
N
1 X
Xi .
=
N i=1
N
X
Xi .
i=1
On peut galement sintresser une proportion dindividus qui vrifie un certain critre.
Dans ce cas, Xi prendra deux valeurs :
1 si lindividu Ui satisfait le critre ;
0 sinon.
La proportion dindividus appartenant la catgorie qui nous intresse sera alors :
N
1 X
p=
Xi .
N i=1
Exemple 1.2
Considrons le cas dun sondage lectoral. On sintresse la proportion dindividus votant
pour un candidat A. On dfinit alors Xi la variable qui prend pour valeurs :
1 si lindividu Ui vote pour un candidat A ;
0 sinon.
Le nombre dindividus qui votent pour A est
n
X
Xi ,
i=1
Laurent Rouvire
AES-Sondage
N
1 X
Xi .
N i=1
Pour diffrentes raisons (cots, temps...), on ne peut pas mesurer la caractristique sur tous
les individus. Par consquent les paramtres , T ou p sont inconnus. On slectionne alors
un sous ensemble de la population U constitu de n units de la population (n N ) (voir
Figure 1.1). Ce sous-ensemble est appel chantillon et sera not E.
1
0
1
0
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
t=
n
X
xi .
i=1
1.3
Laurent Rouvire
Introduction
Exemple 1.4
Nous disposons dune population compose de N = 5 individus. Nous nous posons le
problme de connatre lge moyen de ces individus. Pour certaines raisons, on ne peut
demander lge qu n = 2 individus qui constitueront lchantillon (bien entendu, une telle
situation ne se produit jamais en ralit...). Le statisticien propose destimer lge moyen
des 5 tudiants par lge moyen
des deux tudiants de lchantillon.
Supposons que lge des 5 tudiants soit : 15, 25, 18, 14, 20. Si lchantillon est constitu par
les deux premiers individus, lestimation de sera 15+25
= 20. Si maintenant lchantillon
2
est constitu des deux derniers individus alors lestimation vaudra 14+20
= 17. Nous voyons
2
clairement que la valeur de
va dpendre des individus prsents dans lchantillon. Cest en
ce sens que nous affirmons que lestimateur
est une variable alatoire (il peut prendre
diffrentes valeurs suivant lchantillon choisi).
Ce qui est alatoire dans un sondage est le fait quun individu donn appartienne
ou non lchantillon.
Dans la suite, pour les diffrents plans de sondage que nous tudierons, nous noterons les
estimateurs avec des chapeaux (voir la tableau suivant).
Moyenne
Total
Proportion
1.4
Vraie valeur
T
p
Estimateur
T
p
Nous nous plaons dans le cas de lestimation de la moyenne dune certaine caractristique
sur une population. Tous les concepts tudis dans cette partie sont galement valables pour
lestimation dun total ou dune proportion. Nous rappelons que
U = (U1 , . . . , UN )
dsigne la population ou la base de sondage et nous noterons
E = (u1 , . . . , un )
un sous-ensemble de u de taille n N qui constituera lchantillon. Le problme consiste
construire un estimateur
de partir de lchantillon.
Comment tre sr que
soit proche de .
Elments de rponse :
si n est proche de N , alors lchantillon est proche de la population. n joue donc un
rle dans la rponse.
E doit reprsenter U . Si par exemple est le revenu annuel moyen de la population
franaise et que lchantillon est constitu dun groupe dtudiants, il sera difficile de
construire un estimateur
qui sera proche de .
Laurent Rouvire
AES-Sondage
est une variable alatoire. On va donc pouvoir calculer son esprance et sa variance. Ces
deux quantits seront utilises pour mesurer la qualit de lestimateur.
Dfinition 1.2
On dfinit le biais dun estimateur
par :
B(
) = E(
) .
Ainsi, on dira que
est un estimateur sans biais de si
B(
) = 0
E(
) = .
Dit autrement,
tombe en moyenne sur sa cible .
Remarque
Dire que lestimateur est sans biais ne veut pas dire que le rsultat soit exact. Avant
de raliser lchantillon, on ne connat pas la valeur de
, on sait seulement que cest
une variable alatoire qui en moyenne vaut .
Dire que lestimateur est sans biais revient dire que la valeur moyenne de
sur tous
les chantillons possibles est la vraie valeur .
Sur la Figure 1.2, nous schmatisons cette notion de biais. La vraie valeur de est la cible
atteindre (carr). Les points dsignent les diffrentes valeurs de lestimateur
suivant
lchantillon.
Lestimateur de gauche est sans biais : la valeur moyenne de toutes les valeurs
est gale
la cible . Ce nest clairement pas le cas pour lestimateur associ la figure de droite.
Pour un estimateur sans biais
, il est aussi utile de savoir comment lensemble des valeurs
possibles de
se rpartit autour de la cible , si elles en sont proches ou sil y a un risque
de tomber sur une combinaison malheureuse (un mauvais chantillon).
AES-Sondage
Laurent Rouvire
Introduction
Fig. 1.3 Deux exemples destimateur sans biais : gauche la variance est faible, droite elle
est leve.
Les deux estimateurs schmatiss sur la Figure 1.3 sont sans biais. Nous voyons cependant
que les valeurs de
pour lestimateur de gauche sont plus proches de que pour celui de
droite. On prfrera ainsi lestimateur de gauche celui de droite.
La dispersion de
autour de se mesure par la variance de lestimateur :
gauche, la variance est faible les diffrentes valeurs de
sont faiblement disperses
autour de .
droite, la variance est leve les diffrentes valeurs de
sont fortement disperses
autour de .
Le tableau ci-dessous rsume la mesure de la qualit de lestimateur en fonction de son biais
(esprance) et de sa dispersion (variance).
Qualit
bonne
mauvaise
Biais Dispersion
faible
faible
leve
leve
Pour des plans de sondage alatoires, la difficult consiste rechercher des estimateurs sans
biais (ventuellement de biais faible), et de variance minimale.
Laurent Rouvire
AES-Sondage
Chapitre 2
Sondage alatoire simple
2.1
Le sondage alatoire simple est le modle dchantillonnage en apparence le plus simple que
lon puisse imaginer : il consiste considrer que, dans une population deffectif N , tous les
chantillons de n units sont possibles avec la mme probabilit.
2.1.1
Dfinition 2.1
Un plan de sondage est dit avec remise si un mme individu peut apparatre plusieurs fois
dans lchantillon et si lordre dans lequel apparaissent les individus compte.
Exemple 2.1
P = {1, 2, 3, 4, 5}, n = 3. Lchantillon {1, 1, 2} est diffrent de lchantillon {1, 2, 1}.
Dans le cas dun plan avec remise, il y a N n chantillons possibles.
Dfinition 2.2
Un plan de sondage est dit sans remise si un mme individu ne peut apparatre quune
seule fois dans lchantillon.
Dans lexemple prcdent, lchantillon {1, 1, 2} nest donc pas possible.
Dans le cas dun plan sans remise, il y a CNn =
N!
chantillons possibles.
n!(N n)!
La plupart du temps, nous nous intresserons aux plans sans remise : interroger deux fois le
mme individu napporte pas dinformation supplmentaire. Cependant, il nest pas inintressant de considrer parfois des plans avec remise, ne serait-ce que pour servir dlment
de comparaison et de rfrence.
2.1.2
Laurent Rouvire
10
2.1.3
Rcapitulatif - Notations
Population U
inconnu, dterministe
chantillon E
connu, alatoire
N
N
1 X
Xk
=
N k=1
N
X
T =
Xk = N
n
n
1X
x =
xk
n k=1
n
X
t=
xk = n
x
Taille
Moyenne
Total
Variance
Variance corrige
2 =
k=1
N
X
1
N
(Xk )2
k=1
N
X
1
S =
(Xk )2
N 1 k=1
N
=
2
N 1
2
k=1
1 X
s =
(xk x)2
n 1 k=1
2
AES-Sondage
11
P
(valeur- moyenne)2
valeur2
=
moyenne2
Effectif total
Effectif total
Ecart-type = Variance
On rappelle que lcart-type donne une ide de la dispersion des donnes autour de la
moyenne.
Remarque (trs importante)
La moyenne x observe sur lchantillon est une variable alatoire qui prend des valeurs
diffrentes dun chantillon un autre. On peut donc calculer son esprance et sa variance
( ne surtout pas confondre avec la variance du caractre dans la population note 2 ou
dans lchantillon note s2 ).
2.2
2.2.1
Estimation de la moyenne
Estimation ponctuelle
1X
xi = x.
n i=1
(2.1)
Exemple 2.3
On dispose de N = 5 jetons portant les valeurs -1, 2, 4, 10, 20.
1. Calculer la moyenne et la variance de la valeur sur toute la population ( = 7,
2 = 55.1, = 7.43).
2. On souhaite estimer la moyenne calcule prcdemment par un sondage alatoire
simple (a na aucun sens, juste mieux comprendre le problme). On tire un chantillon
de taille n = 2 sans remise. tablir la liste de tous les chantillons possibles, et calculer
la moyenne pour chacun deux.
Ech
{1, 2}
{1, 4}
{1, 10}
{1, 20}
{2, 4}
AES-Sondage
ou x
0.5
1.5
4.5
9.5
3
Ech
{2, 10}
{2, 20}
{4, 10}
{4, 20}
{10, 20}
ou x
6
11
7
12
15
Laurent Rouvire
12
=x=
x1 + x2
.
2
Cet estimateur est une variable alatoire dont la loi est donne par :
Valeurs de
ou x
Probabilits
0.5
0.1
1.5
0.1
4.5
0.1
9.5
0.1
3
0.1
6
0.1
11
0.1
7
0.1
12 15
0.1 0.1
Les probabilits sont gales car on est dans un plan alatoire simple (tous les chantillons ont la mme probabilit). On dduit ainsi lesprance et la variance de X.
E(x) = 7,
V(x) = 20.7.
Exemple 2.4
Une socit bancaire souhaite mener une tude approfondie auprs des particuliers ayant
un compte chez elle : il sagit de prparer le lancement dun nouveau produit financier.
La socit dispose dun fichier de N (N grand) clients et ltude par sondage doit porter
sur n (n < N ) dentre eux. Pour illustrer les proprits du SAS, nous allons simplifier
lextrme : supposons que le fichier comporte N = 5 titulaires de comptes et prlevons un
chantillon deffectif n = 2. A la date de ltude, les dpts sur ces 5 comptes sont, en
millier de francs : 13, 15, 17, 25, 30. La moyenne de ces 5 valeurs est gale = 20. On
suppose que lorganisme charg de lenqute ignore ces montants et se fixe pour objectif
dvaluer leur moyenne partir de deux valeurs quil constatera sur lchantillon.
1. tablir la liste de tous les chantillons possibles et calculer la moyenne pour chacun
deux.
Ech
{13, 15}
{13, 17}
{13, 25}
{13, 30}
{15, 17}
Ech
{15, 25}
{15, 30}
{17, 25}
{17, 30}
{25, 30}
x
14
15
19
21.5
16
x
20
22.5
21
23.5
27.5
x1 + x2
2
14
0.1
15
0.1
19 21.5
0.1 0.1
16
0.1
20 22.5
0.1 0.1
21 23.5
0.1 0.1
27.5
0.1
Laurent Rouvire
V(x) = 15.6.
AES-Sondage
13
S2
n S2
= 1
.
n
N n
(2.2)
2 N n
.
n N 1
N
5
2 = 7.432 = 69.
N 1
4
2
1
5
69
= 20.7.
2
Remarque
La formule (2.2) permet de caractriser la prcision dun SAS (plus la variance est faible,
plus lestimateur est prcis).
Plus la taille n de lchantillon est grande, plus la variance de
diminue et donc plus
lestimateur est prcis. A lextrme, si n = N la variance est nulle. Ceci est normal,
car dans ce cas on a ralis un recensement et on connat de faon certaine la vraie
moyenne.
AES-Sondage
Laurent Rouvire
14
2 N n
41.6 50000 200
=
0.21.
n N 1
200 50000 1
2.2.2
1 X
n
s =
(xk x)2 =
n 1 k=1
n1
2
Laurent Rouvire
Pn
k=1
x2k
AES-Sondage
15
Exemple 2.7
Reprenons lexemple de la socit bancaire. La socit dispose de N = 50000 clients et lorganisme charg de lenqute recueille les donnes relatives n = 200 clients. On sintresse
nouveau au montant prsent sur les comptes des clients. Par consquent le paramtre
estimer sera : le montant moyen prsent sur les comptes des 50000 clients.
Les 200 comptes sonds ont un montant moyen
= 22.5 et une variance s2 = 42.2. Calculons
lintervalle de confiance de niveau 1 = 0.95. Lintervalle est donn par :
r
r
n s2
n s2
z1/2
,
+ z1/2
.
1
1
N n
N n
z1/2 est la quantile dordre 1 /2 de la loi N (0, 1). Ici 1 = 0.95 donc = 0.05 et
1 /2 = 0.975. z1/2 est donc le quantile dordre 0.975 de la loi N (0, 1) que lon lit dans
la table. On trouve z1/2 = 1.96.
Un IC de niveau 0.95 est donc
"
r
22.5 1.96
#
r
42.2
42.2
, 22.5 + 1.96
= [21.6, 23.4].
200
200
Remarque
Donner une estimation par intervalle de confiance est doublement prudent ; dune part, on
ne fournit pas une valeur ponctuelle, mais une plage de valeur possibles ; dautre part, on
prvient quil existe un risque faible que la vraie valeur soit en dehors de la fourchette.
2.3
Laurent Rouvire
16
2.3.1
Estimation ponctuelle
Exemple 2.8
Poursuivons lexemple de la socit bancaire qui souhaite raliser une enqute pour estimer
la proportion p de clients prts souscrire un nouveau produit financier. La socit dispose
de N = 50000 clients et souhaite raliser son enqute sur n = 200 clients.
Construisons la variable alatoire xi qui au ime client interrog fait correspondre la valeur
suivante :
xi = 1 si le client i a lintention de souscrire au produit ;
xi = 0 sinon.
Remarquons que xi suit une loi de Bernoulli de paramtre p. La proportion p de clients favorables est naturellement estime par la proportion p de clients interrogs (sonds) favorable.
On remarque que
n
1X
xi = x.
p =
n i=1
2.3.2
N p(1 p)
S2
= (1 f )
.
V(
p) = (1 f )
n
n(N 1)
V(
p) = (1 f )
Do lIC
N p(1 p)
S2
= (1 f )
.
n
n(N 1)
r
r
h
S2
S2 i
.
p z1/2 (1 f ) ; p + z1/2 (1 f )
n
n
(2.3)
Remarque
V(
p) dpend de la proportion p qui est inconnue. En pratique dans la formule (2.3), on
remplace V(
p) par son estimateur
2
p z1/2
p(1 p)
s
,
V (
p) = (1 f ) = (1 f )
n
n1
r
p(1 p)
, p + z1/2
(1 f )
n1
(1 f )
p(1 p) i
.
n1
(2.4)
AES-Sondage
17
2.4
Taille dchantillon
Jusqu prsent la taille dchantillon n tait fixe. Cependant, on pose souvent la question au statisticien : A partir de combien dlment un chantillon est-il valable ?. Bien
entendu, il faut dfinir ce quon entend par valable. Dans le contexte qui est le ntre, nous
conviendrons dun cart maximum tolr de lintervalle de confiance. Cest dire que nous
chercherons la taille dchantillon minimum n0 de manire ce que lintervalle de confiance
ne soit pas trop grand. Plus prcisment, nous fixons une demi-longueur h0 pour lintervalle
de confiance et nous cherchons la taille dchantillon n0 pour laquelle la demi-longueur de
lintervalle de confiance vaut h0 .
2.4.1
Cas de la moyenne
z1/2 V(
),
+ z1/2 V(
) .
z1/2
p
V(
)
+z1/2
V(
)
IC
Fig. 2.1 Intervalle de confiance.
La demi longueur de lIC vaut donc (voir Figure 2.1)
p
),
z1/2 V(
AES-Sondage
Laurent Rouvire
18
p
) = z1/2
z1/2 V(
z1/2
2
n
Problme : cette demi longueur dpend de la variance de tous les individus qui est incon2
nue. Une solution consiste utiliser un majorant max
de cette variance 2 (ce majorant
sera en gnral dtermin sur la base dune enqute prcdente). La demi longueur de lIC
sera alors au plus gale
r
2
max
z1/2
n
2
(on se place dans le pire des cas, cest dire celui o la variance vaut max
). Par consquent
la taille dchantillon minimum n0 telle que la demi longueur de lIC ne dpasse pas h0 sera
la solution de lquation
s
z1/2
cest--dire
n0 =
2.4.2
2
max
= h0 ,
n0
2
2
z1/2
max
h20
Cas de la proportion
p(1 p) 1/4.
AES-Sondage
19
AES-Sondage
2
z1/2
4h20
Laurent Rouvire
20
2.5
Exercices
Exercice 2.1
Soit une caractristique X dfinie sur une population de N = 4 units.
Individu
Valeur de X
1 2
11 10
3 4
8 11
1
1
(cest--dire que lchantillon {1, 2} a une probabilit dapparatre)
2
2
1
P({1, 3}) =
4
1
P({2, 3}) =
4
P({1, 2}) =
xk = 2907 et
100
X
x2k = 154593.
k=1
Laurent Rouvire
AES-Sondage
21
2.5 Exercices
Exercice 2.4
Un ppiniriste souhaite estimer la taille moyenne de ses arbustes dune mme varit. Sur
les 10000 plantes de la serre, on en slectionne 200 par sondage alatoire simple, puis on
mesure la hauteur de chacune de ces plantes. Les rsultats sont les suivants (en m) :
200
X
xk = 248,
k=1
200
X
x2k = 331.
k=1
xi = 15 125
n
X
i=1
n
X
xi = 15 125.
i=1
Laurent Rouvire
22
Laurent Rouvire
AES-Sondage
Chapitre 3
Sondages stratifis
3.1
Principe et justification
Dans un sondage alatoire simple, tous les chantillons dune population de taille N sont
possibles avec la mme probabilit. On imagine que certain dentre eux puissent savrer a
priori indsirables. Dans le cas de lexemple 2.3, nous disposions de 5 jetons : -1, 2, 4, 10
et 20 dont nous souhaitions valuer la moyenne ( = 7) laide dun chantillon de taille
2. Parmi les chantillons deux units, on trouve les cas extrmes {1, 2} et {10, 20}, qui
sont particulirement mauvais.
Plus concrtement, dans ltude du lancement dun nouveau produit financier, on peut
supposer des diffrences de comportement entre les petits et les gros clients de la banque.
Il serait malencontreux que les hasards de lchantillonnage conduisent ninterroger que les
clients appartenant une seule de ces catgories, ou simplement que lchantillon soit trop
dsquilibr en faveur de lune delles. Sil existe dans la base de sondage une information
auxiliaire permettant de distinguer, a priori, les catgories de petits et gros clients, on
aura tout gagner utiliser cette information pour rpartir lchantillon dans chaque souspopulation. Cest le principe de la stratification : dcouper la population en sous-ensembles
appels strates et raliser un sondage dans chacune delles.
Lintrt de cette mthode, en comparaison des plans simples, est quelle permet damliorer
la prcision des estimateurs. Elle ncessite lutilisation dune information auxiliaire connue
pour lensemble de la population.
Exemple 3.1
Reprenons lexemple initial o nous souhaitions estimer lge moyen de toutes les personnes
voluant sur le site de Rennes 2. La base de sondage est compose de lensemble des personnes de Rennes 2. Supposons que nous disposions de la rpartition des lments de la
base suivant les catgories :
tudiants ;
enseignants ;
IATOS.
Dit autrement nous connaissons la rpartitions des personnes de Rennes 2 suivant ces 3
catgories (voir Figure 3.1). Il y a fort parier que la variable ge ne se comporte pas
de la mme manire dans ces trois classes (en moyenne, on peut en effet penser que la
AES-Sondage
Laurent Rouvire
24
Sondages stratifis
IATOS
Enseignants
Etudiants
3.2
Nous prcisons maintenant quelques notations utiles la dfinition dun plan stratifi.
Rappel du contexte : on note N le nombre dindividus dans la population. On souhaite
valuer une caractristique de la population. On note Xi la valeur de ce caractre mesure
sur le ime individu. On cherche estimer la moyenne du caractre sur la population
N
1 X
Xi .
=
N i=1
AES-Sondage
25
1 X
Xi .
Nh iP
h
1 X
(Xi h )2 ;
variance de la strate : h2 =
Nh iP
h
X
Nh
1
2 .
(Xi h )2 =
Nh 1 iP
Nh 1 h
h
1. Rcriture de :
N
N
1 X
1 X
=
Xi =
Nh h .
N i=1
N i=1
2. Rcriture de 2 :
N
H
H
1 X
1 X
1 X
2
2
2
(Xi ) =
Nh h +
Nh (h )2
=
N i=1
N h=1
N h=1
Le premier terme reprsente la moyenne des variances des strates. Le second est d aux
diffrences entre strates : si par exemple lchantillon est stratifi entre tudiant, enseignant,
IATOS, ce terme reprsente le contraste dge entre ces diffrentes catgories.
Nous sommes maintenant en mesure de dfinir un plan stratifi.
Dfinition 3.1
Un plan de sondage est dit stratifi si dans chaque strate on slectionne un chantillon
alatoire de taille fixe nh et que les slections sont ralises indpendamment dune strate
une autre. On suppose en outre dans ce cours quau sein de chaque strate les plans sont
simples et sans remise.
Les nh doivent vrifier
H
X
nh = n.
h=1
Exemple 3.2
Reprenons lexemple de la stratification de la population Rennes 2 suivant : tudiant,
enseignant, IATOS. Pour simplifier lextrme, supposons que la population est compose
de N = 20 individus :
10 tudiants (strate 1, N1 = 10) ;
6 enseignants (strate 2, N2 = 6) ;
4 IATOS (strate 3, N3 = 4) ;
La population est donc compose de N = N1 + N2 + N3 = 20 individus. On effectue un plan
de sondage stratifi : on slectionne un chantillon alatoire de taille n = 10 de la manire
suivante (voir Figure 3.2) :
n1 = 5 dans la strate 1 ;
n2 = 3 dans la strate 2 ;
n3 = 2 dans la strate 3.
AES-Sondage
Laurent Rouvire
26
Sondages stratifis
P1
E1
E2
P2
E3
P3
3.3
Estimateur de la moyenne
3.3.1
Un exemple
est un estimateur de lge total de la population. Pour obtenir un estimateur de lge moyen
il suffit donc de diviser par le nombre dindividus dans la population. Lestimateur
est
Laurent Rouvire
AES-Sondage
27
3
1
1 X
Ni xi =
(N1 x1 + N2 x2 + N3 x3 ) .
=
N i=1
N
Application numrique : les rsultats du sondage sont donns dans le tableau suivant :
Strate
Age
1 2
20 50
1
25
3 1
42 23
1
22
2
35
3 2
44 38
1
26
x2 = 42,
x3 = 44.
3.3.2
1
(10 23.2 + 6 42 + 4 44) = 33.
20
Cas gnral
Lestimateur
scrit alors :
H
1 X
=
Nh xh .
N h=1
(3.1)
3.4
H
1 X
N h nh 2
Sh .
N
h
N 2 h=1
nh
(3.2)
Rpartition de lchantillon
Jusqu prsent, dans le plan stratifi, nous avons suppos que les tailles dchantillons
nh taient fixs pour chaque strate. En pratique, lors de la planification du sondage, le
statisticien doit se poser la question suivante : combien de personnes dois-je sonder par
strate pour que mon estimateur soit le plus prcis possible ? Dit autrement, comment choisir
les nh ?
AES-Sondage
Laurent Rouvire
28
Sondages stratifis
Totale
Strate
Population P
inconnu, dterministe
Echantillon E
connu, alatoire
Taille
Moyenne
Variance
Variance Corrige
2
S2
n
x
Taille
Moyenne
Variance
Variance Corrige
Nh
h
h2
Sh2
s2
nh
xh
s2h
3.4.1
Pour dcider des effectifs dchantillon nh , la solution la plus simple, et de trs loin la plus
utilise, est de les tablir au prorata des tailles Nh , ce qui peut sexprimer de deux faons
quivalentes :
les strates ont dans lchantillon des poids nh /n gaux leurs poids Nh /N dans la
population ;
on applique le mme taux de sondage dans toutes les strates : fh = nh /N = n/N = f .
Pour lexemple de lge moyen de la population Rennes 2, un tel plan signifie que les
proportions de chaque strate dans la population sont les mmes que dans lchantillon. Si
on a par exemple la rpartition suivante :
Strate
Etudiant
Enseignant
IATOS
Nh
6000
2500
1500
Alors un plan stratifi avec allocation proportionnelle de taille n = 100 consistera sonder :
n1 = 60 tudiants ;
n2 = 25 enseignants ;
n3 = 15 IATOS.
Dfinition 3.2
Dans un plan stratifi avec allocation proportionnelle, on choisit les nh de telle sorte que la
proportion dindividus provenant de la strate h dans lchantillon soit la mme que dans la
population, cest--dire :
nh
Nh
=
,
n
N
Laurent Rouvire
AES-Sondage
29
Nh
.
N
V(
) =
H
n 1 X
1
Nh Sh2 .
1
n
N N h=1
(3.3)
Remarque
Dans le cas dun plan avec allocation proportionnelle on aura le choix entre cette formule
et (3.2) pour calculer la variance de lestimateur
.
Si les tailles Nh de chaque strate h sont grandes, on a Sh2 h2 . On peut donc crire daprs
(3.3) :
1
n 2
V(
)
1
intra .
n
N
Dans le cas dun plan simple (chapitre prcdent), si N est grand, on rappelle que :
1
n 2
1
.
V(
) =
n
N
Laurent Rouvire
30
Sondages stratifis
Age
24
52
42
19
38
26
45
23
39
24
Cat
1
2
3
1
3
1
2
1
2
1
Che
c
a
b
c
a
b
c
a
a
b
Age
22
48
24
38
26
36
46
23
39
18
Cat
1
2
1
3
1
3
2
1
2
1
Che
c
a
a
a
b
b
b
c
a
c
1. On souhaite estimer la moyenne laide dun plan simple. Quel est la variance de
lestimateur ?
Daprs le chapitre prcdent
10 115.305
n S2
= 1
= 5.77.
V(
) = 1
N n
20
n
2. On dsire stratifier la population suivant la catgorie. Quelle est la variance de lestimateur
pour un tel plan ?
La population est divise selon la Figure 3.3.
24
19
26
P1
24
23
22
23
26
24
P2
18
45
52
39
46
48
39
42
38
P3
38
36
AES-Sondage
31
38
48
39
24
38
26
24
39
26
42
36
46
24
45
19
22
23
18
AES-Sondage
V(
)
5.77
0.63
4.86
Laurent Rouvire
32
Sondages stratifis
On voit que les deux plans stratifis possdent des variances infrieures au plan simple. Le
gain de la stratification par la catgorie est significatif compar celui de la couleur des
cheveux. Ceci vient du fait que la variable dintrt (ge) dpend plus de la catgorie que
de la couleur de cheveux. Il sera donc beaucoup plus pertinent de stratifier par rapport
la catgorie que par rapport la couleur de cheveux (on pouvait sy attendre...)
Nous avons vu quen terme de variance de lestimateur, le plan avec allocation proportionnelle est plus prcis que le plan simple. Peut-on faire encore mieux ?
3.4.2
La rponse la question prcdente est : oui, si lon sait a priori que certaines classes sont
beaucoup plus homognes que dautres. Intuitivement, on a intrt sous-chantillonner
les premires pour consacrer plus de moyens aux secondes.
Dfinition 3.3
Dans un plan stratifi avec allocation optimale, on choisit les tailles dchantillons n1 , . . . , nH
P
telles que H
) soit minimale. La soh=1 nh = n et telles que la variance de lestimateur V(
lution de ce problme est
N h Sh
.
nh = n H
X
N h Sh
h=1
Par dfinition, lestimateur construit avec un plan dallocation optimale possde la plus
petite variance possible (parmi tous les plans stratifis). Le prix payer est que pour
construire un tel estimateur (pour choisir les tailles dchantillons dans chaque strate), il
nous faut connatre la variance corrige du caractre dans chaque strate de la population.
La variance de lestimateur associ ce plan est toujours donne par (3.2). On ne peut par
contre pas utiliser la formule (3.3) qui est valable uniquement pour un plan avec allocation
proportionnelle.
Remarque
1. L encore, les nh ne sont pas ncessairement entiers, il faut recourir une procdure
darrondi. De plus la formule prcdente peut parfois conduire des choix de nh tels
que nh > Nh . Dans ce cas, on fait un recensement dans les strates o le problme se
pose et on recalcule les valeurs de nh pour les strates restantes.
2. La formule prcdente ncessite de connatre les variances corriges de chaque strate
Sh (ou plutt leurs racines carres). En pratique, il faut donc les estimer. En sondage,
on utilise souvent les rsultats denqutes prcdentes.
Pour les estimateurs construits par plans stratifis, on peut calculer des intervalles de
confiance comme pour les plans simples. Un intervalle de confiance de niveau 1 est
donn par
h
i
p
p
IC =
z1/2 V(
);
+ z1/2 V(
) ,
o z1/2 dsigne le quantile dordre 1 /2 de la loi normale centre rduite. Nous terminons par un exemple sur les plans stratifis, nous rappelons que tout ce qui a t vu dans
ce chapitre peut sadapter lestimation dun total ou dune proportion.
Laurent Rouvire
AES-Sondage
33
=
xi .
n i=1
La variance dun dun tel estimateur est donne par
n S2
.
V(
) = 1
N n
N
10000 2
2 =
16 = 256.03.
N 1
9999
256.03
100
= 2.53.
V(
) = 1
10000
100
AES-Sondage
H
1 X
Nh xh ,
N h=1
Laurent Rouvire
34
Sondages stratifis
o xh est lge moyen des personnes interroges dans la strate h. Pour un plan avec
allocation proportionnelle, les effectifs sont choisis suivant :
nh = n
Nh
.
N
Par consquent,
2000
3000
5000
n1 = 100
= 20,
n2 = 100
= 30,
n3 = 100
= 50.
10000
10000
10000
Calculons les variances corriges par strate Sh2 = NN1 h2 :
10000 2
10000 2
10000 2
18 = 324.03,
S22 =
12 = 124.01,
S32 =
3.6 = 12.96.
9999
9999
9999
La variance de lestimateur est donne par (3.2) ou (3.3) :
S12 =
H
1
n 1 X
Nh Sh2
1
n
N N h=1
i
100
1 h
1
1
2000 324.03 + 3000 124.01 + 5000 12.96
=
100
10000 10000
= 1.10
V(
) =
3. Pour un plan avec allocation optimale, les effectifs sont choisis suivant :
nh = n
N h Sh
H
X
N h Sh
h=1
On calcule
H
X
On dduit
3000 124.01
n2 = 100
= 38.22,
87409.6
5000 12.96
n3 = 100
= 20.59.
87409.6
2000 324.03
= 41.18,
n1 = 100
87409.6
On arrondit
n1 = 41,
n2 = 38,
n3 = 21
en vrifiant que la somme fait bien 100. On peut maintenant calculer la variance
laide de la formule (3.2)
V(
) =
H
1 X
N h nh 2
N
Sh
h
N 2 h=1
nh
i
2000 41
3000 38
5000 21
1
2000
324.03
+
3000
124.01
+
5000
12.96
=
100002
41
38
21
= 0.75.
Laurent Rouvire
AES-Sondage
35
3.5 Exercices
3.5
Exercices
Exercice 3.1
Soit une population P = {1, 2, 3, 4} et X1 = X2 = 0, X3 = 1, X4 = 1 les valeurs prises
par la variable laquelle on sintresse.
1. Calculer la variance de lestimateur de la moyenne pour un plan alatoire simple sans
remise de taille n = 2.
2. Calculer la variance de lestimateur de la moyenne pour un plan alatoire stratifi
pour lequel une seule unit est prleve par strate, les strates tant donnes par :
E1 = {1, 2},
E2 = {3, 4}.
Exercice 3.2
Dans une grande ville, on sintresse au nombre moyen de clients que peut avoir un mdecin
pendant une journe de travail. On part de lide a priori que plus le mdecin a dexprience, plus il a de clients. On classe donc la population de mdecins en trois groupes : les
"dbutants" (classe 1), les "confirms" (classe 2), et les "trs expriments" (classe 3). Par
ailleurs, on suppose que lon connat, dans la base de sondage des mdecins, la classe de
chacun dentre eux. On tire par sondage alatoire simple 200 mdecins dans chaque classe.
On obtient les rsultats suivants :
xh
s2h
Nh
h=1 h=2
10
15
4
7
500 1000
h=3
20
10
2500
Moyenne h
6
4
Sh2
4
2.25
Laurent Rouvire
36
Sondages stratifis
2. Le directeur suppose dsormais que les dispersions de poids nvoluent pas sensiblement dune anne sur lautre (ce type dhypothse reste ici trs raisonnable et se
rencontre couramment en pratique quand on rpte des enqutes dans le temps). Si le
directeur procde un tirage alatoire simple de 10 lphants, quelle est la variance
de lestimateur du poids total du troupeau ?
3. Si le directeur procde un tirage stratifi avec allocation proportionnelle de 10
lphants, quelles tailles dchantillon doit-on retenir dans chaque strate ? Quelle est
alors la variance de lestimateur du poids total du troupeau ?
4. Si le directeur procde un tirage stratifi optimal de 10 lphants, quelles tailles
dchantillon doit-on retenir dans chaque strate ? Quelle est alors la variance de lestimateur du poids total du troupeau ?
Exercice 3.4
Sur les 7500 employs dune entreprise, on souhaite connatre la proportion p dentre eux
qui possdent au moins un vhicule. Pour chaque individu de la base de sondage, on dispose
de la valeur de son revenu. On dcide alors de constituer trois strates dans la population :
individus de faible revenu (strate 1), individus de revenu moyen (strate 2), individus de
revenu lev (strate 3). On note ph la proportion dindividus possdant au moins un vhicule
dans lchantillon issu de la strate h. Les rsultats obtenus sont les suivants :
Nh
nh
ph
h=1
3500
500
0.13
h=2
2000
300
0.45
h=3
2000
200
0.50
Nh
xh Sh2 nh
Laurent Rouvire
AES-Sondage
37
3.5 Exercices
1. Quelle est la valeur de lestimateur stratifi de lge moyen ?
2. Calculer la variance de cet estimateur.
3. Quelles tailles dchantillons nh doit-on choisir pour chaque strate si on souhaite
raliser une allocation proportionnelle afin de constituer un chantillon de n = 100
individus ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce
plan de sondage.
4. On souhaite maintenant raliser une allocation optimale (toujours avec n = 100).
Calculer alors la valeur des nh ainsi que la variance de lestimateur stratifi que lon
obtient avec ce plan de sondage.
5. Parmi les trois plans de sondage proposs, lequel vous semble le plus appropri ?
Exercice 3.6
La variable dintrt est ici le chiffre daffaire moyen ralis par un ensemble de 1060 entreprises. Celles-ci tant de tailles trs diffrents, on a constitu cinq strates en fonction
du nombre de salaris dans chaque entreprise. De plus, grce une enqute prcdente, on
Nombre de salaris 0 9 10 19 20 29 50 499
Nombre dentreprises 500
300
150
100
500 et plus
10
dispose destimations pour les variances corriges Sh2 de chaque strate. On considre donc
que :
S11 = 1.5, S22 = 4, S32 = 8, S42 = 100, S52 = 2500.
1. A lintrieur de chaque strate, on ralise un sondage alatoire simple avec les tailles
dchantillon suivantes :
n1 = 130,
n2 = 80,
n3 = 60,
n4 = 25,
n5 = 5.
x2 = 12,
x3 = 30,
x4 = 150,
x5 = 600.
AES-Sondage
Laurent Rouvire
Annexe A
Intervalle de confiance pour une
moyenne dans un plan de sondage
alatoire simple
Thorme A.1 (Thorme central limite)
Soit
Pnx1 , . . . , xn une suite de n variables alatoires i.i.d telles que E(xi ) = . Soit x =
1
i=1 xi la moyenne empirique des xi . Alors on peut approcher la loi de x par la loi
n
normale N (, V(x)). Ou encore, on peut approcher la loi de la variable alatoire
x
Z=p
V(x)
Laurent Rouvire
40
Intervalle de confiance pour une moyenne dans un plan de sondage alatoire simple
h
1=1
2F p
V(x)
h
F p
=1 .
2
V(x)
h
Avec z1/2 le quantile dordre 1 /2 de la loi N (0, 1), on obtient p
= z1/2 et
V(x)
donc
p
h = z1/2 V(x).
Un intervalle de confiance de niveau 1 est donc donne par
p
p
x z1/2 V(x), x + z1/2 V(x)
avec
n S2
V(x) = 1
N n
pour un plan de sondage alatoire simple. LIC de niveau 1 scrit alors
r
r
n S2
n S2
x z1/2
.
, x z1/2
1
1
N n
N n
Laurent Rouvire
AES-Sondage
Annexe B
Correction des exercices
Exercice B.1
La population est compose de N = 4 individus.
1. Moyenne :
=
Variance :
N
1 X
1
Xi = (11 + 10 + 8 + 11) = 10.
N i=1
4
N
N
1 X 2
1
1 X
2
(Xi ) =
Xi 2 = (112 + 102 + 82 + 112 ) 102 = 1.5.
=
N i=1
N i=1
4
2
Variance corrige :
N
1
1 X
(Xi )2 = ((11 10)2 + (10 10)2 + (8 10)2 + (11 10)2 ) = 2.
S =
N 1 i=1
3
2
N
2.
N 1
2. (a) On effectue un sondage alatoire simple sans remise, il y a donc CNn = C42 chantillons possibles, soit :
C42 =
4!
4!
=
= 6.
2!(4 2)!
2!2!
(b)
Ech
x
s2
(1,2)
10.5
0.5
(2,4) (3,4)
10.5
9.5
0.5
4.5
3. E(
x) est la moyenne des valeurs de x sur tous les chantillons possibles :
1
E(
x) = (10.5 + 9.5 + 11 + 9 + 10.5 + 9.5) = 10,
6
AES-Sondage
Laurent Rouvire
42
1 1
3
+ = .
2 4
4
De mme,
P({2}) = P({1, 2}) + P({2, 3}) =
et
3
4
1
P({3}) = P({1, 3}) + P({2, 3}) = .
2
{1, 2}
1.5
1/2
{1, 3}
2
1/4
{2, 3}
2.5
1/4
Laurent Rouvire
AES-Sondage
43
1. On estime la moyenne inconnue (moyenne des surfaces cultives par les 2010 fermes)
par la moyenne des surfaces cultives de lchantillon :
n
100
1X
1 X
2907
=
xk =
xk =
= 29.07.
n k=1
100 k=1
100
2. Un intervalle de confiance de niveau 95% pour est donn par :
#
"
r
r
S2
S2
+ z0.975 (1 f )
z0.975 (1 f ) ;
n
n
o
z0.975 est le quantile dordre 0.975 de la loi normale N (0, 1), on lit sur la table
z0.975 = 1.96 ;
f = n/N = 100/2010 = 0.05 est le taux de sondage ;
S 2 est la variance corrige des superficies sur toute la population, elle est inconnue
ici. On lestime par la variance corrige sur lchantillon :
" n
#
n
X
X
1
1
n
100 154593
2
2
2
2
2
s =
29.07 707.94.
(xk
x) =
x x =
n 1 k=1
n 1 n k=1 k
99
100
On obtient aprs calcul lintervalle de confiance :
[23.99; 34.15].
Exercice B.4
1. Par un raisonnement analogue celui de lexercice prcdent on trouve lintervalle de
confiance :
[1.19; 1.29].
2. La demi longueur de lintervalle de confiance de niveau est (voir poly page 17-18) :
r
r
S2
S2
z1/2 (1 f )
z1/2
n
n
car on nglige ici le taux de sondage f . On cherche la taille dchantillon n de manire
ce que cette demi-longueur ne dpasse pas 2 cm, dit autrement, on cherche n tel
que :
r
S2
S2
S2
2
2
2
0.02 z1/2
0.02 z1/2
n.
z1/2
n
n
0.022
2
Ici z1/2
= 1.962 mais la variance corrige de la population S 2 est inconnue. On sait
cependant daprs lnonc que la variance de la population 2 est comprise entre
0.252 et 0.452 , comme
N
2
S2 =
N 1
AES-Sondage
Laurent Rouvire
44
S2
0.022
(B.1)
et S 2 0.20. Ce qui signifie que dans le pire des cas la variance corrige vaut 0.20. Si
on trouve une taille dchantillon qui satisfait (B.1) dans le pire des cas, alors cette
taille dchantillon vrifiera toujours (B.1). On cherche donc n qui vrifie (B.1) dans
le cas le plus dfavorable, cest--dire :
n 1920.8.
A partir de n = 1921, la demi longueur de lintervalle de confiance est au plus gale
2cm.
Exercice B.5
1. Le total de la consommation deau des 250 habitants de lchantillon est 15 125m3 .
2. Pour calculer lintervalle de confiance, on procde comme dans les exercices 3 et 4 et
on obtient :
[59.88; 61.12].
3. On note T la somme totale dpense par tous les habitants de la ville. T est inconnu,
on lestime laide dun plan de sondage alatoire simple. On note xk la somme
dpense par lhabitant numro k de lchantillon et
lestimateur de la somme
moyenne dpense par les habitants :
n
1X
15125
xk =
= 60.5.
n k=1
250
V(T) = V(N
) = N 2 V(
) = (100 000)2 V(
) = 1 000 000 000 = 109 ,
car V(
) = 0.1 a t calcul la question prcdente. On obtient donc lintervalle de
confiance :
h
i
9
6 050 000 1.96 10 ; 6 050 000 + 1.96 109 = [5 988 019; 6 111 981]
Laurent Rouvire
AES-Sondage
45
Exercice B.6
Soit p la proportion inconnue dhtels deux toiles admettant un parking et p la proportion
dhtels deux toiles de lchantillon admettant un parking. Un intervalle de confiance de
niveau 1 pour p est donn par :
r
r
h
n p(1 p)
n p(1 p) i
1
1
p z1/2
, p + z1/2
N
n1
N
n1
Si le niveau de lintervalle de confiance est 0.90, = 0.1 et z1/2 = z0.95 = 1.64, ce qui
donne :
"
#
r
r
0.68(1 0.68)
0.68(1 0.68)
0.68 1.64 (1 0.2)
; 0.68 + 1.64 (1 0.2)
49
49
= [0.582; 0.778];
Exercice B.7
Soit p la proportion (inconnue) de parisiens qui portent des lunettes et p la proportion de
parisiens de lchantillon qui portent des lunettes. En ngligeant le taux de sondage, la
demi longueur dun intervalle de confiance de niveau 1 est donne par :
r
p(1 p)
z1/2
n
(voir poly page 18). Ici z12 = z0.975 = 1.96, on cherche donc une taille dchantillon n
telle que
r
p(1 p)
p(1 p)
z1/2
0.02 n 1.962
.
n
0.022
Le problme vient bien entendu du fait que p est ici inconnue. Etudions comme lindique
lnonc la fonction f (p) = p(1 p) sur [0, 1]. f (p) = 1 2p, donc f est croissante sur
[0, 1/2] et dcroissante sur [1/2, 1], elle atteint donc son maximum en p = 1/2, ce qui
implique f (p) f (1/2) = 1/4.
Rappel : on cherche n tel que
p(1 p)
(B.2)
0.022
et p(1 p) 1/4, ce qui signifie que dans le pire des cas p(1 p) = 1/4. On se place donc
dans ce cas le plus dfavorable qui va conduire une taille dchantillon maximale (si (B.2)
est vraie dans le pire des cas, elle sera vraie dans tous les autres cas). On cherche donc n
tel que :
1
n 1.962
= 2401.
4 0.022
n 1.962
AES-Sondage
Laurent Rouvire
46
Laurent Rouvire
AES-Sondage
47
Exercice B.9
1. Pour un plan simple, la variance de
vaut :
n S2
V(
) = 1
.
N N
S2 =
1 X
2
1
(Xi )2 = ((0 0)2 + (0 0)2 + (1 0)2 + (1 0)2 ) = .
N 1 i=1
3
3
On dduit :
V(
) =
2
1
4
2
3
1
= .
4
6
(B.3)
Il faut cette fois calculer la variance corrige dans les deux strates :
N
S12
On dduit :
= 0, et
1
V(
) = 2
4
S22
2
1 X
=
(Xi 2 )2 = 2.
N2 1 i=1
21
21
1
2
0+2
2 = .
1
1
4
Exercice B.10
1. La population (ensemble des mdecins) est ici divise en trois catgories dans lesquelles
on ralise un plan simple, il sagit donc dun plan de sondage stratifi.
2. Lestimateur du nombre moyen de clients soigns par jour par mdecin pour un tel
plan est donn par
H
1
1 X
Nh xh =
(500 10 + 1 000 15 + 2 500 20) = 17.5.
=
N h=1
4 000
Laurent Rouvire
48
Exercice B.11
Nh 1 2
Sh ,
Nh
H
H
1 X
1 X
2
2
Nh h2 +
Nh (h )2 = intra
+ inter
.
N h=1
N h=1
donc
12 =
59
4 = 3.93,
60
Do
2
intra
=
et
2
inter
=
22 =
39
2.25 = 2.19.
40
1
[60 3.93 + 40 2.19] = 3.24
100
1
[60 (6 5.2)2 + 40 (4 5.2)2 ] = 0.96.
100
On dduit
N 1 2 100
=
4.2 = 4.24.
N
99
2. On ralise ici un plan simple. Soit
lestimateur de pour ce plan. Pour avoir une
estimation du total T , il suffit de multiplier le poids moyen de lchantillon par le
nombre total dlphants, ce qui donne T = N
. On a donc
10 4.24
2
2
= 3 816.
V(T ) = V(N
) = N V(
) = 100 1
100 10
2 = 4.2,
S2 =
NH
60
= 10
=6
N
100
et
NF
40
= 10
=4
N
100
On calcule la variance en utilisant la formule (B.3) et on trouve :
nF = n
V(
) = 2970.
Laurent Rouvire
AES-Sondage
49
4. Pour un plan avec allocation optimale, les tailles dchantillons sont donnes par :
nH = 10
et
Cela donne nH
la variance
60 2
= 6.66
60 2 + 40 2.25
40 2.25
= 3.33.
nF = 10
60 2 + 40 2.25
= 7 et nF = 3 aprs arrondi. On utilise toujours (B.3) pour obtenir
V(
) = 2927.
Parmi les trois plans de sondage tudis dans cet exercice, la variance de lestimateur
est la plus faible pour le plan stratifi avec allocation optimale. Ce plan est donc le
plus prcis.
Exercice B.12
On cherche estimer la proportion p (inconnue) demploys qui possdent un vhicule.
1. On interroge nh personnes dans chaque strate Eh , ph dsigne la proportion de personnes interroges (de lchantillon) dans la strate Eh qui possdent un vhicule.
On estime p par
H
1 X
p =
Nh ph ,
N h=1
la moyenne des proportions par strate pondre par le nombre dindividus dans chaque
strate Nh . Compte tenu des rsultats du sondage on a
p =
1
(3 500 0.13 + 2 000 0.45 + 2 000 0.5 = 0.314.
7 500
La variance corrige de chaque strate Sh2 est ici inconnue, on va lestimer partir des
rsultats de lenqute par la variance corrige prise sur lchantillon s2h . La difficult
consiste ici dterminer cette variance. On utilise la formule donne dans lnonc :
s2h =
N
ph (1 ph ).
N 1
On dduit
s21 =
AES-Sondage
7 500
0.13(1 0.13) = 0.114,
7 449
s22 = 0.248,
s23 = 0.251,
Laurent Rouvire
50
=
Nh xh =
(5 000 25 + 3 000 45 + 2 000 58) = 37.6.
N h=1
10 000
,2 = 30,
n3 = 20.
N h Sh
nh = n PH
.
h=1 Nh Sh
n1 = 52.04,
n2 = 24.68,
n3 = 23.27,
en arrondissant
n1 = 52,
n2 = 25,
n3 = 23.
Laurent Rouvire
AES-Sondage
51
Exercice B.14
1. Un intervalle de confiance de niveau 0.90 est donn par
h
i
p
p
IC0.90 =
z0.95 V(
),
+ z0.95 V(
) ,
avec z0.95 1.64. On calcule V(
) grce (B.3) et on obtient
V(
) = 0.055.
On calcule
= 29.81 et on dduit
IC0.90 = [29.43; 30.19].
2. (a) Pour une allocation proportionnelle nh = n NNh , donc
n1 = 141.51,
n2 = 84.91,
n3 = 42.45,
n4 = 28.30,
n5 = 2.83,
en arrondissant
n1 = 142,
n2 = 85,
n3 = 42,
n4 = 28,
n5 = 3.
ce qui donne
n1 = 58.57,
n2 = 57.39,
n3 = 40.58,
n4 = 95.64,
n5 = 47.82,
en arrondissant
n1 = 59,
n2 = 57,
n3 = 40,
n4 = 96,
n5 = 48.
On doit interroger 48 personnes dans la strate 5 alors quelle nen contient que
10 ! ! ! Cest bien entendu impossible, on choisit donc dinterroger les 10 personnes
de la strate 5 (n5 = 10) et on recalcule les tailles dchantillons pour les quatre
autres strates avec n = 300 10 = 290. On a par exemple pour n1
500 1.5
= 67.35,
n1 = 290
500 1.5 + 300 4 + 150 8 + 100 100
de mme
n2 = 65.99,
n3 = 46.66,
n4 = 109.98.
Encore une fois, on doit interroger n4 = 110 individus dans la strate 4 qui en
contient 100. On les interroge donc toutes (n4 = 100) et on recalcule n1 , n2 et n3
avec n = 290 100 = 190. On obtient aprs arrondi
n1 = 71,
n2 = 70,
n3 = 49.
n2 = 70,
n3 = 49,
n4 = 100,
Pour rsumer
n1 = 71,
AES-Sondage
n5 = 10.
Laurent Rouvire
52
Laurent Rouvire
AES-Sondage
Annexe C
Sujet Licence AES 3 : juin 2006
(assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice C.1
Expliquer en quoi consiste un plan de sondage alatoire simple ainsi quun plan stratifi.
Dans le cas de la stratification, quel est le principe de lallocation proportionnelle ? Et de
lallocation optimale ? Quel est lintrt de la stratification ?
Exercice C.2
On souhaite estimer la quantit deau moyenne (exprime en m3 ) consomme annuellement
par les habitants dune ville donne de 100 000 habitants. On slectionne par un plan simple
un chantillon de 250 habitants. Les rsultats obtenus sont les suivants :
n
X
i=1
xi = 15 125
n
X
i=1
n
X
xi = 15 125.
i=1
Laurent Rouvire
54
Sh2
4
2.25
Effectif N
100
S2
4.24
Exercice C.3
Un directeur de cirque possde un troupeau de 100 lphants et souhaite estimer le poids
moyen de ses lphants. Cependant, lanne prcdente, le directeur de cirque les avait
classs en deux catgories, les mles et les femelles, puis avait fait peser tous les lphants
de son troupeau. Il avait obtenu les rsultats suivants (les moyennes sont exprimes en
tonnes) :
1. Le directeur suppose dsormais que les dispersions de poids nvoluent pas sensiblement dune anne sur lautre, cest--dire que les valeurs des Sh2 restent inchanges (ce
type dhypothse reste ici trs raisonnable et se rencontre couramment en pratique
quand on rpte des enqutes dans le temps). Si le directeur procde un tirage alatoire simple de 10 lphants, quelle est la variance de lestimateur du poids moyen du
troupeau ?
2. Le directeur procde un tirage stratifi et slectionne cinq femelles et cinq mles.
Il obtient pour lchantillon des mles une moyenne de x1 = 6.5 et de x2 = 3.9 pour
celui des femelles. Donner une estimation du poids moyen du troupeau. Calculer la
variance de lestimateur de ce poids moyen.
3. Si le directeur procde un tirage stratifi avec allocation proportionnelle de 10
lphants, quelles tailles dchantillon doit-on retenir dans chaque strate ? Quelle est
alors la variance de lestimateur du poids moyen du troupeau ?
4. Si le directeur procde un tirage stratifi optimal de 10 lphants, quelles tailles
dchantillon doit-on retenir dans chaque strate ? Quelle est alors la variance de lestimateur du poids moyen du troupeau ?
5. Parmi les quatre plans de sondage proposs, lequel vous semble le plus appropri ?
Exercice C.4
Une quipe est charge de raliser une enqute dans le but destimer la proportion de
restaurants disposant dune salle entirement non fumeur en France. On slectionne par
plan simple un chantillon de 120 restaurants. Parmi ces 120 restaurants slectionns, 51
disposent dune salle entirement non fumeur.
Dans cet exercice on ngligera le taux de sondage f .
Laurent Rouvire
AES-Sondage
55
1. On souhaite donner un intervalle de confiance 90% puis 95% pour la proportion
p de restaurants disposant dune salle entirement non-fumeur.
(a) Avant deffectuer les calculs, pouvez-vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance.
2. Quelle taille dchantillon doit-on retenir pour que lon puisse donner un intervalle de
confiance 95% pour p ayant une demi-longueur dau plus 3%, en utilisant "lintervalle
de prcaution" ?
Indications :
(a) Montrer que la fonction f (p) = p(1 p) = p p2 dfinie pour 0 p 1 atteint
1
1
son maximum en p = et que ce maximum est gal .
2
4
(b) En dduire que le "pire des cas", cest--dire le cas o la demi-longueur de
1
lintervalle de confiance est la plus grande, correspond au cas o p = .
2
(c) Trouver la taille dchantillon n recherche.
AES-Sondage
Laurent Rouvire
Annexe D
Sujet Licence AES 3 : septembre 2006
(assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice D.1
Quest-ce quun plan de sondage alatoire ? Donner un exemple de plan non alatoire.
Expliquer en quoi consiste un plan de sondage alatoire simple ainsi quun plan stratifi.
Dans le cas de la stratification avec allocation optimale, de quelle(s) information(s)
supplmentaire(s) par rapport lallocation proportionnelle a-t-on besoin pour calculer
les tailles des chantillons issus des diffrentes strates ? Comment obtient-on en pratique
ces informations ?
Exercice D.2
On souhaite estimer la quantit moyenne de fruits (exprime en kg) consomme annuellement par les habitants dune ville de 100 000 habitants. On slectionne par un plan simple
un chantillon de 200 habitants. Les rsultats obtenus sont les suivants :
n
X
i=1
xi = 18 700
n
X
i=1
1. Donner un intervalle de confiance 95% pour la quantit de fruits moyenne consomme annuellement par les habitants de cette ville.
AES-Sondage
Laurent Rouvire
58
Effectif Nh
2000
3000
5000
10000
Sh2
324
144
100
256
des employs not partir dun chantillon de 100 personnes. Il suppose dsormais que
les dispersions des ges nont pas volu sensiblement au cours des 5 dernires annes (ce
type dhypothse reste ici trs raisonnable et se rencontre couramment en pratique quand
on rpte des enqutes dans le temps).
1. Si le directeur procde un tirage alatoire simple de 100 employs, quelle est la
variance de lestimateur de lge moyen des employs ?
2. Le directeur procde un tirage stratifi avec allocation proportionnelle de 100 employs.
(a) Quelles tailles dchantillon doit-on retenir dans chaque strate ? Quelle est alors
la variance de lestimateur du lge moyen des employs ?
Laurent Rouvire
AES-Sondage
59
(b) Il obtient pour lchantillon de la catgorie 1, une moyenne de x1 = 34, pour
lchantillon de la catgorie 2, une moyenne de x2 = 38 et pour lchantillon de
la catgorie 3, une moyenne de x3 = 50. Donner un intervalle de confiance de
90% pour lge moyen des employs.
3. Dans cette question, nous ngligerons le taux de sondage f . Nous sommes toujours
dans le cas dun tirage stratifi avec allocation proportionnelle. Le directeur souhaite
connatre la taille dchantillon n quil doit retenir pour quun intervalle de confiance
de niveau 90% pour ait une demi-longueur dau plus 1 an.
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, si cette
taille dchantillon sera suprieure ou infrieure 100 ?
(b) Calculer cette taille dchantillon.
AES-Sondage
Laurent Rouvire
Annexe E
Sujet Licence AES 3 : mai 2007 (non
assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice E.1 (Vrai ou Faux : +0.5 bonne rponse, -0.5 mauvaise rponse.)
On souhaite estimer lge moyen dans une population de taille N . La population est
dcoupe suivant trois strates. On estime laide des trois plans de sondage suivant :
P1 : un plan de sondage alatoire simple. On note
1 lestimateur de pour un tel plan.
P2 : un plan stratifi avec allocation proportionnelle. On note
2 lestimateur de pour
un tel plan.
P3 : un plan stratifi avec allocation optimale. On note
3 lestimateur de pour un
tel plan.
Pour les trois plans de sondage ci-dessus, les chantillons sont de mme tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. est une variable alatoire (il peut prendre plusieurs valeurs suivant lchantillon
choisi).
2.
1 ,
2 et
3 sont des variables alatoires (ils peuvent prendre plusieurs valeurs suivant
lchantillon choisi).
3. Les estimateurs
1 ,
2 et
3 sont tous sans biais.
AES-Sondage
Laurent Rouvire
62
i=1
P
1. Traduire en quelques mots linformation contenue dans la formule 250
i=1 xi = 15 150.
2
2. Avec les notations du cours, on rappelle que la variance corrige s de lchantillon
peut se calculer de la manire suivante :
!
n
X
n
1
s2 =
x2 x2 .
n 1 n i=1 i
AES-Sondage
63
le salaire net partage en 3 catgories :
infrieur 1 400 euros ;
entre 1 400 et 2 500 euros ;
suprieur 2 500 euros ;
lanciennet (mesure en nombre dannes dans lentreprise) :
moins de 8 ans ;
entre 8 et 18 ans ;
plus de 18 ans.
Les rpartitions des individus suivant ces deux variables sont donnes dans les tableaux
suivants :
Salaires
[0; 1 400[
[1 400; 2 500[
plus de 2 500
Effectifs Nh
2 000
6 500
1 500
Sh2
100
64
81
Anciennet
moins de 8 ans
entre 8 et 18 ans
plus de 18 ans
Effectifs Nh
1 500
4 500
4 000
Sh2
16
25
9
La colonne Sh2 dsigne la variance corrige de la variable ge mesure sur la population qui
compose la strate h.
Le patron de lentreprise dcide de faire raliser ltude par deux instituts de sondage. Le
premier institut I1 dcide de raliser un plan stratifi en dcoupant la population suivant
les classes de salaires proposes dans le tableau E.1. Le second institut propose de stratifier
la population suivant les classes danciennet du tableau E.2.
1. Avant deffectuer les calculs, pouvez vous dire quel est le plan qui vous semble le plus
pertinent parmi les deux plans proposs par I1 et I2 ? Justifier votre rponse.
2. Les deux instituts de sondage dcide de constituer un chantillon de taille n = 100.
(a) Quelles tailles dchantillon doit retenir linstitut I1 dans chaque strate sil ralise
un plan avec allocation proportionnelle ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce plan de sondage.
(b) Quelles tailles dchantillon doit retenir linstitut I2 dans chaque strate sil ralise un plan avec allocation optimale ? Calculer alors la variance de lestimateur
stratifi que lon obtient avec ce plan de sondage.
3. Pour le plan ralis par linstitut I2 dans la question 2-b), on a les rsultats suivants :
x1 = 28,
x2 = 40,
x3 = 52,
AES-Sondage
Laurent Rouvire
Annexe F
Sujet Licence AES 3 : mai 2008 (non
assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice F.1 (Vrai ou Faux : +0.5 bonne rponse, -0.5 mauvaise rponse.)
On souhaite estimer lge moyen dans une population de taille N . La population est
dcoupe suivant trois strates. On estime laide des trois plans de sondage suivant :
P1 : un plan de sondage alatoire simple. On note
1 lestimateur de pour un tel plan.
P2 : un plan stratifi avec allocation proportionnelle. On note
2 lestimateur de pour
un tel plan.
P3 : un plan stratifi avec allocation optimale. On note
3 lestimateur de pour un
tel plan.
Pour les trois plans de sondage ci-dessus, les chantillons sont de mme tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. est une variable alatoire (il peut prendre plusieurs valeurs suivant lchantillon
choisi).
2. Plus la taille n de lchantillon est grande, plus la variance de
1 est petite.
3.
1 ,
2 et
3 sont des variables alatoires (ils peuvent prendre plusieurs valeurs suivant
lchantillon choisi).
4. Les estimateurs
1 ,
2 et
3 sont tous sans biais.
5. Si n = N alors la variance de
2 est nulle.
AES-Sondage
Laurent Rouvire
66
xi = 40 200,
i=1
500
X
i=1
P500
i=1
xi = 40 200.
2. Donner une estimation ponctuelle du poids moyen ainsi que du poids total des habitants de la ville.
3. Avec les notations du cours, on rappelle que la variance corrige s2 de lchantillon
peut se calculer de la manire suivante :
!
n
X
n
1
s2 =
x2 x2 .
n 1 n i=1 i
Calculer cette variance corrige s2 .
4. On souhaite donner un intervalle de confiance de niveau 90%, puis 95% pour .
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance (pour la loi normale centre rduite, on rappelle que le quantile dordre 0.95 vaut 1.64, celui dordre 0.975 vaut 1.96).
5. On souhaite dans cette question donner un intervalle de confiance de niveau 95% pour
ayant une demi-longueur dau plus 1 kilogramme. On considre que la variance
corrige S 2 calcule sur lensemble de la population est la mme que la variance
corrige s2 calcule sur lchantillon (elle a t calcule la question 2).
(a) Avant deffectuer les calculs, pouvez-vous dire, en justifiant votre rponse, si la
taille dchantillon cherche sera suprieure ou infrieure 500.
(b) Calculer cette taille dchantillon (on ngligera le taux de sondage f = n/N pour
simplifier les calculs).
AES-Sondage
67
personne charge de ltude connat la rpartition des entreprises du dpartement suivant
deux variables :
le nombre demploys :
infrieur 15 employs ;
entre 15 et 50 employs ;
suprieur 50 employ ;
Les rpartitions des individus suivant ces deux variables est donne dans les tableaux suivants :
Nb employ
Age moyen
[0; 35[
[35; 48[
plus de 48
Total
[0; 15[
1 500
2 000
500
4 000
500
1 000
1 000
2 500
Total
2 500
4 500
3 000
10 000
Tab. F.1 Rpartition des entreprises selon lge moyen et le nombre demploys.
Lcart type corrig de la variable chiffre daffaire suivant les variables nombre demploys
et age moyen des employs est connu. Il est donn dans les tableaux suivants :
Nombre demploys
[0; 15[
[15; 50[
plus de 50
Sh
10
6
12
Age moyen
[0; 35[
[35; 48[
plus de 48
Sh
17
14
28
La personne charge de ltude dcide de faire appel deux instituts de sondage. Le premier
institut I1 dcide de raliser un plan stratifi en dcoupant la population suivant lge moyen
des salaris de lentreprise. Le second institut I2 propose de stratifier la population suivant
le nombre demploys des entreprises.
1. Avant deffectuer les calculs, pouvez vous dire quel est le plan qui vous semble le plus
pertinent parmi les deux plans proposs par I1 et I2 ? Justifier votre rponse.
2. Les deux instituts de sondage dcide de constituer un chantillon de taille n = 100.
(a) Quelles tailles dchantillon doit retenir linstitut I1 dans chaque strate sil ralise
un plan avec allocation proportionnelle ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce plan de sondage.
(b) Quelles tailles dchantillon doit retenir linstitut I2 dans chaque strate sil ralise un plan avec allocation optimale ? Calculer alors la variance de lestimateur
stratifi que lon obtient avec ce plan de sondage.
AES-Sondage
Laurent Rouvire
68
x2 = 31.8,
x3 = 90.2,
Laurent Rouvire
AES-Sondage
Annexe G
Sujet Licence AES 3 : juin 2008 (non
assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice G.1 (Vrai ou Faux : +0.5 bonne rponse, -0.5 mauvaise rponse.)
On souhaite estimer lge moyen dans une population de taille N . La population est
dcoupe suivant trois strates. On estime laide des trois plans de sondage suivant :
P1 : un plan de sondage alatoire simple. On note
1 lestimateur de pour un tel plan.
P2 : un plan stratifi avec allocation proportionnelle. On note
2 lestimateur de pour
un tel plan.
P3 : un plan stratifi avec allocation optimale. On note
3 lestimateur de pour un
tel plan.
Pour les trois plans de sondage ci-dessus, les chantillons sont de mme tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. est une variable alatoire (il peut prendre plusieurs valeurs suivant lchantillon
choisi).
2. Plus la taille n de lchantillon est grande, plus la variance de
1 est petite.
3.
1 ,
2 et
3 sont des variables alatoires (ils peuvent prendre plusieurs valeurs suivant
lchantillon choisi).
4. Les estimateurs
1 ,
2 et
3 sont tous sans biais.
5. Si n = N alors la variance de
2 est nulle.
AES-Sondage
Laurent Rouvire
70
xi = 40 200,
i=1
500
X
i=1
P500
i=1
xi = 40 200.
2. Donner une estimation ponctuelle du poids moyen ainsi que du poids total des habitants de la ville.
3. Avec les notations du cours, on rappelle que la variance corrige s2 de lchantillon
peut se calculer de la manire suivante :
!
n
X
n
1
s2 =
x2 x2 .
n 1 n i=1 i
Calculer cette variance corrige s2 .
4. On souhaite donner un intervalle de confiance de niveau 90%, puis 95% pour .
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance (pour la loi normale centre rduite, on rappelle que le quantile dordre 0.95 vaut 1.64, celui dordre 0.975 vaut 1.96).
5. On souhaite dans cette question donner un intervalle de confiance de niveau 95% pour
ayant une demi-longueur dau plus 1 kilogramme. On considre que la variance
corrige S 2 calcule sur lensemble de la population est la mme que la variance
corrige s2 calcule sur lchantillon (elle a t calcule la question 2).
(a) Avant deffectuer les calculs, pouvez-vous dire, en justifiant votre rponse, si la
taille dchantillon cherche sera suprieure ou infrieure 500.
(b) Calculer cette taille dchantillon (on ngligera le taux de sondage f = n/N pour
simplifier les calculs).
AES-Sondage
71
personne charge de ltude connat la rpartition des entreprises du dpartement suivant
deux variables :
le nombre demploys :
infrieur 15 employs ;
entre 15 et 50 employs ;
suprieur 50 employ ;
Les rpartitions des individus suivant ces deux variables est donne dans les tableaux suivants :
Nb employ
Age moyen
[0; 35[
[35; 48[
plus de 48
Total
[0; 15[
1 500
2 000
500
4 000
500
1 000
1 000
2 500
Total
2 500
4 500
3 000
10 000
Tab. G.1 Rpartition des entreprises selon lge moyen et le nombre demploys.
Lcart type corrig de la variable chiffre daffaire suivant les variables nombre demploys
et age moyen des employs est connu. Il est donn dans les tableaux suivants :
Nombre demploys
[0; 15[
[15; 50[
plus de 50
Sh
10
6
12
Age moyen
[0; 35[
[35; 48[
plus de 48
Sh
17
14
28
La personne charge de ltude dcide de faire appel deux instituts de sondage. Le premier
institut I1 dcide de raliser un plan stratifi en dcoupant la population suivant lge moyen
des salaris de lentreprise. Le second institut I2 propose de stratifier la population suivant
le nombre demploys des entreprises.
1. Avant deffectuer les calculs, pouvez vous dire quel est le plan qui vous semble le plus
pertinent parmi les deux plans proposs par I1 et I2 ? Justifier votre rponse.
2. Les deux instituts de sondage dcide de constituer un chantillon de taille n = 100.
(a) Quelles tailles dchantillon doit retenir linstitut I1 dans chaque strate sil ralise
un plan avec allocation proportionnelle ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce plan de sondage.
(b) Quelles tailles dchantillon doit retenir linstitut I2 dans chaque strate sil ralise un plan avec allocation optimale ? Calculer alors la variance de lestimateur
stratifi que lon obtient avec ce plan de sondage.
AES-Sondage
Laurent Rouvire
72
x2 = 31.8,
x3 = 90.2,
Laurent Rouvire
AES-Sondage
Annexe H
Un dernier problme...
On ralise une enqute pour valuer le salaire moyen des employs dune entreprise. Lentreprise est compose de 20 salaris, on connat la rpartition des salaris suivant deux
catgories : ouvrier (O) ou cadre (C). Les salaires ainsi que les catgories se trouvent dans
le tableau H.1.
Employs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Catgories
C
C
C
C
C
C
C
C
C
C
O
O
O
O
O
O
O
O
O
O
salaire mensuel
2225
1616
2456
3350
2600
2028
3025
2756
1965
2618
1415
1415
1469
1335
1554
1465
1498
1325
1598
1484
Laurent Rouvire
74
Un dernier problme...
(a) Rappeler la formule qui permet de calculer lestimateur de pour ce plan de
sondage.
(b) Quelle est la variance de cet estimateur ?
3. Les cadres se trouvant dans des locaux loigns du sien, il dcide dinterroger uniquement des ouvriers de lentreprise. Dans le cas o il interroge les 8 premiers ouvriers
du tableau H.1, donner la valeur de lestimateur de la moyenne
.
Un ouvrier (un peu plus malin) se dit que lestimation du salaire moyen serait meilleure
en interrogeant des ouvriers et des cadres. Il dcide de raliser un plan de sondage stratifi
(la taille de lchantillon est toujours gale 8).
4. Dcrire lenqute permettant de raliser un tel plan de sondage ainsi que la manire
de calculer lestimateur
du salaire moyen. Quel est lintrt dune telle procdure
en comparaison avec les plans simples ?
5. On note nC le nombre de personnes interroges parmi les cadres et nO parmi les
ouvriers. Dans le cas dun plan stratifi avec allocation proportionnelle :
(a) Calculer nC et nO .
(b) Calculer la variance de
.
(c) On a interrog les nC premiers cadres et les nO premiers ouvriers du tableau H.1,
quelle est la valeur de
?
(d) En dduire un intervalle de confiance de niveau 0.95 pour .
6. Reprendre la question 6 dans le cas dun plan avec allocation optimale.
7. Comparer et commenter les diffrences entre les variances des estimateurs pour les
trois plans de sondage proposs dans cet exercice.
Laurent Rouvire
AES-Sondage
CORRECTION
1. Moyenne :
N
1 X
Xi = 1959.4.
=
N i=1
Variance corrige :
1 X
S =
(Xi )2 = 399 906.7.
N 1 i=1
2
=
xi .
n i=1
(b) La variance de cet estimateur est donne par :
8 399 906.7
n S2
= 1
= 11 997.2
V(
) = 1
N N
20
20
3. Valeur de
sur lchantillon :
4. Un plan de sondage stratifi consiste dcouper la population suivant les deux catgories (ouvriers et cadres) et raliser un plan de sondage alatoire simple dans
chacune de ces deux populations (strates). Plus prcisment, on interroge nC salaris
parmi les cadres et nO parmi les ouvriers. On note xC (resp xO ) le salaire moyen des
cadres (resp ouvriers) interrogs. Lestimateur du salaire moyen de tous les salaris
est obtenu grce la formule :
10
xO + 10
xC
NO xO + NC xC
=
.
N
20
(H.1)
Lintrt dune telle procdure est de fournir des estimateurs plus prcis (ayant une
variance plus faible). Pour augmenter la prcision, il est ncessaire dutiliser une variable de stratification fortement lie la variable dintrt. Cest le cas ici puisque
intuitivement, on sent bien que les salaires des cadres sont plus levs que ceux des
ouvriers.
5. Pour raliser le plan stratifi, il reste maintenant choisir les tailles dchantillon nC
et nO , cest dire le nombre de cadres et douvriers que lon va interroger.
76
Un dernier problme...
(a) Lallocation proportionnelle propose de choisir les tailles dchantillon dans les
strates de manire ce que la proportion dindividus dans les strates de lchantillon soit la mme que dans les strates de la population. On choisit donc nC tel
que
nC
NC
NC
10
=
nC = n
=8
= 4.
n
N
N
20
De mme
10
NO
=8
= 4.
nO = n
N
20
(b) Calculons dabord la variance corrige pour les deux strates :
N
SC2
C
X
1
(Xi C )2
=
NC 1 i=1
=
et
SO2
O
X
1
(Xi O )2
=
NO 1 i=1
La variance de
pour un plan stratifi avec allocation proportionnelle est donne
par :
H
1
n 1 X
V(
) =
1
Nh Sh2
n
N N h=1
8
1
1
1
(10 271 397.7 + 10 7 249.211) = 10 449.26.
=
8
20 20
On dduit de (H.1)
10 1408.5 + 10 2411.75
= 1 910.125.
20
z0.975 V(
);
+ z0.975 V(
) = [1 709.771; 2 110.479].
Laurent Rouvire
AES-Sondage
77
6. Pour un sondage avec allocation optimale, on choisit les tailles dchantillon de manire minimiser la variance de lestimateur
.
(a) Les tailles dchantillon sont donnes par :
N h Sh
.
nh = n PH
h=1 Nh Sh
Par consquent
nC = 8
10 520.9584
= 6.87,
10 520.9584 + 10 85.1423
10 85.1423
= 1.13.
10 520.9584 + 10 85.1423
Il faut arrondir nC = 7 et nO = 1.
nO = 8
(b) La variance de
se calcule partir de
H
1 X
N h nh 2
V(
) = 2
Sh
Nh
N h=1
nh
10 7
10 1
1
271 397.7 + 10
7 249.211 = 4 538.905.
= 2 10
20
7
1
1415
= 1415
1
et
xC =
On dduit de (H.1)
10 1415 + 10 2471.429
= 1 943.215
20
z0.975 V(
);
+ z0.975 V(
) = [1 811.167; 2 075.263].
V(
)
11 997.2
10 449.26
4 538.9
AES-Sondage
Laurent Rouvire
78
Un dernier problme...
Les plans simple et stratifi avec allocation proportionnelle conduisent des estimateurs possdant des variances similaires. Le plan stratifi avec allocation optimale
permet de rduire la variance de manire significative. En regardant les donnes, on
saperoit que ceci vient du fait que les disparits sont beaucoup plus importantes
chez les cadres que chez les ouvriers (SC2 = 271 397.7 et SO2 = 7 249.211), il est donc
ncessaire dinterroger plus de cadres que douvriers pour estimer au mieux le salaire
moyen dans chacune des catgories. Cest ce que propose lallocation optimale puisque
quon interroge 7 cadres et un seul ouvrier.
Laurent Rouvire
AES-Sondage