Chap1a5 Camelia

M2 Statistique & conomtrie
Cours de sondage
Chapitres 1 5
1
Yves Aragon, Camelia Goga et Anne Ruiz-Gazen
14 octobre 2009
1. Il est possible que ce support de cours de niveau Master contienne un certain nombre de coquilles. Merci de
nous les signaler en envoyant un email ruiz@cict.fr
2
Chapitre 1
Introduction aux sondages
Cette introduction pose les problmes de base auxquels rpondent les techniques de sondage. Nous
introduisons la notion dalatoire propre aux sondages et un certain nombre de dnitions utiles pour
clarier bon nombre de situations concrtes. Nous prsentons aussi la bibliographie et quelques sites
internet utiles.
1.1 But dun sondage
Ramen sa dimension la plus lmentaire, le but dun sondage est destimer le total ou la moyenne
dune variable dtude y sur une population U nie de taille N. Par exemple, le nombre de chmeurs
dans une rgion, le montant moyen des dpenses en matriel informatique des mnages dune ville.
Notons y
k
la valeur de la variable dtude y pour lindividu ou unit k de cette population. On note
respectivement t
yU
et y
U
= 1/Nt
yU
le total et la moyenne de y :
t
yU
=
N
k=1
y
k
abrg conventionnellement en
U
y
k
et y
U
=
1
N
U
y
k
.
On appelle paramtre dintrt, la fonction des y
k
, k U quon veut estimer, par exemple t
yU
ou y
U
.
On est souvent amen estimer dautres paramtres que le total dune variable. Par exemple un
revenu par tte R dans une rgion est un rapport de totaux ou ratio :
R =
U
y
k
U
z
k
o y
k
et z
k
dsignent respectivement le revenu et la taille du mnage k de la population U des mnages
de la rgion. Si la taille
U
z
k
, de la population nest pas connue, lestimation de y
U
revient lesti-
mation dun ratio.
Plan de sondage. Un plan de sondage est un mcanisme alatoire de tirage des individus ou units
de U qui formeront lchantillon. Ce cours sintresse notamment au choix du plan de sondage.
A chaque application dun plan de sondage sur une population on doit obtenir un chantillon diff-
rent.
Si la collecte de lchantillon est faite suivant un plan de sondage
1
on obtient partir de lchantillon :
(1) une estimation du paramtre dintrt, (2) une estimation de la variance de lestimateur du paramtre
dintrt.
1. Il y a dautres faons de collecter de linformation, nous en dirons quelques mots la n du chapitre.
3
4 CHAPITRE 1. INTRODUCTION AUX SONDAGES
Cest la dmarche probabiliste qui permet dobtenir une mesure de prcision de lestimation. Laspect
alatoire est donc crucial. Un sondage qui se limite fournir une estimation de total ou de moyenne, sans
donner une estimation de lcart-type de cette estimation nest pas scientiquement acceptable. Cest
malheureusement le cas de la plupart des sondages publis dans la presse.
Si lon pouvait mesurer y sur chaque individu de la population on ne ferait pas un sondage mais un recen-
sement et il ny aurait plus de problme destimation. Seulement il est souvent trs coteux, peu raliste,
voire impossible de mesurer la variable dtude sur toute la population et on doit donc se contenter de
lobservation de y sur un chantillon alatoire.
Si dans une situation particulire, recensement et sondage sont tous deux possibles, on choisit lun plu-
tt que lautre suivant : la prcision exige dans la connaissance du paramtre dintrt, la nature de la
dcision qui sera prise daprs cette connaissance, le partage cot/imprcision permis par le problme, le
temps dont on dispose pour fournir le rsultat. Ainsi, beaucoup de rsultats statistiques relatifs aux entre-
prises (chiffre daffaire, niveau des commandes...) ne sont connus exhaustivement que longtemps aprs
la priode de temps concerne. Des rsultats bass sur un sondage et des prvisions sont donc souvent
publis avant que les donnes exhaustives ne soient disponibles.
Rsum. Un plan de sondage est un mcanisme probabiliste qui permet dobserver une variable y sur un
chantillon s de la population U dont on veut estimer une caractristique (par exemple la moyenne de y
sur U). La mthode destimation de la caractristique doit fournir :
un estimateur de la caractristique,
la variance de cet estimateur,
des estimations bases sur s de ces deux quantits.
En pratique, les dnitions de population, units ... ne sont pas toujours limpides ou allant de soi. De
plus le mcanisme qui permet daccder aux individus est souvent complexe.
La fabrication de plans de sondage adapts lorganisation et laccessibilit de la population par len-
qute est une tche importante et dlicate. Un certain nombre de dnitions permettent didentier les
situations quon rencontre.
1.2 Vocabulaire des sondages
1.2.1 Vocabulaire
Unit dobservation (observation unit, unit of interest). Objet sur lequel on fait une mesure. Cest
lunit de base observe. Pour des populations humaines cest un individu.
Population cible ou champ dune enqute (target population). Collection complte des units dobser-
vations quon veut tudier. Il faut la dnir soigneusement pour chaque tude. Ce nest pas toujours
vident.
Population chantillonne (sampled population). La liste de toutes les units dobservation qui pour-
raient tre choisies pour former un chantillon. Elle ne concide pas toujours avec la population
cible.
chantillon (sample) Un sous-ensemble de la population chantillonne.
Unit dchantillonnage (sampling unit). Les units susceptibles dtre tires.
Base de sondage (sampling frame). Une liste des units dchantillonnage. Par exemple, un annuaire
par nom, une carte o sont situes des exploitations agricoles, peuvent tre des bases de sondage.
La liste des units dchantillonnage a ncessairement une organisation : par nom, par anciennet
1.2. VOCABULAIRE DES SONDAGES 5
par taille... et il est utile de noter quune base de sondage est une organisation de la population
chantillonne. Il arrive quon ait plusieurs bases de sondage pour un mme problme. Il arrive
aussi quon nait pas de base de sondage pour une population, cas par exemple dune population
danimaux sauvages.
Dfaut de couverture (noncoverage). Le fait quil existe des individus de la population cible qui ne
sont pas dans la base de sondage.
Biais de slection (selection bias). Le biais qui survient quand une partie de la population cible nest pas
dans la population chantillonne. Par exemple, si on veut tudier les revenus des mnages dune
commune et quon oublie les travailleurs migrants, on va trouver des revenus plus levs quils ne
le sont en vrit. Causes classiques de ce biais : Nonrponse, recours au volontariat pour obtenir
des rponses ...
Biais de mesure Il survient quand linstrument de mesure tendance donner une valeur qui scarte
de la vraie mesure dans une direction particulire. Par exemple, dans des sondages sur la vg-
tation, on dcoupe la surface en parcelles et on choisit un chantillon de parcelles. On compte
le nombre de plantes dans chaque parcelle. Que faire des plantes en bordure de parcelle ? Si un
observateur a tendance les compter toutes, il fournira une estimation du nombre total de plantes
suprieur la ralit. Autre exemple : les gens peuvent ne pas dire la ralit (sous dclaration de
revenus, d ge), une question peut tre mal comprise.
1.2.2 Exercice
Un certain nombre de situations sont dcrites dans les exemples ci-dessous. Dans chaque cas dcrire
la population cible, la base de sondage, la population chantillonne, les units dchantillonnage, et les
units dobservation.
Architectes Un chantillon de 8 architectes ou cabinets darchitectes doit tre choisi dans une ville
parmi les 14 qui y exercent. Pour choisir cet chantillon, chaque architecte est contact par tl-
phone dans lordre dapparition dans lannuaire des Pages jaunes. Les 8 premiers qui ont accept
de rpondre constituent lchantillon.
Livres Pour estimer le nombre de livres qui ont besoin dtre relis, un bibliothcaire tire, dans une table
de nombres au hasard, 100 emplacements de livres sur les rayonnages. Il va ensuite en chacun de
ces emplacements et note si le livre qui sy trouve a besoin dtre reli ou non.
Presse Environ 16 500 femmes ont retourn le questionnaire "Healthy Women Survey" insr dans le
numro de sept. 1992 de la revue "Prevention". Le numro de mai 93 de cette revue rendait compte
du sondage en crivant : "92% de nos lectrices valuent leur sant comme excellente, trs bonne
ou bonne."
Parfois on choisit les individus interrogs sans recourir un mcanisme probabiliste. Il est clair que,
dans ce cas, on ne peut rien dire de la prcision des estimations fabriques aprs une telle collecte.
Exemples de mthodes non probabilistes A loppos du sondage alatoire qui donne un chantillon
probabiliste il existe des mthodes non probabilistes.
Mthode des units type. On a observ par exemple que telle commune vote comme la France et
donc on va interroger les habitants de la commune sur leurs choix pour la prochaine lection. On
attribue la France en gnral les choix de cette commune. Ceci na videmment aucune valeur
scientique et dailleurs on ne sait pas mesurer la prcision dune telle extrapolation.
chantillonnage au jug. On prlve un chantillon en se fondant sur certains jugements au sujet de
lensemble de la population. Cette mthode peut-tre utile pour prparer un questionnaire pour une
enqute. Elle permet de lister les sujets quil faudra poser. La prparation dune enqute recourt
souvent la technique des groupes de discussion, en Marketing notamment.
chantillonnage par quotas. Cest lune des formes les plus courantes dchantillonnage non pro-
babiliste. Il seffectue jusqu ce quun nombre prcis dunits (de quotas) pour diverses sous-
populations ait t slectionn. Si cette slection est effectue dans la rue, comme cest souvent
le cas pour des enqutes sociologiques ou grand public, le risque est que lenquteur slectionne
certaines personnes plutt que dautres sur leur aspect notamment. Ceci peut entraner un biais.
Mais si un sondage par quotas est effectu dans une base informatise, laspect potentiellement
subjectif de la slection disparat.
1.3 Information auxiliaire
Pour linstant on a voqu une population U pour laquelle on veut estimer le total t
y
=
U
y
k
.
Or, souvent on dispose dune information auxiliaire sur U. Cette information se ramne le plus souvent
la connaissance dune variable x pour chaque individu de U, lie y. Laspect important est que x
est connue sans cot pour chaque individu ou du moins, un moindre cot que y. On comprend quil est
trs important davoir des mthodes de sondage qui exploitent une telle information.
Exemples.
Certains oiseaux font leurs nids dans des vieux arbres. Dans une zone donne, il est assez facile
de compter les vieux arbres dune certaine espce. Pour compter le nombre de nids doiseaux
dans la zone divise en parcelles, on peut saider du nombre de vieux arbres mesur par exemple
daprs des photos, puis compter le nombre de nids dans un chantillon de parcelles. Linformation
auxiliaire est x
k
, le nombre de vieux arbres de la parcelle k, connu pour toutes les parcelles de la
zone.
La rcolte de bl dune rgion doit tre estime. On peut prlever un chantillon de parcelles
dont on mesure la rcolte et saider de lestimation vue dun expert pour toutes les parcelles.
Linformation auxiliaire est lestimation x
k
, faite par lexpert, de la rcolte de la parcelle k, ceci
pour toutes les parcelles de la zone.
On doit estimer le nombre moyen de fois quune personne dge compris entre 15 ans et 30 ans,
habitant dans une certaine rgion, va au cinma chaque mois. Or on sait que les habitants de zones
urbaines vont plus souvent au cinma que les habitants de zones rurales. Pour tenir compte de cette
information on dcide de faire un plan de sondage diffrenciant les deux types de zones. Ici x est
le statut urbain/rural du lieu de rsidence dun individu de la population tudie.
Dans ces trois exemples linformation auxiliaire permet damliorer lestimation du total ou de la
moyenne de la variable dtude. Cette amlioration peut se faire deux niveaux :
au moment de la dnition du plan de sondage, cest le cas du troisime exemple ou lon fait ce
qui sappelle un plan strati, tudi au chapitre 5,
une fois lchantillon obtenu. Dans ce cas linformation auxiliaire sert corriger les poids des
observations chantillonnes, cest le cas des deux premiers exemples. Lestimation par rgression,
tudi au chapitre 7, entre dans cette catgorie de mthodes.
1.4 Notations
Nous reprenons et compltons les notations qui seront utilises dans ce cours.
Si A U ,
A
y
k

kA
y
k
.
1.5. DCOMPOSITION DE LANOVA 7
La variance de y sur U est :
S
2
yU
=
1
N 1
N
k=1
(y
k
y
U
)
2
=
1
N 1
kU
(y
k
y
U
)
2
(1.1)
La somme sur tous les couples (k, l), k, l U dune certaine quantit g
k,l
dnie sur chacun de ces
couples est note :

U
g
k,l
.
Si on sintresse deux variables y et z sur U, leur covariance est :
S
yz U
=
1
N 1
kU
(y
k
y
U
)(z
k
z
U
)
1.5 Dcomposition de lANOVA
On utilise en statistique la dcomposition de la variance ou ANOVA dans diffrents contextes.
Rappels. Soit (X, Y ) un couple de variables alatoires. On sait que
E(Y ) = E(E(Y [X))
et
var(Y ) = E(var(Y [X)) + var(E(Y [X))
quon retient comme :
Variance totale = moyenne des variances conditionnelles +
variance des moyennes conditionnelles
Statistique infrentielle. La dcomposition de lANOVA est un peu la tarte la (bonne) crme de la
statistique. On sen sert notamment en statistique infrentielle (rgression, ANOVA, Analyse dicrimi-
nante...).
Cadre des sondages. On peut avoir deux plans de sondages, donc deux mcanismes probabilistes, em-
bots : on fait un premier tirage suivant un plan, p
I
(.), qui donne un chantillon s
a
puis un tirage suivant
un autre plan, p
II
(.[s
a
) dans lchantillon s
a
obtenu au premier tirage, qui donne un autre chantillon s.
Il est trs utile, dans cette situation, de dcomposer un calcul desprance mathmatique en :
E(.) = E
I
(E
II
(.[s
a
))
et un calcul de variance en :
var(.) = E
I
(var
II
(.[s
a
)) + var
I
(E
II
(.[s
a
)),
o I et II renvoient aux deux tapes du mcanisme de sondage.
1.6 Erreurs non dues lchantillonnage
Lala dans le tirage introduit lerreur dchantillonnage. Cest une erreur attendue et quon sait
quantier si lon a fait un chantillonnage probabiliste. Mais il peut exister dautres erreurs dans un
sondage : erreurs non dues lchantillonnage (non-sampling errors). Nous en donnons ici une courte
description. Sur le site de Statistique Canada, on trouvera un glossaire
2
trs clair sur ces questions.
1. Erreurs de couverture. Une erreur de couverture survient lorsquil y a une omission, une rptition
ou un ajout erron des units dans la population ou lchantillon. Les omissions sont appeles sous-
dnombrement, tandis que les rptitions et les ajouts errons sont appels surdnombrement. Ces
erreurs surviennent quand la base de sondage utilise ne recouvre pas la population tudier.
2. Erreurs de rponse. Elles surviennent quand les rponses nalement enregistres ne correspondent
pas aux rponses relles. Elles peuvent survenir cause dune mauvaise rdaction des questions,
du comportement de linterviewer, trop familier ou trop distant. Par exemple un interviewer ne doit
pas modier la formulation dune question en fonction de la personne interroge. Un rpondant
peut vouloir donner une certaine rponse pour tre agrable lenquteur, politiquement correct...
3. Erreurs de non-rponse. Elles surviennent quand le rpondant ne rpond pas sufsamment de
questions de lenqute. La non-rponse peut tre partielle ou complte.
Erreurs de non-rponse complte. Ces erreurs peuvent se produire lorsque lenqute ne mesure
pas certaines units de lchantillon slectionn. Les causes de ce type derreur peuvent tre :
(1) que le rpondant nest pas disponible ou est temporairement absent, (2) quil est incapable
de participer lenqute ou quil refuse.
Si un nombre important de personnes ne rpondent pas une enqute, alors les rsultats peuvent
tre biaiss, tant donn que les caractristiques des non-rpondants peuvent diffrer des carac-
tristiques de ceux qui ont particip.
Erreurs de non-rponse partielle. Ce type derreur se produit lorsque linformation obtenue du
rpondant est incomplte. Par exemple, certaines questions peuvent tre difciles comprendre
pour certaines personnes. An de rduire cette forme de biais, il faut porter une attention par-
ticulire la conception et la mise lessai du questionnaire. Il faut le tester longuement, le
rerdiger tant que des imprcisions, des malentendus sur le sens des questions, des incompr-
hensions de questions, demeurent.
Le problme de la non-rponse sera tudi plus en dtail dans le chapitre 9.
1.7 Conception des questionnaires
Ce cours ne concerne pas la conception et ladministration de questionnaires. Or, dans une enqute
par sondage auprs dentreprises ou de personnes, on ne peut esprer avoir de bonnes donnes sans
un bon questionnaire bien administr. Un questionnaire bien conu permet de recueillir des donnes
en toute efcacit et sans grand risque derreur. Il facilite le codage et la saisie des donnes et permet
gnralement de rduire les frais et les dlais de collecte et de traitement des donnes. La grande difcult
de llaboration dun questionnaire est darriver traduire les objectifs de la collecte de donnes en un
cadre cohrent dun point de vue conceptuel et mthodologique.
Avant de mobiliser de grands moyens dans la conception dun questionnaire on devrait se poser les
questions suivantes pour dnir clairement les objectifs du projet :
Faut-il faire une enqute ou bien dnir un plan dexprience ?
Que veut-on apprendre ?
Comment linformation sera-t-elle utilise ? En particulier, quel traitement fera-t-on des rponses
chaque question ?
Quel degr dexactitude et de abilit de linformation doit-on viser ?
2. http ://www.statcan.ca/francais/edu/power/glossary/gloss_f.htm#enquetesond
1.8. SITES INTERNET 9
Une fois quon a des rponses claires ces questions, on peut envisager la conception du question-
naire, sa ralisation, son administration et lanalyse de ses rsultats.
Le site de Statistique Canada contient un dveloppement trs clair sur la conception des question-
naires
3
et lanalyse denqutes. Le site de lAmerican Statistical Association
4
: contient un certain
nombre de documents tlchargeables sur la conception, ladministration et lanalyse des questionnaires.
Avec un moteur de recherche, les mots-clefs : "questionnaire design" survey, donnent un grand nombre
de sites consacrs au sujet.
1.8 Sites Internet
Sites de lINSEE
5
et de Statistique Canada
6
.
Le site de lUniversit dIllinois
7
rfrence un ensemble de sites, journaux... consacrs aux sondages.
Le site de la Washington Statistical Society
8
donne des principes pour construire de bons graphiques
et bien visualiser les donnes.
On trouve sur le site
9
des adresses de cours de sondages gratuits dans le domaine des sciences so-
ciales.
On trouve sur le site de D. Haziza
10
(Professeur lUniversit de Montral) un cours de sondages en
franais moins avanc que le ntre mais avec beaucoup dexemples.
Citons aussi le site de lUS Environmental statistical agency
11
et de NC state University
12
qui r-
pondent des questions frquentes sur les sondages.
Pour lanalyse de donnes issues de plans de sondages complexes avec le logiciel R, voir la page
ofcielle du package survey de T. Lumley
13
.
Avec un moteur de recherche, les mots-clefs : sampling survey, donnent un grand nombre de sites
consacrs au sujet.
3. http ://www.statcan.ca/francais/edu/power/ch2/questionnaires/questionnaires_f.htm
4. http ://www.amstat.org/sections/SRMS/index.html
5. http ://www.insee.fr/fr/home/home_page.asp
6. http ://www.statcan.ca/francais/edu/power/toc/contents_f.htm
7. http ://www.srl.uic.edu/srllink/srllink.htm
8. http ://www.science.gmu.edu/ wss/methods/#Graphics
9. http ://gsociology.icaap.org/methods/sampling.html
10. http ://www.davidhaziza.com/index_chiers/Page341.htm
11. http ://www.epa.gov/nheerl/arm/surdesignfaqs.htm
12. http ://www2.chass.ncsu.edu/garson/pa765/sampling.htm
13. http ://faculty.washington.edu/tlumley/survey/
Chapitre 2
Estimation dun total, dune moyenne et
dun ratio dans le cas particulier du plan
simple sans remise.
Dans ce chapitre nous tudions le plan simple probabilits gales sans remise (plan SI) et le plan
simple propabilits gales avec remise. Nous posons le vocabulaire et les outils qui serviront constam-
ment par la suite : plan de sondage et probabilits dinclusion. Nous retrouverons ces probabilits din-
clusion comme un outil fondamental dans ltude des plans probabilits ingales.
2.1 Introduction
Dnition. Un plan de sondage sur une population U est un mcanisme probabiliste dcrit avec
prcision qui permet dobtenir un chantillon alatoire, s, dlments de U. En termes un peu plus so-
lennels, cest une probabilit : p() dnie sur o lensemble des parties de U : p(s) 0 s o et
S
p(s) = 1. Lalatoire en sondage provient dabord de la variabilit de lchantillon tir dans la po-
pulation nie xe. La taille dun plan de sondage est la taille des chantillons quil gnre. Elle peut tre
constante, on parle alors de plan de taille xe, ou bien alatoire pour des plans que nous rencontrerons
ultrieurement.
2.2 Deux plans simples probabilits gales
On appelle plan simple, un plan de sondage dans lequel on accde aux individus qui formeront
lchantillon par une seule opration alatoire. Dans le cas contraire on parle de plan complexe. Par
exemple, supposons quon sintresse tous les enfants scolariss dans les coles primaires dune rgion.
Il est clair quon ne peut accder ces enfants que par lintermdiaire de lcole quils frquentent. Un
plan de sondage sur ces enfants comportera au moins une tape de slection dcoles, puis peut-tre de
slection de classes dans lcole et enn denfants dans la classe. Cest un plan complexe, prcisment
un plan plusieurs degrs tudi au chapitre 8.
Nous commenons par tudier le plan SI, plan probabilits gales sans remise (not donc aussi
PESR) et le plan probabilits gales avec remise (PEAR). La suite du cours mettra en uvre des plans
plus complexes, mais intgrant souvent diffrentes tapes des plans simples, plan SI en particulier.
2.2.1 Plan SI
On se xe comme paramtre une taille n dchantillon et on tire n individus, sans ordre et sans
remise dans la population des N individus. Dans le plan SI il y a
_
N
n
_
chantillons possibles et quipro-
11
12 CHAPITRE 2. PLAN SIMPLE SANS REMISE
bables
1
Ceci est une application directe des techniques de dnombrement vues en calcul des probabilits
lmentaire.
_
N
n
_
et (
n
N
sont deux notations pour dsigner la mme chose : le nombre de parties n l-
ments parmi un ensemble N lments. Pour une prsentation dans le cadre de la thorie des sondages
on peut consulter Till, 2001.. La loi de probabilit sur les chantillons est donc :
_
p(s) =
1
(
N
n
)
si card(s) = n
p(s) = 0 si card(s) ,= n
On appelle f = n/N, le taux de sondage. On notera ce plan : SI(N, n).
Un certain individu k tant choisi, pour complter un chantillon n, il y a
_
N1
n1
_
possibilits, ou
encore il y a
_
N1
n1
_
chantillons qui contiennent un individu x.
La probabilit dinclusion de k dans un chantillon est la somme des probabilits de tous les chan-
tillons qui contiennent k :
k
=
s k
p(s)
et pour le plan SI :
k
=
_
N1
n1
_
_
N
n
_ =
n
N
.
Cest la probabilit que se ralise un chantillon qui contient k. Noter que k est donn et que cest s qui
varie,
k
est appele une probabilit dinclusion du premier ordre. Pour le plan SI elle ne dpend pas de
k. On dnit de mme la probabilit dinclusion du deuxime ordre de deux lments k et l, k ,= l :
kl
=
s k&l
p(s) =
nombre dchantillons qui contiennent k et l
nombre total dchantillons
,
pour un plan SI,
kl
=
_
N2
n2
_
_
N
n
_ =
n(n 1)
N(N 1)
.
Estimation de la moyenne de y On a tir dans U un chantillon s dindividus suivant le plan SI(N,n).
On veut construire un estimateur de y
U
laide des y
k
, k s. Considrons y
s
, la moyenne sur lchan-
tillon obtenu. Lesprance mathmatique de cette moyenne par rapport au plan de sondage est :
E(y
S
) =
sS
p(s)y
s
=
1
_
N
n
_
sS
1
n
s
y
k
o S dsigne llment alatoire dont s est une ralisation et s parcourt lensemble o des
_
N
n
_
chantillons
possibles. On a vu que chaque y
k
apparat dans
_
N1
n1
_
termes. Lesprance mathmatique de la variable
alatoire y
S
est donc
E(y
S
) =
_
N1
n1
_
_
N
n
_
1
n
U
y
k
= y
U
.
Ainsi, dans le plan SI, la moyenne sur lchantillon est un estimateur sans biais de la moyenne sur la
population.
On peut montrer (nous obtiendrons ce rsultat aprs avoir introduit les variables indicatrices dinclu-
sion) que
var(y
S
) =
_
1
n
N
_
S
2
yU
n
= (1 f)
S
2
yU
n
. (2.1)
1. Rfrences
2.2. DEUX PLANS SIMPLES PROBABILITS GALES 13
On montrera galement que
S
2
ys
=
1
n 1
s
(y
k
y
s
)
2
est un estimateur sans biais de S
2
yU
=
1
N1
U
(y
k
y
U
)
2
, au sens du plan SI.
Remarque. Parlant dun estimateur, nous aurions du crire : S
2
yS
et non S
2
ys
qui est une estimation. Mais
pour ne pas alourdir les notations nous noterons le plus souvent s lchantillon que ce soit une ralisation
ou un lment alatoire.
Finalement un estimateur sans biais de la variance de lestimateur y
s
de la moyenne y
U
est :
var(y
S
) =
_
1
n
N
_
S
2
ys
n
= (1 f)
S
2
ys
n
. (2.2)
Estimation du total dans le plan SI.
On estime t
yU
= Ny
U
par
t
yU
= Ny
s
=
N
n
s
y
k
.
Cest un estimateur sans biais : E(
t
yU
) = t
yU
. On peut considrer que chaque lment de lchantillon
reprsente N/n lments de la population, ou encore y
k
est dilate par le facteur N/n pour construire
lestimateur du total. La variance de
t
yU
est :
var(
t
yU
) = N
2
var(y
s
) = N
2
(1 f)
S
2
yU
n
, (2.3)
elle est estime sans biais par :
var(
t
yU
) = N
2
var(y
s
) = N
2
(1 f)
S
2
ys
n
. (2.4)
Exercice
On considre une population de N = 5 individus, pour lesquels on connat les valeurs de la variable
y : y
1
= 3, y
2
= 1, y
3
= 0, y
4
= 1, y
5
= 5. On choisit un plan SI avec une taille dchantillon n = 3.
1. Donner les valeurs de la moyenne, de la mdiane et de la variance de la variable y dans la popula-
tion. Lister tous les chantillons possibles de taille n = 3. Quelle est la probabilit de slection de
chaque chantillon ?
2. Pour un chantillon donn, on estime la moyenne (respectivement la mdiane) de la population.
Calculer les valeurs de ces estimateurs pour chaque chantillon et en dduire que lestimateur de
la moyenne est sans biais alors que lestimateur de la mdiane est biais.
3. Pour chaque chantillon, calculer lestimateur S
2
ys
de S
2
yU
et en dduire que cet estimateur est sans
biais.
Indications :
1. Il y a 10 chantillons possibles de taille 3 et puisque le plan est un plan SI, ces chantillons sont
quiprobables.
2. Calculer les moyennes arithmtiques des estimateurs de la moyenne dune part et de la mdiane
dautre part. Comparer avec les vraies valeurs calcules la question prcdente.
3. Calculer les S
2
ys
(un par chantillon), en faire la moyenne arithmtique et comparer la vraie
valeur S
2
yU
.
2.2.2 Indicatrices dinclusion
Lobjectif maintenant est davoir une mthode plus simple que lutilisation de la loi de probabilit
des chantillons pour calculer les caractristiques de certains estimateurs en sondage.
On a dni et calcul les probabilits dinclusion dordre 1 et 2, les
k
et
kl
pour le plan SI. Asso-
cions la probabilit dinclusion dordre1, lindicatrice dinclusion de k dans lchantillon s :
11
k
(s) =
_
1 si lchantillon s qui se ralise contient k
0 sinon
Pour le plan SI(N,n) :
E(11
k
(S)) = Pr(11
k
(S) = 1) =
n
N
o lesprance mathmatique est comprendre au sens du plan de sondage.
Notons
kl
, la covariance entre 11
k
et 11
l
. On obtient notamment :
kk
var(11
k
(S)) =
n
N
_
1
n
N
_
= f(1 f) (2.5)
kl
cov(11
k
(S), 11
l
(S)) =
n(n 1)
N(N 1)

n
N
n
N
=
f(1 f)
N 1
. (2.6)
Comme on pouvait sy attendre, la covariance
kl
est ngative car le plan tant de taille xe, si on sait
que k s, les chances davoir l s diminuent.
Il est maintenant facile de calculer la variance de y
s
. Observons dabord que
y
s
=
1
n
s
y
k
=
1
n
U
y
k
11
k
(s), (2.7)
et donc
E(y
S
) =
1
n
U
y
k
E(11
k
(S)) =
1
n
U
y
k
n
N
= y
U
.
Notons que grce aux indicatrices dinclusion on a remplac dans (2.7) lcriture de lesprance dun
nombre alatoire de termes par celle dun nombre certain de termes, qui ne pose pas de problme. Dautre
part,
var(y
S
) =
1
n
2
var
_
U
y
k
11
k
(S)
_
,
et
var(y
S
) =
1
n
2

U
y
k
y
l
kl
.
Dans cette expression,

U
y
k
y
l
kl
=
f(1 f)
N 1

U, k=l
y
k
y
l
+f(1 f)
U
y
2
k
(2.8)
=
f(1 f)
N 1

U
y
k
y
l
+
f(1 f)
N 1
U
y
2
k
+f(1 f)
U
y
2
k
. (2.9)
On a utilis le fait que dans le plan SI,
kl
ne prend que deux valeurs selon que k ,= l ou k = l. Une
identit lmentaire de la statistique descriptive nous donne :
U
y
2
k
=
U
(y
k
y
U
)
2
+
t
2
yU
N
.
Reportant cette expression dans (2.8), on obtient (2.1). On voit lintrt de la substitution faite en (2.7) :
on a remplac une somme sur s, ensemble alatoire par une somme sur U, non alatoire.
2.3. ESTIMATION DUNE PROPORTION 15
2.2.3 Plan PEAR (Probabilits gales avec remise)
Lchantillon s est obtenu par m tirages simples avec remise dans U de taille N. Un mme individu
peut donc apparatre plusieurs fois dans les m valeurs. Soit y
k
i
la valeur obtenue au tirage i et Y
i
la v.a.
associe. La v.a. Y
i
peut prendre nimporte laquelle des valeurs y
1
, , y
N
avec la mme probabilit. La
loi de probabilit de Y
i
est donc : Pr(Y
i
= y
k
) =
1
N
, k = 1, 2, , N. Do :
E(Y
i
) =
1
N
U
y
k
= y
U
,
et
var(Y
i
) =
U
1
N
(y
k
y
U
)
2
=
N 1
N
S
2
yU
S
2
yU
,
si N est sufsamment grand. On obtient
E
_
(1/m)
m
i=1
Y
i
_
= y
U
,
et, les tirages tant indpendants :
var
_
(1/m)
m
i=1
Y
i
_
=
1
m
S
2
yU
, (2.10)
y
k
i
dsigne la i
e
observation du tirage. Observons que ce sont les formules de la statistique classique.
Correction de population nie. Comparons les variances des estimateurs de la moyenne dans les deux
plans avec et sans remise : (2.10) et (2.1). Le facteur1 f dans (2.1) est 1 f = 1 n/N 1 si N est
grand , n. On appelle 1 f la correction de population nie (abrge en anglais en f.p.c.). Si le taux
de sondage f = n/N est faible, cest--dire si lchantillon est de petite taille par rapport la population
nie, on a
var
SI
(
t
yU
) N
2
1
n
S
2
yU
, (2.11)
expression qui nincorpore pas de correction de population nie, la diffrence de (2.3).
2.3 Estimation dune proportion
Exemples.
1. Estimer la proportion de familles hbergeant une personne ge dpendante dans une certaine ville.
2. Estimer la proportion de clients dune banque susceptibles dacheter un nouveau produit de la
banque.
Introduisons une variable indicatrice y, avec y
k
= 1 si lindividu k (famille ou banque dans les exemples)
a la caractristique, y
k
= 0 si lindividu k na pas la caractristique. Le nombre total dindividus ayant
la caractristique dans U est videmment : t
yU
=
U
y
k
et la proportion dindividus ayant la carac-
tristique dans la population est p = t
yU
/N = y
U
. Une proportion est donc la moyenne dune variable
indicatrice et les rsultats obtenus pour une moyenne sappliquent immdiatement. On les rassemble
maintenant dans le cas dun plan SI.
Estimation dune proportion dans un plan SI. On veut estimer
p =
1
N
U
y
k
= y
U
Comme la variable y est une indicatrice, on a y
2
k
= y
k
,
U
y
2
k
=
U
y
k
= Np et donc
S
2
y
U =
1
N 1
U
(y
k
y
U
)
2
=
1
N 1
(Np Np
2
) =
N
N 1
p(1 p) (2.12)
S
2
yU
p(1 p) si N assez grand (2.13)
Soit s un chantillon sur U, obtenu par un plan SI de taille n. Lestimateur de la proportion p par les
valeurs dilates est :
p
s
=
1
n
s
y
k
. (2.14)
Sa variance est
var( p
s
) =
_
1
n

1
N
_
S
2
yU
=
_
1
n

1
N
_
N
N 1
p(1 p) (2.15)
Si N/(N 1) 1, un estimateur approximativement sans biais de cette variance est
var( p
s
) =
_
1
n

1
N
_
n
n 1
p
s
(1 p
s
) =
1 f
n 1
p
s
(1 p
s
) (2.16)
Si on peut ngliger la correction de population nie :
var( p
s
)
1
n 1
p
s
(1 p
s
) (2.17)
2.4 Estimation dun total et dune moyenne sur une sous-population (do-
maine)
Exemple. On fait un sondage auprs des mnages dune rgion pour savoir combien dheures en
moyenne les mnages consacrent par mois soccuper dune personne ge dpendante. Il est clair que
cette moyenne ne concerne que les mnages hbergeant une personne dpendante. Comme on ne dispose
pas de la liste de tels mnages, on va tirer un chantillon de mnages auxquels on demandera sils
hbergent une personne ge dpendante et combien de temps ils y consacrent. On tire un chantillon
dans une population qui contient la population qui nous intresse.
Situation. On tire s, chantillon sur U suivant un plan SI(N, n), mais on est intress par le total ou
la moyenne de la variable dtude sur U
d
, sous-population de U, de taille N
d
. On note s
d
= s
U
d
, de
taille n
d
.
On estime la moyenne y
U
d
par
y
U
d
= (1/n
d
)
s
d
y
k
= y
s
d
.
Il nest pas ncessaire de lire la suite du paragraphe en premire lecture du cours.
Etudions les proprits de cet estimateur. Il faut observer dabord que si n
d
est connue, cest--dire,
conditionnellement n
d
, on prlve n
d
individus dans une population de taille N
d
= NW
d
, suivant un
plan SI. Par consquent
E(y
s
d
[n
d
) = y
U
d
et var(y
s
d
[n
d
) =
_
1
n
d
1
N
d
_
S
2
U
d
y.
2.5. PRCISION DUN SONDAGE 17
Do :
E(y
s
d
) = E(E(y
s
d
[n
d
)) = E(y
U
d
) = y
U
d
et
var(y
s
d
) = E(var(y
s
d
[n
d
)) + var(E(y
s
d
[n
d
)),
Le deuxime terme du ct droit est nul puisque la moyenne conditionnelle est constante, le premier
terme est
E(var(y
s
d
[n
d
)) = E
_
1
n
d
1
N
d
_
S
2
U
d
y
= S
2
U
d
y
_
E
_
1
n
d
_
1
N
d
_
.
Enn, le dveloppement de Taylor lordre 1 de 1/n
d
au voisinage de E(n
d
) donne :
E(1/n
d
)
1
nP
d
.
Do,
var(y
s
d
) (
1
nW
d
1
N
d
)S
2
U
d
y
quon estime par :
var(y
s
d
)
_
1
n
d
1
N
d
_
S
2
s
d
y
.
Ainsi, en premire approximation, on estime la moyenne sur un domaine U
d
comme si on avait fait un
plan SI(N
d
, n
d
).
Lestimateur correspondant pour t
yU
d
est :
t
yU
d
= N
d
y
s
d
.
dont la variance est approche par :
N
2
d
_
1
n
d
1
N
d
_
S
2
s
d
y
.
2.5 Prcision dun sondage
Un rsultat de sondage doit toujours saccompagner dune mesure de prcision des rsultats obtenus,
par exemple la variance de lestimateur. On utilise souvent le coefcient de variation qui est une mesure
de variabilit relative et la marge derreur, lie la largeur dun intervalle de conance de lestimateur.
2.5.1 Coefcient de variation.
Pour une population nie U et une variable dintrt y 0 le coefcient de variation est par dni-
tion :
CV
yU
=
S
yU
y
U
(2.18)
Un coefcient de variation est quivalent une erreur relative en physique. Notons quil est dni pour
une quantit 0. Cest la variabilit des y rapporte leur moyenne. Il est sans dimension, il permet
donc de comparer des grandeurs exprimes dans des units diffrentes.
On dnit galement le coefcient de variation dun estimateur sans biais,

dun paramtre > 0 :
CV(
) =
_
var(
. (2.19)
Une estimation par substitution habituellement employe est :
CV(
) =
_
var(
(2.20)
Par exemple, dans les rsultats dune enqute sur lusage dInternet au Canada
http://www.statcan.ca/francais/freepub/56F0003XIF/prodserv_f.htm
sous le pourcentage de la part des jouets et jeux dans les achats en ligne, estime (2.3%), on trouve la
note : "Estimation peu able en raison de la taille de lchantillon ; coefcient de variation entre 16,6%
et 33,3%.",
Dans un plan SI, le coefcient de variation de
t
yU
est
CV(
t
yU
) =
_
1
n

1
N
S
yU
/y
U
Notons que y
s
et
t
yU
ont le mme coefcient de variation.
2.5.2 Intervalle de conance
En statistique mathmatique, si
est un estimateur approximativement sans biais de , on a souvent :
N(, var(
))
o var(
) 0 quand n . Cette proprit asymptotique permet de construire des intervalles de

conance (IC) approchs pour . Par exemple un IC approch 100(1 )% est :
_
z
1/2
_
var(
) ;

+z
1/2
_
var(
)
_
(2.21)
o z
1/2
est le quantile dordre 100(1 /2)% de la variable normale centre rduite et o on a
remplac la variance par une estimation de celle-ci. On prend souvent = 5% et alors z
0.975
= 1.96.
On appelle marge derreur absolue la demi-longueur de lIC. En sondages dans une population nie,
on utilise galement ce type dapproximation dun intervalle de conance. Cest ce que nous voyons
maintenant.
Exemples.
Intervalle de conance pour une moyenne. Par un plan SI, population de taille N, chantillon de taille
n, on estime la moyenne y
U
de y par y
s
de variance (2.1), estime par (2.2). Lintervalle de conance
pour y
U
100(1 )% est :
y
s
z
1/2
_
1
n

1
N
S
yU
; y
s
+z
1/2
_
1
n

1
N
S
yU
(2.22)
estim par :
_
y
s
z
1/2
_
1
n

1
N
S
ys
; y
s
+z
1/2
_
1
n

1
N
S
ys
_
(2.23)
La marge derreur absolue est z
1/2
_
1
n

1
N
S
yU
. En pourcentage de la moyenne on obtient
100 z
1/2
CV(
y
U
) (2.24)
2.5. PRCISION DUN SONDAGE 19
que lon appelle marge derreur relative. Cest la demi-longueur, en pourcentage, de lintervalle de
conance au niveau 100(1 )% rapporte la quantit estime.
Intervalle de conance pour un total. Le parallle de (2.22) pour le total t
y
est :
_
t
yU
z
1/2
_
1
n

1
N
NS
yU
;

t
yU
+z
1/2
_
1
n

1
N
NS
yU
_
(2.25)
Intervalle de conance pour une proportion. Pour une proportion p moyenne dune indicatrice y,
(2.22) prend la forme :
_
p z
1/2
_
1
n

1
N
_
N
N 1
p(1 p) ; p +z
1/2
_
1
n

1
N
_
N
N 1
p(1 p)
_
(2.26)
o on a utilis (2.12). Lintervalle de conance est estim par :
_
p z
1/2
_
1
n

1
N
_
n
n 1
p(1 p), p +z
1/2
_
1
n

1
N
_
n
n 1
p(1 p)
_
. (2.27)
Dautre part, le coefcient de variation est (voir 2.12) :
CV( p) =
_
1
n

1
N
_
N
N1
p(1 p)
p
=
_
1
n

1
N
_
N
N 1
_
1 p
p
Si N est grand, on peut lapprocher par
CV( p)
_
1 p
np
.
Si N est grand, la marge derreur relative est :
100 z
1/2
_
1 p
np
(2.28)
2.5.3 Choix de la taille dun chantillon
Dans la pratique, on choisit dabord la prcision (marge derreur absolue ou relative) et on en dduit
la taille de lchantillon tirer pour atteindre cette prcision. Si lon na pas dordre de grandeur pour
S
yU
on peut faire un premier sondage dont les rsultats permettront davoir un ordre de grandeur de S
yU
.
Taille dchantillon pour estimer une moyenne. Supposons donc un niveau 100(1 )% x.
CV
yU
est propre la population U et on ne peut donc pas le choisir. On doit agir sur n pour diminuer la
marge derreur. Ainsi, si on veut une marge derreur relative de , on doit choisir n tel que
zCV
yU
o z = z
1/2
. Si la taille de la population est grande, 1/N est ngligeable et la condition sur n devient :
n
z
2
CV
2
yU
2
. (2.29)
Mais on ne connat videmment pas CV
yU
. On doit lestimer sur un premier chantillon de petite taille.
Taille dchantillon pour estimer une proportion. Avec les notations du prcdent paragraphe,
pour N sufsamment grand, on doit choisir n tel que :
z
_
1
n
_
1 p
p
,
cest-- dire :
n
z
2
(1 p)
2
p
. (2.30)
On peut vrier que (1 p)/p dcroit de 0 quand p croit de 0 1. Si lon sait que p est suprieur
une certaine valeur p
0
, on pourra choisir :
n
z
2
(1 p)
2
p
0
.
Marge derreur absolue. Au lieu de sintresser la marge derreur relative, on peut sintresser la
marge derreur absolue, la demi-longueur de lintervalle de conance
Taille dchantillon pour estimer une moyenne en contrlant lerreur absolue. Partant de (2.23) et
(2.29), tant donn un niveau de conance x et une marge derreur choisie, l et si on suppose N grand
on voit quon doit prendre un chantillon de taille n vriant
n
z
2
S
2
yU
l
2
(2.31)
Taille dchantillon pour estimer une proportion en contrlant lerreur absolue. Partant de (2.26), tant
donn un niveau de conance x et une marge derreur choisie, l sur la proportion estimer, on voit
quon doit prendre un chantillon de taille n vriant
n
Np(1 p)
p(1 p) +
l
2
z
2
(N 1)
. (2.32)
Si on nglige la correction de population nie, la condition devient :
n
z
2
p(1 p)
l
2
(N 1)
. (2.33)
Taille dchantillon pour estimer un total en contrlant lerreur absolue. Il est immdiat de transposer
ce quon a obtenu pour une moyenne un total. Si on doit estimer un total avec une marge derreur l, et
si on suppose N grand, on voit sur (2.25) que la condition devient :
n
N
2
z
2
S
2
yU
l
2
(2.34)
Exemple Un club de photographes amateurs a 1800 membres. On veut estimer le nombre moyen de
pellicules utilises par an par membre. On sait que par le pass, la moyenne et lcart-type du nombre
de pellicules taient respectivement 6 et 4. On choisit un niveau de conance de 95%. Quelle taille
dchantillon faut-il prendre pour estimer (1) le nombre moyen de pellicules avec une marge derreur
relative de 7%? (2) le nombre total de pellicules avec une erreur absolue de 400
2
?
2. Rponse : pour (1), on applique (2.29) : n 1.96
2 (4/6)
2
.07
2
= 348.44 arrondi 349. Pour (2), (2.34) donne n
(1800 1.96 4/400)
2
= 77.79. En prenant un chantillon de 78 membres on estimera le nombre total de pellicules utilises
avec une marge derreur de moins de 400 pellicules, 95%.
2.6. ESTIMATION DUN RATIO 21
2.6 Estimation dun ratio
Considrons dabord deux exemples.
Exemple 1. Supposons une population U de mnages, y
k
le revenu du mnage k et z
k
le nombre
de personnes composant le mnage. Le revenu moyen par tte dans cette population est :
R =
U
y
k
U
z
k
=
y
U
z
U
.
R est ce quon appelle un ratio, cest--dire le rapport de deux totaux sur une mme population.
Exemple 2. La proportion dlecteurs qui, dans une lection prsidentielle, choisissent un candidat
particulier est le rapport :
Nombre de votants qui choisissent le candidat / Nombre de suffrages exprims.
Cette proportion doit tre estime comme un ratio car la taille de la population, cest--dire le
nombre dlecteurs qui votent nest pas connue.
Cas du plan SI. On tire dans une population U de taille N un chantillon s suivant un plan SI(N, n) et
on observe y
k
et z
k
, k s. On estime le ratio, R, par le quotient des estimateurs des moyennes :
R =
y
s
z
s
(2.35)
Nous admettrons provisoirement que la variance de cet estimateur sestime par :
var(

R) =
1
z
2
s
(1 f)
1
n
S
2
y
Rz,s
(2.36)
Exemple numrique
/
*
Example of a ratio estimator in simple random sampling
*
/
/
*
Wildlife ecologists interested in measuring the impact of wolf
predation on moose populations in BC obtained estimates by aerial
counting of the population size of wolves and moose on 11
subareas (all roughly equal size) selected as SRSWOR from a total of
25 subarea in the game management zone.
In this example, the actual ratio of wolves to moose is of interest.
*
/
title Wolf-moose ratio - ratio estimator in SRS design; options
nodate nonumber noovp nocenter linesize=75;
data wolf;
input subregion wolf moose;
datalines;
1 8 190
2 15 370
3 9 460
4 27 725
5 14 265
6 3 87
7 12 410
8 19 675
9 7 290
10 10 370
11 16 510
;;;
proc print data=wolf;
title2 raw data;
sum wolf moose;
proc plot data=wolf;
title2 plot to assess assumptions;
plot wolf
*
moose;
proc surveymeans data=wolf ratio clm N=25;
title2 Estimate of wolf to moose ratio;
/
*
ratio clm - request a ratio estimator with confidence intervals
*
/
/
*
N=25 specifies total number of units in the population
*
/
var moose wolf;
ratio wolf/moose; /
*
this statement ask for ratio estimator
*
/
2.7 Estimation par ratio
2.7.1 Exemples
Dcrivons brivement deux exemples destimation dun total par ratio.
Exemple 1 Au dbut du 19
e
sicle, il nexiste pas en France de recensement, mais un rgistre des nais-
sances est tenu dans chaque commune. Partant de cette situation, pour estimer la population de la France,
Laplace considre un chantillon de communes, fait le recensement de leur population, mesure le rapport
R = population totale de ces communes/ nombre de naissances de ces communes
Considrant que ce rapport doit tre peu prs stable sur les communes il en dduit une estimation de la
population totale :
R nombre total de naissances en France.
Le nombre de naissances est une information auxiliaire : elle est connue pour toutes les communes de
France et elle est corrle avec la population.
Exemple 2 Un chalutier doit estimer le poids des poissons de taille suprieure une certaine longueur
dans un chalut pour dcider sil dcharge le chalut bord ou sil le rejette la mer. Pour faire cette
estimation, on peut videmment mesurer le poids de tels poissons dans un chantillon. La taille de la po-
pulation des poissons dans le chalut nest pas connue. Mais il est facile de peser le chalut et lchantillon.
Notons U la population des poissons dans le chalut, x
k
le poids du poisson k et y
k
tel que y
k
= le poids
du poisson k sil est de taille suprieure 25cm, y
k
= 0 sinon. Comme il est facile de peser le chalut, on
peut galement estimer R =

U
y
k
/
U
z
k
. Enn, on peut faire lhypothse que, sur un chantillon s
tir dans le chalut suivant un plan alatoire simple, on doit avoir
s
y
k
/
s
x
k
R. Lestimation de ce
rapport multipli par
U
x
k
fournit une estimation de
U
y
k
.
2.7. ESTIMATION PAR RATIO 23
2.7.2 Proprits de lestimateur par ratio dans un plan SI
Nous donnons maintenant les proprits de lestimateur par ration quand lchantillon est obtenu
par plan SI. Nous verrons plus loin que lestimation par ratio est un cas particulier de lestimation par
rgression.
Situation. Par un plan SI on tire un chantillon s de taille n dans une population U de taille N. On
observe y
k
et x
k
, k s et on connat x
k
, k U. On doit estimer t
yU
t
y
. Ecrivons
t
yU
= t
xU
t
yU
t
xU
= t
xU
R.
Lestimateur par ratio de t
yU
est :
t
yra
= t
xU

R.
A un facteur constant prs (t
xU
), cest lestimateur dun ratio. On peut donc utiliser ce quon a racont
pour les ratios. Nous admettrons provisoirement quune estimation de var(
t
yra
) est donne par :
var(
t
yra
) =
x
2
U
x
2
s
N
2
_
1
n

1
N
_
(S
2
ys
2
RS
yx,s
+

R
2
S
2
xs
) =
x
2
U
x
2
s
N
2
_
1
n

1
N
_
S
2
y
Rxs
. (2.37)
Il est important dobserver quau facteur
x
2
U
x
2
s
prs, souvent proche de 1, lapproximation de la variance
ci-dessus est la variance du total des rsidus y
k

Rx
k
.
Exercice : Un quartier dans une certaine ville est form de 3000 mnages rassemblant 10 000 personnes.
Pour tudier lintrt dinstaller un dispensaire mdical dans le quartier, on veut estimer le nombre total
de consultations quont eu les personnes de ce quartier lan dernier. On veut un rsultat 10% maximum,
de la vraie valeur, avec un niveau de conance de 95%. Un sondage prliminaire portant sur 10 mnages
donne les rsultats rassembls dans le tableau ci-dessous. Dterminer la taille dchantillon ncessaire
pour faire ltude avec la prcision requise.
Mnage Nombre de per-
sonnes dans le
mnage
Nombre de consultations
par personne durant lan-
ne prcdente
1 3 4.0
2 6 4.5
3 2 8.0
4 5 3.4
5 2 0.5
6 3 7.0
7 4 8.5
8 2 6.0
9 6 4.0
10 4 7.5
Chapitre 3
Estimation par les valeurs dilates dun
total, dune moyenne et dun ratio dans le
cas gnral.
Dans ce chapitre, nous tendons les rsultats obtenus dans le chapitre prcdent pour le plan simple
avec remise des plans de sondages gnraux
3.1 Sondage probabilits ingales
Nous voulons dnir un estimateur du total t
yU
partir dun plan de sondage sur U probabili-
ts ingales : les probabilits
k
dinclusion dans lchantillon ne sont pas ncessairement gales. Nous
commenons par exprimer les probabilits dinclusion dans lchantillon et nous calculons leurs mo-
ments dordre 2. Ensuite, un estimateur de t
yU
arrivera assez naturellement. Le dveloppement est trs
proche de ce quon a fait pour le plan SI.
3.1.1 Indicatrices dinclusion
Soit p() un tel plan de sondage, notons S la variable alatoire (v.a.) associe un chantillon observ
s. Soit k un lment de U. Nous rappelons et prcisons les notions de probabilits dinclusion et dindi-
catrice dinclusion.
Probabilits dinclusion du premier ordre. La probabilit dinclusion de k dans un chantillon est
videmment :
k
=
sk
p(s),
cest la probabilit que se ralise un chantillon qui contient k.
Probabilit dinclusion du deuxime ordre. La probabilit dinclusion du deuxime ordre des lments
k et l est :
kl
= Pr[11
k
(S) = 1 et 11
l
(S) = 1] =
sk&l
p(s)
Par convention :
kk
=
k
. Dans la suite nous crirons souvent 11
k
pour 11
k
(S).
3.1.2 Moments des indicatrices dinclusion
On a not que E(11
k
(S)) =
k
. On note
kl
, la covariance entre 11
k
et 11
l
. On obtient notamment :
kk
var(11
k
(S)) =
k
(1
k
)
25
26 CHAPITRE 3. CAS GNRAL
kl
cov(11
k
(S), 11
l
(S)) =
kl
l
Pour le plan SI on a obtenu prcdemment :
var(11
k
(S)) = f(1 f) cov(11
k
(S), 11
l
(S)) =
f(1 f)
N 1
(3.1)
Illustrons ces rsultats sur le plan de Bernoulli (plan BE).
Plan BE Pour tirer des individus suivant ce plan dans une population de taille N, on se donne comme
paramtre un nombre tel que 0 < < 1 et on tire des nombres
k
, k = 1, , N indpendants suivant
la loi uniforme sur (0, 1) (Unif(0, 1)). Si
k
< alors on inclut llment k dans lchantillon. On voit
que le plan BE donne des chantillons s de taille alatoire n
s
: on ne sait pas davance quelle sera la taille
de lchantillon tir. Elle varie de 0 N. On notera ce plan : BE().
On vrie sans difcult que la loi de n
s
dans ce plan est binomiale de paramtres N et . Suppo-
sons connue la taille n de lchantillon ; lchantillon doit tre choisi parmi tous ceux de taille n. Tous
les individus ont les mmes chances dtre slectionns. On peut montrer, mais nous ladmettrons, que
conditionnellement la taille, la loi de probabilit des chantillons est celle du plan SI. On a ainsi une
description complte du plan BE.
Probabilits dinclusion. Par dnition du plan BE() on a :
k
= et comme lappartenance dun
lment lchantillon ne dpend pas de lappartenance des autres,
kl
=
2
si k ,= l.
On a :
var(11
k
(S)) = (1 ) cov(11
k
(S), 11
l
(S)) = 0, k ,= l.
Une premire utilisation des indicatrices dinclusion : Supposons par exemple quon doive calculer
E
_
s
w
k
y
k
_
, o les w
k
sont des poids connus et y
k
, k s sont les valeurs observes dans le sondage
suivant le plan p. Cette esprance est lesprance dun nombre alatoire de termes, ce nest donc pas la
somme des esprances. Mais
s
w
k
y
k
=
U
w
k
y
k
11
k
(s). Ceci est une somme de N termes, quel
que soit lchantillon, et on peut crire :
E
_
s
w
k
y
k
_
= E
_
U
w
k
y
k
11
k
(S)
_
=
U
E(w
k
y
k
11
k
(S))
=
U
w
k
y
k
E(11
k
(S)) =
U
w
k
y
k
k
.
Cette technique qui consiste remplacer une somme sur un ensemble alatoire par une somme sur un
ensemble certain, reviendra constamment dans ce cours.
Par exemple, elle permet de calculer lesprance mathmatique et la variance de la taille dun chan-
tillon. Comme n
S
=
U
11
k
(S), on obtient :
E(n
S
) =
k
var(n
S
) =

U
kl
.
Evidemment, pour un plan de taille xe, la variance de la taille est nulle, ce qui entrane des relations sur
les
kl
que nous examinons maintenant.
Cas dun plan de taille xe. Pour un plan de taille xe les probabilits dinclusion vrient les pro-
prits rassembles dans le lemme suivant.
3.1. SONDAGE PROBABILITS INGALES 27
Lemme. Pour un plan de taille xe, n, on a :
k
= n (3.2)

U, k=l
kl
= n(n 1) (3.3)
lU, l=k
kl
= (n 1)
k
(3.4)
[Lexercice qui suit et la dmonstration du lemme ne sont pas faire en premire lecture de ce chapitre.]
Exercice. Vrier que les probabilits dinclusion du plan SI ont bien ces proprits.
Indications pour la dmonstration du lemme. On sait que
k
est lesprance mathmatique de la
taille, do (3.2). Ensuite, la taille tant xe, sa variance est nulle :

U
kl
= 0, on dtaille en
tenant compte de (3.2) et on obtient (3.3). Enn on obtient (3.4) en exprimant que, pour un plan de taille
xe, la covariance entre 11
k
et la taille, est nulle.
Commentaire gnral. On peut se demander pourquoi on fait des plans de sondage probabilits in-
gales. En vrit, de tels plans nont aucun intrt quand on ne connat rien de la population. Mais on
dispose trs souvent dinformation auxiliaire sur la population. Cette information peut servir organiser
le tirage en tapes (plans de sondage complexes - plusieurs degrs, en plusieurs phases...), choisir
avec une plus grande probabilit certains individus. Les plans de sondage complexes sont constitus de
plans lmentaires qui sont trs souvent des plans SI. On verra ces questions dans les chapitres suivants.
3.1.3 Estimation dun total par les valeurs dilates
On est maintenant en mesure destimer le total
U
y
k
, dune variable dtude sur une population
U. Un plan de sondage dont les probabilits dinclusion sont des
k
et
kl
a donn un chantillon s et
on a observ y
k
, k s. Il est clair que chaque lment observ doit reprsenter plusieurs lments de
U. On estimera donc le total de y par une somme des valeurs observes dilates : chaque y
k
observ est
multipli par un poids w
k
1. Le choix de ces poids dpend du plan de sondage ou des probabilits
dinclusion correspondantes. Les poids peuvent dpendre galement de caractristiques de la population.
Nous le verrons notamment dans lestimation par rgression.
On cherche un estimateur linaire cest--dire de la forme :

t
y
=
s
w
k
y
k
o les w
k
doivent tre
choisis daprs le plan de sondage. On veut que cet estimateur soit sans biais. crivons donc lesprance
de
t
y
, en remplaant, comme on la dja fait, la somme sur des indices alatoire (
s
) par une somme
sur des indices xes (
U
).
E(
t
y
) = E
_
s
w
k
y
k
_
= E
_
U
w
k
y
k
11
k
(s)
_
=
U
E(w
k
y
k
11
k
(s))
Pour que cet estimateur soit sans biais, il faut donc que w
k
y
k
E(11
k
(s)) = y
k
, do le choix
w
k
=
1
k
et lestimateur ainsi dni est :
t
yU
=
s
y
k
k
. (3.5)
Dnissons les valeurs dilates : y
k
= (1/
k
)y
k
. Alors,
t
y
=
s
y
k
=
U
y
k
11
k
(s). (3.6)
t
y
est appel estimateur par les valeurs dilates ou estimateur de Horvitz-Thompson. On supprime la
rfrence la population ou la variable quand il ny a pas dambiguit.
Les w
k
sont les poids de sondage. On interprte w
k
comme le nombre, pas ncessairement entier, din-
dividus de la population U reprsents par lobservation k de lchantillon. Dans les plans de sondage
complexes, un poids peut ne pas tre linverse dune probabilit dinclusion.
Exemple. Estimation du total dans un plan BE(). Lestimateur du total t
y
, par les valeurs dilates est :
t
y
=
1
s
y
k
.
Enn, la taille N de la population scrit comme un total : N =
U
1. On peut donc lestimer sans
biais par
N =
s
1
k
. (3.7)
3.1.4 Variance de lestimateur par les valeurs dilates
Vu lcriture (3.6), on cherche la variance dune combinaison linaire de v.a. corrles. On obtient
(le montrer titre dexercice) :
var(
t
y
) = var(
s
y
k
) = var(
U
y
k
11
k
(s)) =

U
kl
y
k
y
l
(3.8)
o
U
z
kl
dsigne
kU
lU
z
kl
. Une fois observ que cette variance nest autre quune somme
sur U U avec des probabilits dinclusion
kl
, on
1
que lestimateur (sans biais) par les valeurs dilates
de cette somme est :
var(
t
yU
) =

s
kl
y
k
y
l
(3.9)
o

kl
=

kl
kl
. Mais cet estimateur sans biais prsente quelques inconvnients : il peut prendre des
valeurs ngatives (cf exercice), de plus les
kl
interviennent en dnominateur et si certains sont nuls, cette
formule nest pas applicable. Enn, cette somme double peut tre difcile calculer. Cest pourquoi il
existe des formules dapproximation que nous verrons plus loin. Pour linstant, nous examinons ce qui
se passe dans un plan de taille xe.
Variance de lestimateur par les valeurs dilates pour un plan de taille xe. La variance (3.8) de
lestimateur du total scrit pour un plan de taille xe (le montrer titre dexercice) :
var(
t
yU
) =
1
2

U
kl
( y
k
y
l
)
2
(3.10)
Lobservation faite aprs (3.8) sapplique ici aussi pour trouver un estimateur sans biais. Donc si les
kl
sont positifs
var(
t
yU
) =
1
2

s
kl
( y
k
y
l
)
2
(3.11)
est un estimateur sans biais de var(
t
yU
). On lappelle estimateur de Sen-Yates-Grundy de la variance.
Vrication de (3.10). Il suft de dvelopper cette expression et dexploiter le lemme.
1. Exercice : vriez, ce nest pas difcile, que lestimateur (3.9) est bien sans biais.
3.2. ESTIMATION DUNE MOYENNE PAR VALEURS DILATES 29
Exemples
Plan SI revoir le chapitre 2.
Plan BE de paramtre . Variance de lestimateur du total dans ce plan. La formule (3.8) sapplique di-
rectement. On obtient :
var(
t
yU
) =
1
U
y
2
k
(3.12)
Cest un total sur U. On crit ensuite lestimateur de ce total par les valeurs dilates :
var(
t
yU
) =
1
s
y
2
k
Commentaires.
(1) Si un plan est de taille xe il est clair que la covariance de deux indicatrices dinclusion est ngative :
si k est dans lchantillon, les chances pour un autre individu l dy tre diminuent. Chaque terme de
(3.10) est donc positif et il en est de mme pour lestimateur (3.11).
(2) Les estimateurs (3.9) et (3.11) ne prennent pas ncessairement les mmes valeurs.
(3) On voit sur (3.10) que si on avait y
k
constant alors la variance serait nulle. Supposons quil existe
une variable x > 0, connue pour chaque individu de U, telle que y
k
cx
k
pour une certaine constante
c > 0, alors il serait judicieux de choisir pour estimer t
y
, un plan de taille xe avec
k
x
k
car
y
k
= y
k
/x
k
= c. Cest un exemple dutilisation dinformation auxiliaire pour dnir le plan de sondage.
(4) Pour beaucoup de plans il est difcile de mettre en pratique (3.11). Aussi des approximation ont-elles
t tudies. Sappuyant sur des arguments thoriques, Brewer (2002) propose notamment lapproxima-
tion :
var(
t
yU
) =
s
(c
1
k

k
)( y
k
1
n
t
ys
)
2
(3.13)
o
c
k
=
n 1
n
k
Ce choix de c
k
convient pour des plans de sondage pouvant donner une grande varit dchantillons.
Nous nessaierons pas de justier cette expression mais a ne nous empchera pas de lutiliser pour
simplier des estimations de variance dans diffrentes circonstances.
3.2 Estimation dune moyenne par valeurs dilates
Etant donn un plan de sondage de probabilits dinclusion
k
,
kl
, on estime le total t
yU
par les-
timateur de Horwitz-Thompson,
donn par (3.5). La moyenne est y

U
=
1
N
t
yU
. Si N, la taille de la
population est connue, on peut utiliser lestimateur :
y
U
=
1
N
(3.14)
de variance (voir 3.8) :
1
N
2

U
kl
y
k
y
l
Il arrive que la taille de la population ne soit pas connue avec prcision. Dans ce cas on utilise au lieu
de (3.14), lestimateur de Hajek :
y
s
=

t
s
y
k
/
k
s
1/
k
(3.15)
Observons que cest un rapport destimateurs linaires. Nous tudierons ses proprits dans le chapitre
consacr lestimation dun ratio. On utilise galement cet estimateur quand les
k
sont trs htrognes.
En effet, si lchantillon contient un individu qui a une trs faible chance de sortir, son poids est trs lev
et la moyenne risque dtre surestime.
Exemple Les caribous vivants sur la plaine ctire dAlaska, ont t compts partir dun avion
(exemple de Thompson). La rgion est -peu-prs rectangulaire et stend en direction Nord-Sud sur
une largeur de 286 miles. Elle a t partitionne par des lignes Nord-Sud distantes dun mile. 15 lignes
ont t tires selon un plan SI et davion on compte les caribous dans la zone stendant un demi-mile
de part et dautre de la ligne. Les nombres de caribou observs sont : 1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86,
10, 21, 5 et 4. Estimons le nombre total de caribous dans la zone et et la variance de cet estimateur.
Corrig. La population est forme des lignes (ou des bandes) quon peut tirer. Il y en a N = 286
(, 0.5, 1.5, , 285.5 miles dun bord). Notons y
k
le nombre de caribous dans la bande k ou vi-
sibles depuis la ligne k. La moyenne de lchantillon est y
s
= 25.93333 et S
2
ys
= 919.0667. Do :
t
y
= 286 25.93333 = 7 416.932 7 417 et

var(
t
y
) = 286
2
(
1
15

1
286
)919.0667 = 4 748 879.
3.3 Effet plan
Les plans de sondage simples que nous avons prsents sont rarement utiliss seuls. Ce sont le plus
souvent les lments dun plan de sondage complexe quun statisticien denqute est amen construire.
Schmatiquement, le budget dont on dispose permet dinterroger un certain nombre dindividus et on se
pose la question du choix du plan : faut-il btir un plan complexe ou bien peut-on se contenter du plan
SI ? On est donc amen comparer la prcision dun plan quelconque celle dun plan SI de mme taille
par le rapport des variances des estimateurs.
DFINITION. On appelle, effet plan (design effect, Deff) dun certain plan p, fournissant un estimateur
sans biais de t
y
, le rapport :
Deff(p,
) =
var(
t
,p
)
var(
t
,SI
)
,
cest--dire le rapport de la variance de lestimateur du total dans ce plan la variance de lestimateur du
total dans le plan SI, pour une mme taille dchantillon.
On trouve sur Internet de nombreux exemples dutilisation du Deff. Par exemple le rapport compa-
rant les niveaux dducation des jeunes dans plusieurs pays de lOCDE, rapport PISA 2000, contient
une discussion du Deff du plan de sondage choisi pour interroger lchantillon dlves
2
. Le document
3
contient une tude empirique des effets plans dans divers sondages sur la sant et la dmographie orga-
niss par les Nations Unies.
Nous illustrons maintenant la technique en calculant le Deff du plan BE. Les estimateurs du total par
les valeurs dilates dans le plan SI(N, n) et dans le plan BE sont respectivement :
= Ny
s
,

t
=
1
s
y
k
Ils sont sans biais. Pour calculer le Deff du plan BE, il faudrait que les deux plans soient de mme taille.
Or le plan BE est de taille alatoire. Aussi nous dcidons de prendre le paramtre du plan BE tel que
lesprance de la taille de lchantillon dans le plan BE gale n. Dans ce plan E(n
s
) = N, donc, n tant
2. http ://www.pisa.oecd.org/tech/chap12/b.htm
3. http ://unstats.un.org/unsd/HHsurveys/ch12draft.pdf
3.3. EFFET PLAN 31
x, on choisit, = n/N. Dautre part, on a calcul la variance de lestimateur par les valeurs dilates
du total dans le plan SI (2.3) et dans le plan BE (3.12) :
= Ny
s
, var
SI
(
) = N
2
1 f
n
S
2
yU
var
BE
(
) =
1
U
y
2
k
.
Par des manipulations de statistique lmentaire on obtient :
U
y
2
k
= (N 1)S
2
yU
+N(y
U
)
2
= [1
1
N
+
1
(CV
yU
)
2
]NS
2
yU
On reporte cette expression dans la variance du plan BE et on remplace par n/N. Il vient :
Deff(BE,
) =
var
BE
(
)
var
SI
(
)
= 1
1
N
+
1
(CV
yU
)
2
1 +
1
(CV
yU
)
2
.
On note que ce Deff est toujours > 1. Cela na rien dtonnant puisque dans le plan BE, la taille est
alatoire et on peut donc slectionner un chantillon de taille trs petite, voire nulle. Ce Deff est une
fonction dcroissante de CV
yU
.
Chapitre 4
Etude de deux plans particuliers : le plan
avec remise probabilits ingales et le
plan systmatique.
Nous considrons ici deux plans de sondage simples et couramment utiliss.
4.1 Tirage avec remise
Tirage probabilits constantes. On a dj considr le tirage de m objets dans une population U de
N, avec remise entre deux tirages. A chaque tirage, un lment particulier de la population est tir avec
la probabilit 1/N. Llment k apparat donc 0 fois avec la probabilit (1
1
N
)
m
. Do sa probabilit
dinclusion dans lchantillon :
k
= 1 (1
1
N
)
m
m
N
, cest--dire la probabilit quil soit tir au
moins une fois.
Tirage probabilits ingales. Maintenant, associons chaque lment k une probabilit p
k
de sortir
un tirage : p
k
> 0,
U
p
k
= 1. La probabilit dinclusion de k est
k
= 1 (1 p
k
)
m
. Si p
k
est
faible,
k
mp
k
. Ce dveloppement suggre un estimateur :
t
pwr
=
1
m
m
i=1
y
ki
p
ki
(4.1)
On lappelle estimateur de Hansen-Hurwitz. Examinons cette formule. Notons Z
i
la variable discrte
associe au tirage i, qui prend la valeur y
k
/p
k
avec la probabilit p
k
. Les Z
i
, i = 1, , m sont ind-
pendantes, car les tirages se font avec remise, et identiquement distribues. Par construction :
E(Z
i
) = t
y
.
et
var(Z
i
) =
U
p
k
_
y
k
p
k
t
y
_
2
.
Notons V
1
, la variance de Z
i
:
V
1
=
U
p
k
_
y
k
p
k
t
y
_
2
.
On voit que
t
pwr
est la valeur prise par Z =
1
m
m
i=1
Z
i
. Do on obtient :
E(
t
pwr
) = t
y
var(
t
pwr
) =
1
m
V
1
.
33
34 CHAPITRE 4. DEUX PLANS PARTICULIERS
Lestimateur sans biais usuel de V
1
est
V
1
=
1
m1
m
i=1
(z
i
z)
2
=
1
m1
m
i=1
(
y
ki
p
ki
t
pwr
)
2
,
avec z
i
, ralisation de Z
i
, i = 1, , m.et
var(
t
pwr
) =
1
m
V
1
Commentaires.
1. Lexpression de V
1
suggre que si lon pouvait choisir p
k
= y
k
, on aurait une variance destimateur
nulle. Evidemment on ne connait pas les y
k
mais si lon disposait dune variable x > 0 peu
prs proportionnelle y, connue pour chaque individu de la population, il serait judicieux de
choisir p
k
x
k
et prcisment : p
k
= x
k
/
U
x
k
. Cette situation est un exemple dutilisation
dinformation auxiliaire pour dnir le plan de sondage.
2. Comme on fait des tirages avec remise, il peut arriver si mest petit, quon tire la mme unit tous
les tirages. Quelle est la probabilit dobtenir la mme unit en deux tirages ? Que suggrez-vous
donc comme expression gnrale pour lestimation de V
1
?
Rponses : q =
N
i=1
p
2
i
et q 0 + (1 q)

V
1
.
4.2 Plan systmatique
4.2.1 Notions lmentaires sur le plan systmatique
Considrons quelques exemples.
1. Pour un sondage auprs des visiteurs dun salon, dune foire, auprs des usagers dun service
public, on na souvent pas de liste mais on peut choisir dinterroger un sortant tous les r sortants.
2. Supposons quun ensemble de dossiers dpaisseur peu prs constante soit stock dans 12 ta-
gres de 60 cm de longueur chacune et quon veuille tirer un chantillon de 100 dossiers. Si le
rangement nest pas li la variable dtude, on peut procder ainsi : il y a 60 X 12 = 720 cm de
dossiers. On peut prendre un dossier tous les r = 720/100 = 7,2cm. Pour amorcer le tirage, on tire
un nombre uniforme sur (0, 7.2) et on dmarre partir du dossier le plus proche du rsultat (Levy-
Lemeshow p. 112). On na pas de liste des dossiers mais une organisation qui permet dy accder.
3. Supposons quon veut contrler des comptes de socits. Certaines ont une activit importante,
dautres une activit moindre. On a une ide du volume de lactivit par les rsultats de lanne
prcdente. Dans ce cas on comprend que faire un tirage systmatique dune entreprise toutes les a
dans une liste alphabtique, nest pas efcace car cette technique slectionne indiffremment des
socits petites ou grandes. Nous verrons dans les complments, une extension du tirage syst-
matique avec probabilits proportionnelles la taille, dans lexemple la taille est mesure par une
variable dactivit de lanne prcdente.
Dnition dun tirage systmatique
Soit une population qui se prsente dans un certain ordre. Soit N la taille de la population et n la
taille de lchantillon tirer. Supposons pour simplier lcriture que : N = na. On appelle a le pas
dchantillonnage ou de tirage. Pour tirer un chantillon de taille n dans cette population, suivant un plan
systmatique :
on tire un premier lment r uniformment sur les a premiers lments de la population,
4.2. PLAN SYSTMATIQUE 35
TABLE 4.1 Population et chantillons dans le plan systmatique
Grappe ou chantillon Lchantillon est form des lments :
s
1
1, a + 1, 2a + 1, (n 1)a + 1

s
r
r, a +r, 2a +r, (n 1)a +r

s
a
a, 2a, 3a, na
on prend comme chantillon, s
r
form des lments r, r +a, r + 2a, .
Ceci est illustr sur la table (4.1). Observons que pour un ordonnancement particulier de la population, il
ny a que a chantillons possibles. Chacun de ces a chantillons forme une grappe au sens de la thorie
des sondages : une grappe est un sous ensemble de la population tel que ds quun lment dune grappe
est tir, on tire tous les individus de la grappe. (Le tirage en grappe sera abord dans le chapitre consacr
aux plans deux degrs.) Par comparaison, dans un plan SI, il y a
_
N
n
_
chantillons possibles.
Chaque lment appartient un et un seul chantillon, tous les chantillons ont les mmes chances
(1/a) de sortir. La probabilit dinclusion dun lment k est
k
= 1/a, mais :
kl
=
_
1/a si k et l appartiennent au mme chantillon
0 sinon
Estimation du total Notons t
s
r
=
s
r
y
k
, t
y
= t se dcompose en
t
y
=
a
r=1
t
s
r
et lestimateur du total par les valeurs dilates est :
= at
s
(4.2)
o t
s
est le total de lchantillon s tir. Sa variance sobtient partir des
kl
. On obtient
var
SYS
(
) = a
a
r=1
(t
s
r
t)
2
(4.3)
o t = (1/a)
a
r=1
t
s
r
.
Estimation de la moyenne La moyenne est estime par
y =
a
N
t
s
=
1
n
t
s
= y
s
(4.4)
dont la variance dans le plan systmatique est
var
SYS
(
y) =
1
nN
a
r=1
(t
s
r
t)
2
(4.5)
Il ny a pas destimateur sans biais de la variance var
SYS
(
) pour le plan systmatique. On peut

sinspirer de lestimation de la variance dans le cas du plan SI. On pose :
S
2
ys
r
=
1
n 1
s
r
(y
k
ys
r
)
2
.
et lestimation suggre par le plan SI est :
V =
N
2
(1 f)
n
S
2
ys
r
. (4.6)
Cet estimateur surestime la variance si les chantillons quon peut obtenir, tant donn lorganisation de
la population, sont trs htrognes (cest--dire sont forms de valeurs trs variables).
Les sondages systmatiques sont souvent utiliss pour des donnes gographiques comme lillustrent
les deux exemples suivants.
Exemple 1 Pour un sondage sur une zone gographique rectangulaire formes de parcelles rectangulaires
de dimensions constantes, il est intressant de faire un sondage systmatique, car on peut couvrir ainsi
tout le territoire.
Exemple 2 Pour mesurer le niveau du pesticide dieldrin sur une certaine portion de rivire, on a dcoup
le cours de la rivire en segments dgales longueurs puis chacun de ces segments en deux zones de sur-
faces voisines (rive gauche et rive droite). Ensuite par un plan systmatique on peut choisir un chantillon
de zones dans lesquelles on mesurera le pesticide. Voir lexemple numrique en n de chapitre.
Exemple de mise en oeuvre pratique.
http://www.ats.ucla.edu/stat/sas/faq/svy_sas_rss.htm
SAS FAQ How do I analyze survey data with a repeated systematic
sampling design?
This example is taken from Levy and Lemeshows Sampling of Populations.
page 109 repeated systematic sampling
This example uses the wloss2 data set.
NOTE: The PSUs are listed on the cluster statement in SAS.
Also, the coloring in the (enhanced) program editor window does not work properly
with the cluster statement, so dont think that you have specified the statement
incorrectly just because the keyword "cluster" does not turn blue.
proc surveymeans data = wloss2 n = 54 sum std mean;
weight wt1;
cluster cluster;
var xi;
run;
The SURVEYMEANS Procedure
Data Summary
Number of Clusters 6 Number of Observations
18 Sum of Weights 162
Statistics
Std Error
Variable Mean of Mean Sum Std
Dev
------------------------------------------------------------------------
XI 4.500000 0.530548 729.000000
85.948822
------------------------------------------------------------------------
4.2.2 Complments sur le tirage systmatique
Nous approfondissons maintenant ltude du tirage systmatique et en particulier lestimation de la
variance. La matrise des complments qui suivent, nest pas indispensable en premire lecture.
Dabord nous identions les cas o lapproximation de la variance par la formule du plan SI est
acceptable. Ensuite nous voyons comment, en tirant plusieurs chantillons plus petits, on peut obtenir
une autre estimation de variance. Puis, nous supposons que nous avons une information auxiliaire : on
connait x
k
, k U et x
k
est trs lie, dans un sens prciser, la variable dtude y
k
. Cette information
auxiliaire peut tre par exemple, le volume dactivit de lanne prcdente dans lexemple des socits,
la position dune zone par rapport lamont, dans lexemple de la mesure dun pesticide dans une rivire.
Nous verrons deux faons de la prendre en compte pour amliorer lestimation du total.
Dcomposition de lANOVA
La dcomposition de la variance en variance inter groupe et variance intra groupe se rencontre en
ANOVA et dans beaucoup de mthodes statistiques. Ici un groupe est un chantillon possible dans un
tirage systmatique.
Notons y
s
r
la moyenne arithmtique sur lchantillon. La somme des carrs totale,
SST =
U
(y
k
y
U
)
2
,
se dcompose en une somme des carrs intergroupes ou interchantillons,
SSB =
a
r=1
n(y
s
r
y
U
)
2
et une somme des carrs intragroupes ou intra-chantillons,
SSW =
a
r=1
ks
r
(y
k
y
s
r
)
2
.
SST = SSB +SSW. (4.7)
Revenant au tirage systmatique, nous observons que
var
SYS
(
) = N SSB (4.8)
Lestimation par tirage systmatique sera donc dautant plus efcace que la variabilit interchantillons
est faible, ou, considrant la dcomposition de lANOVA, que la variabilit intra-chantillon est grande,
autrement dit que les chantillons sont htrognes.
On utilise deux mesures dhomognit des chantillons.
1 Le coefcient dhomognit , obtenu de la faon suivante. Considrons un modle dANOVA un
facteur prenant a niveaux (le facteur chantillon), estim sur la population U considre comme
un chantillon dune population innie. Le coefcient de dtermination ajust de cette rgression
1
est :
= 1
SSW/(N a)
SST/(N 1)
= 1
N 1
N a
SSW
SST
1. Indication : tout cours sur lanalyse de variance un facteur ou sur le modle linaire, contient les calculs ncessaires.
2 On utilise aussi le coefcient
= 1
n
n 1
SSW
SST
= 1
n
n 1
N a
N 1
(1 ). (4.9)
Notons que cest une fonction monotone croissante de .
Lun ou lautre de ces coefcients permettent de prciser lorganisation de la population dans laquelle
est fait le tirage systmatique et de comprendre les proprits de lestimateur correspondant. Examinons
. On a
min
=
a 1
N a

max
= 1
=
a1
Na
arrive quand la variabilit intra chantillons est la mme que la variabilit totale, donc
SSB = 0. Dans ce cas, la variance du plan systmatique est nulle. Si
min
, lapproximation (4.6)
par la formule du plan SI, surestime la variance. Un intervalle de conance pour le total, bas sur cet
estimateur de variance est trop large. On dit quil est conservatif.
Prcisions : soit
un estimateur sans biais de et

V (
) une estimation de la variance de
. Un intervalle
de conance approch, 95% pour est : [
1.96(

V (
))
.5
]. On admet, ce qui est souvent correct, que
est approximativement normalement distribu, do la valeur 1.96 qui est le quantile dordre 97.5% de
la loi normale centre rduite. Si

V (
) surestime la variance, lintervalle contient

avec une probabilit
suprieure 0.95.
= 1 quand la variabilit intra chantillons est nulle : dans chaque chantillon toutes les valeurs de
y sont identiques. Dans ce cas, un plan systmatique napporte rien par rapport un plan SI. Si 1,
lapproximation (4.6) est satisfaisante.
En rsum, un tirage systmatique sera efcace quand le pas de tirage, combin avec lorganisation
de la population donnent des chantillons trs htrognes. De faon complmentaire, on peut observer
que si le pas de tirage, combin avec lorganisation de la population donnent des chantillons forms
de valeurs qui uctuent peu dans chaque chantillon, faire n observations de valeurs proches entre elles
nest pas trs efcace, car elles donnent une information redondante.
Bonnes pratiques.
1 Quand on ne dispose daucune information sur la population, on peut faire un graphique des valeurs
chantillonnes contre leur numro de tirage, pour voir leur volution.
2 Si lon a accs toute la population avant dy faire le tirage et quon na pas dautres informations sur
cette population, il est prudent den faire dabord un tri alatoire.
3 Si lon dispose dune information auxiliaire, par exemple une variable x, connue sur U telle que
y
k
a
0
+ a
1
x
k
, il est recommand de trier la population suivant x avant de faire le tirage. Cela
augmente lhtrognit des chantillons.
Une autre criture de la variance est trs parlante. Remplaons dans (4.8), SSW par son expression
en fonction de et SST, on obtient lcriture alternative :
var
SYS
(
) =
N
n
SST(1 + (n 1)) (4.10)
Lexpression parallle pour la variance de la moyenne est :
var
SYS
(
y) =
1
n
SST
N
(1 + (n 1))
1
n
S
2
yU
(1 + (n 1)) (4.11)
Estimation de la variance
Nous avons dj signal quil ny a pas destimateur sans biais de la variance var
SYS
(
) pour le plan
systmatique. Nous examinons maintenant quelques solutions alternatives.
Estimation de la variance inspire du cas du plan SI Nous avons dj examin les proprits de
lapproximation par la formule du plan SI, en fonction de lhtrognit des chantillons.
Tirages systmatiques rpts Si on peut rpter des tirages systmatiques avec diffrents points de
dpart, on obtient diffrentes estimations de la mme quantit (total ou moyenne) et on peut ensuite
dduire une estimation de la variance. Cest ce que nous illustrons maintenant pour lestimation de la
moyenne.
Etant donn la population de taille N, on doit tirer un chantillon systmatique de taille n. On peut
le tirer en une fois avec un pas de tirage a =
N
n
ou bien tirer m chantillons systmatiques de taille
n
= n/m et chacun avec un pas a
= m
N
n
.
Chaque chantillon s
j
, j = 1, , m donne une estimation sans biais : y
j
= (1/n
s
j
y
k
de la
moyenne y
U
et une estimation de variance :
S
2
ys
j
=
1
n
s
j
(y
k
y
j
)
2
.
On dduit immdiatement une estimation sans biais de y
U
:
y =
1
m
m
j=1
y
j
.
Passons lestimation de la variance. On va distinguer deux cas selon que les points de dpart ont t
choisis avec ou sans remise.
Avec remise Les m points de dpart sont choisis indpendamment et un estimateur sans biais de la
variance de
y est
var(
y) =
1
m(m1)
m
j=1
(y
j
y)
2
Sans remise Maintenant les m points de dpart sont choisis sans remise. Les y
j
sont des valeurs choi-
sies sans remise parmi a valeurs possibles. Utilisant notre connaissance du plan SI, on obtient
lestimateur sans biais de var(
y) :
(1 f)
1
m(m1)
m
j=1
(y
j
y)
2
o f = m/a est le taux de sondage dans la population des points de dpart possibles.
Approximation de la variance quand on dispose dune information auxiliaire Supposons mainte-
nant quon dispose dune variable auxiliaire x
k
, k U telle que y
k
a
0
+x
k
. La population est trie
suivant les x. On peut donc considrer que
y
k
y
k+l
si k et l ne sont pas trop loigns. Supposons n pair et imaginons la population partitionne en m =
n/2 strates
2
: U
1
, , U
m
de taille N/m = 2a. La premire strate est forme des lments numros
1, 2, , 2a, la deuxime des lments 2 a + 1, , 4 a... Dans la reprsentation de la population sous
forme de tableau (4.1), la strate 1 est forme des deux premires colonnes, la strate 2 des deux suivantes...
Lchantillonnage systmatique fournit des chantillons de taille 2 dans chacune des strates : pour la
strate 1, lments r et a + r si cest lchantillon qui commence en r qui est tir. Le total dans la strate
h est
2ha
k=(h1)2a+1
y
k
. Lchantillon s
h
de taille 2 tir dans U
h
est y
(h1)2a+r
, y
(h1)2a+r+a
o r est le
point de dpart des tirages. On vrie que
S
2
ys
h
= (1/2)(y
(h1)2a+r
y
(h1)2a+r+a
)
2
.
Dautre part,
t
yU
h
= a(y
(h1)2a+r
+y
(h1)2a+r+a
) et
var(
t
yU
h
) = (4a)
2
(1/2 1/2a)S
2
ys
h
= a
2
(1 1/a)(y
(h1)2a+r
y
(h1)2a+r+a
)
2
,
qui est lapproximation par plan SI. Enn, lestimation de la variance de
t
yU
est
var(
t
yU
) = a
2
(1 1/a)
m
h=1
(y
(h1)2a+r
y
(h1)2a+r+a
)
2
,
Enn lestimation de la variance de la moyenne est :
var(
y
U
) = (1/N)
2
a
2
(1 1/a)
m
h=1
(y
(h1)2a+r
y
(h1)2a+r+a
)
2
= (1 f)
1
n
2
m
h=1
(y
(h1)2a+r
y
(h1)2a+r+a
)
2
o f = n/N.
On peut tendre lide de ces strates ctives des strates glissantes et non disjointes.
Question. Quel est lintrt de former ces pseudo strates laide dlments que lon sait prendre des
valeurs proches
3
?
Tirage systmatique proportionnel la taille
Nous voyons maintenant une technique de tirage systmatique adapte lexemple des socits
controler. Notons x
k
la mesure de taille de lunit k, connue quel que soit k et t
x
=
U
x
k
; les x
k
sont
une information auxiliaire. Les tapes de ce tirage sont les suivantes :
1. Soit n la taille de lchantillon quon doit tirer. Si une unit a une mesure de taille t
x
/n elle est
retire de la population et est mise dofce dans lchantillon.
2. Posons p
i
= x
i
/t
x
et
i
= np
i
.
3. On forme V
k
=
k
i=1
p
i
, k U et V
0
= 0.
4. On gnre une observation u, dune v.a. Unif(0, 1).
5. Lchantillon est form des units : k
1
telle que V
k
1
1
< u V
k
1
, k
2
telle que V
k
2
1
< u + 1
V
k
2
, , k
n
telle que V
k
n
1
< u +n 1 V
k
n
.
On voit que la probabilit que lunit k soit dans lchantillon est la longueur de lintervalle [V
k1
, V
k
],
cest--dire la quantit
k
. Dans cette mthode beaucoup de probabilit dinclusion dordre 2 sont nulles.
Des approximations de la variance du total ont t proposes.
2. Dnition : une strate est une sous-population pour laquelle on a un plan de sondage, alors quun domaine est une
sous-population sans plan de sondage spcique. Le plan strati est tudi dans le chapitre 5.
3. Rponse : on a toujours intrt fabriquer des strates homognes.
Chapitre 5
Sondage strati
Dans cet e-thme nous tudions les plans de sondage strati et en particulier le plan simple strati
(STSI). Nous donnons les estimateurs de Horvitz-Thomson associs ce plan pour lestimation dun
total, dune moyenne et de la variance de ces estimateurs. Nous prsentons aussi diffrentes mthodes
pour laffectation de la taille dchantillon aux strates.
5.1 Introduction
Exemples
1 Une rgion contient un certain nombres dcoles primaires. On doit en constituer un chantillon. Si
lon fait un tirage simple dcoles dans la liste des coles de la rgion, que peut-il se passer ? On
peut obtenir par hasard :
1 surtout des coles de faible effectif ce qui biaiserait les rsultats si lon sintressait une va-
riable lie la taille de lcole, comme la dpense annuelle en lectricit par cole,
2 seulement des coles rurales, ce qui biaiserait les rsultats si la caractristique tudie dpend du
caractre rural/urbain de lcole, comme la proportion dlves utilisant les cars de ramassage
scolaire,
3 des coles rparties dans toute la rgion, sans quelles soient pour autant trs diffrentes, ce qui
occasionnerait des cots levs de collecte des donnes.
On voit sur cet exemple quon doit choisir un plan dchantillonnage qui tient compte autant que
possible, des diffrences entre niveaux moyens de la variable dtude et de la rpartition gogra-
phique de la population, dans diffrentes sous-populations quon appelle strates.
2 On doit estimer le chiffre daffaire total des entreprises dun certain secteur (on doit recourir un
sondage car les donnes compltes ne seront disponibles quau bout dun temps trop long par raport
aux dcisions prendre). Or les entreprises sont deffectifs trs variables et le chiffre daffaire est
li la taille de lentreprise. On voit que si lon prlve lchantillon par un plan simple, on aura une
grande variabilit de lestimateur avec par exemple un chantillon essentiellement form de petites
entreprises et une forte sous-estimation. On a donc intrt mesurer la variable chiffre daffaire
sur des entreprises de diffrentes tailles, cest--dire dcouper lensemble des entreprises en
strates dnies partir de la taille et chantillonner dans les diffrentes strates. Tenant compte
de notre prcdente observation sur la variabilit, on voudrait chantillonner proportionnellement
plus dentreprises de grande taille que de petite taille. Le plan strati est un plan de sondage
qui tient compte de ces considrations. Cest une technique simple qui peut grandement amliorer
lefcacit.
41
42 CHAPITRE 5. SONDAGE STRATIFI
Pour complter la description de cet exemple, notons que la variable taille a servi faire des classes
de tailles homognes en vue davoir des entreprises de chiffre daffaire proche dans chaque classe
mais nest pas utilise autrement.
Rsum du cadre gnral : le plan strati est un plan dans lequel :
1 la population tudie est partitionne en strates,
2 un plan de sondage est dni pour chaque strate,
3 on tire dans chaque strate un chantillon, indpendamment des chantillons tirs dans les autres strates.
Dans cette leon, nous tudierons dans un cadre simple laffectation de lchantillon des classes pr-
existantes.
Observation. La possibilit de dnir des strates (ou une stratication) correspond lexistence dune va-
riable auxiliaire dans la base de donnes. Dans lexemple des coles a peut tre la rgion o est installe
lcole, le caractre urbain/rural de sa commune. Dans lexemple des entreprises a peut tre leffectif
salari, discrtis pour donner des classes.
5.2 Plan strati gnral
Notations. La population U est partitionne en H sous-populations ou strates : U
1
, , U
H
. La variable
dtude est y, y
k
la valeur de y pour llment k.
Caractristiques.
Sur la population Pour la strate h
Effectif N = card(U) N
h
= card(U
h
)
Total t
yU
t
yU
h
Moyenne y
U
y
U
h
Variance S
2
yU
S
2
yU
h
On a les relation suivantes :
N =
H
h=1
N
h
= N
t
yU
=
H
h=1
t
yU
h
,
y
U
=
H
h=1
N
h
N
y
U
h
.
Pour chaque strate U
h
on choisit un plan de sondage, de probabilits dinclusion
h,k
indpendant des
plans des autres strates et on tire un chantillon s
h
, lchantillon total est s =

H
h=1
s
h
. Lestimateur du
total est videmment la somme des estimateurs des totaux sur les strates.
On forme
t
h
estimateur de Horwitz-Thompson (H-T) de t
yU
h
:
t
h
=
s
h
y
k
h
.
5.3. PLAN STSI 43
Lestimateur de H-T par stratication de t
yU
est la somme des estimateurs sur les diffrentes strates :
t
yU,
=
H
h=1
t
h
.
Comme les diffrents plans sont indpendants, la variance de
t
yU,
est la somme des variances.
var
ST
(
t
yU,
) =
H
h=1
var(
t
h
)
Nous examinons maintenant le plan strati avec plan SI dans chaque strate.
5.3 Plan STSI
Le plan STSI est un plan strati avec plan SI dans chaque strate.
Echantillonnage. h 1, 2, , H, on note n
h
leffectif quon choisit de tirer dans U
h
, s
h
lchan-
tillon obtenu et f
h
= n
h
/N
h
le taux de sondage dans la strate h. Sur U
h
lestimateur du total est donc
t
h
=
N
h
n
h
ks
h
y
k
= N
h
y
s
h
,
de variance :
var(
t
h
) = N
2
h
(
1
n
h
1
N
h
)S
2
yU
h
,
o S
2
yU
h
= 1/(N
h
1)
kU
h
(y
k
y
U
h
)
2
est la variance de y sur U
h
. Lestimateur du total sur U est
la somme des estimateurs des totaux sur les diffrentes strates :
t
U
=
H
h=1
t
h
=
H
h=1
N
h
y
s
h
(5.1)
Sa variance est la somme des variances sur les diffrentes strates :
var
STSI
(
t
U,
) =
H
h=1
var(
t
yU
h
h
)
=
H
h=1
N
2
h
_
1
n
h
1
N
h
_
S
2
yU
h
. (5.2)
Enn on en prend un estimateur par substitution :
var
STSI
(
t
yU,
) =
H
h=1
N
2
h
_
1
n
h
1
N
h
_
S
2
ys
h
(5.3)
Tenant compte de ce quon sait du plan SI, on voit que : est sans biais pour t
yU
, sa variance est estime
sans biais par (5.3).
5.3.1 Estimation dune moyenne
Dans le plan STSI, lestimateur de la moyenne y
U
est :
y
U
=
H
h=1
N
h
N
y
s
h
(5.4)
et sa variance est estime par :
1
N
2
H
h=1
N
2
h
_
1
n
h
1
N
h
_
S
2
ys
h
(5.5)
5.4 Affectation aux strates
5.4.1 Affectation optimale pour estimer le total
Les strates tant dnies, on choisit de sonder suivant un plan STSI et on doit maintenant choisir les
effectifs chantillonner dans les diffrentes strates. Sur (5.3) on voit que la variance de lestimateur du
total est de la forme
V =
H
h=1
A
h
n
h
B
o A
h
= N
2
h
S
2
yU
h
et B =
H
h=1
N
h
S
2
yU
h
. Supposons que le cot dun sondage soit de la forme :
C = c
0
+
h
n
h
c
h
(5.6)
o c
0
est un cot (en Euros) xe indpendant des units tires et c
h
le cot dune unit chantillonne
dans la strate h. Etant donn une enveloppe budgtaire de C Euros, on doit rpartir lchantillon de
manire minimiser la variance totale. Par la technique du multiplicateur de Lagrange (cf louvrage de
Till par exemple), ou par des techniques plus simples (cf louvrage de Srndal et al.), on obtient
n
h
proportionnel
_
A
h
c
h
cest--dire n
h

N
h
S
yU
h
c
h
De cette proportionnalit on dduit les tailles optimales
n
h
= (C c
0
)
_
A
h
c
h
/(
i
_
A
i
c
i
)
= (C c
0
)(
N
h
S
yU
h
c
h
)
1
H
i=1
N
i
S
yU
i
c
i
En particulier sil ny a pas de cot xe et si les cots marginaux sont constants : c
0
= 0, c
h
= 1 alors
la contrainte de cot total revient une contrainte de taille : n, et laffectation optimale est donne par
n
h
= n
N
h
S
yU
h
H
i=1
N
i
S
yU
i
. (5.7)
Il faut donc chantillonner dautant plus dindividus dans une strate quelle est de taille leve (N
h
grand)
ou quelle est trs disperse (S
yU
h
grand). Il reste une difcult pour mettre en uvre cette ide : on ne
connat pas les S
yU
h
. On va donc sintresser dautres affectations, bases sur une information partielle
ou approximative.
5.4. AFFECTATION AUX STRATES 45
5.4.2 Autres affectations de lchantillon aux strates
Affectation proportionnelle au total de y On choisit les tailles qui vrient :
n
h
= n
t
yU
h
t
yU
(5.8)
On voit quelle revient laffectation optimale quand les coefcients de variation sont gaux :
S
yU
h
y
U
h
= cte h
Affectation proportionnelle la taille On choisit les tailles qui vrient :
n
h
= n
N
h
H
i=1
N
i
(5.9)
Cette affectation est optimale quand les cart-types dans les strates sont gaux. On lemploie parfois
quand on ignore tout des dispersions dans les strates.
Affectation x-optimale Supposons quon dispose dune variable auxiliaire : x
k
observe pour tout
k U et telle que :
y
k

0
+
1
x
k
, k U
On voit que S
2
yU
h

2
1
S
2
xU
h
et quune affectation possible est :
n
h
= n
N
h
S
xU
h
H
i=1
N
i
S
xU
i
. (5.10)
Affectation proportionnelle au total de x
n
h
= n
t
xU
h
t
xU
(5.11)
Complments.
1. Si dans une affectation optimale on obtient un n
h
0
> N
h
0
alors on tire tous les individus de la
strate et on fait une affectation optimale de n N
h
0
lments aux autres strates. La contribution
de la strate h
0
la variance est nulle.
2. On ntudie pas dans ce cours le choix des strates. Pour les dnir on peut avoir recours aux
techniques danalyse des donnes comme la classication quon met en uvre sur des variables
auxiliaires.
3. Souvent un mme sondage doit servir tudier plusieurs variables dtude. Plusieurs choix daf-
fectations sont possibles. Par exemple on peut choisir laffectation qui minimise une combinaison
linaire des variances (5.2). Pour deux variables dtude y
1
et y
2
, exprimes dans les mmes units,
ceci revient chercher les n
h
qui minimisent
H
h=1
N
2
h
w
1
S
2
y
1
U
h
+w
2
S
2
y
2
U
h
n
h
avec w
1
, w
2
0, w
1
+w
2
= 1
sous la contrainte (5.6). On choisit w
1
et w
2
en fonction de limportance de la prcision requise
pour chaque variable.
5.5 Poststratication
5.5.1 Dnition de lestimateur poststrati
Reprenons lexemple des revenus de la section 1. A dfaut de pouvoir prlever des chantillons s-
pars dhommes et de femmes on peut, une fois lchantillon prlev sans tenir compte du sexe, noter
le sexe et la variable dtude pour poursuivre lanalyse. On peut incorporer aprs chantillonnage la
connaissance des effectifs des sous-populations. Cette prise en compte des strates aprs chantillonnage
est appele post-stratication.
Post-stratication dans un plan SI. La population U est partitionne en H sous-populations comme
prcdemment et le niveau moyen de la variable y est a priori diffrent dune strate lautre. On tire
un chantillon s dans U de n lments par plan SI. On observe k s : y
k
et la strate de k. On note
s
h
= s
U
h
le sous chantillon observ dans la strate h, n
h
la taille de s
h
et y
s
h
= (1/n
h
)
s
h
y
k
, h =
1, , H. Lestimateur post-strati de t
yU
est
t
postyU
=
H
h=1
N
h
y
s
h
(5.12)
La diffrence essentielle par rapport (5.1) est que maintenant la moyenne y
s
h
est un quotient de 2 v.a.
(par rapport au mcanisme de sondage) alors que dans le plan STSI, n
h
nest pas alatoire.
5.5.2 Proprits de lestimateur poststrati.
On a :
1 Le total t
yU
est estim sans biais par :
t
postyU
.
2 La variance de
t
postyU
est :
var(
t
postyU
) =
h
N
2
h
S
2
yU
h
E
_
1
n
h
1
N
h
_
(5.13)
Pour la moyenne on a :
1 y
U
est estim sans biais par :
y
postyU
=

H
h=1
W
h
y
s
h
, avec W
h
=
N
h
N
, part en effectif de la strate
U
h
dans la population totale.
2 La variance de
y
postyU
est :
var(
y
postyU
) =
h
W
2
h
S
2
yU
h
E
_
1
n
h
1
N
h
_
. (5.14)
Il ny a pas dexpression analytique pour E
_
1
n
h
_
. Si on fait un dveloppement lordre 1 de
E
_
1
n
h
_
on obtient, voir ci-dessous :
var(
y
postyU
)
h
N
h
nN
S
2
yU
h
(5.15)
Si on fait un dveloppement lordre 2 on obtient :
var(
y
postyU
)
h
W
2
h
S
2
yU
h
_
N
nN
h
+
_
N
nN
h
_
2
N n
N
N N
h
N 1

1
N
h
_
. (5.16)
On estime ces variances en remplaant dans (5.15) et (5.14), les S
2
yU
h
par leurs estimations S
2
ys
h
.
Remarque. Il peut arriver que certains n
h
soient 1 et il faut dans ce cas revoir la dnition des strates.
5.5. POSTSTRATIFICATION 47
Approximation de E(1/n
h
) On a rencontr dans (5.13) E(1/n
h
). Cette esprance sapproche par un
dveloppement de Taylor lordre 1 ou 2 de 1/n
h
au voisinage de E(n
h
).
Dtails.
1- Notons dabord que n
h
=
kU
11
k
(s) 11
k
(U
h
). Comme on tire dans U suivant un plan SI, on obtient
E(n
h
) =
n
N
N
h
= nW
h
,
et
var(n
h
) =

k,lU
11
k
(U
h
) 11
l
(U
h
)cov(11
k
(s), 11
l
(s)) = = N
h
f(1 f)
_
1
N
h
1
N 1
_
.
o f =
n
N
.
2- Dautre part, le dveloppement lordre 2 de 1/x au voisinage de x
0
,= 0 est :
1
x

1
x
0
x x
0
x
2
0
+
(x x
0
)
2
x
3
0
.
Appliquons ce rsultat lapproximation de 1/n
h
, pour une certaine strate h et prenons lesprance
mathmatique des deux cts de la relation. Il vient :
E(
1
n
h
)
1
nW
h
+ 0 +
var(n
h
)
n
3
W
3
h
= =
N
nN
h
+
_
N
nN
h
_
2
N n
N
N N
h
N 1
(5.17)
3 Notons enn que si on se limite lordre 1 on a :
E
_
1
n
h
_
1
nW
h
,
et on obtient des approximations plus grossires.
Bibliographie
[1] P. ARDILLY; Techniques de sondages ; Technip ; 2006.
[2] W. G. COCHRAN; Sampling techniques ; Wiley ; 1977.
[3] S. L. LOHR; Sampling : Design and Analysis . Duxbury Press ; 1999
[4] K.E. SRNDAL, B. SWENSON, J. WRETMANN ; Model Assisted Survey Sampling ; Sprin-
ger ; 1992.
[5] S.K. THOMPSON; Sampling ; Wiley ; 1992
[6] Y. TILL; Thorie des sondages chantillonnage et estimation en populations nies Cours et
exercices avec solutions ; Dunod ; 2001
Le livre de Srndal et collaborateurs couvre une grande quantit de questions, rigoureusement et
avec des notations commodes. Nous nous en inspirons souvent. Il nest pas conseill de lutiliser comme
ouvrage dinitiation. Louvrage de Lohr est assez peu mathmatis mais contient une grande quantit
dexemples inspirs de situations concrtes trs varies. Les exemples du livre de Thompson concernent
particulirement les populations biologiques : animaux, espces. Louvrage dArdilly (en franais) est
dune lecture trs agrable et ses exemples concernent souvent la statistique ofcielle. Le livre de Co-
chran est trs riche, dtaill et prend beaucoup de ses exemples dans les enqutes agricoles. Le livre de
Till (en franais) est un bon expos thorique.
49

Chap1a5 Camelia

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Chap1a5 Camelia

Hochgeladen von

Copyright:

Verfügbare Formate

M2 Statistique & conomtrie

est un estimateur approximativement sans biais de , on a souvent :

) 0 quand n . Cette proprit asymptotique permet de construire des intervalles de

donn par (3.5). La moyenne est y

) pour le plan systmatique. On peut

un estimateur sans biais de et

) une estimation de la variance de

) surestime la variance, lintervalle contient

= n/m et chacun avec un pas a

Das könnte Ihnen auch gefallen