Beruflich Dokumente
Kultur Dokumente
ISSN 1712-5685
Techniques
d'enqute
JXLQ 2014
1-800-263-1136
1-800-363-7629
1-877-287-4369
1-800-635-7943
1-800-565-7757
Signes conventionnels
Les signes conventionnels suivants sont employs dans
les publications de Statistique Canada :
.
..
...
0
s
0
p
r
x
E
F
*
TECHNIQUES DENQUTE
Membres
G. Beaudoin
S. Fortier (Gestionnaire de la production)
J. Gambino
M.A. Hidiroglou
H. Mantel
Rdacteurs associs
J.-F. Beaumont, Statistique Canada
J. van den Brakel, Statistics Netherlands
J.M. Brick, Westat Inc.
P. Cantwell, U.S. Bureau of the Census
R. Chambers, Centre for Statistical and Survey Methodology
J.L. Eltinge, U.S. Bureau of Labor Statistics
W.A. Fuller, Iowa State University
J. Gambino, Statistique Canada
D. Haziza, Universit de Montral
B. Hulliger, University of Applied Sciences Northwestern Switzerland
D. Judkins, Abt Associates
D. Kasprzyk, National Opinion Research Center
J.K. Kim, Iowa State University
P.S. Kott, RTI International
P. Lahiri, JPSM, University of Maryland
P. Lavalle, Statistique Canada
P. Lynn, University of Essex
D.J. Malec, National Center for Health Statistics
Rdacteurs adjoints C. Bocci, K. Bosa, C. Boulet, C. Leon, H. Mantel, S. Matthews, Z. Patak, S. Rubin-Bleuer et
Y. You, Statistique Canada
POLITIQUE DE RDACTION
Techniques denqute publie des articles sur les divers aspects des mthodes statistiques qui intressent un organisme
statistique comme, par exemple, les problmes de conception dcoulant de contraintes dordre pratique, lutilisation de
diffrentes sources de donnes et de mthodes de collecte, les erreurs dans les enqutes, lvaluation des enqutes, la
recherche sur les mthodes denqute, lanalyse des sries chronologiques, la dsaisonnalisation, les tudes
dmographiques, lintgration de donnes statistiques, les mthodes destimation et danalyse de donnes et le
dveloppement de systmes gnraliss. Une importance particulire est accorde llaboration et lvaluation de
mthodes qui ont t utilises pour la collecte de donnes ou appliques des donnes relles. Tous les articles seront
soumis une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions mises dans la
revue ne sont pas ncessairement celles du comit de rdaction ni de Statistique Canada.
Techniques denqute
Communications brves
Daniel Manrique-Vallier et Jerome P. Reiter
Imputation multiple baysienne pour des donnes catgoriques grande chelle contenant
des zros structurels ..............................................................................................................................................137
1 Introduction
Les mthodes destimation sur petits domaines sont souvent utilises pour estimer les proportions
dunits ayant une caractristique donne dans de petits domaines. Ainsi, ces mthodes sont appliques
aux donnes du programme des Small Area Income and Poverty Estimates (SAIPE) du Census Bureau
pour estimer les taux de pauvret au niveau de ltat, du comt et du district scolaire (Citro et Kalton,
2000; Maples et Bell 2005), aux donnes de la National Survey on Drug Use and Health (NSDUH) pour
estimer les taux de consommation de drogues au niveau de ltat (Wright, Sathe et Spagnola 2007), et aux
donnes de la National Assessment of Adult Literacy (NAAL) pour estimer les proportions de personnes
ayant le plus faible niveau dalphabtisation au niveau de ltat et du comt (Mohadjer, Rao, Liu, Krenzke
et Van De Kerckhove 2012). Dans chaque cas, les tailles dchantillon dans les petits domaines sont trop
faibles pour produire des estimations directes dune prcision suffisante. Une grande varit de mthodes
ont t labores pour rsoudre ces problmes destimation sur petits domaines. Voir Rao (2003) et Jiang
et Lahiri (2006a) pour une revue de ces mthodes, et Chattopadhyay, Lahiri, Larsen et Reimnitz (1999),
Farrell, MacGibbon and Tomberlin (1997) ainsi que Malec, Sedransk, Moriarity et LeClere (1997) et
Malec, Davis et Cao (1999) pour des mthodes conues spcialement pour estimer les proportions dans les
petits domaines. La gamme de mthodes englobe lapproche hirarchique baysienne (HB) et celle du
meilleur prdicteur empirique (MPE), ainsi que les modles labors au niveau du domaine et au niveau
de lunit. Nous nous concentrons ici sur les modles HB au niveau du domaine.
Lorsquon fait appel un modle HB au niveau du domaine pour produire des estimations des
proportions dunits possdant une caractristique donne dans de petits domaines, on suppose
1. Benmei Liu, Division of Cancer Control and Population Sciences, National Cancer Institute, 9609 Medical Center Drive Room 4E524,
Bethesda, Maryland 20892; Courriel : liub2@mail.nih.gov; Partha Lahiri, JPSM, University of Maryland, 1218 Lefrak Hall, College Park,
Maryland 20742; Graham Kalton, Westar, 1600 Research Boulevard, Rockville, Maryland 20850. Une grande partie de ce travail de recherche
a t effectu alors que la premire auteure tait tudiante au cycle suprieur du Joint Program in Survey Methodology de lUniversit du
Maryland.
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
habituellement que, pour chaque domaine chantillonn, la proportion pondre par les poids de sondage
suit une loi dchantillonnage normale et que sa variance dchantillonnage est connue. Cependant, ces
hypothses posent problme lorsque la taille de lchantillon de petit domaine est petite ou que la
proportion relle est proche de 0 ou de 1. Afin de pouvoir appliquer le thorme central limite pour
approximer la normalit de la distribution dchantillonnage dune proportion, les chantillons doivent
tre raisonnablement grands, particulirement si la proportion dans la population est trs petite ou trs
grande (p. ex., infrieure 0,1 ou suprieure 0,9). En outre, quand les proportions sont trs petites ou
trs grandes, la variance dchantillonnage dune proportion dans lchantillon est extrmement sensible
la valeur relle de la proportion, de sorte quil est difficile dtablir une valeur approprie pour la variance
dchantillonnage. Pour tenter de contourner ces problmes, nous proposons deux modles de rechange
pour estimer les proportions dans les petits domaines et nous les comparons deux modles utiliss
frquemment. Les modles sont dcrits la section 3. Les quatre modles sont compars au moyen dune
tude par simulation Monte Carlo dans laquelle des chantillons alatoires simples stratifis sont gnrs
partir dune population finie fixe. Ltude par simulation est dcrite la section 4 et les rsultats sont
prsents la section 5. Certaines conclusions sont formules la section 6. Cependant, pour commencer,
nous prsentons la notation pour un plan de sondage alatoire simple stratifi la section 2.
2 Notation
Soit N ih la taille de la population dans la strate h dans le domaine i dune population finie
( i 1,..., m; h 1,..., Hi ). Soit yihk la rponse binaire pour la caractristique dintrt pour lunit k dans
la strate h dans le domaine i (k 1,..., Nih ) . Les paramtres estimer sont les proportions dans les petits
Sous le plan de sondage alatoire simple stratifi choisi pour ltude, nih units sont slectionnes
parmi les N ih units dans la strate ( ih ). Lestimateur direct classique pour Pi est :
piw
wy
w
Hi
nih
Hi
ih
ihk
nih
, i 1,..., m,
(2.1)
ih
VARst (piw )
Pi (1 Pi )
DEFFi ,
ni
(2.2)
o DEFFi est leffet de plan qui traduit leffet du plan de sondage complexe (Kish 1965). Pour un
chantillon alatoire simple stratifi avec fractions dchantillonnage ngligeables dans toutes les strates,
leffet de plan est donn approximativement par :
W
DEFF
i
2
ih ih
P (1 Pih ) / nih
Pi (1 Pi ) / ni
(2.3)
o Wih Nih / Ni , Ni h Nih , ni h nih , et Pih est la proportion dans la population de la strate h
dans le domaine i .
Leffet de plan DEFFi est une fonction des Pih , qui sont inconnus. Si Pih (1 Pih ) Pi (1 Pi ) , une
approximation de DEFFi peut tre donne par deffiw ni hWih2 / nih . La valeur de deffiw se calcule
facilement, puisquelle ne dpend daucun des paramtres inconnus.
Les mthodes destimation sur petits domaines peuvent tre utilises pour rsoudre le problme d au
fait que piw est trs imprcis quand la taille de lchantillon ni est petite. La section 3 donne la
description des modles HB au niveau du domaine sur lesquels porte la prsente tude.
3 Modles tudis
Un modle gnral destimation sur petits domaines au niveau du domaine comprend deux
composantes. Lune le modle dchantillonnage est un modle pour lerreur dchantillonnage des
estimations directes daprs lenqute. Lautre le modle de lien relie la valeur de population pour
un domaine aux variables auxiliaires propres au domaine xi (xi1 ,..., xip ) .
La section 3.1 dcrit deux modles au niveau du domaine souvent utiliss pour estimer les proportions
dans les petits domaines et la section 3.2 dcrit certains problmes associs ces modles. La section 3.3
dcrit deux autres modles dont on peut se servir pour rsoudre ces problmes.
piw | Pi ~ N (Pi , i )
(3.1)
Modle de lien :
ind
Pi | , v2 ~ N (xi' , v2 )
(3.2)
piw | Pi ~ N (Pi , i )
(3.3)
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
Modle de lien :
ind
g (Pi ) | , v2 ~ N (xi' , v2 )
(3.4)
Les deux modles reposent sur lhypothse que la variance dchantillonnage i est connue. Le
modle 1 est considr comme un modle appari parce que les modles dchantillonnage et de lien
peuvent tre combins pour produire un modle mixte linaire relativement simple. Cependant, on prfre
souvent utiliser un modle de lien non linaire pour modliser les proportions, ce qui donne des modles
dchantillonnage et de lien non apparis, comme dans le modle 2 (voir, par exemple, You et Rao 2002).
La fonction lien g () peut tre dtermine empiriquement en vrifiant ladquation du modle. Les
fonctions lien log et logit ont t utilises. Le modle de lien logit(Pi ) est choisi ici afin dtre certain que
lestimation de Pi soit toujours comprise dans lintervalle de valeurs permises (0, 1).
deffiw .
(3.5)
Lorsquon ne dispose pas de variables auxiliaires, la proportion dans lchantillon global peut tre
utilise pour pisyn dans le calcul de lestimateur de variance synthtique.
Le deuxime problme a trait lhypothse de normalit dans le modle dchantillonnage, qui est
fonde sur une approximation en grand chantillon. Comme il est mentionn la section 1, lorsque la
taille de lchantillon ni est petite et que Pi est proche de 0 ou de 1, ce qui est frquent dans le cas de
lestimation sur petits domaines, cette hypothse pose problme.
covariance dchantillonnage dans la modlisation pour petits domaines au moyen de donnes denqute.
Rcemment, You (2008) a propos dutiliser des effets de plan gaux au cours du temps pour modliser
les variances dchantillonnage dans lestimation des taux de chmage dans les petits domaines en
utilisant un modle log-linaire transversal et chronologique. Dans le modle 3, en tant que variante du
modle 2, les variances dchantillonnage i sont traites comme tant inconnues. Afin de tenir compte
de la non-normalit des distributions dchantillonnage des proportions de petit domaine pondres par les
poids de sondage, lhypothse dune loi normale peut-tre remplace par celle dune autre loi. Cette
approche est applique dans le modle 4 en faisant lhypothse dune distribution dchantillonnage bta,
cest--dire une distribution qui possde la proprit dsirable davoir lintervalle de valeurs (0,1). Pour le
reste, le modle 4 est semblable au modle 3, y compris le traitement des i , i 1,..., m comme des
paramtres inconnus. Le modle 4 a t pris en considration antrieurement par Jiang et Lahiri (2006b)
titre dexemple de lestimation des moyennes de domaines de population finie en utilisant lapproche du
meilleur prdicteur empirique.
Modle 3 (modle normal-logistique avec variance dchantillonnage inconnue) :
Modle dchantillonnage :
ind
(3.6)
piw | Pi ~ N (Pi , i )
Modle de lien :
ind
(3.7)
(3.8)
piw | Pi ~ beta(ai , bi )
Modle de lien :
ind
(3.9)
La fonction de variance approximative utilise dans les modles 3 et 4 est i [Pi (1- Pi )/ni ]deffiw . Dans
le modle 4, les paramtres ai et bi sont donns par :
ai Pi i -1 , et bi (1- Pi ) i -1 .
deffiw
deffiw
Les estimations HB sur petits domaines peuvent tre calcules au moyen des quatre modles en
utilisant lalgorithme de Metropolis-Hastings dans lchantillonneur de Gibbs. Une description dtaille
de lalgorithme, qui tire des chantillons alatoires en se basant sur les lois conditionnelles compltes des
paramtres inconnus partir dun ou de plusieurs jeux de valeurs initiales, figure dans Robert et Casella
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
(1999) et dans Chen, Shao et Ibraham (2000). You et Rao (2002) dcrivent galement en dtail comment
lalgorithme de Metropolis-Hastings fonctionne dans lchantillonneur de Gibbs pour des modles
similaires aux modles 1 et 2. Pour les modles 3 et 4, lalgorithme fonctionne de la mme faon que pour
le modle 2. Les distributions conditionnelles compltes sous chaque modle sont donnes lannexe A.
2.
Pour les modles 1 et 2, on a pos que les variances dchantillonnage taient donnes par
i [ pw (1- pw )/ni ]deffiw , o pw wih yihk / ni wih est lestimation nationale de la
proportion de naissances vivantes avec faible poids de naissance. (Une vrification de lutilisation
de deffiw comme approximation de DEFFi a montr que lapproximation tait raisonnable : les
deux quantits taient proches, avec un coefficient de corrlation de Pearson de 0,96 et un ratio
moyen de 1,08 entre deffiw et DEFFi .)
3.
v2 ~ IG(0,001; 0,001) .
Pour chaque jeu de donnes dchantillon, la premire tape consistait calculer les estimations
directes sur chantillon au niveau de ltat. Les estimations pour chaque jeu de donnes dchantillon ont
ensuite t utilises tour tour comme entre dans le logiciel WinBUGS (Lunn, Thomas, Best et
Spiegelhalter 2000) employ pour produire les estimations HB pour les quatre modles.
Dans un nombre important dtats o ni tait petit, les estimations directes taient nulles dans certains
jeux de donnes dchantillon. Puisque WinBUGS ne peut traiter les estimations directes nulles que pour
le modle 1, pour les autres modles, les estimations directes nulles ont t perturbes afin de les
transformer en nombres positifs trs petits.
Pour chaque excution de WinBUGS, on sest servi de trois chanes indpendantes. Pour chaque
chane, on a effectu un rodage de 10 000 chantillons, qui a t suivi de 10 000 autres chantillons. Le
nombre dchantillons aprs rodage a t rduit dun facteur deux afin de diminuer lautocorrlation des
chantillons MCMC. Les 15 000 chantillons MCMC rsultant des trois chanes aprs rodage ont ensuite
servi calculer la moyenne et les centiles a posteriori pour chaque modle HB partir de chaque jeu de
donnes dchantillon. Le facteur de rduction dchelle possible (potential scale reduction factor) R a
t utilis comme mesure principale de la convergence (voir Gelman et Rubin 1992). Le code WinBUGS
est donn lannexe B.
1 000 jeux de donnes de simulation, le tableau 5.1 donne les rsultats qui suivent pour chaque modle : la
probabilit de non-couverture des intervalles de crdibilit 95 % de Pi , c.--d. la probabilit que
HB
HB
lintervalle allant de Pi ;0,025
Pi ;0,975
ne contienne pas Pi , et la largeur moyenne des intervalles de
HB
HB
- Pi;0,025
crdibilit Pi ;0,975
. Les erreurs-types de simulation Monte Carlo correspondantes sont galement
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
les 15 tats dont lchantillon est de petite taille (ni 30), les 24 tats dont lchantillon est de taille
moyenne (30 ni 100), et les 12 tats dont lchantillon est de grande taille (ni 100). Les rsultats
prsents au tableau 5.1 sont les moyennes globales sur lensemble des tats et les moyennes pour les
trois groupes distincts.
Lexamen de la moiti suprieure du tableau 5.1 montre que les intervalles de crdibilit pour le
modle de Fay-Herriot (M1) sont trs prudents, ne donnant quasiment aucune non-couverture. La moiti
infrieure du tableau rvle que ce rsultat est obtenu au prix de la plus grande largeur moyenne de
lintervalle de crdibilit parmi les quatre modles. La largeur des intervalles de crdibilit de M1 est trs
stable. Une faible proportion de ces intervalles possde une borne infrieure ngative.
Le faible niveau de non-couverture observ pour M1 pourrait tenir au fait que les variances
dchantillonnage ont t surestimes, peut-tre parce que deffiw a t utilis au lieu de DEFFi . Pour
examiner cette possibilit, nous avons utilis DEFFi pour calculer la variance dchantillonnage et nous
navons constat presque aucune diffrence de taux de non-couverture. Nous avons galement excut le
modle en nous servant de la vraie variance dfinie dans (2.2) et navons de nouveau observ aucune
diffrence apprciable entre les taux de non-couverture. La non-normalit de la distribution
dchantillonnage de piw pourrait galement tre lorigine de ce problme.
Tableau 5.1
Pourcentage de fois que les intervalles de crdibilit 95 % ne contiennent pas Pi , largeur moyenne des
intervalles de crdibilit 95 %, avec les erreurs-types de simulation Monte Carlo fondes sur
1 000 simulations (en pourcentage)
Taille de lchantillon de ltat
chantillon global
ni 30
(15 tats)
30 ni 100
ni 100
(24 tats)
(12 tats)
chantillon global
ni 30
(15 tats)
30 ni 100
ni 100
(24 tats)
(12 tats)
ni
M1*
M2
M3
M4
Pourcentage de non-couverture (erreur-type de simulation Monte Carlo)
0,40
8,24
6,52
4,36
(0,028)
(0,109)
(0,101)
(0,088)
0,05
11,39
8,45
6,21
(0,019)
(0,239)
(0,216)
(0,190)
0,46
9,44
7,61
4,52
(0,043)
(0,167)
(0,156)
(0,132)
0,70
1,91
1,94
1,74
(0,076)
(0,122)
(0,124)
(0,119)
Largeur moyenne de lintervalle de crdibilit 95 % (erreur-type de simulation
Monte Carlo)
9,05
5,52
6,20
8,45
(0,004)
(0,009)
(0,009)
(0,014)
10,27
5,94
6,78
9,30
(0,009)
(0,020)
(0,021)
(0,034)
9,16
5,60
6,28
8,71
(0,005)
(0,013)
(0,013)
(0,021)
7,29
4,84
5,30
6,88
(0,004)
(0,012)
(0,013)
(0,017)
*Nota : Pour le modle 1, une faible proportion dintervalles de crdibilit possde une borne infrieure ngative.
8,2 %, le taux global de non-couverture des intervalles de crdibilit pour le modle normallogistique (M2) est sensiblement suprieur au taux nominal de 5 %. Ce modle donne la plus petite largeur
moyenne de lintervalle. Le taux de non-couverture pour le modle normal-logistique avec variance
inconnue (M3) sapproche davantage du taux nominal, avec une largeur globale de lintervalle un peu plus
grande que dans le cas de M2.
Le taux global de non-couverture de 4,4 % observ pour le modle bta-logistique (M4) est celui qui
est le plus proche du taux de non-couverture nominal. Cependant, la largeur moyenne des intervalles de
crdibilit est plus grande que celle obtenue pour M2 et M3, et lerreur-type Monte Carlo de la largeur de
lintervalle est plus grande que celle observe pour les trois autres modles. Cette instabilit pourrait
dcouler de la complexit de la distribution conditionnelle complte pour le modle bta. La forte
proportion des 1 000 estimations directes qui taient nulles pour certains tats dont la taille dchantillon
tait petite pourrait aussi avoir caus dimportants problmes dajustement de la loi bta.
Comme prvu, pour les quatre modles, la largeur moyenne des intervalles de crdibilit diminue
lorsque la taille de lchantillon de ltat augmente, et la variation de la largeur diminue galement
lorsque la taille de lchantillon augmente. Toutefois, malgr ces diminutions, les taux de non-couverture
diminuent aussi lorsque la taille de lchantillon augmente pour les modles 2, 3 et 4. En fait, les taux de
non-couverture sont trs petits pour les tats dont la valeur de ni est grande, ce qui fait penser que les
intervalles de crdibilit ne refltent pas adquatement leffet de la plus grande prcision des estimations
directes dans les tats o la taille dchantillon est grande.
Biais
REQM
Biais
REQM
Biais
REQM
Biais
REQM
chantillon global
0,165
1,518
0,071
1,346
-0,009
1,411
-0,214
1,712
0,621
1,651
0,572
1,630
0,466
1,652
0,009
1,922
-0,006
1,547
-0,123
1,386
-0,201
1,452
-0,319
1,775
-0,063
1,294
-0,167
0,911
-0,219
1,026
-0,283
1,323
ni 30 (15 tats)
30 ni 100 (24 tats)
ni 100 (12 tats)
M1
M2
M3
M4
10
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
6. Discussion
Le prsent article dcrit les rsultats dune tude par simulation ralise partir dune population finie
relle pour valuer les intervalles de crdibilit produits par quatre modles hirarchiques, en se basant sur
leur longueur et sur leurs proprits de couverture sous le plan de sondage. Autant que nous sachions, ce
genre dvaluation des intervalles de crdibilit (ou de confiance) fonde sur le plan de sondage na
encore jamais t effectue dans le contexte de lestimation sur petits domaines.
Dans ltude par simulation, nous avons compar les proprits de couverture sous le plan de sondage
des intervalles de crdibilit rsultant de divers modles hirarchiques baysiens labors pour estimer les
proportions dans de petits domaines sous un plan de sondage alatoire simple stratifi. Globalement,
aucun modle ne lemporte clairement sur les autres, si bien que nous ne pouvons pas en recommander un
plutt que les autres.
La version hirarchique baysienne du modle bien connu de Fay-Herriot semble produire des
intervalles de crdibilit exagrment prudents. La non-normalit du modle dchantillonnage ainsi que
du modle de lien pourrait tre la source de ce problme. Pour le modle hirarchique bta-logistique, les
intervalles de crdibilit donnent presque la couverture nominale pour les proportions de population finie
et, des quatre modles tudis, ce modle est celui qui possde les meilleures proprits de biais quand la
taille dchantillon est petite. Cependant, comme lune des distributions conditionnelles compltes pour le
modle bta-logistique fait intervenir les proportions pondres par les poids de sondage, la mthode
MCMC pose problme chaque fois quune de ces proportions est nulle. Les intervalles de crdibilit pour
ce modle sont galement plus larges que ceux observs pour les deux autres modles comportant un
modle de lien logistique. La largeur de lintervalle de crdibilit sous le modle bta-logistique pourrait
peut-tre tre rduite si le modle est modifi, par exemple en utilisant un modle de mlange de lois
effet alatoire en deux parties appropri qui permettrait dviter le problme des proportions pondres par
les poids de sondage nulles. Une tude plus approfondie ce sujet est ncessaire. Il pourrait aussi tre utile
denvisager dautres modles, peut-tre un modle probabiliste discret pour le niveau 1, en vue
damliorer lestimation des intervalles des petites proportions pour les petits domaines.
Ltude par simulation a montr que la couverture des intervalles de crdibilit baysiens des
proportions dans la population finie scartait considrablement du niveau nominal de 95 % pour les
quatre modles, et une constatation semblable a t faite pour la couverture sous le plan de sondage du
modle de Fay-Herriot dont lusage est trs rpandu. Compte tenu de ces rsultats, nous avons effectu un
certain nombre danalyses supplmentaires en vue de trouver une explication. Ces analyses comprenaient
lajout de variables prdictives aux modles, lutilisation dune loi a priori uniforme pour 2 (fonde sur
des arguments formuls par Gelman 2006), lutilisation de lapproche de la meilleure prdiction empirique
pour le modle M1, laccroissement de la taille dchantillon dans les tats ne comptant que quelques
naissances en fixant le nombre minimum 50, et lapplication de ces mthodes pour estimer la proportion
de naissances dont le poids la naissance tait infrieur la mdiane nationale dans chaque tat. Mme si
les proprits de couverture des intervalles des proportions dans la population finie au niveau de ltat
prsentaient certaines diffrences, aucune de ces analyses na produit des taux de couverture proches des
taux nominaux. Le seul cas o ces derniers concidaient avec les taux de couverture rels tait celui dun
jeu de donnes simul construit sous le modle M1 pour les proportions au niveau de ltat de naissances
pour lesquelles le poids de naissance tait infrieur la mdiane nationale; les taux de couverture moyens
11
taient de 5,1 % et de 5,2 % pour les approches du meilleur prdicteur empirique (MPE) et HB,
respectivement.
Ltude par simulation a t limite un plan de sondage un seul degr. En outre, pour simplifier,
aucune variable auxiliaire na t incluse dans les modles de lien dans les analyses principales, alors
quen pratique, lajout de ce genre de variables est habituel et presque essentiel. Dautres tudes par
simulation doivent tre ralises en vue dexaminer diffrents plans de sondage et diffrentes tailles
dchantillon, et dintgrer certaines variables auxiliaires dans les modles de lien. Nous esprons que
notre tude encouragera dautres chercheurs excuter des simulations fondes sur le plan de sondage
similaires pour valuer les mthodes destimation sur petits domaines. la lumire de nos rsultats
limits, il convient de mettre en garde les utilisateurs destimations sur petits domaines quant
linterprtation des intervalles de crdibilit des estimations.
Remerciements
Les auteurs tiennent remercier les rdacteurs associs ainsi que deux rviseurs pour leurs suggestions
constructives ayant permis damliorer significativement larticle original. Les travaux de recherche du
deuxime auteur ont t financs par la National Science Foundation SES-085100.
Annexe A
A1. Distributions conditionnelles compltes pour les paramtres de chaque
modle
Soit p ( p1w ,..., pmw )t et ri
i
.
i v2
Les distributions conditionnelles compltes pour le modle de Fay-Herriot (M1) sont les suivantes :
i) i | , v2 , p ~ N ((1 ri ) piw ri ,
i (1 ri )) ;
1 m
v2
ii) | i , , p ~ N i , ;
m
m i 1
2
v
1
1 m
iii) v2 | , i , p ~ ING a m, b (i ) 2 .
2
2 i 1
Les distributions conditionnelles compltes pour le modle normal-logistique (M2) sont les suivantes :
i) i | , v2 , p
( p )2 (logit(i ) ) 2
1
exp iw i
;
2i
2 v2
i (1 i ) v i
1 m
2
ii) | i , v2 , p ~ N logit(i ), v ;
m
m i 1
12
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
1
1 m
Les distributions conditionnelles compltes pour le modle normal-logistique avec variance inconnue
(M3) sont les mmes que pour le modle M2 except que i est remplac par i (1 i )deffiw / ni pour la
distribution de i sachant les autres paramtres.
n
Soit iw i 1. Les distributions conditionnelles compltes pour le modle bta-logistique (M4)
deffiw
sont les suivantes :
i) i | , v2 , p
i iw 1
(logit(i ) )2
piw
(1 piw )(1i ) iw 1
1
exp
;
i (1 i ) v (i iw )((1 i )iw )
2 v2
1 m
2
ii) | i , v2 , p ~ N logit(i ), v ;
m
m i 1
1
1 m
Annexe B
Code WinBUGS pour le modle 1 :
Model {
for ( i in 1 :N)
13
u~dflat()
tau~dgamma(0.001, 0.001)
sigma_v2<-1/tau
}
Bibliographie
Arora, V. et Lahiri, P. (1997). On the superiority of the Bayesian method over the BLUP in small area
estimation problems. Statistica Sinica, 7, 1053-1063.
Chattopadhyay, M., Lahiri, P., Larsen, M., et Reimnitz, J. (1999). Estimation composite de la prevalence
des drogues pour des zones infratats. Techniques denquetes, 25, 91-97.
14
Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs
Chen, M., Shao, Q., et Ibraham, J.G. (2000). Monte Carlo Methods in Bayesian Computation. New York:
Springer-Verlag.
Citro, C., et Kalton, G. (Eds.) (2000). Small-Area Income and Poverty Estimates: Priorities for 2000 and
Beyond. Washington, DC: National Academy Press.
Farrell, P.J., MacGibbon, B., et Tomberlin, T.J. (1997). Empirical Bayes estimators of small area
proportions in multistage designs. Statistical Sinica, 7, 1065-1083.
Fay, R.E., et Herriot, R.A. (1979). Estimates of income for small places: An application of James-Stein
procedures to census data. Journal of the American Statistical Association, 74, 269-277.
Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis,
1, 515-533.
Gelman, A., et Rubin, D.B. (1992). Inference from iterative simulation using multiple sequences.
Statistical Science, 7, 457-472.
Jiang, J., et Lahiri, P. (2006a). Mixed model prediction and small area estimation. Test, 15, 111-999.
Jiang, J., et Lahiri, P. (2006b). Estimation of finite population domain means: A model-assisted empirical
best prediction approach. Journal of the American Statistical Association, 101, 301-311.
Kish, L. (1965). Survey sampling. New York: John Wiley.
Lunn, D.J., Thomas, A., Best, N., et Spiegelhalter, D. (2000). WinBUGS A Bayesian modeling
framework: Concepts, structure, and extensibility. Statistics and Computing, 10, 325-337.
Malec, D., Davis, W., et Cao, X. (1999). Small area estimates of overweight prevalence using sample
selection adjustment. Statistics in Medicine, 18, 3189-3200.
Malec, D., Sedransk, J., Moriarity, C.L., et LeClere, F.B. (1997). Small area inference for binary variables
in the National Health Interview Survey. Journal of the American Statistical Association, 92, 815-826.
Maples, J., et Bell, W.R. (2005). Evaluation of school district poverty estimates: Predictive models using
IRS income tax data. Proceedings of the Survey Research Methods Section, American Statistical
Association, 1322-1329.
Mohadjer, L., Rao, J.N.K., Liu, B., Krenzke, T., et Van De Kerckhove, W. (2012). Hierarchical Bayes
small area estimates of adult literacy using unmatched sampling and linking models. Journal of the
Indian Society of Agricultural Statistics, 66 (1), 55-63.
Rao, J.N.K. (2003). Small area estimation. New York: John Wiley and Sons.
Robert, C.P., et Casella, G. (1999). Monte Carlo Statistical Methods. New York: Springer-Verlag.
Singh, A.C., Folsom, R.E., Jr. et Vaish, A.K. (2005). Small area modeling for survey data with smoothed
error covariance structure via generalized design effects. Federal Committee on Statistical Methods
Statistical Working Paper No. 39. (http://www.fcsm.gov/05papers/Singh_etal_IIIC.pdf)
15
U.S. National Center for Health Statistics (2009). National Vital Statistics System. Birth Data.
(http://www.cdc.gov/nchs/births.htm)
Wright, D., Sathe, N., et Spagnola, K. (2007). State Estimates of Substance Use from the 2004-2005
National Surveys on Drug Use and Health. (DHHS Publication No. SMA 07-4235, NSDUH Series H31). Rockville, MD: Substance Abuse and Mental Health Services Administration, Office of Applied
Studies.
You, Y. (2008). Une approche intgre de modlisation de lestimation du taux de chmage pour les
rgions infraprovinciales au Canada. Techniques denqutes, 34, 21-30.
You, Y., et Rao, J.N.K. (2002). Small area estimation using unmatched sampling and linking models.
Canadian Journal of Statistics, 30, 3-15.
E L E C T R O N I C
P U B L I C AT I O N S
AVA I L A B L E AT
P U B L I C AT I O N S
LECTRONIQUES
DISPONIBLE
w w w. s t a t c a n . g c . c a
17
1 Introduction
Les sondages sont depuis longtemps un moyen important dobtenir de linformation exacte auprs
dune population finie. Par exemple, les gouvernements ont besoin de statistiques descriptives sur la
population pour valuer et mettre en uvre leurs politiques. Au cours du premier tiers du XX e sicle, la
principale proccupation des spcialistes de la statistique officielle tait dtablir une norme de pratique
acceptable. Neyman (1934) a cr un cadre de ce type en introduisant des mthodes de randomisation dans
le processus dchantillonnage. Il prconisait lutilisation de la distribution de randomisation, ou
distribution alatoire, induite par le plan de sondage pour valuer les proprits frquentistes de diverses
procdures. Il a galement introduit la notion de stratification avec rpartition optimale de la taille de
lchantillon et lutilisation de probabilits de slection ingales. Ses travaux sont considrs comme la
pierre angulaire de la thorie des sondages fonde sur le plan de sondage et ont inspir de nombreux
auteurs. Par exemple, Horvitz et Thompson (1952) ont propos une thorie gnrale de lchantillonnage
avec probabilits ingales et la mthode destimation pondre par les probabilits, qui est connue sous le
nom d estimateur de Horvitz-Thompson .
Partout dans le monde, les organismes statistiques officiels ont trouv la thorie des sondages fonde
sur le plan de sondage trs intressante. Comme lont fait remarquer Skinner, Holt et Smith (1989),
page 2, la raison principale de cet intrt est quessentiellement, cette thorie ne dpend pas dune loi de
probabilit. En effet, depuis les travaux de Neyman, tous les progrs raliss en thorie des sondages ont
t fortement influencs par lusage descriptif du sondage. Cette approche a eu pour consquence un
manque de dveloppements thoriques concernant lutilisation analytique des sondages, en particulier
des fins de prdiction. Dans certaines situations prcises, lapproche fonde sur le plan de sondage sest
avre inefficace, fournissant des prdicteurs inadquats. Ainsi, lestimation sur petits domaines et la
prsence de non-rponse ne peuvent pas tre traites par lapproche fonde sur le plan de sondage sans
1. Kelly Cristina M. Gonalves, Departamento de Estatstica, Universidade Federal do Rio de Janeiro (UFRJ), RJ, Brsil. Courriel :
kelly@im.ufrj.br; Fernando A. S. Moura, Departamento de Estatstica, Universidade Federal do Rio de Janeiro (UFRJ), RJ, Brsil. Courriel :
fmoura@im.ufrj.br; Helio S. Migon, Departamento de Estatstica, Universidade Federal do Rio de Janeiro (UFRJ), RJ, Brsil. Courriel :
migon@im.ufrj.br.
18
faire appel des hypothses implicites, ce qui quivaut mettre lhypothse dun modle. Les partisans
de lapproche fonde sur le plan de sondage soutiennent que linfrence fonde sur un modle dpend en
grande partie des hypothses du modle, lesquelles pourraient ne pas tre vrifies. Par ailleurs,
linfrence par intervalle sur les paramtres de la population cible (habituellement les totaux et les
moyennes) sappuie sur le thorme central limite, qui nest pas applicable dans de nombreuses situations
pratiques, o la taille de lchantillon nest pas suffisamment grande et/ou les hypothses dindpendance
des variables alatoires concernes ne sont pas raisonnables.
Basu (1971) rejetait les estimations des quantits de population dpendantes de la rgle
dchantillonnage, comme les probabilits dinclusion. Selon lui, cette mthode destimation ne
satisfaisait pas le principe de vraisemblance dont il tait un partisan. Basu (1971) a cr lexemple de
llphant de cirque pour montrer que lestimateur de Horvitz-Thompson pouvait produire des estimations
inappropries et a propos un estimateur de rechange. La question qui se pose est celle de savoir sil est
possible de concilier les deux approches. Dans le contexte du modle de superpopulation, Zacks (2002) a
montr que lon peut retrouver certains estimateurs fonds sur le plan de sondage en utilisant une
approche base sur un modle de rgression gnralise. Little (2003) affirme quune spcification
prudente du modle, sensible au plan de sondage, permet de rpondre aux proccupations concernant les
spcifications du modle, et que la statistique baysienne offre un traitement cohrent et unifi de
linfrence par sondage descriptive et analytique. Il a donn certains exemples afin dillustrer comment
linfrence fonde sur le plan de sondage classique peut dcouler de la perspective baysienne en utilisant
certains modles avec priors non informatifs.
Dans le contexte baysien, une autre proposition intressante en vue de concilier lapproche fonde sur
le plan de sondage et celle fonde sur un modle a t avance par Smouse (1984). La mthode incorpore
linformation a priori dans les modles dinfrence en population finie en sappuyant sur des mthodes
baysiennes destimation par les moindres carrs et ncessite seulement la spcification des premier et
deuxime moments de la distribution concerne, qui dcrivent les connaissances a priori au sujet des
structures prsentes dans la population. Lapproche peut remplacer les mthodes de randomisation et se
situe mi-chemin entre deux visions extrmes, savoir les procdures fondes sur le plan de sondage
dune part et celles fondes sur des modles de superpopulation dautre part. Dans un rapport indit,
OHagan (1985) a prsent des estimateurs baysiens linaires dans certains contextes de sondage
particuliers et OHagan (1987) a galement driv des estimateurs baysiens linaires pour certains
modles de rponse randomiss. OHagan (1985) a pris en considration plusieurs structures de
population, dont la stratification et la mise en grappes, en mettant des hypothses appropries au sujet des
premier et deuxime moments, et a montr comment obtenir certains estimateurs fonds sur le plan
frquemment utiliss en temps que cas particuliers de cette approche plus gnrale. Il a galement fait
remarquer que ses estimations ne tenaient pas compte de lchantillonnage non informatif. Il a cit Scott
(1977) et fait le commentaire que lchantillonnage informatif devrait tre excut par une analyse
baysienne complte. Une rfrence importante concernant le traitement de lchantillonnage informatif
avec des modles hirarchiques figure dans Pfeffermann, Moura et Silva (2006).
La prsentation de larticle est la suivante. La section 2 dcrit de manire gnrale lapproche
destimation baysienne linaire applique un modle de rgression linaire gnral pour la prdiction
en population finie et montre comment obtenir certains estimateurs fonds sur le plan de sondage titre de
cas particuliers. la section 3, un nouvel estimateur est propos pour la situation pratique o de
19
linformation auxiliaire est disponible. la section 4, lapproche destimation baysienne linaire est
tendue aux donnes catgoriques multiples. Enfin, la section 5 offre certaines conclusions et des
suggestions de futures recherches.
y
s
a R AQ
f , QA Q ,
(2.1)
d a A y s f et V d R AQA.
(2.2)
20
Il convient de souligner que lEBL dpend de la spcification des premier et deuxime moments de la
distribution conjointe partiellement spcifie en (2.1). Le problme de lobtention de ces quantits est
trait aux sections 2.3.1 et 4.1 pour certains cas particuliers.
N
i 1
respectivement. Dans lapproche fonde sur un modle, cela se fait habituellement en se servant dun
modle paramtrique hypothtique pour les valeurs de population y i , puis en obtenant le meilleur
prdicteur linaire sans biais empirique (EBLUP) pour le vecteur inconnu y s sous ce modle.
Habituellement, lerreur quadratique moyenne de lEBLUP de T sobtient par approximation dordre
deux, de mme quun estimateur sans biais. Voir Valliant, Dorfman et Royall (2000), chapitre 2, pour des
renseignements dtaills.
Lapproche baysienne de la prdiction en population finie repose souvent sur lhypothse dun
modle paramtrique, mais elle vise trouver la loi a posteriori de T sachant y s . On peut obtenir les
estimations ponctuelles en spcifiant une fonction de perte, quoique dans de nombreux problmes
pratiques, on considre souvent la moyenne a posteriori dont la variance associe est donne par la
variance a posteriori, cest--dire :
E T y s 1s y s 1s E y s y s et V T y s 1s V y s y s 1 s .
(2.3)
Il est possible dobtenir une approximation des quantits dans (2.3) en utilisant une approche
destimation baysienne linaire. Ici, nous obtiendrons en particulier les estimateurs en mettant
lhypothse dun modle hirarchique deux degrs gnral en population finie, spcifi uniquement par
sa moyenne et sa matrice de variance-covariance, prsent dans Bolfarine et Zacks (1992), page 76. Les
cas particuliers dcrivant les structures de population habituellement observes en pratique peuvent tre
drivs facilement de (2.4). Le modle gnral peut scrire :
X,V et
a, R ,
, N ; 1 ,
(2.4)
, x ip ,
21
suivies : premirement, nous avons utilis une loi a priori conjointe qui nest spcifie que partiellement
en ce qui concerne les moments comme il suit :
ys
y
s
X s Vs
,
X s Vss
Vss
.
Vs
(2.5)
Il est facile de voir que, dans (2.6), la premire quation peut tre rcrite sous la forme
C X s Vs1 y s R 1a , o C 1 R 1 X s Vs1X s . Il convient de souligner que, si nous plaons
une loi a priori vague sur , en prenant R 1 0, nous obtenons lestimateur par les moindres carrs
1
minimal de : LS X s Vs1X s X s Vs1y s .
Maintenant, en appliquant les proprits bien connues des esprances et des variances conditionnelles,
nous obtenons :
E y s y s E E y s y s , y s et V y s y s E V y s y s , y s V E y s y s , y s . (2.7)
En remplaant E y s y s , et V y s y s , dans (2.7) par leur EBL respectif donn en (2.5) et puis, en
remplaant E y s et V y s par et V donns en (2.6), nous obtenons lEBL de E y s y s et
sa variance associe sous la forme :
E y s y s X s Vss Vs1 y s X s et
V y s y s Vs Vss Vs1 Vss X s Vss Vs1X s C X s Vss Vs1X s .
(2.8)
Remarque 2 : De manire analogue la remarque 1, sous lhypothse de normalit, nous avons que les
membres de droite des quations (2.8) sont, respectivement, les valeurs de E y s y s et V y s y s .
Lexpression gnrale de lEBL du total T et de sa variance associe est obtenue en remplaant
E y s y s et V y s y s dans les quations (2.3) par leurs quivalents respectifs E y s y s et V y s y s :
T 1s y s 1s E y s y s et V T 1s V y s y s 1 s .
(2.9)
22
Il convient de souligner que, dans de nombreuses applications de (2.9), la matrice V est suppose tre
diagonale, ce qui implique que Vss 0 et nous avons alors :
T 1s y s 1s X s et V T 1s Vs X s CX s 1 s .
(2.10)
En guise dillustration, nous considrons certains exemples discuts par OHagan (1985) et proposons un
nouvel estimateur par le ratio, qui est lune des contributions des prsents travaux. Tous les exemples
peuvent tre traits comme des cas particuliers du modle (2.4).
E y i m, V y i v et Cov y i , y j c, i , j 1,
, N , i j.
(2.11)
Remarque 3 : On peut justifier la corrlation introduite dans le modle (2.11) en invoquant limitation de
lchantillonnage alatoire simple sans remise.
En appliquant le rsultat gnral tabli dans (2.10) (2.11) avec de dimension 1, X 1 N , a m,
(2.12)
o
y s n 1 1s y s est la moyenne dchantillon,
n 2
, o 2 v c.
c 1 n 2
Il convient de souligner que est une moyenne pondre de la moyenne a priori m et de la moyenne
dchantillon y s , o est le ratio entre les deux quantits de population. La moyenne m peut tre
considre comme le prior du chercheur pour la moyenne de population relle y . Lincertitude au sujet de
y i est divise en deux composantes : lincertitude au sujet du niveau global des y i (inter-variation) et
lincertitude quant la part de chaque y i qui peut diffrer de ce niveau global (intra-variation). Une
mesure utile de la variabilit des units dans la population est donne par
S2
1 N
yi y 2 .
N 1 i 1
Il nest pas difficile de montrer que E S 2 v c 2 . Par consquent, 2 peut tre interprte
comme une estimation a priori de la variabilit lintrieur de la population. Nous obtenons aussi
23
Tsrs N y s et V Tsrs N 2 1 .
N n
Ces expressions sont fort semblables lestimation bien connue du total et sa variance dans le contexte
fond sur le plan de sondage pour le cas de lchantillonnage alatoire simple. OHagan (1985) a discut
de certains moyens possibles dviter la tche difficile dattribuer une valeur 2 . Le moyen le plus
naturel de le faire consiste trouver son EBL, mais linaire en les carrs et les termes de variance des
produits croiss. Cependant, il est ncessaire de spcifier les moments dordre quatre des y i . Goldstein
(1979) a propos un EBL de la variance qui nutilise que des fonctions linaires des donnes. Nanmoins,
on obtient une expression complique de la variance associe de son EBL modifi. OHagan (1985) a
soutenu que, si linformation a priori au sujet des composantes de la variance est faible, toute estimation
a posteriori sapproche des estimations non baysiennes classiques obtenues en utilisant uniquement les
donnes, lorsque ce gendre destimations est disponible. Par consquent, il a propos, en guise de
procdure baysienne approximative, dintroduire ces estimations de variance classiques par substitution
dans lEBL et dans sa variance associe lorsque cela est appropri. Dans le cas qui nous occupe, nous
pouvons remplacer 2 par s 2 n 1
i 1
E y hi mh , V y hi v h , Cov y hi , y hj c h , i j et Cov y hi , y lj d hl , h l .
Remarque 4 : Il est raisonnable de supposer que linformation obtenue au sujet dune strate pourrait
modifier les croyances au sujet des autres strates dans certaines applications spciales. Cependant, si nous
voulons imiter lchantillonnage alatoire simple stratifi, nous devons supposer que les observations dans
les diverses strates ne sont pas corrles, en posant que d hl 0.
Le modle gnral (2.4) peut tre appliqu ce cas en prenant X diag X 1 , , X H et
V diag V1 , , VH , avec X h 1 N
et Vh h2 I N , o 2h v h c h , h 1, , H ,
a m1 ,
autrement. LEBL de T et sa variance associe sont obtenus au moyen de (2.10) et figurent dans
OHagan (1985). Les modles pour lchantillonnage en grappes sont donns dans Bolfarine et Zacks
(1992), page 11. LEBL des modles avec grappes figurent dans OHagan (1985).
24
yi y j
yi
x v et Cov x , x c, i , j 1,
i
j
i
, N , i j.
(3.1)
, x N le vecteur N 1
, x N , o 2 v c, nous
Tra ny s N n x s et
1
2
V Tra N n x s 2 N n x s 2 c 1 2 nx s , o
ys
2 nx s
,
1 m et 1
xs
c 2 nx s
o x s NX nx s N n est la moyenne des x pour les units non chantillonnes. En posant que
25
appliques pour prdire les totaux ou les moyennes dans les catgories dintrt. Malec, Sedransk,
Moriarity et LeClere (1997) ont considr un modle hirarchique logistique deux niveaux, o les
grappes forment le deuxime niveau. Ils ont galement compar les estimations baysiennes entirement
hirarchiques aux estimations baysiennes empiriques et aux mthodes classiques. Moura et Migon (2002)
ont prsent une approche base sur un modle hirarchique logistique pour la prdiction de proportions
sur petits domaines, en tenant compte des effets spatiaux ainsi que des effets dhtrognit non
structure possibles. Nandram et Choi (2008) ont propos un modle multinomial-Dirichlet dpendant du
temps pour prdire les rsultats dune lection sous non-rponse ignorable et non ignorable. Ils ont
galement utilis une approche baysienne pour rpartir les lecteurs indcis entre les candidats.
De nouveau, ici, nous navons pas besoin dutiliser des hypothses au sujet du modle complet ni une
approche de randomisation, mais nous devons mettre certaines hypothses au sujet des premier et
deuxime moments des quantits alatoires concernes. LEBL pour les donnes binaires a t introduit
brivement par OHagan (1985), mais ici, nous le dveloppons dune manire plus gnrale pour le cas o
nous nous intressons lanalyse de plus dun attribut dans une population. Lobjectif est de dcrire
lestimation de la proportion de russites avec des donnes catgoriques. Soit y ij la variable qui indique
que lunit i , i 1,
, k donne par
, p k o p j N 1 i 1 y i j , j 1,
N
, k , est
la proportion dunits dans la catgorie j , sachant y s , un vecteur de dimension nk , dfini comme tant
y s y11 , y 21 , , y n1 , , y1k , y 2 k , , y nk Comme nous avons affaire des situations dans lesquelles
il nest possible dassocier quun seul attribut chaque unit, nous avons
devons estimer que k 1 paramtres, puisquil sensuit que p k 1
variance est galement obtenue de manire analogue par V p k
k 1
j 1
k 1
j 1
k
j 1
p j 1. Donc, nous ne
p j et que lestimation de la
V p j
k 1
l j 1
p j , p l .
Cov
En labsence de toute autre information structurelle, nous supposons que les units dans une catgorie
donne sont changeables dordre deux, mais nous ne supposons aucune changeabilit entre les units de
diffrentes catgories. Nos croyances a priori sont exprimes pour i 1, , N , j 1, , k 1, comme
il suit :
m j E y ij P y ij 1 , v j V y ij m j 1 m j et
cov y ij , y ij P y ij 1 y ij 1 P y ij 1 P y ij 1 P y ij 1
m j m jj m j c j , i i et 2j v j c j m j 1 m jj ,
o m jj P y ij 1 y ij 1 , pour tout i i .
Pour j j , nous obtenons de manire analogue la covariance entre ces catgories sous la forme
m j m jj m j ,
cov y ij , y ij
m j m j ,
si i i ,
si i i .
26
Souvent, nous ne possdons pas toutes les donnes y s , mais seulement une statistique exhaustive, comme
la proportion dans lchantillon pour chaque catgorie, y s . Soit y s le vecteur de dimension k 1- dont
la j e position est donne par la moyenne dchantillon pour la catgorie j. En utilisant le modle gnral
donn par (2.4), nous obtenons :
E y s E E y s | a et Var y s E V y s | V E y s | Vs R.
En appliquant le modle gnral donn dans (2.4), o la variable de rponse est donne par y s , le
vecteur est de dimension k 1, X s I s et V diag Vs , Vs , nous obtenons partir de (2.10) :
ny s N n
N n Vs C
et V p
,
N
N2
2
(4.1)
, mk 1 Q jj c j 2j n
et
r jj m j m jj m j
et
Vs 1 n v jj , j , j 1, .., k 1
avec
v jj 2j
et
0 m j 1 et 0 m jj 1, j , j 1,
2.
, k 1;
27
Afin de vrifier si la condition (2.2) est satisfaite, on peut excuter les tapes suivantes :
i. vrifier si R et Vs sont symtriques en vrifiant que m j m jj m j m jj ;
ii. vrifier si R et Vs sont des matrices dfinies positives en trouvant les valeurs propres de R
et Vs . Si les valeurs propres sont positives, alors les matrices sont dfinies positives.
Il convient de mentionner que les valeurs propres sont les racines du polynme caractristique et que si
ce polynme est de degr n, n 4, il est possible dobtenir analytiquement ses racines en appliquant
Bhaskara, Cardan ou Ferrari; voir Jacobson (2009), chapitre 4, pour les formules. Cependant, si n 5, il
est habituellement ncessaire dappliquer une mthode itrative pour les obtenir. Nanmoins, pour les
matrices de dimensions suprieures 2 2, il nest pas simple dobtenir analytiquement ces contraintes
en se basant sur les valeurs propres. La proposition qui suit prsente les conditions que m j et m jj ,
j 1,
22 , nous obtenons m11 , m12 , m 21 et m 22 au moyen de (4.2). Les quantits a priori m j et m jj , pour
j , j 1, 2, doivent satisfaire les contraintes qui suivent pour que les matrices R et Vs soient dfinies
positives :
m11 m1 et m 22 m 2 , m11m 22 m11 m 22 1 m12 m 21 et
m11m22 m11m 2 m1m 22 m12 m 21 2m 2 m12 .
La vrification de la proposition 1 ncessite certaines oprations algbriques. Nous vrifions que les
matrices R et Vs sont dfinies positives en utilisant (i) et (ii) susmentionns. Nous faisons appel au fait
que les valeurs propres dune matrice de dimensions 2 2 sont positives si et seulement si son
dterminant est positif et nous obtenons alors m jj , j , j 1, 2 qui satisfait cette contrainte pour les deux
matrices. Pour les cas comprenant plus de trois catgories, nous devons vrifier numriquement si les
matrices R et Vs sont dfinies positives en remplaant m j et m jj , j 1, , k 1 par leur valeur
numrique.
Par ailleurs, si un expert a de la difficult spcifier certaines de ces probabilits conditionnelles m jj ,
il pourrait tre plus simple dattribuer un prior au coefficient de corrlation. Dfinissons jj comme tant
le prior du coefficient de corrlation entre deux units diffrentes dans les catgories j et j , cest-dire :
jj corr y ij , y ij
pour i , i 1,
, n, i i , j , j 1,
m jj m j
1m ,
j
m j m jj m j
,
m 1 m m 1 m
j
j
j
j
j j ,
j j ,
, k 1.
28
m jj
, k 1, nous obtenons
m j jj 1 m j
m j m j jj m j 1 m j m j 1 m j
,
m j
j j ,
j j .
(4.2)
Il convient de mentionner que, si lon dispose de donnes provenant dune enqute antrieure, il est
possible quun expert utilise cette information. Par exemple, m j peut tre obtenu en estimant la
proportion dunits dans la catgorie j , j 1, , k 1 partir de lenqute antrieure. De faon
analogue, jj peut tre obtenu en utilisant les donnes dune enqute antrieure. Comme lindique la
contrainte (2.1), m j ne peut pas prendre les valeurs 0 et 1, sinon les corrlations ne seraient pas dfinies.
ny1 N n
,
N
o
y1 1 m1 est la valeur prvue des valeurs non observes dans la catgorie 1,
n 12
,
n 1 2 c 1 1
29
figure 4.1 donne la reprsentation graphique en deux dimensions de lerreur absolue de p 1 en fonction de
11 pour certains cas particuliers. La courbe grise reprsente lerreur absolue entre la proportion
dchantillon y 1 et la proportion relle p1 .
Il faut souligner que, mesure que f ou N augmente, lerreur absolue diminue pour toute valeur du
prior. De surcrot, quand 11 0, lerreur absolue augmente quand m1 diffre considrablement de la
proportion relle p1 , mais elle diminue mesure que la taille de lchantillon augmente. Enfin, quand
11 1, nous observons que lerreur absolue de p 1 tend vers lerreur absolue de la proportion
dchantillon y 1 . Donc, si nous avons une bonne information a priori, en ce qui concerne m1 ,
lestimateur propos donne de bons rsultats pour toutes les valeurs de 11 . Cependant, si aucune
information a priori nest disponible, des priors non informatifs caractriss par 11 1 peuvent tre
0,30
0,20
0,00
Erreur absolue
m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9
0,10
m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9
Erreur absolue
0,5 0,6
utiliss et nous obtenons des rsultats similaires ceux de lapproche fonde sur le plan de sondage.
0,01
0,25
0,50
0,75
0,90
0,01
0,25
0,90
0,06
m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9
0,00
0,02
0,04
0,20
m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9
Erreur absolue
0,30
(b) N = 1 500 et f = 10 %
0,10
Erreur absolue
0,75
(a) N = 1 500 et f = 1 %
0,00
0,50
0,01
0,25
0,50
(c) N = 15 288 et f = 1 %
0,75
0,90
0,01
0,25
0,50
0,75
0,90
(d) N = 15 288 et f = 10 %
Figure 4.1 Erreur absolue pour m1 0,1; 0,4; 0,7; 0,9 , N 1 500, 15 288 et f 1 %, 10 % fixes et
11 0,01; 0,25; 0,5; 0,75; 0,9 variable. La courbe grise reprsente lerreur absolue de la
proportion dchantillon y1
30
5 Conclusion
Obtenir une loi a priori conjointe complte pour un grand nombre de dimensions reprsenterait une
tche norme. La mthode baysienne linaire ncessite seulement lobtention des moyennes, des
variances et des covariances a priori des paramtres. Elle est particulirement utile lorsquun statisticien
nest pas disponible pour procder lobtention complte des priors. Un exemple dobtention russie des
priors en utilisant cet estimateur figure dans OHagan (1998).
Nous avons driv les estimateurs fonds sur le plan de sondage bien connus en appliquant la structure
de lEBL une approche faisant appel un modle de rgression gnralise. Nous avons tendu
lestimateur aux donnes catgoriques et conclu que mme si cet estimateur ncessite lobtention des
priors de nombreuses quantits, il est possible de les reparamtriser ou de travailler avec des priors non
informatifs. Lexemple numrique illustre le comportement des estimations sous forme dune fonction de
la taille de lchantillon et des spcifications des paramtres a priori. Cependant, nous sommes conscients
que lobtention des priors pour un grand nombre des paramtres nest pas une tche facile si lon ne
dispose pas dinformation provenant denqutes antrieures. Nanmoins, les exemples dont il est question
dans larticle montrent que mme si on ne dispose pas dinformation a priori, il est possible dobtenir les
estimateurs fonds sur le plan de sondage quivalent en fixant une variance suffisamment grande pour les
priors. En outre, les praticiens des sondages qui doivent obtenir des estimations pour un grand nombre de
variables se rendraient galement compte quils ne seraient pas capables de produire des estimations dune
prcision satisfaisante pour toutes les variables, quelle que soit lapproche utilise. Enfin, nous avons
montr comment lapproche de lEBL et lapproche fonde sur le plan de sondage peuvent tre concilies.
Remerciements
Les prsents travaux ont t raliss dans le cadre de la thse de matrise de Kelly C.M. Gonalves
sous la supervision de Fernando Moura et de Helio Migon, dans le programme dtudes suprieures de
lUFRG. Kelly est titulaire dune bourse dcerne par le Coordenao de Aperfeioamento de Pessoal do
Ensino Superior (CAPES). Fernando Moura et Helio Migon ont reu lappui financier du Conselho
Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq-Brazil, BPPesq).
Les auteurs remercient le rdacteur en chef, le rdacteur associ et deux examinateurs de leurs
commentaires trs constructifs.
Bibliographie
Basu, D. (1971). An essay on the logical foundations of survey sampling, Part 1 (avec discussion). Dans
Foundations of Statistical Inference, (ds., Godambe et Sprott), 203-242. Holt, Reinhart and Wilnston,
Toronto.
Bolfarine, H., et Zacks, S. (1992). Prediction Theory for Finite Populations. New York : Springer-Verlag.
Cochran, W. (1977). Sampling Techniques. New York : John Wiley & Sons, Inc.
31
Garthwaite, P., Kadane, J. et OHagan, A. (2005). Statistical methods for eliciting probability
distributions. Journal of the American Statistical Association, 100, 680-701.
Goldstein, M., et Wooff, D. (2007). Bayes Linear Statistics: Theory and Methods. Durham University,
UK : Wiley series in probability and statistics.
Goldstein, M. (1979). The variance modified linear Bayes estimator. Journal of the Royal Statistical
Society, 41, 96-100.
Hartigan, J. (1969). Linear bayesian methods. Journal of the Royal Statistical Society, Sries B
(Mthodologique), 446-454.
Horvitz, D., et Thompson, D. (1952). A generalization of sampling without replacement from a finite
universe. Journal of the American Statistical Association, 47, 663-685.
Jacobson, N. (2009). Basic Algebra, Vol 1. Dover Books on Mathematics.
Little, R.J. (2003). The Bayesian approch to sample survey inference. Dans Analysis of Survey Data,
(ds., R.L. Chambers et C.J. Skinner), chapitre 4, 49-52. New York : John Wiley & Sons Inc.
Malec, D., Sedransk, J., Moriarity, C.L. et LeClere, F.B. (1997). Small area inference for binary variables
in National Health Interview Survey. Journal of the American Statistical Association, 92, 815-826.
Moura, F., et Migon, H. (2002). Bayesian spatial models for small area estimation of proportions.
Statistical Modelling, 2, 183-201.
Nandram, B., et Choi, J. (2008). Une rpartition baysienne des lecteurs indcis. Techniques denqute,
34, 1, 41-54.
Neyman, J. (1934). On the two different aspects of the representative method: The method of stratified
sampling and the method of purposive selection. Journal of the Royal Statistical Society, 97, 558-625.
OHagan, A. (1985). Bayes linear estimators for finite populations. Rapport technique 58, Department of
Statistics - University of Warwick.
OHagan, A. (1987). Bayes linear estimators for randomized response models. Journal of the American
Statistical Association, 82, 580-585.
OHagan, A. (1998). Eliciting expert beliefs in substantial practical applications. The Statistician, 47, 2135.
Pfeffermann, D., Moura, F.A.S. et Silva, P.L.N. (2006). Multi-level modelling under informative
sampling. Biometrika, 93, 943.
Scott, A.J. (1977). Large-sample posterior distributions for finite populations. Annals of Mathematical
Statistics, 42, 1113-1117.
Skinner, C., Holt, D. et Smith, T. (1989). Analysis of complex surveys. New York : John Wiley & Sons,
Inc.
Smouse, E. (1984). A note on bayesian least squares inference for finite population models. Journal of the
American Statistical Association, 79, 390-392.
Valliant, R., Dorfman, A. et Royall, R. (2000). Finite Population Sampling and Inference: A Prediction
Approach. New York : John Wiley & Sons, Inc.
Zacks, S. (2002). In the footsteps of Basu: The predictive modelling approach to sampling from finite
population. Sankhy: The Indian Journal of Statistics, Sries A, 64, 532-544.
E L E C T R O N I C
P U B L I C AT I O N S
AVA I L A B L E AT
P U B L I C AT I O N S
LECTRONIQUES
DISPONIBLE
w w w. s t a t c a n . g c . c a
33
1 Introduction
Hors du contexte des techniques denqute, les mthodes statistiques ont habituellement t labores
sans beaucoup se soucier du plan dchantillonnage, souvent en supposant implicitement avoir affaire
des chantillons alatoires simples ou, parfois, des chantillons en grappes un degr. En statistique
denqute contemporaine, dimportants travaux ont pour objectif dtendre les mthodes lanalyse de
donnes denqutes complexes (Skinner, Holt et Smith, 1989), en tenant compte de problmes tels que la
stratification, les probabilits ingales de slection, le biais de non-rponse ou le calage. Hinkins, Oh et
Scheuren (1997) ont propos un algorithme de plan de sondage inverse qui relie la statistique denqute et
la statistique classique sous un autre angle. Leur ide fondamentale consiste choisir un sous-chantillon
qui possde inconditionnellement une structure dchantillon alatoire simple. Le sous-chantillon est
souvent nettement plus petit que lchantillon original, de sorte quils proposent de rpter le processus
indpendamment un grand nombre de fois et de prendre la moyenne des rsultats pour augmenter la
prcision. Ils dcrivent aussi des schmas dchantillonnage inverse exacts ou approximatifs pour
lchantillonnage alatoire simple stratifi, lchantillonnage en grappes un degr et lchantillonnage en
grappes deux degrs. Cependant, lapplication de cette nouvelle ide nest pas trs rpandue en pratique,
1. Qi Dong, Netflix Inc., 100, Winchester Cir, Los Gatos (CA) 95032, courriel : qidong@umich.edu; Michael R. Elliott, Department of
Biostatistics, University of Michigan, 1420, Washington Heights, Ann Arbor (MI) 48109, Survey Methodology Program, Institute for Social
Research, University of Michigan, 426, Thompson St., Ann Arbor (MI) 48106, courriel : mrelliot@umich.edu; Trivellore E. Raghunathan,
Department of Biostatistics, University of Michigan, 1420, Washington Heights, Ann Arbor (MI) 48109, Survey Methodology Program,
Institute for Social Research, University of Michigan, 426, Thompson St., Ann Arbor (MI) 48106. courriel : teraghu@umich.edu.
34
peut-tre parce quelle est trs gourmande en temps de calcul et que les pertes de prcision sont souvent
considrables. En outre, produire des populations synthtiques partir dune loi prdictive a posteriori de
population conditionnellement aux donnes denqutes complexes en tenant compte du plan de sondage
complexe nest pas chose simple (Little, 1991). Nanmoins, ces dernires annes, la demande de
populations synthtiques sest accrue en vue de pouvoir traiter les problmes de troncation des
pondrations ou de windsorisation (Lazzeroni et Little, 1998; Elliott et Little, 2000; Elliott, 2007; Chen,
Elliott et Little, 2010), de risque de divulgation (Little, 1993; Raghunathan, Reiter et Rubin, 2003; Reiter,
2004, 2005) ou de combinaison de donnes provenant de plusieurs enqutes (Raghunathan, Xie, Schenker,
Parsons, Davis, Dodd et Feuer, 2007; Dong, 2012). Les populations synthtiques sont souvent gnres
sous une hypothse distributionnelle (normale, binomiale, Poisson) en approximant la loi a posteriori des
paramtres du modle par la loi normale asymptotique. La moyenne et la matrice de covariance de la loi
normale sont estimes aprs avoir tenu compte des caractristiques du plan de sondage complexe
(Raghunathan et coll., 2007).
Une grande faiblesse des mthodes fondes sur un modle tient au fait que, si le modle est trs mal
spcifi, il donnera lieu des infrences invalides (Little, 2004). Dans un contexte multivari, nous devons
prendre en considration les liens qui existent entre les variables dintrt et dterminer un modle
appropri qui est ajust aux donnes, ce qui peut tre difficile si les donnes contiennent diffrents types
de variables. Dans le prsent article, nous proposons une mthode non paramtrique qui fait pendant aux
mthodes fondes sur un modle pour gnrer des populations synthtiques. Les travaux que nous
prsentons tendent le bootstrap baysien en population finie et les modles a posteriori de Plya
connexes de Lo (1988), Ghosh et Meeden (1983) et Cohen (1997) en vue de tenir compte des plans de
sondage complexes. Puisquelle atteint le mme objectif que la mthode dchantillonnage inverse, elle
peut tre traite comme la version baysienne en population finie de lchantillonnage inverse. Pour faire
des infrences en utilisant ce bootstrap baysien en population finie pondr, nous pouvons soit nous
servir directement des tirages, soit, par souci defficacit des calculs, utiliser les rsultats tablis
antrieurement dans la littrature sur le risque de divulgation et limputation multiple, puisque ces
populations produites non paramtriquement peuvent tre considres comme des imputations multiples
des lments non observs de la population.
Le plan de larticle est le suivant. la section 2, nous discutons brivement des populations
synthtiques dans le contexte de linfrence baysienne en population finie. la section 3, nous passons
en revue et rsumons la mthode du bootstrap baysien et son extension en population finie, et montrons
que, pour un chantillonnage avec probabilits ingales, la loi de probabilit des populations synthtiques
gnres sous une variante du modle de lurne de Plya concorde avec la loi prdictive a posteriori dun
bootstrap baysien en population finie. la section 4, nous prsentons la mthode propose sous
chantillonnage en grappes stratifi avec probabilits de slection ingales. la section 5, nous montrons
que linfrence partir de ces populations synthtiques gnres non paramtriquement peut tre obtenue
en utilisant les rsultats tirs de la littrature sur le risque de divulgation et limputation multiple, o
chaque population synthtique possde une variance intra-imputation nulle. la section 6, nous
dcrivons une tude par simulation ralise pour valuer la performance de la mthode non paramtrique
dans un contexte de rchantillonnage. la section 7, nous appliquons la mthode pour gnrer des
populations synthtiques qui peuvent tre utilises pour estimer les taux de couverture par une assurance
maladie en utilisant les donnes de la NHIS et de la MEPS de 2006, et nous comparons le rsultat celui
35
dune approche de modlisation paramtrique (log-linaire). Enfin, nous prsentons nos conclusions la
section 8.
36
P Y nob y P b1nob N 1 n1 ,
o 0
i 1
i ,
K
i 1
p Y nob y , p y p d 1
1
0
p y p d 1
1
0
i 1
1
p y p d 1
K
i 1
N i ni
i
K
i 1
i 1
ni
i
ni
i
i 1
N i i i
K
i 1
N i N , et n1 ,
dK
dK
p Y nob p y p d 1
, b Kobs n K
, b Knob N K n K b1obs n1 ,
dK
(3.1)
dK
K
i 1
i 1
i
i i 1d 1
d 1
dK
dK
N 0 0
ni i n 0
, y n , i 1 n i n. Si i 0 , alors p Y nob y se
K
rduit
K
N i n i N n .
i 1
Pour faciliter la mise en uvre, Lo (1988) a propos de faire des tirages partir de la loi prdictive a
posteriori du BBPF en utilisant une procdure fonde sur le modle de lurne de Plya. Supposons
quune urne contient n boules possdant chacune comme tiquette un nombre rel distinct
bi , i 1, , K . Nous tirons un chantillon de Plya de taille m en slectionnant dabord une boule au
hasard dans lurne et en remettant la boule slectionne dans lurne, puis en plaant une boule identique
dans lurne et en rptant ce processus jusqu ce que m boules aient t slectionnes. On peut montrer
que la probabilit dobtenir m i boules de type bi est donne par
p b1 m1 ,
, bK m K
k
i 1
n i mi n i
n m n
(3.2)
o n i est le nombre de boules de type bi se trouvant au dpart dans lurne. La distribution des nombres de
boules de type bi est invariante sous nimporte quelle permutation des tirages. Notons que cela correspond
directement la probabilit a posteriori dun total de m1 , , m K lments de type b1 , , bK dans une
population, sachant que n1 , , n K lments ont t observs dans un chantillon (alatoire simple) de
taille
K
i 1
n i n. Donc, nous pouvons tirer un chantillon rplique de cette loi a posteriori de Plya en
y1 ,
y1* ,
, y *N n partir de lurne
, K , cela
37
, y n , y1* ,
, y *N n .
1
P I i 1
y1* , , y *N n ,
y1 ,
en tirant y k* partir de
o wi est le poids de lunit i et l i , k 1 est le nombre de slections bootstrap de y i parmi les y1* ,
, y k* 1 .
(La fonction wtpolyap du module R polypost peut tre utilise pour obtenir des tirages partir dune urne
de Plya pondre.)
tape 2. Former la population BBPF y1 ,
, y n , y1* ,
, y *N n .
Cohen (1997) na pas fourni la preuve thorique de cette procdure, mais elle peut tre obtenue comme
une extension simple de lquivalence du BBPF et de lurne de Plya classique dcrite la section 3.1.
Premirement, nous dterminons la loi a posteriori de lchantillon BBPF avec probabilits de slection
ingales quimplique la procdure BBPF pondre. La vraisemblance multinomiale fonde sur notre
chantillon pondr est donne par
p y obs
i 1
wi*
i
o
n
n
wi*
I y j bi w j 1
N n j 1
est la somme des poids de sondage moins une unit sur lensemble des lments chantillonns ayant la
valeur bi , i 1, , K , normalise pour quelle soit gale n. (Soulignons que cela limine de la
vraisemblance les sujets chantillonns dont le poids est gal un, cest--dire les lments de
l chantillon slectionn avec certitude , car ils nont aucune chance de se trouver dans la partie non
observe de la population, et donc napportent aucune information au sujet des lments non observs.) En
mettant lhypothse dune loi a priori de Dirichlet impropre p
i 1
i1 , la loi a posteriori du
38
P Y nob y , w P b1nob r1 ,
p Y nob p y p d 1
0
1
puisque
r N n et
j 1 i
n
j 1
p y p d 1
i 1
1
ri
i
*
i
i 1
wi* ri
i 1
, w K*
, b Knob rK w1* ,
i 1
wi*
i
wi*
i
i 1
dK
dK
1 d 1
i 1 i
1
i
d 1
(3.3)
dK
dK
N
n
wi* n.
Ensuite, nous montrons que la distribution des chantillons obtenus partir du modle durne de Plya
sous probabilits ingales de slection de Cohen (1997) est gale la loi a posteriori de lchantillon
BBPF avec probabilits de slection ingales. Sachant les donnes observes, la probabilit de tirer
N n boules et que les premires boules r1 aient la valeur b1 , et ainsi de suite, et que les dernires, rk ,
aient la valeur bk est :
P b1 r1 ,
, b K rK
w1* w1* 1
n
n 1
K
wi* ri
i 1
*
i
w1* r1 1
n r1 1
w K*
n
k 1
i 1
ri
w K* rK 1
n
r 1
i 1 i
N
n
o la premire galit dcoule du fait que la distribution des nombres de boules de type bi est invariante
sous toute permutation des tirages, comme dans le cas non pondr, et la deuxime galit dcoule de
lidentit x x 1 x pour x 0. Donc, en notant que
wi 1 l i , k 1 * N n n
w * l i , k 1
i
,
N n k 1 * N n n n k 1
un tirage partir du modle de lurne de Plya avec probabilits de slection ingales donne un tirage
partir de P Ynob y , w dans (3.3).
39
a posteriori de la population refltent les caractristiques du plan de sondage complexe et puissent tre
utiliss de la faon classique pour calculer les lois a posteriori des quantits dintrt de la population.
H
h 1
h 1
c h , et
modle de lurne de Plya avec le BBPF pour imputer les grappes non observes lintrieur de chaque
strate, c1* , , cC* h ch , qui, avec les grappes observes, fournissent les grappes dans la strate h de la
population. Cependant, les donnes grande diffusion disponibles ne nous permettent habituellement pas
de savoir quel est le nombre de grappes dans une strate. Donc, comme alternative au tirage dun
chantillon BBPF, nous proposons le tirage dun chantillon bootstrap baysien classique de grappes dans
chaque strate. En tenant compte de lquivalence entre le bootstrap classique et le bootstrap baysien, nous
procdons comme Rao et Wu (1988), qui ont propos de tirer un chantillon alatoire simple avec remise
(EASAR) de taille m h partir des c h grappes et, lintrieur de chaque strate h , de calculer les poids de
rchantillonnage pour chaque chantillon bootstrap comme
* l
w * l whik
, h 1,
, H , i 1,
, c h , k 1,
, N hi ,
*
whik
whik 1
mh
c h 1
mh ch
m hi*
ch 1 mh
et m hi* dsigne le nombre de fois que la grappe i , i 1, , c h est slectionne. Pour tre certain que tous
les poids de rchantillonnage soient non ngatifs, il faut que mh c h 1 ; ici et plus loin, nous
prenons mh c h 1 .
Notons quen labsence de grappes, nous tirons simplement un chantillon bootstrap baysien
classique partir des donnes chantillonnes dans chaque strate (sil existe une stratification) ou partir
de lchantillon complet (en labsence de stratification, de sorte que H 1 ) et nous calculons les poids de
*
rchantillonnage comme tant whik
whik mhi* .
Nous rptons cette procdure L fois pour produire L chantillons bootstrap baysiens (BB) nots
S1 , , S L . Cette tape gnre L chantillons bootstrap baysiens qui sont essentiellement L tirages
partir de la loi prdictive a posteriori des grappes non observes sachant les donnes relles. Cependant,
les units formant les L chantillons bootstrap baysiens possdent encore des poids et ne peuvent tre
analyses comme sil sagissait dchantillons alatoires simples.
4.2 Utilisation du modle de lurne de Plya avec le BBPF pondr pour faire
un ajustement pour la pondration
Une fois que nous avons obtenu L chantillons BB avec les poids de rchantillonnage, la deuxime
tape consiste imputer les units non observes en utilisant le modle de lurne de Plya avec le BBPF
40
, S L ~ t L 1 Q L , 1 L1 V L
QL
L
l 1
Ql
l 1
f 1
LF
Q lf
et V L
1 L
2
Ql Q L .
L l 1
Le rsultat dcoule directement de la section 4.1 dans Raghunathan et coll. 2003, et est fond sur les rgles
de combinaison classiques pour limputation multiple de Rubin (1987), en traitant les units non observes
de S l comme des donnes manquantes et les units chantillonnes, comme des donnes observes. La
variance intra-imputation moyenne est nulle, puisque la population est entirement synthtise; do,
41
X i ~ UNI 0, 05; 0, 65 , i 1,
,N
Yi X i x i ~ GAMMA 10 * x i ,1
Nous supposons que X est entirement observ pour la population, et que la probabilit de slection
est proportionnelle X , de sorte que i
nx i i x i dans un plan de sondage sans remise condition
que n N . La quantit estimer est la moyenne de population Y N 1 i 1 y i 3,564. Notons que
N
corr Yi , X i 0,6794, de sorte que les moyennes dchantillon non pondres prsentent un biais positif,
et que lutilisation des poids de sondage wi 1 i est ncessaire pour obtenir des estimations sans biais
de Y . Nous gnrons une population de taille N 1 000 partir de laquelle nous tirons n 100
chantillons; nous estimons ensuite le biais, la variance empirique et la variance estime, la longueur de
lintervalle de confiance 95 % et la couverture au niveau de confiance nominal de 95 % au moyen de
200 chantillons indpendants tirs de la population. Nous faisons varier le nombre total de populations
simules L qui prend les valeurs de 5, 20, 100 et 1 000, ainsi que le nombre F de tirages BBPF de taille
N n (de manire que K 9 ) qui prend les valeurs de 1, 20 et 100, dans un plan factoriel complet.
Nous obtenons la variance, la longueur de lintervalle et la couverture de lintervalle au moyen de
lapproximation normale; pour L 100 et 1 000, nous obtenons galement la variance, la longueur de
42
lintervalle et la couverture de lintervalle en utilisant les tirages directs partir de la loi prdictive
a posteriori, puisque nous disposons dun nombre suffisant de tirages partir de cette loi pour produire ces
estimations.
Le tableau 6.1 donne les rsultats de ltude par simulation. Dans tous les cas, lestimation ponctuelle
Q L de la moyenne de population est approximativement sans biais, ce qui tmoigne de la capacit du
BBPF pondr dfaire les poids de sondage pour produire la population synthtique. Sous
lapproximation normale, laugmentation du nombre de populations synthtiques est associe de plus
petites variances et des intervalles plus troits, comme il fallait sy attendre sous un plus grand nombre de
degrs de libert, quoique la diffrence entre les rsultats obtenus pour 20 et 100 populations soit minime,
juste quand la loi t 20 commence sapprocher dune loi normale standard. Enfin, lutilisation dun seul
tirage BBPF de taille N n semble donner lieu une surestimation de la variance et un
surdnombrement, surtout pour les petites valeurs de L . Les valeurs de L et de F gales ou suprieures
20 semblent donner des rsultats raisonnables. Lutilisation des tirages directs pour L 100 et 1 000
produit des estimations de variance et dintervalle de crdibilit qui sont fort semblables celles donnes
par lapproximation normale, les longueurs dintervalle tant toutefois lgrement plus courtes et les
couvertures un peu moins conservatrices.
Tableau 6.1
Biais, variance empirique, moyenne de la variance estime, longueur de lintervalle et couverture de
lintervalle de confiance au niveau nominal de 95 % dune moyenne de population en fonction du nombre de
populations synthtiques L et du nombre de tirages par bootstrap baysien en population finie pondr qui
constituent la population synthtique F . Longueur et couverture de lintervalle obtenues par
approximation par la loi t et empiriquement par simulation directe. Plan de sondage un degr avec
probabilits de slection ingales. Rsultats pour 200 simulations.
L
Biais
20
20
100
20
100
100
20
1 000
100
20
100
-0,020 0,009 -0,026 0,021 -0,030 0,010 -0,031 0,024 -0,028 -0,045 -0,070 0,079
Variance emp.
0,126 0,099 0,106 0,088 0,092 0,120 0,093 0,079 0,085 0,084 0,093 0,078
Variance est. : t
0,172 0,119 0,105 0,156 0,098 0,099 0,109 0,097 0,095 0,147 0,104 0,094
Longueur de lintervalle : t
2,20
1,78
1,71
1,63
1,30
1,32
1,52
1,21
1,20
1,50
1,26
1,20
97
95
96
99
94
92
98
96
95
98
96
98
Couverture IC 95 % : t
Variance est. : Empirique
0,138 0,095 0,084 0,148 0,093 0,094 0,108 0,096 0,094 0,084 0,093 0,078
s.o.
s.o.
s.o.
s.o.
s.o.
s.o.
1,50
1,19
1,18
1,49
1,25
1,19
Couverture IC 95 % : Empirique
s.o.
s.o.
s.o.
s.o.
s.o.
s.o.
96
93
94
98
96
97
100 50
50 100 ,
43
o
i 1 / 150 dsigne leffet de strate;
La population utilise pour ltude par simulation compte 61 324 sujets. Nous tirons un chantillon en
grappes stratifi avec probabilits de slection ingales. Plus prcisment, nous slectionnons deux
grappes dans chaque strate avec probabilits proportionnelles la taille de grappe (PPT) donnes par
bi
ai
j 1
population. Donc, la probabilit que lunit ij soit slectionne est donne par
ij
bij 5
j 1 bij bij
2bi
ai
bij j i1 bij
a
wij
2bi bij 5
Puisque les nombres de grappes et dunits sont alatoires, la taille de lchantillon complexe diffre
lgrement dune rplique lautre, la moyenne tant approximativement de 770.
Comme lchantillon et la population sont de grande taille, nous nous concentrons sur linfrence en
utilisant les approximations t . Nous gnrons L 100 populations synthtiques en utilisant F
chantillons BBPF pondrs de taille K 100n. Les quantits estimer sont la moyenne marginale de
population pour x 1
N
X 1 N 1 X 1i
i 1
et celle pour x 2 , obtenue de manire similaire, ainsi que les coefficients de rgression de x 1 sur x 2 ,
donns par
B0 X 1 B1 X 2 , B1
N
i 1
X 1i X 1 X 2 i X 2
2
i 1 X 2i X 2
N
Nous avons tir 200 chantillons indpendants de la population et utilis les donnes dchantillon pour
calculer directement les moyennes et les coefficients de rgression linaire pour lchantillon pondr,
ainsi que les estimations correspondantes des variances et des intervalles de confiance au niveau nominal
de 95 % en utilisant des approximations par dveloppement en srie de Taylor, et les avons compares aux
estimations quivalentes obtenues en utilisant les donnes synthtiques non paramtriques. Les rsultats
sont prsents au tableau 6.2. (Puisque les moyennes marginales ont la mme valeur de superpopulation,
nous combinons les rsultats dans le tableau 6.2.) La figure 6.1 donne le diagramme de dispersion des
paires de moyennes, dordonnes lorigine et de pentes estimes daprs les chantillons rels et les
44
Donnes relles
e.-t.
.-T.
Estimation
Moyenne X
Ordonne
lorigine B 0
Pente B1
Estimation
Populations synthtiques
e.-t.
.-T.
Couverture
(%)
0,476
0,493
94
836,701
0,461
0,491
Couverture
(%)
93
1,013
1,768
1,848
94
1,014
1,775
1,846
92
0,999
0,002
0,002
92
0,999
0,002
0,002
92
836,793
Ordonne lorigine
835,5
837,0
838,5
4
2
-2
Estimations synthtiques
837,5
835,5
Estimations synthtiques
Moyenne
-2
1,000
0,994
Estimations synthtiques
Pente
0,994
0,998
1,002
Figure 6.1 Diagramme de dispersion des statistiques descriptives et analytiques pour les populations relles et
synthtiques
45
7 Application
la prsente section, nous utilisons des donnes tires de la National Health Interview Survey (NHIS)
de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006 pour valuer la performance de la
mthode non paramtrique sous un plan de sondage en grappes stratifi. La National Health Interview
Survey (NHIS) est une enqute sur la sant de porte nationale, ralise par interview en personne selon
un plan stratifi plusieurs degrs avec surchantillonnage des populations noires, hispaniques et ges.
Pour des raisons de confidentialit, la stratification et les variables au niveau de lunit dchantillonnage
(UPE) relles ne sont pas communiques dans les fichiers de donnes grande diffusion; elles sont
remplaces par des pseudo-strates et UPE (deux par strate). La MEPS est ralise auprs dun souschantillon de lchantillon de la NHIS de lanne prcdente, selon le mme plan stratifi plusieurs
degrs.
Tant dans la NHIS que dans la MEPS, on demande aux participants lenqute sils sont couverts par
une assurance maladie et, dans laffirmative, quel rgime dassurance maladie ils utilisent (priv par
opposition public tel que Medicare ou Medicaid). Nous estimons les taux globaux de couverture par une
assurance maladie, ainsi que les taux de couverture dans des sous-populations dfinies en fonction de
variables dmographiques telles que le sexe, la race, le niveau de revenu ou des combinaisons de ces
variables; en particulier, nous estimons la couverture par une assurance maladie des hommes, des Blancs
non hispaniques et des Blancs non hispaniques dont le revenu du mnage est compris entre 25 000 $ et
35 000 $ par anne. Nous supprimons les cas pour lesquels les valeurs manquent pour certaines questions
et nous axons notre simulation sur les cas complets. Nous obtenons ainsi 20 147 et 20 893 cas pour les
donnes de la NHIS et de la MEPS, respectivement.
46
population synthtique est 50 fois plus grande que lchantillon rel (1 007 350 pour la NHIS, 1 044 650
pour la MEPS). Chaque population synthtique est analyse comme un chantillon alatoire simple et les
estimations sont combines comme il est dcrit la section 5.
i 1
j 1
, m, j 1,
, n,
o log ij est le logarithme de la probabilit quune observation se trouve dans la cellule ij du tableau
de contingence, iZ est leffet principal pour Z , Yj est leffet principal pour Y et ijZY est leffet
dinteraction pour Z et Y . Ce modle comprend tous les effets unidimensionnels et bidimensionnels
possibles, et est donc satur, car il contient le mme nombre deffets que de cellules dans le tableau de
contingence. Pour viter de surajuster les donnes dans lexemple, nous pouvons considrer des modles
non saturs dont sont exclus certains termes dinteraction, voire tous, en choisissant le modle en nous
basant sur des tests de rapport de vraisemblance, ou sur le critre AIC ou BIC.
Les populations synthtiques peuvent tre gnres partir de la distribution prdictive a posteriori
issue du modle. Toutefois, si les donnes sont recueillies selon un plan de sondage complexe, nous ne
connaissons aucun logiciel statistique standard capable de produire la fois lestimation ponctuelle et
lestimation de covariance des coefficients de rgression. Nous avons donc choisi dutiliser une mthode
de rchantillonnage jackknife pour tenir compte de la stratification, de la mise en grappe et de la
pondration. Plus prcisment, les populations synthtiques paramtriques peuvent tre gnres selon les
tapes suivantes :
1. Estimer les coefficients et la matrice de covariance :
Sous le modle choisi (suppos tre le modle satur bidimensionnel ici, simplement pour
lillustration), estimer les coefficients 0 , iZ , Yj , ijZY , i 1, , m 1, j 1, , n 1 et la
matrice de covariance des estimations
0 , iZ , Yj , ijZY
caractristiques du plan complexe en utilisant la mthode des rpliques quilibres jackknife (REJ) :
Pour chaque rplique, retirer une grappe et augmenter les poids de sondage des units des autres
grappes lintrieur de la mme strate dun facteur c h c h 1 (poids de rchantillonnage), o
c h dsigne le nombre de grappes dans la strate h. En supposant que nous avons un total de
47
H
h 1
c h C grappes, nous avons alors C rpliques. Pour chaque rplique, nous ajustons le
Pour chaque rplique, utiliser les poids de rchantillonnage pour ajuster le modle log-linaire.
Plus prcisment, utiliser les poids de rchantillonnage pour calculer la taille de chaque cellule
du tableau de contingence, qui est utilis pour ajuster le modle log-linaire. Nous notons lEMV
pour la r e rplique comme un vecteur colonne, r , r 1, , c h pour la strate h. Soulignons
que 0 , iZ , Yj , ijZY , i 1,
, m 1,
j 1,
, c h , h 1,
nous notons 0r , 1r ,
ch
h 1
r 1
, m 1, j 1,
c h 1 ch r
p p
c h r 1
h 1
ch
h 1 r 1
r
p
o p
, mn . De mme,
C et q
ch
h 1 r 1
r
q
r
q
q ,
. Pour chaque
l 1,
, L, l 0l , iX l , Yj l , ijXY l , i 1,
, m 1, j 1,
, n 1,
, m 1, j 1,
, n 1.
48
Une fois que les proportions sont dtermines pour chaque cellule, nous pouvons gnrer un tableau
synthtique de nimporte quelle taille.
Les rsultats qui suivent sont fonds sur un tableau de contingence sept dimensions (voir le
tableau 7.1 pour les catgories particulires de covariables). Les mesures du BIC indiquent quun modle
contenant toutes les interactions bidimensionnelles mais ne contenant aucune interaction tridimensionnelle
est celui qui donne lajustement le plus parcimonieux.
Tableau 7.1
Variables et catgories de rponse de la NHIS et de la MEPS de 2006 utilises dans le modle log-linaire
Variables dintrt
Catgories de rponse
ge
Rgion de recensement
Scolarit
1 : [18; 24]; 2 : [25; 34]; 3 : [35; 44]; 4 : [45; 54]; 5 : [55; 64]; 6 : >= 65
1 : Nord-Est; 2 : Mid-Ouest; 3 : Sud; 4 : Ouest
1 : tudes secondaires partielles; 2 : Diplme dtudes secondaires; 3 : tudes collgiales partielles;
4 : Diplme dtudes collgiales
1 : Masculin; 2 : Fminin
1 : Nimporte quel rgime priv; 2 : Rgime public; 3 : Non assur
Sexe
Couverture par une
assurance maladie
Revenu
Race
1 : (0; 10 000); 2 : [10 000; 15 000); 3 : [15 000; 20 000); 4 : [20 000; 25 000); 5 : [25 000; 35 000);
6 : [35 000; 75 000); 7 : >= 75 000
1 : Hispanique; 2 : Blanche non hispanique; 3 : Noire non hispanique; 4 : Tous les autres groupes
non hispaniques confondus
7.2 Rsultats
Les rsultats sont rsums au tableau 7.2. Pour la population totale et les sous-populations les plus
grandes, nous voyons que les estimations ponctuelles (moyenne a posteriori) des taux de couverture par
une assurance mdicale sont les mmes sous les approches non paramtrique et log-linaire, et quelles
sont presque identiques celles obtenues au moyen des donnes relles aprs avoir tenu compte des
caractristiques du plan de sondage complexe. Les deux mthodes donnent des populations synthtiques
dont les variances (a posteriori) sont lgrement plus leves que dans le cas des donnes relles, ce qui
reflte la perte dinformation dans la synthse. Dans le cas de la NHIS, la perte pour lestimateur non
paramtrique est gale, en moyenne, un peu plus de 20 % et est lgrement suprieure celle observe
pour le modle log-linaire, pour lequel la perte est, en moyenne, de lordre de 10 %. Dans le cas de la
MEPS, les estimateurs affichent tous deux une perte denviron 10 % par rapport aux donnes relles.
Cependant, pour les sous-populations plus petites (Blancs non hispaniques gagnant de 25 000 $ 35 000 $
par anne), le modle log-linaire produit des rsultats biaiss, dus au fait que le modle log-linaire ne
contient pas toutes les interactions possibles. La mthode non paramtrique produit des estimations
presque identiques celles obtenues au moyen des donnes relles aprs avoir tenu compte des
caractristiques du plan de sondage complexe. Le modle log-linaire donne galement lieu une sousestimation importante, de lordre de 30 % 40 %, de la variance de la couverture par une assurance
mdicale pour ces sous-populations, par opposition une surestimation de lordre de 10 % 40 % dans le
cas de lapproche non paramtrique.
49
Tableau 7.2
Estimations daprs les donnes relles et daprs les populations synthtiques (modles non paramtrique et
log-linaire) pour la NHIS et la MEPS de 2006
Donnes relles (plan complexe)
Domaine
Population complte
Hommes
Type
NHIS
MEPS
Rgime priv
Rgime public
Non assur
0,746
0,075
0,179
0,735
0,133
0,132
Rgime priv
Rgime public
Non assur
2,46E-05
6,29E-06
1,84E-05
2,78E-05
1,44E-05
1,41E-05
Rgime priv
Rgime public
Non assur
0,740
0,060
0,200
0,735
0,101
0,164
Rgime priv
Rgime public
Non assur
3,32E-05
6,82E-06
2,94E-05
3,87E-05
1,53E-05
2,64E-05
Rgime priv
Rgime public
Non assur
0,805
0,062
0,134
0,788
0,116
0,096
Rgime priv
Rgime public
Non assur
2,99E-05
8,20E-06
2,02E-05
3,35E-05
1,81E-05
1,51E-05
Rgime priv
Rgime public
Non assur
0,827
0,039
0,134
0,813
0,079
0,108
Rgime priv
Rgime public
Non assur
1,00E-04
2,82E-05
7,24E-05
1,39E-04
6,31E-05
8,92E-05
Populations synthtiques
Non paramtrique
Modle log-linaire
NHIS
MEPS
NHIS
MEPS
Proportion
0,746
0,736
0,746
0,734
0,075
0,132
0,076
0,133
0,179
0,132
0,178
0,132
Variance
3,15E-05
3,31E-05
2,66E-05 2,86E-05
8,06E-06
1,59E-05
7,99E-06 1,77E-05
2,29E-05
1,71E-05
1,81E-05 1,56E-05
Proportion
0,740
0,736
0,740
0,735
0,060
0,100
0,060
0,102
0,200
0,164
0,200
0,164
Variance
3,93E-05
4,31E-05
3,70E-05 3,52E-05
8,81E-06
1,63E-05
7,91E-06 1,91E-05
3,29E-05
2,79E-05
3,19E-05 2,56E-05
Proportion
0,804
0,788
0,804
0,788
0,062
0,116
0,062
0,117
0,134
0,096
0,134
0,096
Variance
3,79E-05
4,12E-05
3,07E-05 3,98E-05
1,04E-05
2,00E-05
1,10E-05 2,45E-05
2,35E-05
1,80E-05
1,82E-05 1,82E-05
Proportion
0,827
0,814
0,840
0,838
0,039
0,079
0,037
0,067
0,134
0,107
0,122
0,096
Variance
1,48E-04
1,63E-04
6,80E-05 8,59E-05
3,86E-05
7,28E-05
1,79E-05 4,25E-05
9,55E-05
1,11E-04
4,38E-05 5,79E-05
8 Discussion
Dans le prsent article, nous proposons et valuons une mthode non paramtrique pour produire des
populations synthtiques. Cette mthode permet de tenir compte des caractristiques du plan de sondage
complexe sans utiliser de modles hypothtiques pour les donnes observes, de sorte quelle est robuste
aux erreurs de spcifications du modle. En outre, contrairement aux mthodes fondes sur un modle qui
ncessitent llaboration de modles dimputation distincts pour les diverses variables dintrt, la
mthode non paramtrique nutilise que les variables de plan de sondage pour gnrer les populations
synthtiques et nest donc pas particulire une variable.
Nous avons considr les proprits de rchantillonnage de nos estimateurs synthtiques non
paramtriques sous une loi Gamma univarie et sous une loi normale bivarie, en estimant les moyennes,
les pentes et les ordonnes lorigine. Les estimations ponctuelles taient sans biais, les intervalles avaient
une couverture correspondant approximativement au niveau nominal et les pertes defficacit
comparativement aux donnes relles taient ngligeables. Nous avons galement considr des
50
conditions relles en gnrant une loi prdictive pour les donnes de la NHIS et de la MEPS de 2006
et en estimant les taux de couverture par une assurance mdicale et les variances associes par la mthode
non paramtrique ainsi que par une approche de modlisation log-linaire entirement paramtrique.
Lorsque les modles sont bien ajusts aux donnes, la mthode fonde sur un modle est plus efficace que
la mthode non paramtrique. Cependant, lorsque le modle hypothtique nest pas bien ajust aux
donnes, comme cela est le cas pour certains petits domaines, la mthode fonde sur un modle peut
produire des infrences non valides. Dans ces situations, la mthode non paramtrique est robuste
lerreur de spcification du modle.
Outre la robustesse lerreur de spcification du modle, un autre avantage de la mthode non
paramtrique tient au fait quelle nutilise que les variables de plan de sondage, comme la strate, la grappe
et le poids, pour imputer la partie non observe de la population. Contrairement aux mthodes fondes sur
un modle, elle ne requiert donc pas la modlisation de relations compliques entre les variables dintrt,
laquelle devient impossible si des valeurs manquent pour certains items dans les donnes relles. La
mthode non paramtrique prserve ces valeurs ditem manquantes dans les populations synthtiques
produites. Cette proprit pourrait combler une lacune dans le domaine de limputation multiple en ce sens
que les mthodes existantes consistent habituellement imputer les valeurs manquantes dans les donnes
comme si ces dernires avaient t obtenues par chantillonnage alatoire simple, sans tenir compte des
caractristiques du plan de sondage complexe. Un avantage apparent est que, mme si les populations
synthtiques sont produites non paramtriquement en se servant des variables de plan, il nest pas
ncessaire quelles contiennent elles-mmes ces variables, puisquelles peuvent tre analyses comme des
chantillons alatoires simples. Cela permet donc dliminer le risque de divulgation associ la diffusion
des variables du plan de sondage (De Waal et Willenborg, 1997; Mitra et Reiter, 2006; Reiter et
Mitra, 2009).
Un quatrime avantage pratique de la mthode non paramtrique est quelle est plus facile mettre en
uvre dans les progiciels statistiques existants, parce quelle est axe sur les variables du plan de sondage;
de ce fait, il nest pas ncessaire dlaborer des stratgies particulires pour les divers types de variables et
de structures de donnes.
Comme lapplication du bootstrap baysien en population finie (BBPF) pondr ne requiert pas que
lon connaisse le nombre de grappes dans la population ni les probabilits conditionnelles de slection
chaque degr de slection dans le cas dun chantillonnage plusieurs degrs, nous utilisons un bootstrap
baysien approximatif pour tenir compte de la stratification et de la mise en grappes. Selon nous, cette
approche est avantageuse de nombreux gards, puisquhabituellement, les ensembles de donnes
grande diffusion ne contiennent pas la ventilation des poids pour chaque degr dchantillonnage.
Toutefois, linconvnient est que, afin de sassurer que les poids de rchantillonnage soient positifs, le
bootstrap baysien produit moins de grappes dans les strates quil ny en a dans les donnes relles. Quand
les probabilits de slection sont connues pour tous les degrs dchantillonnage, il semble probable que le
BBPF pondr puisse tre mis en uvre chaque degr, en imputant la population de grappes non
observes et la population dlments dans chaque grappe en deux tapes, lexemple de Meeden (1999),
tout comme le BBPF un degr sinspire de Ghosh et Meeden (1983). Il sagit dun domaine dans lequel
la recherche doit se poursuivre.
51
Remerciements
La prsente tude a t finance par la subvention R01CA129101 du NCI. Les auteurs remercient le
rdacteur, le rdacteur associ et deux examinateurs anonymes de leurs commentaires. Nous sommes tout
particulirement redevables lexaminateur qui nous a aids mieux comprendre et expliquer les liens
entre le bootstrap baysien en population finie et la loi a posteriori de Plya exposs la section 3.
Bibliographie
Agresti, A. (2002). Categorical Data Analysis, New York: John Wiley & Sons, Inc.
Chen, Q., Elliott, M.R. et Little, R.J.A. (2010). Bayesian penalized spline model-based inference for finite
population proportion in unequal probability sampling. Survey Methodology, 36, 1, 25-37.
Cohen, M.P. (1997). The Bayesian bootstrap and multiple imputation for unequal probability sample
designs. Proceedings of the Survey Research Methods Section, American Statistical Association, 635638.
de Waal, A.G., et Willenborg, L.C.R.J. (1997). Statistical disclosure control and sampling weights.
Journal of Official Statistics, 13, 417-434.
Dong, Q. (2012). Combining Information from Multiple Complex Surveys. Unpublished Thesis.
Elliott, M.R. (2007). Bayesian weight trimming for generalized linear regression models. Survey
Methodology, 33, 1, 27-40.
Elliott, M.R., et Little, R.J.A. (2000). Model-based approaches to weight trimming. Journal of Official
Statistics, 16, 191-210.
Ericson, W.A. (1969). Subjective Bayesian modeling in sampling finite populations. Journal of the Royal
Statistical Society, B31, 195-234.
Ghosh, M., et Meeden, G. (1983). Estimation of the variance in finite population sampling. Sankhy: The
Indian Journal of Statistics, B45, 362-375.
Hinkins, S., Oh, H.L. et Scheuren, F. (1997). Inverse sampling design algorithms. Survey Methodology,
23, 1, 13-24.
Lazzeroni, L.C., et Little, R.J.A. (1998). Random effects models for smoothing poststratification weights.
Journal of Official Statistics, 14, 61-78.
Little, R.J.A. (1991). Inference with survey weights. Journal of Official Statistics, 7, 405-424.
Little, R.J.A. (1993). Statistical analysis of masked data. Journal of Official Statistics, 9, 407-426.
Little, R.J.A. (2004). To model or not to model? Competing modes of inference for finite population
sampling. Journal of the American Statistical Association, 99, 546-556.
52
Lo, A.Y. (1988). A Bayesian bootstrap for a finite population. Annals of Statistics, 16, 1684-1695.
Meeden, G. (1999). A noninformative Bayesian approach for two-stage cluster sampling. Sankhy: The
Indian Journal of Statistics, B61, 133-144.
Mitra, R., et Reiter J.P. (2006). Adjusting survey weights when altering identifying design variables via
synthetic data. Privacy in statistical databases: Lecture Notes in Computer Science, 4302, 177-188.
Raghunathan, T.E., Reiter, J.P. et Rubin, D.B. (2003). Multiple imputation for statistical disclosure
limitation. Journal of Official Statistics, 19, 1-16.
Raghunathan, T.E., Xie, D.W., Schenker, N., Parsons, V.L., Davis, W.W., Dodd, K.W. et Feuer, D.J.
(2007). Combining information from two surveys to estimate county-level prevalence rates of cancer
risk factors and screening, Journal of the American Statistical Association,102, 474-486
Rao, J.N.K., et Wu, C.F.J. (1988). Resampling inference with complex survey data. Journal of the
American Statistical Association, 83, 231-241.
Reiter, J.P. (2004). Simultaneous use of multiple imputation for missing data and disclosure limitation.
Survey Methodology, 30, 2, 235-242.
Reiter, J.P. (2005). Releasing multiply imputed, synthetic public use microdata: An illustration and
empirical study. Journal of the Royal Statistical Society, A168, 185-205.
Reiter, J.P., et Mitra, R. (2009). Estimating risks of identification disclosure in partially synthetic data.
Journal of Privacy and Confidentiality, 1, 1, Article 6.
Rubin, D.B (1987). Multiple Imputation for Non-Response in Surveys, New York: John Wiley & Sons,
Inc.
Scott, A.J. (1977). Large sample posterior distributions in finite populations. The Annals of Mathematical
Statistics, 42, 1113-1117.
Skinner, C., Holt, D. et Smith, T. (1989). Analysis of Complex Surveys, New York: John Wiley & Sons,
Inc.
53
1 Introduction
Fay et Train (1995) prsentent une mthode quils nomment successive difference replication (SDR),
c.--d. rpliques des diffrences successives, qui peut tre utilise pour estimer la variance dun total
estim au moyen dun chantillon alatoire systmatique tir dune liste ordonne. Lestimateur prend la
forme gnrale de lestimateur de variance par rchantillonnage, o les facteurs de rchantillonnage sont
construits de manire imiter lestimateur par diffrences successives (SD).
Larticle dcrit ltablissement et lutilisation de nouveaux concepts en vue de mieux comprendre la
mthodologie propose au dpart par Fay et Train (1995), ci-aprs appels F et T. Ces nouveaux concepts
aident expliquer leffet de lattribution des lignes de matrice sur lestimateur de variance, montrer
comment un jeu rduit de rpliques mne un estimateur raisonnable, et tablir les conditions pour que
la mthode des rpliques des diffrences successives soit quivalente lestimateur par diffrences
successives. Nous esprons quen tant mieux comprise, la SDR semblera moins mystrieuse et sera donc
plus facile utiliser par toute personne qui souhaite estimer les variances dans le cas dun chantillonnage
alatoire systmatique.
Larticle dbute par un examen de lestimateur SD et de la faon dont il convient lestimation de la
variance des chantillons alatoires systmatiques. La partie principale est consacre lintroduction de
deux thormes qui fournissent les conditions pour que lestimateur SDR soit quivalent lestimateur
SD. Larticle se termine par la prsentation dexemples empiriques en vue dexaminer leffet de diffrents
schmas daffectation des lignes de matrice et de montrer quil est appropri dutiliser un ensemble rduit
de rpliques.
1. Stephen Ash, U.S. Census Bureau, 4600 Silver Hill Road, Washington DC 20233. Courriel : stephen.eliot.ash@census.gov.
54
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
Dans la suite de lexpos, labrviation sys sera utilise pour dsigner lchantillonnage alatoire
systmatique partir dune liste ordonne. Nous utilisons labrviation sys parce que lon peut montrer
que lchantillonnage systmatique partir dune liste non ordonne ou dune liste ordonne alatoirement
est quivalent lchantillonnage alatoire simple (Madow et Madow 1944). Pour les besoins de notre
discussion, nous nous concentrons uniquement sur la slection quiprobabiliste et sur les mthodes de
slection dun chantillon dans une seule dimension. Le lecteur trouvera dexcellents rsums de
lchantillonnage sys et de lestimation des variances sous sys dans Iachan (1982), Wolter (1985,
chapitre 7), Murthy et Rao (1988), et Bellhouse (1988).
v SD1 y 1 f
n
1
y k y k 1 2 ,
2n n 1 k 2
o y k est la variable dintrt, k indice les units de lchantillon ordonn, et f n / N est la fraction
dchantillonnage. La statistique dintrt est Y ou le total de y k sur lunivers dintrt, et Y est un
estimateur de Y . Soit N et n la taille de lunivers et de lchantillon, respectivement. La moyenne de y k
et son estimateur sont dfinis comme tant y Y N et y , respectivement. Nous dfinissons aussi
lestimateur du total Y comme tant Y
n
k 1
est y k N n y k ; pour des poids de sondage ingaux w k , elle est dfinie comme tant y k wk y k .
Lestimateur v SD1 y a t dcrit par Yates (1953; pages 229 231) et recommand par Wolter (1984).
Murthy et Rao (1988, quation 32) donnent un aperu des raisons pour lesquelles lestimateur fonctionne.
La version abrge est que, puisque sous chantillonnage sys une seule unit est slectionne dans
chaque strate implicite, la solution de lestimateur SD consiste fusionner les strates implicites adjacentes.
Avec deux units, nous pouvons estimer la variance dune strate implicite. Aprs fusion des strates
implicites, la moyenne est calcule sur toutes les paires possibles, puis multiplie par n , le nombre de
strates implicites, pour donner la variance de toutes les strates implicites.
F et T donnent un estimateur de variance SD dun total sous chantillonnage sys de la forme
v SD1 Y 1 f
n
n
y k y k 1 2 .
2 n 1 k 2
et p k est la probabilit de
v SD2 Y
1
n
1 f y k y k 1 2 y n y1 2 ,
2
k 2
qui est circulaire en ce sens quil inclut une diffrence au carr supplmentaire qui relie les premire et
dernire units de la liste trie.
55
Nous exprimons lestimateur SD2 de manire plus gnrale sous une forme quadratique y C y , o
y y1 y 2 y n est dfini comme le vecteur dobservations pondres de dimension n 1 et C est une
matrice carre dont tous les lments de la diagonale principale valent 2, tous les lments de la diagonale
suprieure et de la diagonale infrieure valent -1, et llment infrieur gauche et llment suprieur droit
valent -1. Ici, les diagonales suprieures sont dfinies comme tant les diagonales adjacentes la
diagonale principale, except dans le cas dune matrice de dimensions 2 2 .
, SC S C I.
Preuve. Nous commenons par dfinir une matrice diagonale par blocs gnrale A qui est forme par les
matrices carres A 1 , A 2 , , A C comme
A bloc A 1 , A 2 ,
A 1
0
, AC
0
A2
0
... A C
...
...
56
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
On peut montrer que, si A et B sont toutes deux des matrices diagonales par blocs et que les matrices
carres A 1 , A 2 , , A C ont les mmes dimensions que B1 , B 2 , , B C , respectivement, alors
AB bloc A 1B1 , A 2 B 2 , , A C B C . Pour une matrice de dcalage donne, nous savons aussi que
SS I, puisque le dcalage dune ligne vers le bas dune matrice de dcalage est I. Le lemme dcoule
des deux lments qui prcdent.
Nous dfinissons aussi une matrice de dcalage dune ligne comme tant une matrice de dcalage qui
dcale toutes les lignes dune autre matrice dune ligne vers le bas et transfre la dernire ligne la
premire ligne, ou qui dcale toutes les lignes dune autre matrice dune ligne vers le haut et transfre la
premire ligne la dernire ligne. Si S D est une matrice de dcalage dune ligne qui dplace les lignes
vers le bas, tous les lments de la diagonale suprieure et llment infrieur gauche de la matrice ont une
valeur de 1, par exemple S 1 . De mme, si S U est une matrice de dcalage dune ligne qui dplace les
lignes vers le haut, tous les lments de la diagonal infrieure et llment suprieur droit de la matrice ont
une valeur de 1, par exemple la matrice S 2 subsquemment dfinie. Notons la proprit que S D SU et
SU SD ; donc, SU SU S D SD . Nous prsentons maintenant le thorme principal de larticle
qui tablit les conditions sous lesquelles lestimateur SDR est quivalent lestimateur SD2.
Thorme 1 : Soit n la taille dun chantillon sys donn et y y1 y 2 y n , le vecteur dobservations
pondres de dimension n 1 , o lordre des observations reflte lordre de tirage de lchantillon sys.
(a)
(b)
Choisir un schma dattribution de lignes (AL) qui assigne deux lignes a i , bi chaque unit
i de lchantillon. Poser que le schma AL dfinit C boucles connectes c contenant
chacune m c units.
(c)
n
i 1
f i , r y i , o la matrice des
57
1 f
4
y 1 m1k 2 3 2 I m 2 3 2 S M y 1 m1k y 1 m1k 2 3 2 I m 2 3 2 S M y 1 m1k
k
1 f
4 3 2 2
2 y I m S MM I m S y
k
1 f
1
1
y I m S kI m I m S y 1 f y I m S I m S y
2k
2
1
1 f y 2I m S S y
2
La dernire ligne dcoule du lemme et a une valeur constante pour tout choix de H. En notant la structure
diagonale par blocs de S, nous pouvons crire lestimateur sous la forme
C
1
1 f y c 2I m S c Sc y c ,
2
c 1
o y c correspond au vecteur des observations pondres dans la boucle connecte c, qui est un rsultat
de la partition du vecteur dobservations pondres pour donner y y c 1 y c 2 y c C . Le choix du
schma AL ne modifie pas le rsultat, puisque nous savons que 2I m S c Sc est constant pour une
matrice de dcalage dune ligne vers le haut ou vers le bas S c .
Note 1 : Le thorme 1 dfinit lestimateur SDR en fonctions des facteurs de rchantillonnage, mais nous
pouvons aussi lexprimer en fonction des poids de rchantillonnage sous la forme
4
k
1 f y W 1 m1k W 1 m1k y.
Ici, W est la matrice de dimensions m k des poids de rchantillonnage dfinie comme tant
W w * F, o w w1 , w2 , , wn est le vecteur de poids de sondage pour les n units de
lchantillon et loprateur * multiplie les lments du vecteur w par chacune des colonnes de F, c.--d.
que, si Wi , r et wi sont des entres de W et w, respectivement, les entres de W sont dfinies comme
tant Wi , r wi f i , r .
Note 2 : Huang et Bell (2009) dfinissent similairement lestimateur SDR sous une forme quadratique et
lutilisent pour tablir certaines proprits gnrales de lestimateur quand y k est i.i.d. , 2 . Nous
souhaitons interprter la faon dont lestimateur SDR fonctionne et la qualit de son fonctionnement.
Dfinir la forme quadratique avec des matrices de dcalage et des boucles connectes permet de mieux
comprendre les attributions de lignes et lefficacit de lestimateur.
58
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
Pour un chantillon de grande taille, il nest habituellement pas pratique dutiliser une matrice H o
n k . Le deuxime thorme offre un moyen dutiliser H en prenant k n pour produire une plus
grande matrice de Hadamard H o k n qui rsultera en un estimateur SDR quivalent lestimateur
SD2. Le deuxime thorme toffe et clarifie aussi les instructions donnes par F et T pour le cas o
n k . Dans leurs instructions, F et T utilisent le mot cycle pour dsigner chaque tranche de m d k
units de lchantillon. Le thorme 2 nimpose pas de contraintes sur le schma AL, mais suit part cela
les conditions tablies par F et T.
Thorme 2 : Soit n la taille dun chantillon sys donn.
(a)
(b)
(c)
Choisir une matrice de Hadamard semi-normale H B dordre k B et lutiliser pour dfinir une
plus grande matrice de Hadamard H dordre k gnre partir de la matrice H A originale.
Cela peut se faire en appliquant une construction de Welsch H A , c.--d. H H B H A .
(d)
Choisir les m
D
d 1
v SDR Y 1 f
4 k
2
Yr Y
k r 1
59
H 16 H 4 a H 4 b
H 4 b
H
4b
H 4 b
H
4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4b
H 4 b
o
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
et H 4 b
.
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
H 4a
En utilisant H 16 , nous pouvons calculer les facteurs de rchantillonnage pour 16 rpliques comme au
tableau 2.1. En notation matricielle, M englobe toutes les lignes de H H16 sauf les lignes 13 et 16. Les
lignes de M sont ordonnes par a i , la premire ligne assigne dans le schma AL. La matrice de
dcalage est dfinie comme S bloc S1 , S 2 , S 3 , S 4 , o les matrices de dcalage correspondant
chaque cycle sont
0
0
S1
0
1
1
0
0
0
0
1
0
0
0
0 1
1 0
0
S2
1
0 0
0 0
0
Tableau 2.1
Matrice des facteurs de rchantillonnage
Unit
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
AL
H A H 4b
(1,2)
(2,3)
(3,4)
(4,1)
(1,3)
(3,1)
(2,4)
(4,2)
(1,4)
(4,3)
(3,2)
(2,1)
(2,3)
(3,2)
fi,r
0
0
0
1
0
0 0
1 0
0
, S3
1
0 1
0 0
0
0
0
0
1
1
0
0 1
, S4
.
0
1 0
0
pour lexemple 1
AL
Rplique
2
3
4
5
6
7
8
9 10
H H 16 Cycle 1
(1,2)
1,7 1,0 1,7 1,0 1,7 1,0 1,7 1,0 1,7 1,0
(2,3)
1
0,3 1,0 1,0 1,7 0,3 1,0 1,0 1,7 0,3 1,0
(3,4)
1,0 0,3 1,0 0,3 1,0 0,3 1,0 0,3 1,0 0,3
(4,1)
1,0 1,7 0,3 1,0 1,0 1,7 0,3 1,0 1,0 1,7
(5,7)
1,0 1,0 1,7 1,7 1,0 1,0 0,3 0,3 1,0 1,0
(7,5)
2
1,0 1,0 0,3 0,3 1,0 1,0 1,7 1,7 1,0 1,0
(6,8)
0,3 0,3 1,0 1,0 1,7 1,7 1,0 1,0 0,3 0,3
(8,6)
1,7 1,7 1,0 1,0 0,3 0,3 1,0 1,0 1,7 1,7
(9,12)
1,0 0,3 1,7 1,0 1,0 0,3 1,7 1,0 1,0 1,7
(12,11)
3
1,0 1,7 1,0 1,7 1,0 1,7 1,0 1,7 1,0 0,3
(11,10)
1,7 1,0 1,0 0,3 1,7 1,0 1,0 0,3 0,3 1,0
(10,9)
0,3 1,0 0,3 1,0 0,3 1,0 0,3 1,0 1,7 1,0
(14,15)
4
0,3 1,0 1,0 1,7 1,7 1,0 1,0 0,3 1,7 1,0
(15,14)
1,7 1,0 1,0 0,3 0,3 1,0 1,0 1,7 0,3 1,0
11
12
13
14
15
16
1,7
1,0
1,0
0,3
1,7
0,3
1,0
1,0
0,3
1,0
1,0
1,7
1,0
1,0
1,0
1,7
0,3
1,0
1,7
0,3
1,0
1,0
1,0
0,3
1,7
1,0
0,3
1,7
1,7
0,3
1,0
1,0
1,0
1,0
1,7
0,3
1,0
1,0
0,3
1,7
0,3
1,7
1,0
1,0
0,3
1,7
1,0
1,0
1,7
0,3
1,7
0,3
1,0
1,0
1,0
1,0
1,7
1,0
1,0
0,3
0,3
1,7
1,0
1,0
0,3
1,0
1,0
1,7
1,0
1,0
1,0
1,7
0,3
1,0
0,3
1,7
1,0
1,0
1,0
0,3
1,7
1,0
1,7
0,3
60
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
tant donn les facteurs de rchantillonnage du tableau 2.1, lestimateur SDR est quivalent la
somme de cinq estimateurs SD2 diffrents, un pour chaque boucle connecte du schma AL, c.--d.
4 k
2
1 f Yr Y
k r 1
2
2
2
y i y i 1 y 4 y 1 2 y 6 y 5
i 2
12
1
2
2
2
1 f 2 y 8 y 7 y i y i 1 y 12 y 9 .
2
i 10
2 y y 2
13
13
(2.1)
61
y 1 y 2 y 8 y 7 y 1 y 2 y 11 y 12 y 1 y 2 y 13 y 14
y y y y y y y y y y y y
8
7
11
12
8
7
14
13
11
12
14
13
y 4 y 3 y 8 y 7 y 4 y 3 y10 y 9 y 8 y 7 y10 y 9
R
y 1 y 4 y 5 y 6 y 1 y 4 y 9 y 12 y 5 y 6 y 9 y 12
y 5 y 6 y 10 y 11 y 5 y 6 y 13 y 14 y 10 y 11 y 13 y 14
Notons que R comprend le mme nombre de termes positifs et ngatifs, qui ne sannulent pas exactement,
mais qui font que la valeur de R est habituellement proche de zro. De mme, utiliser les rpliques 1
q k A , o q 1, 2, , k B , donne un reste R comprenant un nombre gal de termes positifs et de termes
ngatifs. Ce nest quen utilisant toutes les rpliques de H que le terme de reste R est nul.
Exemple 2 : La taille de lchantillon mensuel de la Current Population Survey (CPS) est de
n 72 000 mnages par mois (U.S. Census Bureau 2006). La CPS est ralise selon un plan de sondage
deux degrs comprenant la slection dun chantillon de premier degr form dunits primaires
dchantillonnage (UPE), qui sont habituellement des comts ou des groupes de comts, puis le tirage de
lchantillon de deuxime degr de mnages partir de lchantillon dUPE. Certaines UPE, gnralement
les rgions mtropolitaines, sont slectionnes avec certitude, c.--d. que leur probabilit de slection au
premier degr est 1,0. Dans le cas des UPE slectionnes avec certitude, lchantillon sys peut tre trait
comme le plan de sondage de premier degr dans lestimation de la variance, c.--d. que la mthode SDR
est applique pour produire les rpliques. Dans le cas des UPE slectionnes sans certitude, la mthode
des rpliques quilibres rptes (BRR pour Balanced Repeated Replication) [McCarthy 1966] est
applique pour produire les rpliques. Environ 75 % de lchantillon ou 54 000 units sont comprises dans
les UPE autoreprsentatives, auxquelles est applique la mthode SDR.
Lapplication de la mthode SDR la CPS comprend lutilisation dune matrice de Hadamard dordre
k 160 dont sont exclues deux lignes, c.--d. que m 158. Les poids de rchantillonnage sont produits
pour 160 rpliques. Mme sil peut sembler quil sagit dune conclusion logique du prsent article, nous
ne suggrons pas que lon utilise pour la CPS une matrice de Hadamard dordre k 54 000 ni que lon
produise 54 000 jeux de poids de rchantillonnage. Cela donnerait en effet un nombre irraisonnable de
rpliques. Nous sommes plutt davis que le sous-ensemble de 160 rpliques utilis pour la CPS est grand
et fournit par consquent une approximation raisonnable de lestimateur SD2. Plus loin, dans les exemples
empiriques, nous examinons leffet de lutilisation dun jeu rduit de rpliques.
62
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
AL1 : Ce schma AL attribue une paire de lignes a i et bi chaque tranche de m d units de lchantillon,
que nous appelons cycle d , o m d k . Aprs m d 1 cycles, le schma AL est rpt jusqu ce quune
paire de lignes ait t attribue chacune des units de lchantillon.
tape 1 : Trier lchantillon dans lordre dans lequel il tait tri avant la slection de lchantillon.
tape 2 : Initialiser le numro du cycle par d 1 et le nombre de boucles connectes par c 1.
tape 3 : Commencer lAL au dbut dun cycle ou dune boucle connecte en prenant a1 c.
tape 4 : Rpter le schma AL suivant : bi mod a i d , k et a i bi jusqu ce que chacune des
m d lignes du cycle ait t utilise ou que lAL devienne une boucle connecte. Ici, la fonction modulo ou
mod a, b est dfinie comme tant le reste de la division de a par b. Si les m d lignes du cycle ont
toutes t utilises, commencer un nouveau cycle : poser que d d 1 et retourner ltape 3. Sinon
(fin dune boucle connecte, mais non la fin dun cycle), commencer une nouvelle boucle connecte :
poser que c c 1 et retourner ltape 3.
tape 5 : la fin de d md 1 cycles, recommencer au premier cycle retourner ltape 2.
Le schma AL1 possde les caractristiques suivantes :
-
Au milieu de la squence, le schma se rpte en ordre inverse. Si m est un nombre pair, les
cycles avant et aprs le md 1 2 e cycle se rptent en ordre inverse.
Le schma AL1 diffre de du schma AL de Sukasih et Jang (2003), en ce sens que nous ne suggrons pas
de sauter la ligne 1 ni de rpter le schma AL aprs 10 cycles et nous nexigeons pas que k 1 soit un
nombre premier. Premirement, une ligne dont tous les lments valent 1 peut paratre trange, mais cela
ne pose pas de problme. Comme dans le cas dune colonne dont tous les lments valent 1 dans M , ce
qui donne une rplique morte, une ligne ne contenant que des 1 naura deffet que sur la distribution des
facteurs de rchantillonnage. Une unit i laquelle a t attribue la ligne 1 (soit a i 1 ou bi 1 )
possdera un plus grand nombre de facteurs de rchantillonnage valant 1,0 quautrement. Cela nest pas
incorrect; il sagit simplement de la faon dont les facteurs de rchantillonnage sont distribus par H A .
La deuxime diffrence est que nous suggrons de rpter lattribution aprs m cycles, cest--dire au
moment o le schma se rpte, plutt quaprs un nombre fix de 10 cycles. Enfin, nous nexigeons pas
que k 1 soit un nombre premier, mais notons que si md k 1 et que k 1 est un nombre premier, il
est garanti que chaque cycle ne possdera quune seule boucle connecte.
Nous fournissons un deuxime schma AL plus facile mettre en uvre, appel AL2, que nous
comparons au schma AL1 dans les exemples empiriques.
63
AL2 : Pas de mlange des attributions de lignes. Rpter la mme AL simple toutes les m d units, c.--d.
1, 2 , 2, 3 , , md ,1 .
3 Exemples empiriques
Les exemples empiriques servent examiner les questions suivantes :
Q1. Dans quelle mesure lestimateur SDR donne-t-il de bons rsultats quand on se sert dun sousensemble de toutes les rpliques ncessaires pour que lestimateur SDR soit quivalent
lestimateur SD?
Q2. Quel schma dattribution de lignes est le meilleur, AL1 ou AL2?
Q3. Devrions-nous utiliser un plus grand nombre ou un moins grand nombre de boucles
connectes?
Pour rpondre ces questions, nous avons appliqu lestimateur de variance SDR plusieurs populations.
Pour chaque population, nous avons slectionn un chantillon sys de taille n 64. Le tableau 3.1 dcrit
les trois estimateurs SDR tudis.
Tableau 3.1
Estimateurs SDR pour les exemples empiriques
Estimateur
1
2
3
kA
4
16
64
HA
H 4a
H 4a H 4a
H 4a H 4a H 4a
kB
16
4
1
HB
H 4a H 4a
H 4a
1
Sous cette construction, les estimateurs SDR comprenaient k B 1, 4 ou 16 cycles, mais tous utilisaient la
mme matrice H H 4 a H 4 a H 4 a , qui est la matrice de Hadamard normale dordre k 64. Pour
les trois estimateurs du tableau 3.1, nous avons galement fait varier le schma dattribution de lignes
(AL1 ou AL2), ainsi que le nombre de rpliques utilises par chaque estimateur, soit 16, 32, 48 ou 64.
Tant avec AL1 quavec AL2, il nexiste quune seule boucle connecte par cycle, de sorte que le nombre
de boucles connectes que possdaient les estimateurs 1, 2 et 3 tait k B 16, 4 et 1 , respectivement. En
annexe, les rsultats pour les estimateurs SDR sont rsums au tableau A1, tandis que le tableau A2 donne
les rsultats pour les estimateurs de variance SD1, SD2 et eassr appliqus aux fins de comparaison.
Jeux de donnes utiliss. Les populations A sont empruntes lexemple empirique de Wolter
(1984). Pour les populations A1 A7, nous avons gnr 400 populations finies de taille N 64 000.
Pour chaque population, il existait b 100 chantillons possibles de taille n 64. Les chantillons sont
dsigns par lindice i 1, 2, , b 100 et, dans chaque chantillon, les units sont dsignes par
lindice j 1, 2, , n 64. Le tableau 3.2 rsume comment la variable dintrt ij est gnre pour
chacune des populations A .
64
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
Tableau 3.2
Description des populations artificielles de Wolter
ij
n
b
Population Description
e ij
A1
Alatoire
20
50
A2
Tendance linaire
20
50
i j 1 k
A3
Effets de
stratification
20
50
A4
Effets de
stratification
20
50
A5
Autocorrle
20
50
j 10
si ij j 10
ij ,
eij
10
,
autrement.
ij iid N 0,100 , 0, 8
eij ei 1, j ij
ei1 ~ N 0,100 1 2
ij iid N 0,100 , 0, 8
A6
Autocorrle
20
50
comme A5 avec 0, 4
A7
Priodique
20
50
20 sin 2 50 i j 1 k
Mesures dvaluation. Nous avons valu les divers estimateurs de variance au moyen des trois mesures
utilises par Wolter, savoir le biais relatif prvu (ERB pour expected relative bias), lerreur quadratique
moyenne relative (RMSE pour relative mean squared error) et le ratio de couverture. La premire mesure,
ERB, que nous avons utilise pour examiner lexactitude des estimateurs, est dfinie pour un estimateur
donn comme ERB v E m E p v v E m v . Dans notre notation, E p et E m dsignent les
esprances sous le plan et sous le modle, respectivement. Pour examiner la variance des estimateurs,
nous
avons
galement
mesur
la
RMSE,
qui
est
dfinie
comme
tant
2
RMSE v E m E p v v E m v . Nous avons calcul le ratio de couverture sous forme du
pourcentage de fois que le vrai total de population tait compris dans lintervalle de confiance produit en
utilisant lestimation, c.--d. Y z v , Y z v . Ici, z est la valeur tire dune distribution
normale qui a t choisie pour produire les intervalles de confiance 95 %.
Rsultats. En ce qui concerne Q1, les colonnes 4 7 du tableau A1 montrent que laugmentation du
nombre de rpliques na quun effet minime sur le biais. Ce nest que pour la population tendance
linaire (A2) que lestimateur SDR avec quatre boucles connectes prsente une tendance cohrente de
rduction du biais mesure quaugmente le nombre de rpliques. Les autres combinaisons de population
et destimateur ne rvlent aucune tendance dcroissante ni croissante significatives lorsque le nombre de
rpliques augmente. Cette constatation reprsente un rsultat positif, parce quelle indique que la rduction
du jeu de rpliques naccrot pas le biais. Comme prvu, les RMSE dans les colonnes 8 11 du tableau A1
augmentent mesure que le nombre de rpliques diminue, mais curieusement, laccroissement est
relativement faible. De mme, les intervalles de confiance prsents dans les colonnes 12 15
samliorent paralllement laugmentation du nombre de rpliques, sauf dans le cas des populations A2
et A7.
65
En ce qui concerne la question Q2, la comparaison des schmas AL1 et AL2 indique que lestimateur
SDR avec quatre boucles connectes produit habituellement de plus faibles biais (colonnes 4 7 du
tableau A1) et variances (colonnes 8 11 du tableau A1) avec AL1 quavec AL2. Dans le cas de
16 boucles connectes, les biais et les variances sont similaires pour AL1 et AL2. Ces rsultats laissent
entendre que le biais et la variance sont tous deux amliors, mais que leffet est rduit mesure que la
taille des boucles connectes diminue.
En ce qui concerne Q3, les biais prsents dans les colonnes 4 7 diminuent lorsque le nombre de
boucles connectes augmente. Fait exception la population priodique (A7). Lorsque les RMSE des
estimateurs SD1 et SD2 ne sont pas similaires, comme dans le cas de la population tendance linaire
(A2), laugmentation du nombre de boucles connectes rduit galement la RMSE. Ce rsultat nest pas
tonnant. Lestimateur comprenant une seule grande boucle connecte est quivalent lestimateur SD2,
2
de sorte quil peut prsenter des biais et RMSE plus importants en raison du terme y 1 y 64 . Dans
lautre sens, un plus grand nombre de boucles connectes rduit effectivement leffet du terme
y 1 y 64 2 , de sorte que lestimateur agit davantage comme lestimateur SD1, dont le biais et la
variance sont gnralement plus faibles que ceux de lestimateur SD2.
4 Conclusion
Le prsent article dcrit les conditions pour que lestimateur SDR soit quivalent lestimateur SD2, et
montre de quelle faon ils sont quivalents quand la taille de lchantillon est plus petite ou plus grande
que la matrice de Hadamard choisie. Lorsquune matrice de Hadamard H A plus petite est utilise et que
les rpliques sont tires uniquement de H A , larticle montre comment le jeu rduit de rpliques produit
une approximation raisonnable de lestimateur SD2. Les exemples empiriques indiquent quutiliser un jeu
rduit de rpliques est raisonnable, puisque la rduction du nombre de rpliques naccrot pas le biais des
estimations. En outre, nous voyons que lutilisation dun grand nombre de boucles connectes rduit
leffet du carr de la diffrence entre la premire et la dernire unit dans lchantillon. Puisque le biais et
la RMSE de lestimateur SD1 sont gnralement plus grands que ceux de lestimateur SD2, les
estimateurs SDR utilisant un plus grand nombre plutt quun plus petit nombre de boucles connectes
donneront des biais et RMSE plus faibles que les estimateurs SDR.
Remerciements
Lauteur remercie David Hornick et Brian Dumbacher de leur rvision de la premire bauche du
manuscrit, ainsi que les examinateurs et le rdacteur de leurs commentaires qui lui ont permis damliorer
et de clarifier larticle.
66
Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances
Annexe
Tableau A1
Rsultats des simulations de lestimateur SDR
Population
kA
AL
A1
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
16
A2
64
4
16
A3
64
4
16
A4
64
4
16
A5
64
4
16
A6
64
4
16
A7
64
4
16
64
Ratio de couverture
16
93
92
93
92
92
62
77
100
100
100
93
93
95
96
96
93
93
95
96
96
94
93
94
93
93
94
94
94
94
94
94
92
95
92
92
32
94
94
94
94
94
45
54
97
100
100
94
94
95
95
97
94
94
95
95
97
94
94
95
94
94
95
95
95
95
95
95
94
96
94
94
48
94
94
94
94
94
38
45
80
99
100
94
94
95
95
97
94
94
95
95
97
95
95
95
95
95
95
95
95
95
95
95
95
98
95
95
64
94
95
95
95
94
35
39
100
100
100
95
95
95
95
97
94
95
95
95
97
95
95
95
95
95
95
95
95
95
95
97
97
99
100
96
Tableau A2
Rsultats des simulations des mthodes comparatives
Population
A1
A2
A3
A4
A5
A6
A7
Ratio de couverture
SD1
94
23
94
94
95
95
96
SD2
94
100
97
97
95
95
96
EASSR
97
100
100
100
97
98
100
67
Bibliographie
Bellhouse, D.R. (1988). Systematic sampling. Extrait de Handbook of Statistics, 6, 125-145.
Fay, R.E., et Train, G.F. (1995). Aspects of survey and model-based postcensal estimation of income and
poverty characteristics for states and counties. Proceedings of the Section on Government Statistics,
American Statistical Association, 154-159.
Hedayat, A., et Wallis, W.D. (1978). Hadamard matrices and their applications. The Annuals of Statistics,
6, 1184-1238.
Huang, E.T., et Bell, W.R. (2009). A simulation study of the distribution of Fays successive difference
replication variance estimator. Proceedings of the Survey Research Methods Section, American
Statistical Association, 5294-5308.
Iachan, R. (1982). Systematic sampling: A critical review. International Statistical Review, 50, 293-303.
Madow, W.G., et Madow, L.H. (1944). On the theory of systematic sampling. Annuals of Mathematical
Statistics, 15, 1-14.
McCarthy, P.J. (1966). Pseudo-replication: Half-samples. Review of the International Statistical Institute,
37, 239-264.
Murthy. M.N., et Rao, T.J. (1988). Systematic sampling with illustrative examples. Extrait de Handbook
of Statistics, 6, 147-185.
Sukasih, A.S., et Jang, D. (2003). Monte Carlo study on the successive difference replication method for
non-linear statistics. Proceedings of the Survey Research Methods Section, American Statistical
Association, 3608-3612.
Wolter, K.M. (1984). An investigation of some estimators of variance for systematic sampling. Journal of
the American Statistical Association, 781-790.
Wolter, K.M. (1985). Introduction to Variance Estimation, Springer-Verlag.
Yates, F. (1953). Sampling Methods for Censuses and Surveys, 2nd Edition, Hafner Publishing Company,
New York, NY.
U.S. Census Bureau (2006). Technical Paper 66, Design and Methodology: Current Population Survey,
Octobre 2006.
E L E C T R O N I C
P U B L I C AT I O N S
AVA I L A B L E AT
P U B L I C AT I O N S
LECTRONIQUES
DISPONIBLE
w w w. s t a t c a n . g c . c a
69
1 Introduction
Deville (2000) a propos destimer la prcision des statistiques non linaires dans des plans de sondage
au moyen de la technique de linarisation gnralise. Celle-ci repose sur le concept de fonction
dinfluence propose par Hampel (1974) dans le domaine de la statistique robuste. Osier (2009) a appliqu
ces thories pour estimer la variance de statistiques complexes telles que les indices de Laeken (Eurostat
2005) dans lenqute europenne sur le revenu et les conditions de vie (EU-SILC). Goga, Deville et RuizGazen (2009) tendent la thorie de Deville (2000) des enqutes bases sur deux chantillons. Verma et
Betti (2011) fournissent une liste exhaustive des indicateurs de pauvret conventionnels et des variables
linarises associes, ils comparent galement les performances de la technique de linarisation la
mthode du Jackknife (Jackknife repeated replication). Dans cet article, nous nous restreignons des
indicateurs de pauvret publis dans le cadre de lenqute SILC, en focalisant sur la faon destimer la
fonction de densit des revenus en diffrents points de leur distribution.
Dans la section 2, on rappelle les fondements thoriques ncessaires ainsi que les expressions des
indices de pauvret et dingalit tudis, de mme que celle de leur linarise. Certaines linarises
dpendent de la fonction de densit de la variable dintrt qui est gnralement estime par noyau
gaussien. Deux mthodes alternatives au noyau gaussien sont prsentes dans la section 3. Les simulations
ralises en langage R sont dcrites et commentes dans la section 4. On y montre que la mthode par
noyau gaussien peut engendrer un fort biais pour la valeur estime de la variance des indices pour les cas
o lon a recours une estimation de la fonction de densit des revenus considrs. On voit aussi que les
deux autres mthodes pour estimer la densit proposes dans la section 3 diminuent le biais constat, ce
qui fait aussi lobjet des conclusions dans la dernire partie de ce texte.
1. Eric Graf et Yves Till, Institut de Statistique, Facult des sciences conomiques, Universit de Neuchtel, Pierre--Mazel 7, 2000 Neuchtel,
Suisse. Courriel : eric.graf@unine.ch et yves.tille@unine.ch.
70
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
2 Rappels sur les indices de pauvret traits ainsi que leur linarise
Soit une population finie U constitue de N units identifiables u1 , ..., u k , ..., u N . Pour simplifier
lcriture on dsigne par la suite lunit u k par son indice k . En pratique la population U est une base de
sondage avec un taux de couverture acceptable de la population dintrt pour laquelle on dsire faire des
infrences. On associe chaque unit k une valeur y k dune caractristique dintrt (ici un revenu).
Sans nuire la gnralit et pour allger les notations, on suppose que les y k sont tous distincts et tris
par ordre de grandeur, donc y k = y[ k ] . Dans les donnes issues denqutes par chantillonnage, il arrive
frquemment quil y ait des doublons, cest--dire plusieurs units ayant la mme valeur y , que ce soit d
des arrondis ou des questions-fourchettes. Dans ces cas et pour cette tude, il suffit dajouter un
montant assez petit (cest--dire ngligeable) de la devise tir au hasard selon une loi uniforme pour que
les donnes soient triables sans quivoque.
Soit un chantillon alatoire S de taille n obtenu par un plan dchantillonnage p ( s ) = P( S = s ),
pour tout s U . Soit galement k = P( k s ) > 0 la probabilit dinclusion dans lchantillon de
lunit k de U . Soit aussi d k = 1 k le poids dchantillonnage et wk = wk ( s ) un poids destimation
qui peut tre gal d k mais qui peut aussi tre plus raffin. Par exemple, wk peut avoir t obtenu suite
un calage (Deville et Srndal 1992) et reflter ainsi galement une correction de non-rponse.
Les estimateurs des indices de pauvret et dingalit sont des statistiques non linaires qui ne peuvent
pas sexprimer comme des fonctions rgulires (cest--dire continment diffrentiables jusqu lordre
deux) de totaux. En effet, il sagit de statistiques de rangs pour lindice de Gini et de quantiles pour les
autres. Comme le relve Osier (2009), leur variance ne peut donc pas tre estime par une linarisation de
Taylor mais ncessite le recours la mthode de linarisation gnralise (Deville 2000; Demnati et Rao
2004; Osier 2009). Une alternative pour estimer la variance serait dutiliser des techniques de
rchantillonnage du genre bootstrap, mais dans le cadre des donnes de lenqute SILC, une prfrence a
t donne la technique de linarisation, du moins pour un certain nombre de pays participants. En effet,
les mthodes de rchantillonnage ncessitent souvent davantage de ressources humaines et machine. De
plus, Eurostat collaborant avec une trentaine de pays ayant des plans de sondage diffrents suivis
dventuels corrections pour la non-rponse et de calages sur des sources externes, il a sembl plus
adquat dopter pour une solution analytique pour estimer la variance. Par ailleurs, certains pays pouvaient
utiliser le logiciel SAS dj existant POULPE (Ardilly et Osier 2007) pour produire les estimations
ncessaires. Ce fut le cas pour les premiers tests avec les donnes SILC suisses. On applique ici un mode
opratoire qui, comme le relvent Antal, Langel et Tilll (2011), concilie lapproche introduite par Deville
(2000) celle de Demnati et Rao (2004). Les deux approches utilisent la notion de fonction dinfluence
qui fut dveloppe initialement dans le domaine des statistiques robustes (Hampel 1974). Antal et coll.
(2011) mentionnent aussi que lon peut retrouver les mmes linarises en appliquant la mthode propose
par Graf (2011, 2013) qui construit une variable linarise base sur un dveloppement en srie de Taylor
par rapport aux indicatrices dinclusion dans lchantillon. Citons aussi le travail de Kovaevi et Binder
(1997) o une approche de linarisation par les quations estimantes est dveloppe.
Selon Deville (2000), on cerne linfluence de lunit k sur un paramtre dintrt au niveau de la
population par une variation infinitsimale de limportance attribue cette unit. On exprime ledit
paramtre comme une fonctionnelle = T ( M ), o M est une mesure allouant une masse unit,
71
I [T ( M )] k = z k = lim
( w z
k S
k U
).
Le rsultat central est que, sous des conditions asymptotiques dcrites dans Deville (2000), qui sont en
principe satisfaites lorsque lchantillon est assez grand , la variance du total estim de la variable z k
est une approximation de la variance de la statistique (complexe) :
var z k w k var ( ) .
k s
Le point de dpart de lapproche de Deville est donc le paramtre de population et non lestimateur quon
se propose dutiliser pour lvaluation partir de lchantillon. Dans les cas o lestimateur utilis dcoule
naturellement de lexpression du paramtre de population (comme par exemple le total Y approch par
lestimateur de Horvitz-Thompson), le procd ne prsente pas dambigut. Mais des imprcisions
surviennent si lon estime le mme total Y en ayant recours lestimateur par le quotient grce une
variable auxiliaire x. En effet, dans ce cas, lapproche de Deville ne prcisant pas la forme de lestimateur
du total utiliser fournira plutt une fonction dinfluence constante gale 1, au lieu de faire intervenir le
quotient inconnu dintrt.
Une alternative qui vite ces problmes est celle de Demnati-Rao, lorsque rattache au pralable au
cadre de Deville comme cela est fait dans Antal et coll. (2011). Ces auteurs prsentent lapproche de
Demnati-Rao comme rsultant du cadre de Deville lorsque la mesure M employe nest pas la mesure
discrte dfinie sur U prsente prcdemment, mais plutt la mesure suivante dfinie sur S ,
lchantillon :
M ( k ) = w k , k S
o wk est un poids. En dfinissant la mesure sur S , on se donne dans les faits comme point de dpart
lestimateur et non le paramtre; cest le paramtre qui se retrouve exprim au dpart sous la forme dune
fonctionnelle et non le paramtre de population estimer. Autrement dit, on se donne comme
fonctionnelle celle qui correspond lestimateur pour lequel on souhaite avoir une estimation de la
variance par linarisation gnralise. On obtient ensuite la linarise en fonction de cette fonctionnelle de
la faon suivante :
I [T ( M )] k = z k = lim
t 0
T ( M + t k ) T ( M )
t
, pour tout k S .
72
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
Antal et coll. (2011) observent que, dans la mesure o la fonctionnelle apparaissant dans cette limite
sexprime comme une fonction explicite des variables que sont les poids assigns par la mesure M aux
observations, cette linarise est en fait une fonction des drives partielles par rapport aux poids :
I [T ( M )] k =
T ( M )
.
w k
Antal et coll. (2011) relvent que, les linrarises que nous rappelons dans la suite, peuvent tre obtenues
par les deux approches. En effet, lvaluation de la limite -la-Demnati-Rao ne mne pas ncessairement
lestimation de la variance suggre par Deville (2000). Lapproche pratique utilise dans le cadre de cet
article pourrait donc tre nomme comme tant celle de Deville-Demnati-Rao en reconnaissance au cadre
thorique fourni par Deville (2000) et lalgorithmique pratique de ce cadre quapportent Demnati et Rao
(2004).
Par cette mthode, on peut estimer la variance de quel que soit le plan dchantillonnage, et donc
obtenir un intervalle de confiance, en substituant la variable linarise dans la formule de variance pour un
total correspondant au plan choisi. Sous un plan alatoire simple sans remise, lestimateur de la variance
dun indice dingalit est donn par
var lin [ ] =
N ( N n) 1
( z k z ) 2 ,
n
n 1 k S
(2.1)
avec
z = n 1 z k .
k S
Dans la suite, dans le cadre de la mesure du revenu de la population, nous rappelons les dfinitions
empiriques des indices dingalit considrs ainsi que lexpression de leurs linarises telles que nous les
avons mises en uvre.
L ( ) =
F 1 ( )
yf ( y ) dy
yf ( y ) dy
1
F 1 (u ) du.
E (Y ) 0
Lindice de Gini reprsente deux fois la surface comprise entre la courbe de Lorenz et la ligne (diagonale
f eg ( x ) = x ) de lgalit parfaite (Figure 2.1). Il est donc dfini par :
1
G = 2 [ L ( )] d .
0
73
L ()
A
B
Courbe de Lorenz, L ( )
Dans le cas dune population finie, les y k ne sont pas alatoires et lindice de Gini est dfini sur la
population U par :
G =
2 k U ky k
N k U y k
N +1
,
N
o les y k ont t pralablement tris par leur rang. Calcul sur un chantillon, on lestime par :
2
G =
w k N k y k 1 +
NY k S
kS S wk w y k
=
2 NY
o N k =
w k2 y k
NY k S
k S
k S
74
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
G =
2 k S ky k
n k S y k
n +1
.
n
Notons que la dfinition peut varier dun facteur n ( n 1) selon les auteurs (Osier 2009; Eurostat
2004b), mais cette subtilit est ngligeable ds que la taille de lchantillon est assez grande.
Langel et Till (2012) ont fait une synthse des diffrentes approches permettant dobtenir la mme
variable linarise de lindice de Gini estime sur lchantillon :
z kGINI =
o Yk =
k
=1
1
k G (Y + y k N ) ,
2 N k ( y k Yk ) + Y Ny
NY
QSR =
E (Y Y > q 80 ) 1 L (0,8)
=
,
E (Y Y < q 20 )
L (0,2 )
o Y serait une variable alatoire reprsentant les revenus. Dans le cas de populations finies, le QSR peut
tre exprim et estim au niveau de lchantillon en fonction des sommes partielles
QSR =
Y Y0,8
,
Y0,2
o, suite aux rsultats obtenus par Langel et Till (2011), nous utiliserons la dfinition suivante de la
somme partielle, ce qui diffre trs lgrement de la dfinition officielle dEurostat (2004a),
Y =
k S
N N k 1
yk H
,
wk
(2.2)
avec
0 si x < 0
H ( x ) = x si 0 x < 1
1 si x 1.
Pour obtenir la linarise du QSR, il faut dabord calculer la linarise de la somme partielle (2.2) qui est
donne par :
I (Y ) k = y k H ( N k + 1) + 1[ y < Q ] Q ,
k
75
problme de lestimation de cette densit pour le QSR et quil nest donc pas ncessaire de faire une
approximation par noyau de la densit des revenus comme le propose Osier (2009).
La fonction dinfluence dpend de celles des sommes partielles :
I (QSR ) k = z kQSR =
.
2
Y0,2
Y0,2
En faisant les substitutions ncessaires, on trouve que la linarise estime sur la base de lchantillon vaut
z kQSR
0,8N N k 1
yk yk H
+ Q 0,8 0,8 1 y k < Q 0,8
wk
=
Y0,2
0,2N N k 1
(Y Y0,8 ) y k H
+ Q 0,2 0,2 1 y k < Q 0,2
wk
Y0,2
(2.3)
z k =
Q
1
1
1 ,
f (Q ) N [ y k Q ]
o le quantile pondr peut tre dfini de manire similaire la somme partielle (2.2) et f () est la
fonction de densit des revenus qui est discute en dtails la section 3. Notons quEurostat (2004a)
prconise la deuxime dfinition de Hyndman et Fan (1996). On pourrait discuter de la dfinition
dEurostat
et
utiliser
une
autre
dfinition
du
quantile,
par
exemple
(
)
[
]
Q = y k 1 + ( y k y k 1 ) N k 1 o N < k N + 1, ce qui correspond la quatrime
dfinition selon Hyndman et Fan (1996). On estime alors le quantile sur lchantillon par
N N k 1
Q = y k 1 + ( y k y k 1 )
.
wk
La linarise du quantile dpend de la valeur de la fonction de densit des revenus en ce quantile. Or,
la vraie densit des revenus nest pas connue et doit donc aussi tre estime partir de lchantillon.
Deville (2000) et Osier (2009) proposent de lestimer par noyau gaussien. On revient plus en dtails sur le
problme de lestimation de f dans la section 3.
En plus du problme de lestimation de la fonction de densit des revenus, Croux (1998) montre que la
fonction dinfluence empirique de la mdiane nest pas un estimateur convergent de la fonction
dinfluence (thorique) correspondante. Pour une variable positive (cas des revenus), la fonction
dinfluence empirique de la mdiane (cas que Croux traite dans son article) converge vers une distribution
exponentielle dont lesprance est la fonction dinfluence. Elle rsiste mal aux valeurs extrmes sil y en a
une trop grande proportion. On dira quelle manque de robustesse, dans le sens que la valeur de
lestimateur sur la base de lchantillon peut sloigner fortement de la vraie valeur sur la population en
76
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
raison dobservations extrmes (cest--dire trs grandes par rapport aux autres) prsentes dans
lchantillon (voir Hampel (1974) pour les ides de base sur la robustesse en population infinie, et
Beaumont, Haziza et Ruiz-Gazen (2013) pour des rflexions rcentes ce sujet dans le cadre
dchantillonnage en population finie).
Il sagit dune mesure absolue qui dpend de lchelle. La linarise de lARPT est proportionnelle celle
de la mdiane :
z kARPT = I ( ARPT ) k = 0,6I ( MED ) k =
0,6 1
[1 y m 0,5] .
f ( m ) N [ k ]
ARPR =
y k < ARPT
wk
.
N k
z kARPR =
Ici, la fonction de densit des revenus doit tre estime en deux points : en la mdiane et en lARPT.
z k
1
z kARPR
1
(1 y m F ( m p )) .
f ( m p ) 2
N k p
77
Lestimation de la densit des revenus intervient donc trois fois : en la mdiane et en lARPT dans z kARPR
et en la mdiane des pauvres m p .
ARPT m p
ARPT
Son estimation partir de lchantillon est donc dj dcrite. Linfluence de chaque observation sur le
RMPG est donne par Osier (2009) :
mp
RMPG
k
m p z kARPT ARPT z k
ARPT
Lestimation de la densit de la distribution des revenus intervient quatre reprises : une fois dans le
m
des discontinuits. Si lon ne veut pas se placer dans une approche base sur le modle (model based) avec
un modle de super population pour justifier le terme de fonction de densit des revenus, il faut
artificiellement lisser la fonction de rpartition pour quelle devienne drivable. Cest donc par abus de
langage que nous nous autorisons ici parler de fonction de densit. Avec cette volont de lissage, Deville
(2000) et Osier (2009) proposent destimer la fonction de densit des revenus par noyau gaussien :
1
x yk
2
e u 2 ,
u =
h 2
h
1
x
k
f1 ( x ) = wk K
h
N k S
K (u ) =
1 1
h 2 N
k S
(3.1)
( x yk ) 2
exp
2h 2
o h est la largeur de la bande quOsier estime par h = N 0,2 et est lcart-type estim de la
distribution empirique des revenus :
78
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
w k y k2 k S w k y k
=
N
N
k S
w k y k2
y w2 .
N
k S
Notons que cette estimation de nest pas robuste tant trs sensible aux valeurs extrmes de y. Des
donnes de revenus ont trs souvent une queue de distribution tendue vers la droite avec des valeurs trs
leves possibles, on parle de valeurs aberrantes reprsentatives (representative outliers) au sens de
Chambers (1986) et Hulliger (1999). Comme le montrent nos simulations dans la section 4, cela peut
fortement biaiser nos estimations de variance. Verma et Betti (2011) procdent galement par noyau
rappelant que, selon Silverman (1986), le choix du noyau nest pas crucial pour assurer la convergence de
f ( y ) vers f ( y ) , alors que celui de la largeur de bande lest. Ils utilisent une valeur conseille par
Silverman dans le cas de distributions avec un coefficient dasymtrie positif, h = 0,79(Q 75 Q 25 ) N 0,2 .
Dans leurs conclusions, ils relvent que la mthode par linarisation peut tre problmatique en raison
dirrgularits de la fonction de densit empirique. On ajoutera que ces problmes sont dautant plus
proccupants quil est frquent, dans les donnes issues denqutes, davoir des agglomrats
dobservations certaines valeurs (dues des arrondis ou des questions-fourchettes), ce qui peut
compliquer lestimation de la densit. La suite de larticle dcrit des solutions que nous avanons pour
rduire le biais de la variance estime.
Fv ( v ) = P (V v ) = P (log (Y + a ) v ) = P (Y e v a ) = F y ( e v a ) ,
o V et Y seraient de variables alatoires. Donc,
f v (v ) =
dFv ( v ) dF y ( e v a )
=
= f y (e v a ) e v .
dv
dv
f ( log ( x + a ) )
f ( v )
f2 ( x ) = v
= y
.
x+a
x+a
(3.2)
79
1
b a si a u < b
(
)
KD u =
,
0
sinon,
=
avec F y ( x ) =
k S
wk 1 y
k x
1
1
wk
1 y a ,b
ba k [ [
N k S
F y ( b ) F y ( a )
ba
(3.3)
, x [a , b[
N .
Notons que lestimation de la densit (3.3) nest pas une fonction continue et quelle ne serait pas trs
adapte pour estimer des valeurs de densit lextrmit des queues de la distribution. Puisque nos
travaux ne reposent pas trop sur les queues de la distribution, nous considrons cette approche comme une
option.
Notre deuxime proposition destimation de la densit en x sinspire de lide ci-dessus. Elle est du
type plus proches voisins , mais impose aussi une largeur de bande minimale : notre mthode impose
dutiliser au minimum les p plus proches observations du point x tout en imposant une largeur de bande
minimale h ( p ) hopt o
h opt =
0,9 min( , Q 75 Q 25 )
1,34 5 N
est la rgle empirique (rule of thumb) de Silverman (1986) pour dterminer la largeur de la bande. Cette
valeur est aussi utilise par dfaut par la fonction R density pour la largeur de la bande si rien nest
spcifi. Cette solution est plus robuste que (3.1) et vite les problmes que lon rencontre lorsque
plusieurs valeurs y k sont trs proches les unes des autres, ce qui arrive frquemment parce que les
personnes interroges ont tendance arrondir leur revenu.
Les valeurs y k , k = 1,..., n, tant supposes ordonnes par leur rang, la largeur h ( p ) de la fentre
autour de x est initialement dtermine par les p plus proches observations, avec p n. Pour les
simulations exposes dans la section suivante, aprs diffrents essais, le p initial a t fix 30. On
impute comme densit en x la densit estime au point observ y j le plus proche infrieur ou gal x ,
cest--dire j = max ( k y k x ) , k = 1, ..., n. La largeur de la bande en x dpendra en fait des p j plus
proches observations autour de y j , avec p j p. On la dsignera par h ( p j ) dans la suite pour le
80
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
rappeler. La densit nest donc estime quen des points observs sans quun lissage ou une interpolation
soient mens entre les f ( y j ) . Lalgorithme pour estimer f ( y j ) est le suivant (voir aussi Figure 3.1) :
p j obs.
f ( y j )
yj
y
y l 1 y l
y u y u +1
h ( p j ) hopt
Figure 3.1 Largeur de la fentre h ( p j )
j + p j 2 1 si p j est pair
y u + y u +1 y + y 1 u =
si p j est impair
=
;
j + p j 2
2
2
= j p j 2 .
2. Si la largeur de fentre h ( p j ) ainsi obtenue est infrieure hopt , on incrmente les deux
bornes :
borne suprieure : u u + 1, tant que u < n,
borne infrieure : l l 1, tant que l > 1,
ce qui implique p j p j + 2, sauf si u = n ou l = 1, on na alors plus le mme nombre de
points gauche et droite de y j .
3. Rpter 2 jusqu ce que h ( p j ) hopt .
4. La densit estime en x est alors donne par
f ( x ) = f ( y j )
pj
nh ( p j )
=
w std
p j plus proche s de y j
nh ( p j )
sans pondration,
avec pondration,
81
Le nombre dobservations p j prises en compte pour le calcul peut varier et dpend de la courbure locale
de la fonction de rpartition empirique. La condition h ( p j ) hopt garantit une largeur de fentre
minimale aux endroits o beaucoup dobservations seraient concentres sur un petit intervalle. On rend la
procdure encore plus solide en combinant cette approche avec la prcdente, cest--dire en estimant la
densit du logarithme de la variable divise par sa valeur (non logarithmise) :
f ( log ( x + a ))
f3 ( x ) =
.
x+a
(3.4)
4 Rsultats
Des simulations ont t menes sur trois jeux de donnes relles afin de comparer et valuer les
diffrentes mthodes destimation de la fonction de densit : f1 ( x ) voir (3.1), f2 ( x ) voir (3.2) et f3 ( x )
voir (3.4). Ces dernires sont ncessaires lestimation de la variance de certains indices de pauvret et
dingalit.
1. Le premier jeu de donnes correspond aux revenus quivalents des mnages de lenqute SILC
suisse mene par lOffice Fdral Suisse de la Statistique en 2009. On y dispose de 17 534
individus avec un revenu quivalent non nul.
2. Le deuxime jeu de donnes est aussi issu de lenqute SILC 2009 mais se restreint aux
personnes salaries. Il sagit des salaires du registre de la Centrale de Compensation qui a t
coupl avec les rpondants de lenqute. Nous navons donc pas de problme de non-rponse et
disposons de 7 922 individus avec un salaire non nul.
3. Le troisime fichier de test, nomm Ilocos, est celui disposition dans le package ineq de R
(Zeileis 2012). Il contient 632 observations. Il sagit du revenu des mnages dune des 16
rgions des Philippines appele Ilocos. Les donnes sont issues de deux enqutes de lInstitut
National de Statistiques des Philippines en 1997 et 1998.
82
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
Les trois jeux de donnes ont un coefficient dasymtrie positif, ce qui est typique des distributions de
revenus. Chaque jeu de donnes tant considr comme une population, on a slectionn dans un premier
temps 10 000 chantillons alatoires simples sans remise de diffrentes tailles. Les valeurs des diffrents
indices sont calcules pour chacun des chantillons, ce qui nous procure une estimation Monte Carlo de
leur variance, varsim ( ) , pour un indice de pauvret ou dingalit . Lestimateur par linarisation de la
variance est not var lin ( ) et est calcul en utilisant la linarise z estime pour chaque chantillon :
var lin ( ) =
N ( N n)
var ( z S ) ,
n
( z S ,k z S )
n 1 k S
La qualit de lestimateur de variance par linarisation est value en comparant la valeur Monte Carlo
espre de la variance estime par linarisation, note E [ var lin ( )] , la vraie variance Monte
Carlo varsim ( ) en terme de biais relatif :
sim
(4.1)
Pour le deuxime jeu de donnes (SILC 2009, revenu des personnes salaries) nous avons, dans un
deuxime temps, galement slectionn 10 000 chantillons alatoires sans remise selon un plan stratifi,
puis cal les poids de sondage de manire respecter huit marges sociodmographiques de totaux connus
sur la population de 7 922 individus. Les cinq strates utilises correspondent des tranches dge des
personnes salaries (voir tableau 4.1).
Les huit cellules de calage ont t obtenues par les croisements des trois variables dichotomiques
suivantes (variables auxiliaires du calage) :
1. MARI indiquant si la personne est marie ou pas,
2. CHEF indiquant si la personne a une fonction de chef ou pas dans son emploi,
3. HOMME renseignant sur le sexe de lindividu.
Les totaux sur la population de 7 922 individus pour ces cellules de calage sont indiqus dans le tableau
4.2.
Tableau 4.1
Dfinition des strates utilises dans les simulations sur les donnes SILC 2009 et trois tailles dchantillons
(revenu des personnes salaries, N = 7 922 )
strate h
1
2
3
4
5
description
personnes de moins de 25 ans
personnes de 26 35 ans
personnes de 36 45 ans
personnes de 46 55 ans
personnes de plus de 55 ans
TOTAL
Nh
1 187
1 359
2 137
1 864
1 375
7 922
%
15,0
17,2
27,0
23,5
17,4
100,0
nh
75
86
135
117
87
500
112
129
202
177
130
750
150
171
270
235
174
1 000
83
Tableau 4.2
Marges de calage utilises dans les simulations sur les donnes SILC 2009 (revenu des personnes salaries,
N = 7 922 )
marge
1
2
3
4
5
6
7
8
MARI
0
0
0
0
1
1
1
1
CHEF
0
0
1
1
0
0
1
1
HOMME
0
1
0
1
0
1
0
1
TOTAL
Tot. pop.
1 487
1 208
323
457
1 759
1 278
328
1 082
7 922
%
18,8
15,2
4,1
5,8
22,2
16,1
4,1
13,7
100,0
Pour chaque chantillon stratifi, un calage sur marge (mthode linaire) a t effectu de manire ce
que les sommes des poids aprs calage respectent les huit marges cites ci-dessus. Les estimations
ponctuelles des indicateurs ainsi que leur linarise ont t calcules pour chaque chantillon laide des
poids cals.
Pour estimer la variance, on a appliqu la mthode dveloppe par Deville (2000). Celle-ci consiste
linariser aussi par rapport au calage en calculant les rsidus e de la rgression (pondre par les poids
de sondage) des linrarises des indicateurs sur les variables auxiliaires du calage. La variance du total des
rsidus ainsi calculs sous plan alatoire stratifi sans remise est alors un estimateur de la variance de
lindicateur estim, ce qui est la grandeur qui nous intresse :
var lin ( ) =
Nh
n
h =1
( N h n h ) s 2
(4.2)
eh
avec
s 2 =
eh
2
1
(e k e )
n h 1 k S h
La qualit de lestimateur de variance par linarisation est value de manire analogue au cas du sondage
alatoire simple, voir (4.1).
Les tableaux 4.3, 4.4 et 4.5 prsentent les biais relatifs de la variance obtenus pour les trois jeux de
donnes utiliss et dcrits plus haut dans le cas du sondage alatoire simple. Le tableau 4.6 prsente les
biais relatifs de la variance obtenus dans le cas du sondage alatoire stratifi avec poids cals. Dans les
parties suprieures des tableaux, on trouve les valeurs pour lindice de Gini et le QSR. Ces derniers ne
ncessitent pas destimer la fonction de densit des revenus. Lestimation de leur variance fonctionne
bien. On note un problme de sous-estimation de la variance pour lindice de Gini dans le cas stratifi
avec calage (tableau 4.6).
Dans le cas du premier jeu de donnes considr, le tableau 4.3 ne rvle pas de trs grandes
diffrences si ce nest que lestimation de la densit de revenus par f3 ( x ) mne des rsultats plus
conservateurs. En effet, le biais relatif reste du mme ordre de grandeur mais positif, alors quil est ngatif
pour les deux autres manires destimer la densit. Pour le deuxime jeu de donne, le tableau 4.4 montre
quil est essentiel de passer par le logarithme ou dutiliser la mthode par plus proches voisins avec
84
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
largeur de bande minimale. Avec cette dernire mthode, tous les biais relatifs tombent en-dessous de
10 % ds que les tailles dchantillons sont suffisamment grandes (voir la dernire colonne du tableau).
Les simulations sur les mmes donnes avec un plan de sondage stratifi et un calage renforcent et
confirment ces rsultats (voir tableau 4.6). Pour le troisime jeu de donnes, le tableau 4.5 indique les
mmes tendances, bien que les rsultats soient plus instables en raison des petites tailles dchantillon et
de population. Cette constatation nest pas surprenante, le nombre minimal de voisins prendre en compte
ayant t fix 30. En loccurrence, pour le jeu de donnes Ilocos, des simulations avec un p plus petit
fix 10 ne changent rien au final, car la condition h ( p j ) hopt le remonte systmatiquement au-dessus
de 30.
De plus, de manire gnrale, on constate que plus il faut avoir recours lestimation de la densit par
noyau gaussien - f1 ( x ) - plus lerreur augmente. En effet, les biais relatifs de la variance pour la mdiane
des pauvres et le RMPG sont presque systmatiquement plus grands en valeur absolue que ceux pour les
autres indicateurs. Pour le RMPG, lerreur peut se compenser (cas du tableau 4.3) sil y a suffisamment
dobservations car lestimation de la densit intervient tant au numrateur quau dnominateur.
Tableau 4.3
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires simples sans remise sur les
donnes SILC 2009 (revenu quivalent des mnages, N = 17 534 )
Indice
GINI
QSR
ARPT
ARPR
RMPG
MEDP
MED
n = 500 ( 2,9 %)
-0,02
0,01
f1
f2
-0,08
-0,05
-0,09
-0,16
-0,08
-0,06
-0,01
-0,07
-0,12
-0,06
-0,09
-0,09
-0,10
-0,19
-0,08
-0,07
-0,06
-0,07
-0,13
-0,06
0,03
-0,05
0,12
0,05
0,04
n = 1 000 ( 5,7 %)
-0,02
0,00
f1
f2
-0,09
-0,08
-0,09
-0,18
-0,08
-0,07
-0,05
-0,06
-0,11
-0,06
f3
0,04
-0,03
0,14
0,07
0,04
Tableau 4.4
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires simple sans remise sur les
donnes SILC 2009 (revenu des personnes salaries, N = 7 922 )
Indice
GINI
QSR
ARPT
ARPR
RMPG
MEDP
MED
n = 500 (6,3 %)
-0,03
-0,00
f1
f2
0,07
-0,05
0,61
0,73
0,07
0,05
-0,04
0,12
0,17
0,04
0,06
-0,05
0,60
0,72
0,06
0,04
-0,04
0,11
0,16
0,04
0,10
-0,01
0,08
0,10
0,10
n = 1 000 (12,6 % )
-0,02
0,00
f 1
f2
0,06
-0,06
0,59
0,72
0,05
0,03
-0,05
0,09
0,15
0,03
f3
0,08
-0,02
0,05
0,07
0,07
85
Tableau 4.5
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires simple sans remise sur les
donnes Ilocos (revenu des mnages, N = 632 )
Indice
GINI
QSR
f1
-0,05
-0,31
1,55
1,02
0,04
ARPT
ARPR
RMPG
MEDP
MED
f3
-0,01
-0,18
0,39
-0,11
0,09
Tableau 4.6
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires stratifis sans remise, avec poids
cals sur huit marges sociodmographiques, sur les donnes SILC 2009 (revenu des personnes salaries,
N = 7 922 )
Indice
GINI
QSR
ARPT
ARPR
RMPG
MEDP
MED
n = 500 (6,3 %)
-0,21
-0,06
f1
f2
-0,07
-0,09
-0,10
-0,10
0,63
0,13
0,71
0,16
-0,07
-0,09
-0,01
-0,08
0,13
0,15
-0,01
-0,08
-0,07
0,61
0,68
-0,08
-0,10
-0,06
0,11
0,13
-0,10
-0,04
-0,05
0,08
0,09
-0,04
n = 1 000 (12,6 % )
-0,20
-0,07
f1
f2
-0,09
-0,11
-0,06
-0,06
0,59
0,10
0,66
0,12
-0,08
-0,11
f3
-0,06
-0,05
0,04
0,04
-0,06
En rsum, on voit que lon peut tout autant surestimer la variance RB [ var lin ( )] > 0 que la sousestimer
( RB [var
lin
( )] < 0
logarithme ( f2 ( x )) amliore trs significativement la situation. La mthode par plus proches voisins
( f ( x )) fait disparatre tout problme si on a suffisamment de donnes (cas des tableaux 4.3, 4.4 et 4.6).
3
Cette dernire a un peu plus de difficult si les chantillons sont petits (cas du tableau 4.5). Les variations
illogiques et les biais qui subsistent dans les tableaux peuvent aussi tre dus au manque de robustesse des
linarises sur certains chantillons comme mentionn la section 3.3.
5 Conclusions
Dans plusieurs pays, des enqutes par chantillonnage de niveau national publient les valeurs
extrapoles des indices de Laeken (Eurostat 2005) car elles constituent des indicateurs importants
permettant daiguiller les preneurs de dcisions aux niveaux politique et social. Il est ds lors essentiel de
pouvoir quantifier la prcision de ces mesures, ce qui soulve la question de la pertinence de lestimation
86
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
de la prcision dont on dispose. Ce travail montre quune amlioration substantielle peut tre faite dans
lestimation de la prcision dindices de pauvret et dingalit qui ncessitent le recours une estimation
(locale) de la densit des revenus ou de la variable montaire considre.
Les simulations menes montrent que la mthode destimation de la densit par noyau gaussien
actuellement mise en uvre dans la plupart des cas nest pas recommander sans au moins passer par le
logarithme comme propos dans la section 3.1, faute de quoi le biais de la variance estime peut devenir
trs important. La mthode par plus proches voisins (section 3.2) qui impose aussi une largeur de
bande minimale peut donner des rsultats encore meilleurs, surtout si on a des agglomrats dobservations
en certaines valeurs dans les donnes tudies. Elle ncessite cependant de choisir un nombre minimal p
de voisins en fonction des donnes sur lesquelles on travaille. Si lon a peu dobservations disposition, il
est prfrable den rester la variante du logarithme. Dans tous les cas, nous esprons que ce travail
contribuera une prise de conscience du fait quil faut tre mticuleux lors de limplmentation du calcul
des linarises pour tous les indicateurs faisant intervenir des quantiles.
6 Remerciements
Ce travail a t ralis dans le cadre dune convention de collaboration entre lInstitut de Statistique de
lUniversit de Neuchtel et lOffice Fdral de la Statistique (OFS). Nous tenons galement remercier
en particulier la section Revenus, consommation et conditions de vie de lOFS pour nous avoir mis
disposition les donnes de la partie suisse de lenqute europenne sur le revenu et les conditions de vie.
Merci aussi Matti Langel et Anne Massiani pour leur appui au cours de nos investigations.
Bibliographie
Antal, E., Langel, M. et Tilll, Y. (2011). Variance estimation of inequality indices in complex sampling
designs. Proceedings 58th World Statistical Congress, Dublin.
Ardilly, P., et Osier, G. (2007). Cross-sectional variance estimation for the French Labour Force Survey.
Survey Research Methods, 1, 75-83.
Beaumont, J.-F., Haziza, D. et Ruiz-Gazen, A. (2013). A unified approach to robust estimation in finite
population sampling. Biometrika, 100, 555-569.
Chambers, R.L. (1986). Outlier robust finite population estimation. Journal of the American Statistical
Association, 81, 1063-1069.
Croux, C. (1998). Limit behaviour of the empirical influence function of the median. Statistics &
Probability Letters, 37, 331-340.
Demnati, A., et Rao, J.N.K. (2004). Estimateurs de variance par linarisation pour des donnes denqute.
Techniques denqute, 30, 1, 17-27.
87
Deville, J.-C. (2000). Estimation de variance pour des statistiques et des estimateurs complexes :
linarisation et techniques de rsidus. Techniques denqutes, 25, 2, 219-230.
Deville, J.-C., et Srndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the
American Statistical Association, 87, 376-382.
Eurostat (2004a). Common cross-sectional eu indicators based on eu-silc; the gender pay gap. Documents
de travail et dtudes de lOffice for Official Publications of the European Communities, Luxembourg.
EU-SILC 131-rev/04.
Eurostat (2004b). Theoretical study of the gini index. Documents de travail et dtudes de lOffice for
Official Publications of the European Communities, Luxembourg. EU-SILC 131-A/04.
Eurostat (2005). The continuity of indicators during the transition between ECHP and EU-SILC.
Documents de travail et dtudes de lOffice for Official Publications of the European Communities,
Luxembourg.
Goga, C., Deville, J.-C. et Ruiz-Gazen, A. (2009). Use of functionals in linearization and composite
estimation with application to two-sample survey data. Biometrika, 96, 691-709.
Graf, M. (2011). Use of survey weights for the analysis of compositional data. Dans Compositional Data
Analysis, Theory and Applications, (ds., V. Pawlosky-Glahn et A. Buccianti), Oxford : Wiley,
chapitre 9, 114-127.
Graf, M. (2013). A simplified approach to linerarization variance for surveys. University of Neuchtel,
document de travail.
Graf, M., et Nedyalkova, D. (2011). GB2: Generalized Beta Distribution of the Second Kind: properties,
likelihood, estimation. R package version 1.0.
Hampel, F.R. (1974). The influence curve and its role in robust estimation. Journal of the American
Statistical Association, 69, 383-393.
Hulliger, B. (1999). Simple and robust estimators for sampling. Proceedings of the Survey Research
Methods Section, American Statistical Association, 54-63.
Hyndman, R.J., et Fan, Y. (1996). Sample quantiles in statistical packages. American Statistician, 50, 361365.
Kovaevi, M.S., et Binder, D.A. (1997). Variance estimation for measures of income inequality and
polarization - The estimating equations approach. Journal of Official Statistics, 13, 41-58.
Langel, M., et Till, Y. (2011). Statistical inference for the quintile share ratio. Journal of Statistical
Planning and Inference, 141, 2976-2985.
Langel, M., et Till, Y. (2012). Variance estimation of the Gini index: Revisiting a result several times
published. Dans Press in Journal of the Royal Statistical Society - Series A.
Lorenz, M.O. (1905). Methods of measuring the concentration of wealth. American Statistical
Association, 9, 209-219.
88
Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale
Osier, G. (2009). Variance estimation for complex indicators of poverty and inequality using linearization
techniques. Survey Research Methods, 3, 167-195.
Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis. Chapman and Hall, Londres.
Verma, V., et Betti, G. (2011). Taylor linearization sampling errors and design effects for poverty
measures and other complex statistics. Journal of Applied Statistics, 38, 1549-1576.
Zeileis, A. (2012). ineq: Measuring Inequality, Concentration, and Poverty. R package version 0.2-10.
89
Normalit asymptotique; bootstrap; estimateur fond sur un test de dcision; probabilit proportionnelle la
taille; stratification; estimation de la variance.
1 Introduction
LAnnual Survey of Public Employment and Payroll (ASPEP) des tats-Unis fournit des estimations
courantes de lemploi et de la rmunration temps plein et temps partiel dans les administrations
publiques dtat et locales par fonction (par exemple, enseignement primaire et secondaire, enseignement
suprieur, services de police, services de protection contre lincendie, administration financire, services
judiciaires et juridiques, etc.). Cette enqute a pour champ dobservation les administrations publiques
dtat et locales (89 526 selon le Census of Governments de 2007), qui englobent les comts, les villes,
les cantons, les administrations appeles districts spciaux et les districts scolaires. LASPEP, qui est
la seule source de donnes sur lemploi dans le secteur public par fonction administrative et catgorie
demploi, fournit des donnes sur le nombre et la rmunration des employs temps plein et temps
partiel, ainsi que le nombre dheures travailles par les employs temps partiel. Habituellement, la
collecte des donnes dbute en mars et se poursuit pendant environ sept mois, en prenant la priode de
paye incluant le 12 mars comme priode de rfrence.
Soit U la population finie de N units subdivise en H strates, U 1 , , U H , o U h contient N h
units et N 1 + + N H = N . Le plan de sondage habituel de lASPEP est un plan avec probabilit
1. Jun Shao, Statistics Department University of Wisconsin, Madison WI , Courriel: shao@stat.wisc.edu; Eric Slud, Center for Statistical
Research and Methodology, US Census Bureau, Washington DC and Mathematics Department, University of Maryland, College Park, MD,
Courriel: eric.v.slud@census.gov; Yang Cheng, Demographic Statistical Methods Division, US Census Bureau, Washington DC, Courriel:
yang.cheng@census.gov; Sheng Wang, Mathematica Policy Research, Princeton NJ, Courriel : swang@mathematica-mpr.com; et Carma
Hogue, Governments Division, US Census Bureau, Washington DC, Courriel: carma.ray.hogue@census.gov.
90
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
proportionnelle la taille (PPT), o les strates sont construites en se basant sur ltat et le type
dadministration publique, savoir le comt, le sous-comt (grande ou petite ville), le district spcial ou le
district scolaire. La taille de chaque unit (administration publique) est mesure par la masse salariale
totale, et lchantillonnage est effectu indpendamment dans les diverses strates. En 2009, on a labor
un plan dchantillonnage modifi, qui comprend la division de certaines strates U h en deux sous-strates,
U h 1 et U h 2 contenant N h1 et N h 2 units, respectivement, o U h 1 contient les units de petite taille
(Cheng et coll. 2009). Lide tait dconomiser des ressources et de rduire le fardeau de rponse en
slectionnant dans U h 1 un chantillon plus petit sous le plan modifi que sous le plan habituel. Soit S hj un
chantillon PPT de taille n hj provenant de U hj , j = 1, 2, n h 1 + n h 2 = n h . Notons que n h1 peut encore
tre plus grand que n h 2 , parce que N h1 est habituellement beaucoup plus grand que N h 2 .
Pour lunit i U , soit y i une variable tudie cl (p. ex., lemploi temps plein, la rmunration
temps plein, lemploi temps partiel, la rmunration temps partiel, les heures travailles temps
partiel), x i une variable auxiliaire, disons la mme variable que y i provenant du recensement le plus
rcent, et soit z i la covariable utilise comme variable de taille dans lchantillonnage PPT. Les valeurs
des covariables x i et z i sont observes pour tout i U , tandis que y i est observe uniquement pour
chaque unit i chantillonne.
Lestimateur de Horvitz-Thompson du total inconnu Y =
YHT =
j iS hj
iU
y i est
yi i ,
(1.1)
o i est la probabilit dinclusion dordre un de lunit i dans S hj , une fonction connue des z i . Pour
utiliser la variable auxiliaire x i et accrotre la prcision de lestimation de Y , lapproche assiste par
modle (Srndal, Swensson et Wretman 1992) a t adopte. Lapplication de la rgression dans chaque
chantillon S hj conduit lestimateur par la rgression de Y de la forme
Yreg,2 =
o X hj =
iU hj
x i , Yhj =
i S hj
N hj X hj
N hjYhj
+ hj X hj
,
N hj
N hj
y i i , X hj =
hj =
i S hj
( xi
i S hj
( xi
i S hj
x i i , N hj =
X hj N hj ) y i i
2
X hj N hj ) i
i S hj
(1.2)
1 i , et
Autrement, la combinaison des deux sous-strates S h1 et S h 2 donne lestimateur par la rgression suivant.
(Un examinateur fait remarquer correctement que Yreg,1 dans (1.3) nest pas lestimateur group que lon
utiliserait si les droites de rgression dans la strate h taient combines mais que les deux sous-strates ne
ltaient pas; cependant, il est lestimateur naturel lorsque non seulement les droites de rgression, mais
aussi les sous-strates sont combines.)
91
Yreg ,1 =
N X
N hYh
+ h X h h h ,
N h
N h
o Yh =
Yhj , X h =
X hj , N h =
h =
N hj , et
i S hj
(1.3)
( xi
X h N h ) y i i
(xi
i S hj
2
X h N h ) i
Puisque Yreg,1 ainsi que Yreg ,2 sont des estimateurs assists par modle, ils sont convergents sous
chantillonnage rpt, que le modle de rgression soit ou non vrifi. Si les droites de rgression par les
moindres carrs dans les deux sous-strates U hj sont les mmes, Yreg,1 peut tre plus efficace que Yreg ,2 .
Par ailleurs, si les droites de rgression sont diffrentes, Yreg ,2 peut tre plus efficace que Yreg ,1 .
Cheng et coll. (2010) ont propos une mthode fonde sur un test de dcision qui consiste appliquer
un test dhypothse pour dcider sil faut combiner S h1 et S h 2 . lintrieur de la strate h , on teste
lhypothse dgalit des pentes des droites de rgression dans U h 1 et U h 2 . Soit
hj
Si t h > t1 2, n
2
xhj
h 4
Yhj hj X hj 2
n hj
=
, xe , hj = 2
N hj
N hj
=
iS hj
( xi
2
X hj ( y i hj hj x i )
,
x i N
i2
iS hj
hj
2
X hj N hj )
, th =
i N hj
n h 4 ( h1 h 2 )
nh
j =1
2xe , hj
n hj 4xhj
nous rejetons lhypothse dune pente commune et nous utilisons hj (et fixons h = 1 ). Ici, est un
seuil de signification nominal fix par dfaut 0,05, mais nous considrerons dautres choix de la valeur
de la section consacre aux simulations. La dfinition de la statistique de test faisant intervenir
n h 4 degrs de libert est un choix lgrement artificiel conu afin de rendre les probabilits de rejet
dun chantillon modr plus proches de la valeur nominale, mais la thorie asymptotique en grand
chantillon justifiant ce test est donne la partie (c) du thorme 1. Si t h t1 2, n 4 , alors nous
h
acceptons lhypothse dune pente commune, nous combinons les sous-strates S h1 et S h 2 , et nous
utilisons h ( en fixant h = 0 ) . Les tests sont effectus de manire indpendante dans les diverses
strates h = 1, , H . Lestimateur de Y fond sur le test de dcision est alors
Ydec =
N hj X hj
N hjYhj
+ hj X hj
+
N hj
N hj
(1
h
N X
N hYh
+ h X h h h . (1.4)
N h
N h
Puisque les deux droites de rgression ayant une pente commune peuvent avoir des ordonnes
lorigine diffrentes, on pourrait tester une hypothse supplmentaire concernant les ordonnes lorigine
pour dcider sil faut combiner les deux sous-strates. Cependant, des points de population ( x i , y i ) se
92
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
trouvant sur deux droites de rgression de sous-strate parallles, mais non identiques seraient discontinus
autour du seuil entre les deux sous-strates U h 1 et U h 2 , ce qui ne semble ne se produire que rarement dans
les situations pratiques. Par exemple, dans lASPEP, Cheng et coll. (2010) ont tudi les pentes et les
ordonnes lorigine de sous-strates dans les ensembles de donns des recensements des administrations
publiques de 2002 et de 2007, et ont constat que lhypothse dune ordonne lorigine commune ne
pouvait jamais tre rejete lorsque lhypothse dune pente commune ne pouvait pas ltre. Donc,
lestimateur fond sur un test de dcision donn dans (1.4) dpend uniquement du test de lhypothse
dgalit des pentes des droites de rgression des sous-strates.
Les estimateurs deux degrs tudis ici sont des cas particuliers de procdures nommes
antrieurement estimateurs aprs un test prliminaire (preliminary test estimators). Il existe une littrature
abondante traitant de lutilisation de ce genre de procdures dans les enqutes, y compris une
bibliographie de Bancroft et Han (1977), un livre publi par Saleh (2006) et un traitement propos par
Fuller (2009, section 6.7). Une ide de Saleh (2006) consiste estimer les coefficients par une
combinaison convexe des coefficients estims partir des strates distinctes en faisant dpendre les
proportions dune statistique de test. Les estimateurs lisss de ce genre pourraient tre plus efficaces que
nos procdures fondes sur un test de dcision. Si les ordonnes lorigine et les pentes propres aux
strates taient considres comme alatoires, on pourrait aussi essayer dappliquer lestimation une
approche baysienne empirique fonde sur un modle.
Les estimateurs fonds sur un test de dcision (1.4) sont nouveaux, parce quils sont assists par
modle et convergents sous le plan dans le contexte des sondages, et utilisent explicitement les tailles de
population de sous-strate connues. Dans un esprit peu prs semblable, Rao et Ramachandran (1974)
avaient effectu antrieurement une comparaison exacte des estimateurs par le ratio distincts et combins
sous un modle de ratio similaire au modle de rgression considr dans le prsent article.
Lobjectif de larticle est dillustrer certaines proprits asymptotiques et empiriques des estimateurs de
Y dcrits plus haut et des estimateurs de leur variance. La convergence et la normalit asymptotique de
Yreg,1 , Yreg,2 , et Ydec sont tablies la section 2, dans le contexte de la thorie asymptotique fonde sur le
plan de sondage ou assiste par modle. Bien que les rsultats asymptotiques dordre un favorisent Yreg ,2 ,
Yreg,1 pourrait tre meilleur quand certaines tailles dchantillon de sous-strate n h 2 sont modres, un effet
asymptotique dordre deux. Lavantage de lestimateur fond sur un test de dcision Ydec tient
ladaptation en vue dtre proche de Yreg,1 ou de Yreg ,2 selon celui qui est le meilleur. Comme lindique la
discussion du paragraphe (III) de la section 4.4, les simulations montrent que lavantage de cette
adaptabilit est de rduire lEQM dune quantit allant jusqu quelques pour cent sous des conditions de
paramtrisation raisonnables, et de plus grandes quantits sous des conditions plus tranges.
Lestimation de la variance de lestimateur fond sur un test de dcision est traite la section 3.
Mme si la thorie asymptotique expose la section 2 laisse entendre que des estimateurs convergents de
variance sont obtenus par substitution des quantits inconnues dans les formules de variance
asymptotique, nous tudions aussi les estimateurs bootstrap de la variance proposs dans Cheng et coll.
(2010), qui ont gnralement de meilleures proprits en chantillon fini que les estimateurs par
substitution. Les rsultats empiriques sont prsents la section 4, les interprtations et les conclusions
tant formules la sous-section 4.4. Toutes les preuves techniques sont donnes en annexe.
93
xj = X j N j ,
2xe , j = n j
(x
iS j
j = Y j N j j xj ,
xj )
(y
2
j j x i )
2
2xj = N j 1 i1 ( x i xj )
i S j
2
i
N 2j ) .
De surcrot, pour simplifier, nous nexaminons les rsultats asymptotiques que sous chantillonnage avec
remise. Les rsultats peuvent tre appliqus au cas de lchantillonnage sans remise si la fraction
dchantillonnage n N est ngligeable.
rpt, cest--dire quand y i et x i sont fixes pour i U , et S j est un chantillon PPT alatoire.
Thorme 1 Supposons que S 1 et S 2 sont des chantillons PPT indpendants tirs avec remise de U 1 et
U 2 , respectivement, o lunit i U j possde la probabilit p ij = z i iU z i > 0 dtre slectionne,
j
94
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
n n j j et N j N j .
Yj = Yj N j =
y i N j yj , X
i U j
nj N j)
x (y
iU j
= X
( xi
j
Nj =
i U j
N j xj
Y j N j j ( x i X j N j )) 0 quand n , N .
iU j
bij = 1 p ij N j , x i p ij X j , y i p ij Y j ,
lim N j 2 iU ( x i xj )
( yi
iU j
j j xi )
2
2
2
cij = (1 p ij N j ) , ( x i p ij X j ) , ( y i p ij Y j ) .
j 2xj N j + ( X 2 X 1 ) (Y2 Y1 ) N 1 N 2
2
j =1
2
2xj N j + ( X 2 X 1 ) N 1 N 2
j =1
( N 1
( N 1 + N 2 )
+ N 2 )
(2.1)
et la limite en probabilit
2
j =1
j 2xj j + ( x 2 x1 ) ( y 2 y 1 ) 1 2
2xj j + ( x 2 x 1 ) 1 2
j =1
n j ( j j ) d N (0, 2xe , j 4x , j ) ,
(c)
2
xe , j
2
xe , j
95
(d)
Pour k = 1, 2,
n (Yreg, k Y ) N d N (0, 2k )
o 2k =
2
j =1
(2.2)
a kjT D j a kj et
a1 j = j j ( y x ) , ,1 ,
T
a 2 j = j j ( yj j xj ) , j ,1 ,
T
Les conditions (C1) (C4) du thorme 1 fournissent une formulation gnrale du cadre de
superpopulation pour linfrence statistique sous le plan de sondage en grand chantillon, dans laquelle les
coefficients de rgression selon lenqute estiment des paramtres descriptifs bien dfinis de la population
servant de base de sondage. Les rsultats des parties (a) (b) montrent que les limites en probabilit
j , j de j , j possdent linterprtation classique de pentes et dordonnes lorigine de droites des
moindres carrs de superpopulation. (Ces paramtres de pente et dordonne lorigine conservent aussi
leur interprtation sous un modle habituelle sous le modle (2.7) prsent la section 2.2.) La thorie
asymptotique pour j dans la conclusion (c) nous permet de dduire le comportement en grand
chantillon de Ydec partir de celui fourni dans (d) pour Yreg, k .
Sous les conditions supplmentaires
1 = 2 , 1 = 2 ,
(2.3)
il dcoule clairement de la partie (b) du thorme 1 que j = , et 12 = 22 dans (2.2), de sorte que
Yreg,1 , Yreg ,2 et Ydec sont tous les trois asymptotiquement les mmes jusqu des restes dordre plus faible
n , comme nous allons le montrer maintenant. En outre, si 1 2 , alors Yreg,2 Ydec continue
que N
dtre o P ( N
n ) , et le test dgalit des pentes aboutit au rejet, c.--d. P (Ydec = Yreg,2 ) 1, et par
consquent Ydec suit la mme loi asymptotique que Yreg,2 , qui est plus efficace que Yreg,1 selon le rsultat
de la section 2.2.
Thorme 2 Supposons que lon formule les mmes hypothses (C1) (C4) que pour le thorme 1.
(a)
n ( 2 1 ) d N ( 0, 2d ) ,
2d =
2xe , j
j =1
2
j
4
xj
(2.4)
et les estimateurs Yreg ,1 , Yreg ,2 et Ydec suivent tous une loi asymptotiquement normale et sont
quivalents au sens o
n
2
2
Y
Yreg ,2 ) + (Yreg ,2 Ydec ) 0.
2 ( reg ,1
P
N
(2.5)
96
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
(b)
n (Ydec Y ) N
N ( 0, 22 ) .
peut tre
entreprise dans lesprit de Saleh (2006), comme dans le cas des versions contigus ou de Pitman pour les
modles statistiques hors du contexte des sondages, en supposant que
n ( 1 2 ) r pour une
constante r . Sous cette hypothse, on peut montrer que Yreg,1 Yreg,2 = o P ( N
n ) et, par consquent,
que les trois estimateurs centrs et rduits
n (Ydec Y ) ,
n (Yreg ,2 Y ) et
P (Ydec = Yreg,2 ) ( z / 2 + r d ) + ( z / 2 r d ) ,
(2.6)
yi = j + j xi + i , i U j ,
(2.7)
avec j et j reprsentant les paramtres ordonne lorigine et pente inconnus pour la rgression dans
la strate U j . Nous supposons que les erreurs i , i U j , sont iid de moyenne 0 et de variance finie 2 ,
et quelles sont indpendantes de ( x i , z i ), et que les variables x i pour i U j ont une variance finie. En
outre, pour permettre lchantillonnage PPT, nous supposons que max iU j n j p ij < 1 avec la probabilit
sapprochant de 1 quand m est grand, c.--d. quand n j , N j sont grands.
la prsente section, les proprits asymptotiques des estimateurs Yreg, k , Ydec sont considres en
regard du modle de rgression et de lchantillonnage rpt. En vertu du thorme 1, les estimateurs
assists par modle Yreg,1 et Yreg ,2 sont encore convergents et asymptotiquement normaux pour les triplets
( x i , y i , z i ) iid lintrieur des strates, puisque les conditions (C1) (C4) sont satisfaites sous les
hypothses de moments sur z i , 1 z i , mme si le modle (2.7) est incorrect. Cependant, les estimateurs
97
asymptotique de
n (Yreg,1 Y ) N
n (Yreg,2 Y ) N . En outre,
la variance asymptotique de
n (Ydec Y ) N d N (0, (1 ) 12 + 22 ) ,
(2.8)
Yreg ,2
quand
1 2 .
systmatiquement Yreg,2 ?
Les assertions du thorme 3 sont des rsultats asymptotiques dordre un. Un rsultat asymptotique
dordre deux, plus affin, sous les conditions du thorme 3 et la condition (2.3) quand les tailles z i sont
toutes gales est que, jusqu un terme dordre n 12 + n 22 ,
2
Yreg,1 2
Yreg,2 2
n1 n 2 ( X 1 X 2 )
eqm
eqm
1
n
n
nD n
N
Dn =
(x
j =1 iU j
X j)
(2.9)
= N j 1 iU x i , et
n n (X X 2)
+ 1 2 1
.
n
2
Le rsultat (2.9) indique que, lorsque les poids sont gaux et que 1 = 2 et 1 = 2 , la performance en
chantillon fini de Yreg,1 pourrait tre meilleure que celle de Yreg ,2 pour des valeurs modres de n 1 et n 2 .
Voir les rsultats des simulations la section 4. La preuve de (2.9) est un cas particulier dun rsultat plus
gnral donn dans Slud (2012) et est donc omise.
Dans les applications, nous ne savons pas si 1 = 2 . Donc, lestimateur fond sur un test de dcision
Ydec est une procdure adaptative pour slectionner un bon estimateur. Compte tenu de (2.8), la
performance de Ydec est proche (un peu moins bonne) de celle de Yreg ,2 quand 1 2 , et est proche (un
peu moins bonne) de celle de Yreg,1 quand 1 = 2 et 1 = 2 . Ces constatations sont galement
corrobores par les rsultats des simulations la section 4.
3 Estimation de la variance
Il est dusage de communiquer une estimation de la variance ou de lerreur-type pour chaque
estimation daprs des donnes denqute. Lestimation de la variance est galement essentielle pour
linfrence statistique lorsquon tablit un intervalle de confiance pour un paramtre dintrt inconnu.
98
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
Les rsultats asymptotiques de la section 2 suggrent un estimateur de variance pour Yreg , k obtenu en
substituant dans (2.2) des estimateurs pour les quantits inconnues dans 2k . Puisque la variance totale est
une somme de H variances intrastrate, sans perte de gnralit, nous considrons une strate ( H = 1) .
Pour j = 1, 2, soit
D n =
j
(n
iS j
a1 j =
bij bijT
j
1) N j
T
bij = 1 p ij N j , x i p ij X j , y i p ij Y j ,
N j n 1 2
T
( y j j x j ) , j ,1 ,
1
2
j
Nn
a 2 j =
y j = Y j N j ,
x j = X j N j ,
y =
N j n 1 2
T
( y x ) , ,1 ,
1
2
j
Nn
( N 1 + N 2 ) ,
Y j
i S j,
x =
j =1
X ( N
j
+ N 2 ) .
j =1
a
j =1
T
kj
D n a kj k2 ,
j
k = 1, 2.
Cest--dire que 2k est convergent pour 2k . Les rsultats des thormes 2 et 3 montrent aussi que 22
est un estimateur de variance convergent pour lestimateur fond sur un test de dcision Ydec , parce que
nous avons soit 12 = 22 soit P (Ydec = Yreg,2 ) 1.
Cependant, ces estimateurs de variance obtenus par substitution peuvent ne pas donner daussi bons
rsultats lorsque la valeur de n 1 ou de n 2 est modre (voir la section 4). Une autre mthode est celle du
bootstrap propose par Cheng et coll. (2010). Soit lestimateur pris en considration. Lestimateur
bootstrap de sa variance peut tre obtenu comme il suit.
1. Tirer un chantillon bootstrap S *j de taille n j par chantillonnage alatoire simple avec remise
partir de S j , o S 1* et S 2* sont obtenus de manire indpendante. Sil existe k j units
autoreprsentatives (AR) dans S j , comme il est discut la section 4.1 qui suit, on tire alors
des chantillons de tailles n j k j avec remise, avec j = 1, 2.
2. Utiliser les poids de sondage et les donnes observes provenant de lensemble de donnes
originales pour former un ensemble de donnes bootstrap S 1* S 2* . partir de cet ensemble
de donnes, calculer lanalogue bootstrap * de .
3. Rpter indpendamment les tapes qui prcdent B fois pour obtenir *1 , , * B . La
variance dchantillon de *1 , , * B est lestimateur bootstrap de la variance de .
Sous les conditions des thormes 1 et 2, les estimateurs bootstrap de la variance de Yreg,1 , Yreg ,2 et Ydec
sont des estimateurs convergents. La preuve pour le bootstrap est similaire aux preuves des thormes et
est donc omise.
99
des amliorations utiles de lerreur quadratique moyenne dans des chantillons de taille moyenne. Nous
prsentons certains rsultats de simulations pour tudier ces questions, ainsi que les problmes de petit
chantillon qui se posent lorsquon applique ces mthodes dans le contexte de lASPEP.
Dans les simulations, les valeurs dans la population servant de base de sondage U sont soit gnres
sous un modle soit tires des recensements des administrations publiques de 2002 et 2007 en utilisant les
poids de sondage de lASPEP de 2007. Le premier jeu de simulations (prsent dans les tableaux 4.1
4.6) rsume le comportement moyen sur de nombreuses populations servant de bases de sondage gnres
par un modle. Dans le deuxime jeu de simulations portant sur des donnes artificielles, rsum au
tableau 4.8, la population servant de base de sondage demeure fixe tout au long de la simulation. Toutes
les populations servant de bases de sondage sont constitues dune seule strate ( H = 1) dcompose en
deux sous-strates ( j = 1, 2 ) selon que la valeur dune variable de taille se situe en-dessous ou au-dessus
dun quantile particulier, habituellement le quantile 0,8. Dans toutes les simulations dcrites la prsente
section, lchantillonnage des populations servant de bases de sondage est effectu selon un plan PPT avec
remise.
i U j
anormaux en petit chantillon et pour que les plans PPTAR imitant les plans PPT sans remise demeurent
pertinents, toute unit i U j avec n j p ij 1 est rendue autoreprsentative (AR), c.--d. quelle est
chantillonne avec certitude mais une seule fois, et si ces units sont au nombre de k j , alors les
probabilits
{ p ij
100
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
par les poids de sondage 2 et . Cependant, sous ce choix, lchantillonnage PPTAR suivi par le
rchantillonnage bootstrap des petits chantillons peut donner lieu un comportement trs imprvisible,
qui doit tre reconnu quand on rsume le comportement des estimateurs bootstrap de la variance. Le
problme tient au fait que, quand un petit nombre m dunits non autoreprsentatives sont
chantillonnes selon un plan PPTAR, en plus dun ensemble dunits autoreprsentatives, puis sont
traites par la mthode du bootstrap, la probabilit que lchantillon bootstrap contienne seulement une
unit non autoreprsentative unique peut tre tonnamment grande, ce qui donne lieu une trs forte
variabilit du bootstrap. Ce phnomne a t observ dans les simulations prsentes plus loin, pour une
sous-strate de grande taille contenant 20 lments ou moins et des variables de taille ayant une distribution
trs asymtrique, dans les cas de variables x i lognormales ou de lASPEP.
U 2 constitue des 400 autres. Dans la plupart des cas, les variables z i ont t gnres comme
N ( 30 + x i , 100 ) variables conditionnes pour quelles soient positives (ce qui a ncessit loccasion
une resimulation dans les modles lognormaux de x i ci-dessous) et taient conditionnellement
indpendantes de y i sachant x i . (Cependant, dans certains cas, des chantillons non pondrs ont t tirs
en prenant les z i identiquement gales.) Des chantillons PPT avec remise stratifis de tailles
( n 1 , n 2 ) = (100, 50 ) , (100, 20 ) , ou (50, 20 ) ont t tirs dans des excutions de simulation successives,
en utilisant les variables de taille z i , partir de la mme base de sondage.
Les modles gnrant ( x i , y i ) sont indexs comme il suit. Dans les modles dont le prfixe est M1,
les variables indpendantes x i suivent une loi Gamma (4; 0,1) dont le quantile 0,8 est gal 55,2, tandis
que dans les modles M2, les variables x i suivent une loi lognormale (1;6,25) dont le quantile 0,8 est
gal 22,3. Les populations M1 , et les modles M2 avec le suffixe E ont une variance conditionnelle
de 100 pour y i sachant x i , tandis que les modles M2 sans le suffixe E ont une variance conditionnelle
de 20 x i . Les moyennes conditionnelles E ( y i x i ) sont toutes linaires, gales 20 + 1, 5 x i dans les
modles indics H0 et gales 20 + x i + 0, 5 ( x i c ) I [ j =2] dans la sous-strate U j dans les
modles H1 . Les ordonnes lorigine des modles de rgression sont choisies de manire que les droites
se coupent x = c , que les pentes soient gales ou non (voir la discussion la section 1). Le tableau 4.1
donne la moyenne et lcart-type (.T.) pour les totaux Y gnrs partir des attributs de la population
2 000
servant de base de sondage { y i } i =1 sous les divers modles. Les variables x i ainsi que les totaux Y ont
une distribution queue plus longue sous les modles lognormaux.
Tableau 4.1
Moyennes et carts-types des totaux Y sous les modles de simulation
Gamma
Modle
E(Y)
.T.(Y)
M1.H0
160 000
1 414,2
M1.H1
123 177
653,5
M2.H0
225 603
94 380
Lognormaux
M2.H0E
M2.H1
225 603
173 485
94 368
62 362
M2.H1E
173 485
62 344
101
(paramtre
de
forme 4,
x i Gamma ( 4; 0,1)
y i N ( 20 + 1, 5 x i ;100 ) (variance 100), tout i U .
M1 . H1 :
x i Gamma ( 4; 0,1) , y i N 20 + x i + 0, 5 ( x i c ) I x
M2 .H0 :
M2.H0E :
M2 . H1 :
; 20 x i ) , tout i.
M2.H1E :
;100) , tout i.
paramtre
i c
dchelle 10),
;100) , tout i.
i c
i c
Les rsultats des simulations et les rsultats bootstrap prsents dans les tableaux 4.2 4.5 ont t
gnrs suivant le plan de sondage et de prsentation des rsultats qui suit. Pour chaque type de
population, 60 populations servant de bases de sondage distinctes ont t gnres, et 50 expriences
dchantillonnage indpendantes ont t excutes avec chacune de ces populations. Dans les cas o les
rsultats de lchantillonnage pondr et non pondr ont t compars, ces chantillons ont t tirs
indpendamment lun de lautre partir du mme ensemble de 60 populations servant de bases de
sondage. Donc, on disposait de 3 000 rpliques indpendantes pour le calcul de la moyenne Monte Carlo
des rsultats statistiques, pour trois tailles dchantillon stratifies diffrentes, et 400 itrations bootstrap
ont t effectues pour chaque chantillon gnr de cette faon.
Tableau 4.2
.T. empiriques et estims et couverture de lIC, daprs les simulations du modle M1
M1.H0
M1.H1
Tailles
Stat.
Yreg ,1
100,50
.T. MC
1 785,5
1 794,3
1 788,0
1 817,6
1 773,5
1 774,4
.T. S
1 757,1
1 751,5
1 755,6
1 794,6
1 735,2
1 735,8
.T. B
1 752,4
1 762,0
1 758,4
1 788,1
1 742,9
1 747,0
PC S
PC B
94,47
94,60
94,37
94,53
94,50
94,67
93,93
93,93
93,73
94,03
93,77
94,07
.T. MC
1 930,0
1 944,8
1 934,0
2 008,4
1 944,4
1 960,4
100,20
50,20
Yreg ,2
Ydec
Yreg ,1
Yreg ,2
Ydec
.T. S
1 888,3
1 876,6
1 884,1
1 944,4
1 861,0
1 866,5
.T. B
1 878,8
1 901,4
1 895,8
1 936,1
1 885,6
1 897,9
PC S
PC B
94,20
93,80
93,83
94,00
94,13
93,97
93,53
93,60
93,20
93,83
93,07
93,97
.T. MC
2 583,5
2 610,7
2 593,5
2 591,3
2 522,8
2 535,4
.T. S
2 509,2
2 490,8
2 505,1
2 562,2
2 465,0
2 474,5
.T. B
2 498,5
2 538,0
2 522,9
2 550,3
2 508,5
2 525,6
PC S
93,70
93,63
93,13
93,73
93,57
93,87
93,97
93,83
93,63
93,77
93,43
94,10
PC B
102
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
Tableau 4.3
.T. empiriques et estims et couverture de lIC, daprs les simulations du modle M2
M2.H0
M2.H1
Tailles
Stat.
Yreg ,1
100,50
.T. MC
3 400,1
3 475,4
3 406,8
3 481,9
3 483,8
3 482,2
.T. S
3 420,6
3 400,0
3 417,0
3 537,8
3 405,0
3 463,7
.T. B
3 590,0
3 715,2
3 623,4
3 852,0
3 921,9
3 898,4
PC S
95,10
93,43
94,83
95,03
93,40
94,13
PC B
95,67
95,77
95,77
95,63
95,77
95,70
.T. MC
5 655,2
6 184,0
5 698,6
5 853,0
6 181,1
5 955,6
.T. S
5 644,9
5 575,7
5 640,9
5 798,3
5 587,3
5 697,3
.T. B
5 565,1
6 687,3
5 857,8
5 907,8
6 838,0
6 466,6
PC S
93,83
88,47
93,40
92,77
88,30
90,70
PC B
92,33
93,67
93,37
92,63
94,33
94,17
.T. MC
5 773,2
6 319,2
5 833,9
5 934,2
6 230,6
6 009,8
.T. S
5 800,2
5 677,2
5 785,8
6 012,6
5 755,4
5 919,2
.T. B
5 728,5
6 825,2
6 086,0
6 102,2
6 978,1
6 522,1
PC S
94,60
88,67
93,97
94,07
89,37
92,27
PC B
93,40
94,23
94,27
93,47
95,03
94,80
100,20
50,20
Yreg ,2
Ydec
Yreg ,1
Yreg ,2
Ydec
Tableau 4.4
.T. pour YHT vs Ydec , et couverture des intervalles de confiance percentiles bootstrap pour Ydec , pour
= 0, 05 vs 0, 20 , pour les modles M1 et M2, H0 et H1
Ydec , = 0, 05
YHT
Ydec , = 0, 20
Modle
chantillons
.TMC
PC PB
.T. HT
.TMC
PC PB
M1.H0
100,50
1 788,0
94,23
2 774,0
1 745,5
94,60
100,20
1 934,0
93,50
3 032,6
1 915,9
94,10
50,20
2 593,5
93,17
3 000,7
2 500,1
94,43
100,50
1 774,4
93,70
2 387,3
1 737,3
94,43
100,20
1 960,4
93,27
2 678,9
1 948,0
93,23
50,20
2 535,4
93,90
3 035,0
2 509,8
94,23
100,50
3 406,8
95,20
4 160,0
3 398,8
94,83
100,20
5 698,6
91,13
6 720,2
5 705,7
92,57
50,20
5 833,9
92,60
7 080,0
5 979,8
92,17
100,50
3 482,2
95,13
4 393,6
3 423,9
94,03
100,20
5 955,6
92,07
7 413,1
5 917,3
92,40
50,20
6 009,8
92,33
7 840,4
6 105,6
92,17
M1.H1
M2.H0
M2.H1
103
Tableau 4.5
Comparaisons des estimations de l.T. et de la couverture de lIC pour H0 et H1 pour trois modles
lognormaux, pondrs (W) et non pondrs (U) dans M2, et pondrs (E) dans M2.E. Les couvertures en %
des IC sont donnes pour les .T. ainsi que les intervalles percentiles bootstrap
Modle
H0.W
Taille
Stat
.T.
.T. S
.T. B
PC S
PC B
PC PB
100,50
Yreg,1
3 400,1
3 420,6
3 590,0
95,10
95,67
94,93
Yreg,2
3 475,4
3 400,0
3 715,2
93,43
95,17
95,33
Ydec
3 406,8
3 417,0
3 623,4
94,83
95,77
95,20
Yreg,1
5 481,6
3 674,8
5 571,9
81,43
93,50
92,07
Yreg,2
5 782,8
3 646,6
6 076,3
80,13
93,67
91,90
Ydec
5 525,5
3 669,0
5 726,8
81,07
93,83
92,20
Yreg,1
1 888,8
1 930,1
1 904,7
94,73
94,53
94,23
Yreg,2
1 888,6
1 911,1
1 893,2
94,43
94,30
94,20
Ydec
1 892,9
1 926,5
1 905,0
94,67
94,57
94,20
Yreg,1
5 773,2
5 800,2
5 728,5
94,60
93,40
92,00
Yreg,2
6 319,2
5 677,2
6 825,2
88,67
94,23
92,60
Ydec
5 833,9
5 785,8
6 086,0
93,97
94,27
92,60
Yreg,1
10 000,3
5 136,5
9 905,6
71,10
90,73
89,80
Yreg,2
11 192,8
5 085,0
12 806,8
68,70
92,90
89,37
Ydec
10 134,1
5 120,7
11 245,9
70,73
92,37
90,27
Yreg,1
2 811,4
2 831,6
2 769,5
94,13
94,00
93,93
Yreg,2
2 811,9
2 753,8
2 741,1
93,47
93,77
93,30
Ydec
2 817,4
2 821,8
2 777,0
93,83
93,90
93,77
Yreg,1
3 481,9
3 537,8
3 852,0
95,03
95,63
95,27
Yreg,2
3 483,8
3 405,0
3 921,9
93,40
95,77
95,10
Ydec
3 482,2
3 463,7
3 898,4
94,13
95,70
95,13
Yreg,1
5 631,4
3 774,8
5 614,6
80,90
92,33
91,07
Yreg,2
5 838,3
3 699,6
6 010,5
79,13
92,73
91,37
Ydec
5 727,0
3 732,8
5 870,5
80,40
92,93
91,63
Yreg,1
2 005,5
2 094,2
2 019,1
95,60
94,97
94,60
Yreg,2
1 909,9
1 908,2
1 892,5
94,83
94,77
94,17
Ydec
1 931,9
1 941,7
1 934,6
94,97
95,20
94,83
Yreg,1
5 934,2
6 012,6
6 102,2
94,07
93,47
91,97
Yreg,2
6 230,6
5 755,4
6 978,1
89,37
95,03
92,23
Ydec
6 009,8
5 919,2
6 522,1
92,27
94,80
92,33
H0.U
H0.E
H0.W
50,20
H0.U
H0.E
H1.W
100,50
H1.U
H1.E
H1.W
H1.U
H1.E
50,20
Yreg,1
9 315,8
5 350,9
10 040,0
74,17
93,10
90,57
Yreg,2
10 583,8
5 229,6
12 476,8
71,23
94,57
90,87
Ydec
9 989,6
5 295,4
11 479,5
72,53
94,33
91,47
Yreg,1
3 096,1
3 137,7
2 795,6
94,63
93,43
93,37
Yreg,2
2 880,6
2 766,8
2 745,7
93,10
93,40
93,47
Ydec
2 977,3
2 929,2
2 882,0
93,77
93,77
93,77
104
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
Nous avons calcul les quantits qui suivent pour chaque combinaison de modles, pondrations et
tailles dchantillon : les biais en pourcentage de Yreg,1 , Yreg,2 , Ydec (avec = 0,05 dans tous les tableaux,
sauf le tableau 4.4 o = 0,05 ou 0,20) en tant questimateurs de Y ; les carts-types (.T.) Monte Carlo,
.-T. MC , de ces trois estimateurs; les .T. estims des estimateurs, en utilisant les estimateurs de l.T.
Modle
M1.H0
M1.H1
M2.H0
M2.H0.E
M2.H1
M2.H1.E
M2.H1.U
Tailles
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
.T.
198
210
204
319
404
825
187
294
409
767
208
258
1 676
2 397
Yreg ,2
.T. B
35
52
39
57
345
518
49
85
409
624
59
141
1 351
2 543
.T.
196
208
183
298
450
1,075
185
293
410
946
196
261
1 773
3 425
Ydec
.T. B
35
51
40
62
383
916
45
71
421
929
46
82
1 539
3 454
.T.
197
210
184
302
405
889
184
298
408
841
204
239
1 726
3 102
.T. B
35
51
41
62
351
631
47
82
414
730
50
102
1 467
3 159
105
recensement des administrations publiques (Census of Governments) de 2007. Notre ensemble de donnes
contient les valeurs des variables de lASPEP de 2002 et de 2007 (nombre demploys, rmunration et
heures travailles temps plein et temps partiel) tires des recensements de ces annes, ainsi que les
poids de sondage de 2007 et les variables indicatrices de prsence dans lchantillon pour lASPEP. Un
poids gal 1 signifie que ladministration publique en question tait autoreprsentative, au sens o elle a
t choisie avec certitude en vue dtre incluse dans lASPEP. La variable de taille z i pour
lchantillonnage PPT dans lASPEP est gale la somme des masses salariales temps plein et temps
partiel provenant du recensement le plus rcent, de sorte que nous nous limitons lexamen des
53 402 administrations publiques figurant dans le fichier pour lesquelles la valeur de cette variable tait
positive. Le tableau 4.7 donne les administrations publiques de type sous-comt et district spcial (les
seules qui sont subdivises en sous-strates de petites et de grandes units) dans neuf tats, ainsi que les
nombres dunits autoreprsentatives et les nombres dunits chantillonnes en 2007. Comme il est
mentionn la sous-section 4.1, le nombre final dunits autoreprsentatives (AR) pour lchantillonnage
PPT avec remise peut dpasser le nombre dunits slectionnes initialement en vue dtre incluses avec
certitude, et les nombres plus levs, qui correspondent la taille de lchantillon effectivement
slectionn en 2007, sont indiqus dans les colonnes AR du tableau 4.7. Linspection de ce tableau montre
que plusieurs combinaisons tat-type dadministration publique ont une population nulle dans une
sous-strate ou ne contiennent quun nombre trop faible dunits non autoreprsentatives pour tre utile
dans la simulation dchantillons rpts. titre de rgle empirique, nous prenons 15 comme nombre
minimal dunits non autoreprsentatives et nous recommandons que les paires de sous-strates contenant
un nombre plus faible dunits non autoreprsentatives dans la strate des grandes units soient fusionnes
sans recourir la stratgie fonde sur un test de dcision tudie dans le prsent article.
Tableau 4.7
Population de recensement, tailles dchantillon de lASPEP et nombre dadministrations publiques de types
sous-comt et district spcial autoreprsentatives par sous-strate en 2007, pour neuf tats choisis
AL
CA
CO
FL
GA
MO
NY
PA
WI
Petites units
Pop.
ch.
378
15
0
0
0
0
317
16
461
17
980
25
1 473
25
2 409
55
1 702
36
Sous-comt
Grandes units
Pop.
ch.
AR
55
45
26
475
104
86
265
34
18
81
54
36
49
36
20
101
101
101
69
69
69
123
81
31
129
71
44
Petites units
Pop.
ch.
0
0
1 595
39
627
16
0
0
0
0
799
27
606
16
921
21
281
16
District spcial
Grandes units
Pop.
ch.
AR
400
102
64
107
107
107
65
55
33
330
48
24
293
70
32
106
66
42
33
23
4
37
37
37
61
40
20
Pour neuf combinaisons dadministration publique par type comprenant 15 units non
autoreprsentatives ou plus et au moins 17 units non autoreprsentatives non chantillonnes de la strate
des grandes units (sauf pour les tats AL, CO, et GA pour lesquels il existait respectivement 9, 10 et
11 units non autoreprsentatives non chantillonnes), le tableau 4.8 donne les rsultats pour les
106
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
estimateurs fonds sur un test de dcision et les estimations de la variance dans les paires de sous-strates.
Dans chacune des combinaisons tat-type dadministration publique, 3 000 chantillons PPTAR stratifis
ayant les tailles indiques ont t tirs de la base de sondage de lASPEP et du recensement des
administrations publiques dcrites plus haut, avec x i et y i dsignant, respectivement, la masse salariale
des employs temps plein de ladministration publique concerne telle quenregistre aux recensements
des administrations publiques de 2002 et de 2007, et z i dsignant la masse salariale totale (temps plein
plus temps partiel) en 2002. Pour chaque chantillon simul, on a calcul les estimateurs Yreg,1 , Yreg,2 , Ydec
et estim les variances empiriques. La variance de Ydec a galement t estime par les mthodes de la
formule de substitution et du bootstrap comme dans les simulations bases sur des donnes artificielles.
(Mais il convient de souligner que, comme il a t dcrit plus haut, dans chaque chantillon de sous-strate,
les chantillons bootstrap ont t tirs uniquement parmi les units non autoreprsentatives.) Les rsultats
sont prsents au tableau 4.8. Les efficacits relatives des estimateurs par la rgression stratifis combins
et distincts peuvent tre values daprs le ratio correspondant des .T. donn dans la colonne 5 du
tableau. Les autres .T. prsents sont les estimateurs empiriques, par substitution et bootstrap de
lcart-type de Ydec .
Tableau 4.8
Sommaire des simulations par chantillonnage rpt partir de la base de sondage de lASPEP de 2007. La
masse salariale totale des employs temps plein (Y ) est exprime en multiples de 100 millions de dollars, et
les estimations de l.T. donnes dans les colonnes 6 8 sont exprimes en units de 1 million de dollars Ydec .
.T. 1 .T. 2 dans la colonne 5 est le ratio de l.T. empirique de Yreg,1 celui de Yreg, 2 .
tat
AL
CA
CO
FL
GA
MO
NY
PA
WI
Strate
Sous-comt
Distr. spcial
Distr. spcial
Sous-comt
Sous-comt
Distr. spcial
Sous-comt
Sous-comt
Sous-comt
Y
1,2
4,3
0,6
4,3
1,5
0,6
23,6
3,0
1,4
Taille
25,46
30,90
25,55
25,54
25,38
40,70
35,52
40,70
40,70
.T. 1 .T. 2
2,14
0,98
1,14
1,16
1,15
2,13
1,53
1,12
2,06
.T.
4,90
29,4
3,77
11,9
4,38
2,99
13,6
7,28
5,00
.T. S
3,67
21,2
2,58
9,4
3,26
2,20
12,0
5,79
4,45
.T. B
5,71
26,8
3,00
12,2
4,88
2,99
14,1
7,60
5,17
107
note une tendance des estimateurs .T. S et .T. B sous-estimer lgrement les carts-types rels ou
empiriques, mais .T. B semble suivre lcart-type de plus prs que .T. S pour Yreg ,2 et Ydec .
II) La distribution des valeurs de la variable x i lognormale dans les modles M2 est beaucoup plus
disperse et asymtrique que dans les modles M1, mais les rsultats des simulations appuient nanmoins
la thorie asymptotique quand n 2 = 50, quoique pas si n 2 = 20. Les intervalles de confiance de Y
fonds sur lestimateur par substitution en ce qui concerne Yreg ,2 ont une probabilit de couverture
beaucoup trop faible lorsque lon utilise lestimateur de variance par substitution. Dans le tableau 4.3,
pour chaque type destimateur de Y , lestimateur de variance par substitution prsente une tendance
prononce sous-estimer la variance (empirique) relle et lestimateur par le bootstrap, la surestimer.
Le tableau 4.5 clarifie le fait que le comportement extrme des estimateurs de variance sous les
modles M2 rsulte partiellement de ce que les distributions des variables indpendantes et de y i sont
disperses et asymtriques, et partiellement de ce que la variable de taille utilise dans les pondrations
PPT prsente aussi ces proprits. Les cas dsigns par le suffixe W dans ce tableau sont les mmes que
dans le tableau 4.3. Les cas portant le suffixe E ont les mmes variables ( x i , z i ) que dans le tableau 4.3,
mais les variances conditionnelles de y i sachant x i ont la valeur constante de 100; grce ce
changement, le comportement irrgulier des estimateurs de lcart-type disparat. Cependant, lorsque les
variances de y i conditionnelles sont les mmes que dans le modle de base M2 , mais que
lchantillonnage PPTAR est non pondr, c.--d. lorsque toutes les variables z i sont remplaces par la
valeur 1, les estimateurs empiriques et bootstrap de lcart-type sont trs proches et trs grands, tandis que
lestimateur de variance par substitution est trop faible, et ce dun facteur spectaculairement grand variant
de 1 2 3 4 . Ce phnomne trange sobserve de la mme faon pour les trois estimateurs de Y .
(Cependant, une variante de lchantillonnage non pondr dans le modle M1 ne modifie pas
matriellement les rsultats par rapport ceux prsents au tableau 4.2.)
III) Un objectif des simulations tait de savoir sil existe jamais un avantage, en ce qui concerne
lerreur quadratique moyenne (EQM), utiliser Yreg,1 plutt que Yreg ,2 , faute de quoi il y aurait fort peu de
raisons dutiliser Ydec . En effet, les thormes en grand chantillon disent que le terme principal de
variance en grand chantillon est toujours optimal pour Yreg ,2 (parce quil est le mme que pour Yreg,1 sous
lhypothse nulle ou parce quil est strictement meilleur sous le modle (2.7) avec des pentes distinctes).
Toutefois, nous avons indiqu aprs le thorme 3, dans la borne (2.9), que Yreg,1 peut avoir une EQM
dordre deux plus petite que Yreg,2 , et les colonnes H0 des tableaux 4.2 et 4.3 rvlent un avantage faible
mais consistant de Yreg,1 par rapport Yreg ,2 en ce qui concerne lcart-type, avantage qui est plus
prononc pour M2. Cet avantage disparat sous la version fixe M1 .H1 , mais curieusement, pas sous
M2 .H1 . Lavantage lger, mais rel, de Yreg,1 en ce qui concerne lEQM conditionnelle quand les pentes
dans les sous-strates sont trs proches de lgalit est discut plus en dtail par Slud (2012).
Les estimateurs Yreg,1 , Yreg,2 , Ydec considrs ici sont du type rgression et il pourrait tre intressant de
comparer le comportement de leur EQM dans les populations simules celles de lestimateur plus simple
de Horvitz-Thompson YHT dans (1.1). Tous ces estimateurs sont presque sans biais, de sorte que les EQM
sont essentiellement les mmes que les variances, et une comparaison des troisime et cinquime colonnes
du tableau 4.4 montre que les variances de YHT sont considrablement plus grandes que celles de Ydec . La
108
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
diffrence est moins prononce pour les chantillons de plus grande taille, mais mme dans ce cas, elle est
de 30 % 55 %. Lavantage de Ydec reste encore trs prononc dans le modle M2, o les variances sous
le modle et lasymtrie de la distribution sont plus importantes, mais moins que dans le modle M1.
IV) La dfinition de Ydec contient le seuil de signification nominal arbitraire , qui dans tous les
tableaux sauf le tableau 4.4 a t fix 0,05. Comme le laisse entendre la thorie en grand chantillon, les
proprits de lestimateur fond sur un test de dcision sont comprises entre celles de Yreg,1 et de Yreg,2 , et
de plus grandes valeurs de rendent Ydec plus souvent gal Yreg,1 . Comme le montre la comparaison des
colonnes 6 et 7 du tableau 4.4, le choix = 0,20 semble aboutir, dans les modles simuls, des
carts-types de Ydec trs lgrement plus faibles sous le modle M1, tandis que sous le modle M2,
lcart-type est plutt plus grand pour les petites tailles dchantillon. La conclusion est faible, parce que
les diffrences sont relativement petites comparativement aux diffrences dcart-type observes dune
population servant de base de sondage lautre. Nous prfrons laisser une plus petite valeur de dicter
le groupement frquent de sous-strates, sauf quand il existe des diffrences prononces de pente estime
entre les sous-strates. Cette constatation selon laquelle de plus grands seuils de signification
namliorent pas les proprits de Ydec diffre de celle de Saleh (2006) voulant que de plus grands seuils
de signification soient trs avantageux dans dautres contextes de tests prliminaires.
V) Le tableau 4.6 renseigne sur la variabilit des estimateurs de lcart-type des estimateurs de Y
selon la population servant de base de sondage. Les estimateurs bootstrap de la variance semblent moins
susceptibles de varier dune population servant de base de sondage lautre, parce que la moyenne
ralise par le bootstrap les stabilise. Dans ce tableau, la principale constatation semble tre que la
variabilit entre les populations servant de bases de sondage est modre, sauf sous le modle M2 non
pondr, o elle est remarquablement grande. Ce rsultat semble expliquer linflation extrme des
variances sous M2 .U observes dans le tableau 4.5.
VI) Dans de nombreuses applications bootstrap avec statistique suivant approximativement une loi
normale, la mauvaise couverture des intervalles de confiance fonds sur la thorie normale due la
non-normalit de la statistique obtenue par bootstrap peut tre attnue en utilisant les intervalles
bootstrap percentiles (BP) (Shao et Tu 1995, section 4.1). Dans les prsentes simulations, le tableau 4.4
(colonnes 4 et 6) donne les pourcentages de couverture des intervalles BP pour Ydec dans les conditions o
les tableaux 4.2 et 4.3 donnent les couvertures des IC sous la thorie de la loi normale bases sur
lcart-type estim par bootstrap. Quelle quen soit la raison, les tableaux montrent que, sous la thorie de
la loi normale, PC B a systmatiquement tendance tre lgrement infrieur la valeur nominale mais
nanmoins lgrement suprieur la couverture des intervalles BP, PC BP . Donc, nos simulations
indiquent que, dans ces conditions, la prfrence va lintervalle plus simple Ydec 1, 96 .T. B .
VII) Il reste tirer les leons des simulations portant sur des donnes relles du recensement des
administrations publiques prsentes la section 4.3. Le premier commentaire qui simpose est que
ltalement et lasymtrie de la distribution des variables indpendantes x i correspondant la masse
salariale des employs temps plein et de la variable de taille z i correspondant la masse salariale totale
sont trs importants, et ressemblent davantage ceux observs pour les modles lognormaux M2 que
pour les modles Gamma M1. Le tableau 4.8 indique (dans la colonne 5) un avantage constant de Yreg ,2
par rapport Yreg,1 en ce qui concerne lEQM, sauf dans le cas CA-district spcial, bien que la diffrence
109
soit faible dans le cas CO-district spcial et dans les cas FL, GA et PA-sous-comt. Il convient de
souligner que, dans presque tous ces exemples, lestimateur bootstrap de lcart-type pour Ydec est plus
prcis que lestimateur par la formule de substitution, malgr les nombres assez faibles dunits non
autoreprsentatives chantillonnes et non chantillonnes et (dans plusieurs cas, comme le montre le
tableau 4.7) des nombres relativement levs dunits autoreprsentatives. Les estimations de lcart-type
par substitution sont systmatiquement trop petites, tandis que les estimations bootstrap sont
habituellement lgrement leves (c.--d. quen gnral .T. S < .T. < .T. B ). Lerreur relative de
.T. B par rapport .T. ne dpasse pas environ 5 % dans ces exemples, sauf dans les cas (AL, CO, GA)
o les units non autoreprsentatives non chantillonnes sont particulirement peu nombreuses dans la
sous-strate de grandes units.
Les sous-strates de grandes units dans lASPEP ont habituellement une petite population totale dans la
base de sondage et contiennent souvent un nombre relativement grand dunits autoreprsentatives. Bien
que nos simulations aient montr que cela ninvalide pas compltement les infrences faites au moyen de
Yreg,1 , Yreg,2 ou Ydec , ces statistiques ont des distributions assez diffrentes de celles prvues par la thorie
en grand chantillon, et de futures subdivisions des sous-strates permettraient peut-tre dobtenir des
sous-strates de grandes units un peu plus importantes en vue dobtenir des infrences statistiques se
comportant de la manire attendue.
Plus gnralement, les rsultats des simulations indiquent que lestimateur fond sur un test de dcision
avec lestimateur des intervalles dfini daprs les variances bootstrap se comporte bien et peut tre
recommand, sauf pour des populations trs disperses et asymtriques ou des populations pour lesquelles
les tailles dchantillon de grandes units sont plus petites que 20 25.
Remerciements
Le prsent article dcrit les travaux de recherche et analyses des auteurs et est diffus en vue
dinformer les parties intresses et de favoriser la discussion. Les conclusions nengagent que les auteurs
et nont pas t approuves par le Census Bureau. Nous tenons remercier trois examinateurs et un
rdacteur associ de leurs commentaires et suggestions utiles qui nous ont permis damliorer larticle.
Les travaux de recherche de Jun Shao ont t financs partiellement par la bourse NSF Grant DMS1007454.
Annexe
Preuve du thorme 1. Sous chantillonnage PPT, i = n j p ij pour lunit i U j , et chaque tirage
avec remise, lindice chantillonn i t U j , t = 1, , n j
possde
P (i t = i ) = p ij
pour chaque
110
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
des limites donnes dans (C2) et (C3) et des bornes donnes dans (C4). Les assertions de la partie (a)
sensuivent directement.
Pour lassertion (b), nous avons, en vertu de la dfinition de , que
( x
=
( x
2
i S j
j =1
x, j
+ x , j ( X 1 + X 2 )
( N 1 + N 2 )) y i
+ x , j ( X 1 + X 2 )
( N 1
i S j
j =1
N 1
=
2
j =1
x, j
j 2xj N j + ( N 1 N 2
( N 1
N 1 2xj N j + ( N 1 N 2
j =1
2
2
+ N 2 )) i
+ N 2 )) ( x 1 x 2 ) ( y 1 y 2 )
( N 1
2
+ N 2 )) ( x 1 x 2 )
),
do lgalit (2.1) dans (b) dcoule immdiatement par substitution des limites de la partie (a) ainsi que
des limites N j N j .
Soit N la matrice diagonale par blocs avec deux blocs diagonaux D N et D N , et pour j = 1, 2,
1
soit
1 j =
3 j =
1
Nj
nj
1
Nj
iS j
ij
N j ,
2 j =
yi
Yj ,
n j iS j p ij
4 j =
xi
1
Nj
nj
1
Nj
nj
i S j
i S j
ij
X j ,
xi x , j
p ij
( yi
(A.1)
j j xi ) .
Puisque S 1 et S 2 sont indpendants, { k 1}k =1 est indpendant de { k 2 }k =1 . Notons que, ici et tout au
long de la prsente preuve, les sommes sur i S j utilises pour dfinir X j , Y j , kj , et les estimateurs
4
de variance doivent tre interprts comme tant des sommes avec multiplicit compte tenu du plan
dchantillonnage PPT avec remise. La condition (C4) permet dappliquer le thorme central limite de
Liapounov pour montrer que
(A.2)
o I 6 est la matrice identit de dimensions 6 6 , et 2xe , j est donn dans lnonc de (d). Les limites qui
dfinissent les variances asymptotiques dans (A.2) existent conformment (C3).
Preuve de (c). Il est facile de vrifier daprs la dfinition que
j j
1
= 2
j j N j xj
i S j
2
xj
x i xj
yi j j xi
.
( x i xj ) xj
i
Puisquil a t tabli dans (a) que 2xj 2xj et N j N j 1, il sensuit que la distribution limite de
P
111
n j ( N j 2xj )
(x
iS j
xj ) ( y i j j x i ) i ,
2
xe , j
2
j
( xi
xj )
i p ij
i S j
( yi
j j x i ) 0.
2
(A.3)
Le deuxime terme du premier membre de (A.3) contient une variance dchantillonnage PPT avec remise
calcule de manire quelle soit borne par 1 n j conformment (C4), dont lesprance en vertu de (C3)
converge vers 2xe , j .
Preuve de (d). De (1.2) et (a), il dcoule que (Yreg ,2 Y ) N 0, qui peut aussi tre considr comme
P
la reprsentation
N j X j
n 2 N jY j
Y j + j X j
N j =1 N j
N j
n (Yreg,2 Y ) N =
nN 12
( Y1 + 1 X 1 ) 11 1 21 + 31
n1 NN 1
nN 22
( Y 2 + 2 X 2 ) 12 2 22 + 32
n1 NN 2
= d nT1 1 + d nT2 2 ,
o la deuxime galit dcoule des dfinitions notationnelles de kj de mme que i = n j p ij ,
Y j = iS y i i , X j = iS x i i , et la troisime de
j
d nj =
nN 2j
T
Y j + j X j , j ,1 ,
n j NN j
1 = [11 , 21 , 31 ] ,
T
2 = [ 21 , 22 , 32 ] .
T
En vertu de (A.2), 1 = O p (1) et 2 = O p (1) . En vertu de la condition (C2), d njT = a 2T j + o p (1) . Par
consquent, en vertu de (A.2), de la condition (C3) et de la mthode delta,
T
T
n (Yreg,2 Y ) N = a 21
1 + a 22
2 + o p (1) d N (0, 22 ) ,
o la variance asymptotique 22 =
n
N2
j =1
( y
j =1 iS j
2
i
2
j x i (Y j j X j ) N j ) ,
112
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
de
Cheng
et coll.
(2010).
La
preuve
que
( 2j 4xj ) .
(A.4)
(A.5)
o les vecteurs constants a kj (et x , y ) ont t dfinis dans la partie (d) du thorme 1. De mme,
(2.3)
y x =
est
2
j =1
vrifie,
j =
(en
vertu
de
la
partie (b)
(A.6)
du
thorme 1)
et
n (Yreg ,1 Yreg ,2 ) N
suivent la mme loi asymptotique, qui est normale comme nous lavons montr la partie (d) du
thorme 1. Enfin, la dfinition de Ydec implique que P (Ydec = Yreg,1 ou Yreg,2 ) = 1 , et (A.5) et (A.6)
impliquent que
T
T
n (Ydec Y ) N = a 21
1 + a 22
2 + o p (1) ,
(A.7)
Preuve de (b). Si 1 2 , alors (A.4) implique que P (Ydec = Yreg,2 ) 1, c.--d. que le test t pour
lgalit de j donne lieu au rejet avec certitude la limite. Alors (A.7) continue dtre vrifie, et la loi
asymptotique de Ydec demeure la mme que celle de Yreg,2 .
Preuve du thorme 3. Dans ce thorme, les hypothses (C2) (C4) sont remplaces par les hypothses
selon lesquelles les triplets iid ( y i , x i , z i ) satisfont les conditions de moments et le modle (2.7). Les
assertions dans (C2) (C4) restent alors vrifies lorsque la probabilit tend vers 1 quand n , N sont
grands, ce qui est tabli laide de la loi (forte) des grands nombres.
Outre les conclusions des thormes 1 et 2, il reste montrer que Yreg ,2 possde une plus petite
variance asymptotique que Yreg,1 . Soit = ( 1 , 2 ) et
F j ( ) = [ 1 , 2 , 1] D j [ 1 , 2 , 1] .
T
113
Selon la dfinition de 12 et 22 dans (2.2), il suffit de montrer que F j ( ) prend sa valeur minimale
= ( j , j ) . Nous allons maintenant prouver cela pour j = 1. La preuve pour j = 2 est similaire. Soit
m ii llment (i , i ) de D 1 . Puisque D 1 est symtrique et dfinie positive sous la condition (C3),
= 0.
m12 1 + m 22 2 = m 23
(A.8)
Par consquent, il suffit de montrer que = ( 1 , 1 ) . Puisque D 1 est dfinie positive, le systme
dquations (A.8) possde une solution unique. tant donn la dfinition de D 1 ,
2
1 1
1 p i 1 1 +
2
N 1 N
iU1 p i 1
1
iU 1
i1
N 1 i X 1 p i 1 1
pi1
1 1
N 1 ( 1 N 1 1 p i 1 + 1 x i 1 p i 1 X 1 ) ,
2
N 1 N
iU1 p i 1
1
= lim
et
1 1
y
N 1 i Y1 p i1
2
N1 N i U p
p i1
i1
1
1
m13 = lim
1
2
N1 N
1
= lim
N 1 ( 1 + 1 x i + i N 1 1 p i 1 1 p i 1 X 1 )
iU1 p i1
1 1
N 1 ( 1 N 1 1 p i 1 + 1 x i 1 p i 1 X 1 ) ,
2
N 1 N i U p
1
i1
= lim
Bibliographie
Bancroft, T., et Han, C.-P. (1977). Inference based on conditional specifications: A note and a
bibliography. International Statistical Review, 45, 117-127.
Cheng, Y., Corcoran, C., Barth, J. et Hogue, C. (2009). An estimation procedure for the new public
employment survey design. Washington, DC: American Statistical Association. Survey Research
Methods Section, American Statistical Association, 3032-3046.
114
Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision
Cheng, Y., Slud, E. et Hogue, C. (2010). Variance estimation for decision-based estimators with
application to the annual survey of public employment and payroll. Government Statistics Section of the
American Statistical Association. Vancouver: American Statistical Association.
Deville, J.-C., et Srndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the
American Statistical Association, 87, 376-382.
Fuller, W.A. (2009). Sampling Statistics. New York: John Wiley & Sons, Inc.
Isaki, C., et Fuller, W. (1982). Survey design under the regression superpopulation model. Journal of the
American Statistical Association, 77, 89-96.
Rao, J.N.K., et Ramachandran, V. (1974). Comparison of the separate and combined ratio estimators.
Sankhy, C, 36, 151-156.
Saleh, A.K. Md. (2006). Theory of Preliminary Test and Stein-type Estimation, with Applications.
Hoboken: Wiley-Interscience.
Srndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. New York:
Springer-Verlag.
Shao, J., et Tu, D. (1995) The Jackknife and Bootstrap. New York: Springer.
Slud, E.V. (2012). Moderate-sample behavior of adaptively pooled stratified regression estimators. U.S.
Census Bureau preprint.
115
Mthodes dchantillonnage; substitutions par les intervieweurs; erreurs non dues lobservation.
1 Introduction
Les biais dans les statistiques denqute sont dcrits par les modles derreur denqute totale (Groves,
Fowler, Couper, Lepkowski, Singer et Tourangeau 2004; Smith 2007). Lerreur denqute totale rsulte de
deux types derreurs, les erreurs dobservation et les erreurs non dues lobservation. Le prsent article
porte sur linfluence quexercent les facteurs associs aux erreurs non dues lobservation sur la
comparabilit transculturelle, cest--dire sur lchec des statistiques denqute reprsenter
adquatement la population cible. Ces types derreurs galement appels erreurs de reprsentation
rsultent de diffrences entre lchantillon net obtenu (nombre de participants lenqute, Haeder et Lynn
2007) et la population cible.
Des travaux de recherche antrieurs mens dans des contextes transculturels ont rvl des diffrences
de taux de rponse trs prononces entre les pays (Billiet, Phillipsen, Fitzgerald et Stoop 2007; Couper et
de Leeuw 2003; de Heer 1999; de Heer et Israis 1992; de Leeuw et de Heer 2002; Hox et de Leeuw 2002;
Johnson, ORourke, Burris et Owens 2002; Stoop 2005; Symons, Matsuo, Beullens et Billiet 2008), des
diffrences entre les procdures utilises sur le terrain (Billiet et coll. 2007; Kohler 2007; Kreuter et
Kohler 2009; Smith 2007; Stoop 2005; Symons et coll. 2008) et des diffrences entre les mthodes
dchantillonnage (Lynn, Haeder, Gabler et Laaksonen 2007). Ces dernires font rfrence aux procdures
de construction des bases de sondage et de slection des lments de lchantillon. Toutes les diffrences
numres peuvent nuire la comparabilit transculturelle. En particulier, cette dernire pourrait tre
rduite en raison de mthodes dchantillonnage diffrentes pour obtenir un chantillon probabiliste,
1. Natalja Menold, GESIS - Leibniz Institute for the Social Sciences, Survey Design et Methodology, P.O.Box 12 21 55, D-68072 Mannheim.
Courriel : natalja.menold@gesis.org.
116
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
puisque la standardisation des mthodes dchantillonnage est limite par la disponibilit locale des bases
de sondage, par leur qualit et leur convivialit, et par le budget denqute (Lynn et coll. 2007).
Lynn et coll. (2007) ont abord la question des effets de plan et des tailles dchantillon ncessaires
pour que les chantillons nets soient comparables dans le contexte de lESS. Ils se sont concentrs dans
leur tude sur la slection de lchantillon avant ltape du travail sur le terrain. Toutefois, la
comparabilit des chantillons pourrait galement tre influence par les intervieweurs durant leur travail
sur le terrain. La mesure dans laquelle les intervieweurs sont libres de remplacer les personnes
chantillonnes par des personnes qui ne le sont pas (personnes avec lesquelles il est facile de prendre
contact et qui sont coopratives) diffre selon la mthode dchantillonnage (Hoffmeyer-Zlotnik 2006;
Kohler 2007; Sodeur 2007). Il y a substitution sur le terrain lorsquune unit non rpondante est remplace
par une unit de substitution (rserve) durant ltape du travail sur le terrain du processus denqute
(Vehovar 1999, page 335). Les substitutions dont parle Vehovar sont des substitutions lgitimes qui sont
permises par le protocole. En revanche, le prsent article traite du problme des substitutions illgitimes
(appeles simplement substitutions dans la suite de lexpos) effectues sans permission. Selon
lAAPOR (2003), les substitutions dlibres faites par les intervieweurs constituent une sorte de
falsification.
Le but du prsent article est de dterminer si leffet des intervieweurs, que lon suppose tre associ
aux substitutions, varie selon la mthode dchantillonnage utilise pour obtenir les chantillons
probabilistes dans un contexte transculturel. En outre, on dterminera si le mode de rmunration, les
procdures de contrle, lorganisme de collecte des donnes (institution qui procde la collecte des
donnes sur le terrain) ou des facteurs temporels sont associs cet effet dintervieweur. Les rsultats
pourraient aider les responsables de lenqute dcider des mthodes dchantillonnage quil convient
dutiliser un facteur de cot trs important dans les enqutes et quand il convient de choisir des
mthodes favorisant la motivation de lintervieweur ne pas effectuer de substitutions. Les rsultats ont
aussi de limportance en ce qui concerne la recherche sur le comportement de lintervieweur, puisquils
donnent un indice des erreurs associes linfluence de lintervieweur sur la comparabilit transculturelle.
La section suivante (section 2) expose le contexte thorique et empirique de ltude prsente dans
larticle. Les hypothses sont dcrites la section 3. La section 4 renseigne sur la procdure et la mthode
utilises pour analyser linfluence de lintervieweur. Les rsultats sont prsents la section 5. Enfin, la
section 6 contient une discussion des rsultats et les conclusions.
117
Intervieweur
ENR
chantillon
Intervieweur
ERA
Personnes
Intervieweur
ERP
Erreur
dchantillonnage
Facilit de contact
Erreur due la
non-rponse
Coopration
Rpondants
Ajustement aprs
lenqute
Statistiques denqute
Figure 2.1 Tches de lintervieweur sous diffrentes mthodes dchantillonnage relies aux erreurs de
couverture et de non-rponse. Le chemin de la reprsentation est adapt de Groves et coll., 2004, page 48.
118
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
119
lev
Marche alatoire
Listage des adresses
et chantillonnage (LAE)
chantillons rgionaux/
chantillons non tirs
dun registre (ENR)
Faible
Figure 2.2 Degr de libert des intervieweurs concernant les substitutions dans diverses mthodes
dchantillonnage
Les carts dans les chantillons nets obtenus, qui sont associs aux carts par rapport aux rgles de
slection alatoire de lchantillon (p. ex., substitutions), peuvent tre analyss empiriquement au moyen
dune mthode labore par Sodeur (1997). Cette mthode consiste dfinir une sous-population
caractrise par un paramtre fixe et connu, puis observer les statistiques reprsentant ce paramtre dans
un sous-chantillon dfini de faon correspondante. Lerreur non due lobservation est dautant plus
forte que la statistique observe scarte du paramtre de population. Dans le prsent article, nous
considrons le ratio hommes-femmes des couples htrosexuels que lon sait tre un paramtre de
population valant 50/50. Dans les limites des fluctuations alatoires, tout chantillon tir de la population
de couples htrosexuels devrait produire une proportion dhommes denviron 50 %. Des carts
importants par rapport ce niveau de 50 % indiquent des carts par rapport aux normes de slection de
lchantillon, par exemple sous forme de substitutions (voir la section 4.2 pour des prcisions).
En utilisant cette mthode, Sodeur (2007) et Hoffmeyer-Zlotnik (2006) ont constat que les carts par
rapport au ratio hommes-femmes vrai de 50/50 variaient entre les diverses vagues de lEnqute sociale
gnrale allemande (ALLBUS), qui comprend aussi diffrentes mthodes dchantillonnage. Ces auteurs
ont constat que les hommes avec lesquels il est difficile dentrer en contact sont interviews moins
frquemment que les femmes (puisque les hommes sont les soutiens de famille des mnages avec enfants).
Outre la facilit de prise de contact, les diffrences de coopration entre les conjoints peuvent jouer un
rle (Hoffmeyer-Zlotnik 2006). Si les conjoints sont la retraite, la facilit de prendre contact avec lun et
lautre est la mme, mais ils diffrent sur le plan de la coopration. Lhomme la retraite, maintenant la
maison, se sent responsable de fournir lintervieweur linformation sur le mnage (puisquil en est le
chef ). La femme peut refuser de participer puisque le mari aime cooprer. Un intervieweur qui prend
contact avec ce genre de mnage pourrait interviewer les hommes plutt que les femmes afin dviter les
refus (Hoffmeyer-Zlotnik 2006).
Kohler (2007) a observ des carts plus importants par rapport au ratio hommes-femmes de 50/50
choisi comme paramtre dans les chantillons de type ENR que dans ceux obtenus par dautres mthodes
dchantillonnage dans six enqutes transculturelles (Eurobarometer 62.1, European Quality of Life
Survey EQLS03, ESS 2002, ESS 2004, European Value Study 1999, International Social Survey
120
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
Program, ISSP 2002). Malheureusement, leffet de la mthode dchantillonnage observ par Kohler
(2007) tait particulier lenqute. Les chantillons les plus mal conus chantillons rgionaux avec
ENR taient surtout utiliss dans une enqute (EQLS). Les diffrences observes par Kohler entre une
mthode de marche alatoire et dautres mthodes dchantillonnage pourraient tre attribuables des
diffrences entre lEQLS et les autres enqutes. Dautres chercheurs (Hoffmeyer-Zlotnik 2006; Souder
1997) ont tudi leffet des mthodes dchantillonnage sur leffet dintervieweur associ aux
substitutions en ne considrant quune seule enqute nationale allemande; les rsultats de cette tude ne
sont donc pas applicables au contexte transculturel. Par consquent, il est important de se pencher sur la
question de la relation entre les mthodes dchantillonnage et leffet dintervieweur associ aux
substitutions dans les enqutes transculturelles. Il importe aussi de prendre en considration dautres
facteurs explicatifs susceptibles daffecter les substitutions. Les substitutions faites par les intervieweurs
peuvent dpendre non seulement des mthodes dchantillonnage, mais aussi des procdures mises en
uvre sur le terrain qui ont un effet sur la motivation qua lintervieweur de produire des donnes
denqute exactes. Par consquent, les substitutions peuvent varier en fonction de lorganisme qui collecte
les donnes (Hoffmeyer-Zlotnik 2006; Sodeur 1997; 2007) ou des contrles utiliss durant une enqute
(Kohler 2007). Les contrles impliquent quun lment de lchantillon est recontact pour confirmer le
rsultat produit par un intervieweur. En plus des contrles, les modes de rmunration des intervieweurs
peuvent influer sur leur rendement. Si les intervieweurs sont rmunrs par interview acheve, ils
assument les risques de cots levs associs aux longues distances entre les adresses slectionnes, aux
nombreuses tentatives de prise de contact ou la longueur de linterview (Sodeur 2007). Par consquent,
un changement dorganisme de collecte des donnes, de procdures de contrle et de mode de
rmunration doit tre envisag lorsquon analyse leffet dintervieweur associ aux substitutions. Outre
ces facteurs, il est intressant de savoir comment ces effets dintervieweur varient au cours du temps. Par
exemple, la prise en considration du temps dans un contexte transculturel permet de dterminer plus
facilement si cet effet dintervieweur est propre un pays. Un effet dintervieweur propre un pays doit
tre stable dans le pays en question au cours de diffrentes vagues de lenqute, mme si la mthode
dchantillonnage a chang.
3 Hypothses de recherche
Si leffet de lintervieweur en termes de substitutions est oprationnalis en utilisant la mthode de
Sodeur, on sattend pouvoir lobserver dans les statistiques denqute sous forme dcarts par rapport au
ratio hommes-femmes de 50/50 dans des sous-chantillons de rpondants reprsentatifs des couples
htrosexuels. Cet effet dintervieweur devrait diffrer en fonction du degr variable de facilit de prendre
contact ou de coopration manifest par les conjoints. Ceux-ci diffrent sur le plan de la facilit de prendre
contact dans les mnages constitus dun couple ayant de jeunes enfants dans lequel lhomme est le
soutien de famille (Hoffmeyer-Zlotnik 2006; Sodeur 2007; Stoop 2004). Si les intervieweurs recourent
des substitutions, la proportion dhommes devrait tre significativement plus faible que la valeur vraie
(50 %) dans ces mnages, puisquil est plus difficile de prendre contact avec les hommes quavec les
femmes. Cette situation change si lon considre des couples dont les conjoints sont retraits. Ici, comme
la expos antrieurement Hoffmeyer-Zlotnik (2006), la facilit de prendre contact est de mme niveau
chez les deux conjoints, mais ceux-ci peuvent diffrer sur le plan de la coopration. Dans les sous-
121
4 Mthodes
4.1 Donnes
Afin disoler tout effet d la mthode dchantillonnage des autres effets propres lenqute, on peut
utiliser des donnes provenant dune enqute ralise dans plusieurs pays qui ont appliqu des mthodes
dchantillonnage diffrentes. Les donnes provenant de nombreuses vagues de lenqute devraient tre
disponibles afin de pouvoir tenir compte de leffet temporel. Par consquent, nous avons utilis les
donnes provenant des vagues 1 4 de lESS (European Social Survey Round 1-4 Data 2011). LESS a
122
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
t ralise dans 20 plus de 30 pays, qui diffrent en ce qui a trait aux mthodes dchantillonnage. En
outre, le programme de lESS impose des normes rigoureuses aux organismes denqute, comme un
chantillonnage alatoire strict et des procdures de prise de contact tendues, ou des procdures de
contrle sur le terrain (Koch, Blom, Stoop et Kappelhof 2009; Philippens et Billiet 2004). Lefficacit des
normes utilises pour lESS a t illustre par Kohler (2007), qui a montr que les carts par rapport au
ratio hommes-femmes de 50/50 taient moins nombreux pour la vague 1 de lESS que pour dautres
enqutes. De plus, les mthodes de collecte des donnes de lESS ont t amliores rgulirement (Koch
et coll., 2009). De surcrot, lESS fournit de la documentation dtaille sur les procdures
dchantillonnage, ainsi que sur la collecte des donnes (voir les ESS Documentation Reports), qui
permettent doprationnaliser les variables dintrt.
123
ce qui peut se manifester mme si les intervieweurs travaillent honntement. Dans la pratique, on a
constat que les femmes sont plus hsitantes participer que les hommes (Pickery et Loosveldt 2002;
Schnauber et Daschmann 2008; Stoop 2004; Williams et coll. 2007). Cela semble tre galement le cas
dans lESS, dans laquelle il sest avr que les femmes refusaient plus souvent de participer que les
hommes. Lanalyse des donnes des vagues 1 4 de lESS provenant des formulaires de prise de contact
effectue par lauteur montre que 30,3 % dhommes et 37,9 % de femmes ont refus de participer
lESS1 (dans certains pays, aucune donne concernant la variable de sexe na t fournie; par consquent,
la proportion de donnes manquantes tait de 32,4 %). Dans lESS2, 30,8 % dhommes et 37,9 % de
femmes ont refus de cooprer (31,3 % de donnes manquantes); dans lESS3, 33,8 % dhommes et
39,0 % de femmes ont refus de cooprer (27,2 % de donnes manquantes) et dans lESS4, 38,4 %
dhommes et 45,8 % de femmes ont refus de cooprer (avec une proportion de donnes manquantes
rduite 15,8 %). Par consquent, le fait que les hommes taient prsents dans un sous-chantillon de
donnes de lESS moins de 50 % du temps peut tre expliqu plausiblement par les substitutions, tandis
quune frquence des hommes suprieure 50 % peut tre explique par des diffrences lgard du
refus. Cependant, si le pourcentage dhommes variait selon la mthode dchantillonnage comme le
prvoit lhypothse H2 , il serait difficile dexpliquer un tel rsultat uniquement par les diffrences
lgard du refus, qui semblent tre une caractristique relativement stable.
4.3 Procdure
La section qui suit dcrit les procdures utilises pour tester les hypothses H1 H3. Le tirage des
sous-chantillons partir de lchantillon complet de lESS est dcrit pour commencer. Les carts d par
rapport au ratio hommes-femmes vrai de 50/50 dans un sous-chantillon reprsentent la variable
dpendante dans toutes les analyses subsquentes. Les valeurs de d sont compares entre diffrents types
de mnages pour tester lhypothse H1. Ensuite, loprationnalisation de la variable mthode
dchantillonnage (pour tester lhypothse H2) est dcrite. Enfin, lhypothse H3 est relie aux variables
de temps, de changement dorganisme de collecte des donnes, de mode de rmunration et procdures de
contrle des intervieweurs, dont loprationnalisation est dcrite la dernire section. Les hypothses H2
et H3 ont t testes en faisant appel lanalyse de covariance multivarie (MANCOVA) suivie
danalyses de covariance (ANCOVA) dans lesquelles la mthode dchantillonnage a t utilise comme
variable indpendante et la vague de lESS, le changement dorganisme de collecte des donnes, la prime
de rmunration et les contrles de lintervieweur ont servi de covariables.
124
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
Trois types de mnages ont t distingus dans le sous-chantillon slectionn : les couples avec
enfants de 0 6 ans ( 7ans; n 18 791), les couples avec enfants de 7 14 ans ( n 53 651) et les
couples dont les deux conjoints taient lge de la retraite (retraits, n 15 933). Afin de dterminer
lge de la retraite, on sest servi de lge lgal de la retraite en vigueur dans chaque pays (voir lannexe).
Les deux premiers groupes avec enfants ont t forms parce que lon supposait que les diffrences de
facilit de prise de contact entre les conjoints taient particulirement prononces dans ces mnages. Pour
le troisime groupe, on a suppos que les diffrences de facilit de prise de contact selon le sexe taient
relativement modestes, mais que les hommes et les femmes diffraient en ce qui concerne la coopration.
Le fait que les hommes sont les soutiens de famille dans les deux sous-chantillons contenant des
mnages avec enfants est corrobor par lanalyse effectue par lauteur en utilisant les donnes de lESS.
Lexamen des activits des rpondants au cours des sept jours qui ont prcd lenqute dans les mnages
avec enfants de moins de sept ans a montr que 58 % dhommes et 42 % de femmes avaient un emploi
rmunr. Pour ce qui est du conjoint du rpondant, 64 % dhommes et 36 % de femmes avaient un
emploi rmunr. Des rsultats comparables ont t obtenus pour les rpondants dans les mnages avec
enfants de 7 14 ans (pour les rpondants, 54 % dhommes et 46 % de femmes avaient un emploi
rmunr et pour les conjoints des rpondants, 60,5 % dhommes et 39,5 % de femmes taient dans cette
situation). Dans les mnages dont les conjoints taient retraits, 80,6 % des rpondants taient retraits,
11,5 % faisaient des travaux mnagers et 1,3 % taient atteints dune maladie ou dune incapacit de
longue dure. En ce qui concerne le conjoint du rpondant, 84,4 % taient retraits, 17 % faisaient des
travaux mnagers et 2,1 % taient atteints dune maladie ou dune incapacit de longue dure.
125
Tableau 4.1
Mthodes dchantillonnage dans les pays participant lEES (vagues 1 4)
chantillonnage partir dun
registre de personnes
Processus de slection
chantillonnage alatoire
systmatique
chantillonnage alatoire
systmatique
chantillonnage alatoire
systmatique
Rsultat
Communaut, municipalit
Circonscriptions lectorales,
circonscriptions de code postal
Rgions gographiques,
municipalits
2e degr :
Slection des mnages
Sans objet
Un mnage/logement
Processus de slection
Marche alatoire/LAE
chantillonnage alatoire simple
Rsultat
Mnage/adresse/logement
Base de sondage
1er degr :
Slection des UPE
3 degr :
Slection des personnes
Dfinition dune unit
Personne cible
Personne cible
Personne cible
Processus de slection
chantillonnage alatoire
simple ou systmatique
Rsultat
Personnes chantillonnes
Personnes chantillonnes
Tableau 4.2
Classification des pays participant lESS en fonction des mthodes dchantillonnage
Vague de
lESS
chantillonnage non
effectu partir dun
registre (ENR)
ESS 1
ESS 2
ESS 3
ESS 4
Note
La Roumanie nest pas incluse dans le fichier de donnes intgr de lESS; aucune information sur la mthode
dchantillonnage na t fournie par lItalie dans les rapports documentaires ESS2 ESS4. Les pays sont tiquets conformment
la norme ISO 3166-1, voir lannexe.
126
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
Le type de mthode dENR utilis par un pays a rarement t dcrit dans la documentation. Dans le cas
de lESS1, il est vident que la Grce est la seule avoir utilis la mthode LAE. Lutilisation dune
mthode LAE est dcrite pour la Rpublique tchque et la Slovaquie pour les dernires vagues. Pour
lESS4, lUkraine, la Russie et le Portugal dcrivent une procdure comparable la mthode LAE.
Cependant, dans ces pays, les intervieweurs (et non les bureaux) ont slectionn un nombre fixe dunits
partir des listes produites par dautres intervieweurs.
Variables explicatives
Linformation se rapportant une vague particulire de lESS a t utilise comme variable pour tenir
compte de leffet temporel. Les rapports documentaires ont fourni des renseignements sur les autres
variables explicatives, le changement dorganisme de collecte des donnes, ainsi que le mode de
rmunration et les procdures de contrle des intervieweurs. Les pays qui ont chang dorganisme de
collecte des donnes entre les vagues sont prsents en annexe. Pour ce qui est du mode de rmunration,
il sest avr que la principale mthode employe pour lESS tait la rmunration par interview acheve.
Un taux de rmunration horaire na t utilis que dans quelques pays qui ont galement utilis un ERP
(pour les ESS1 et 2 en Norvge et en Sude, ainsi que les ESS3 et 4 en Norvge et en Finlande). Par
consquent, les modes de rmunration variaient peu et il na pas t possible deffectuer une analyse des
donnes correspondantes. Toutefois, le paiement de primes variait selon le pays et selon la vague de
lenqute. Par consquent, cette information a t utilise pour produire une variable de contrle
dichotomique (paiement dune prime : oui/non).
Deux variables ont t utilises pour dcrire les procdures de contrle : le nombre dlments de
lchantillon admissibles slectionns pour les contrles divis par le nombre dlments de lchantillon
admissibles (ratio dlments slectionns), ainsi que le nombre de rsultats confirms divis par le
nombre dlments de lchantillon slectionns pour les contrles (ratio de rsultats confirms). La
premire variable dcrit le nombre de contrles dans un pays, tandis que la seconde dcrit lefficacit de
ces contrles. Le ratio dlments slectionns varie de 10 % pour lERP, 13 % pour lENR et
16 % pour lERA. Le ratio de rsultats confirms est un peu plus lev pour lENR ( M 75,21,
E.T . 24,81) que pour les deux autres mthodes dchantillonnage (ERP : M 61,89, E.T . 31,95;
ERA : M 66,49; E.T . 32,56).
5 Rsultats
5.1 Diffrences entre les types de mnages
Pour commencer, nous prsenterons les rsultats de la vrification de lhypothse H1. Selon cette
hypothse, les carts par rapport au ratio hommes-femmes de 50/50 varient en fonction du type de
mnage. La figure 5.1 montre les diffrences d entre le pourcentage rel dhommes et la valeur vraie
prvue de 50 % dans trois sous-chantillons. Un intervalle de confiance (IC) 95 % a t utilis pour tenir
compte des fluctuations alatoires. Comme la proportion prvue dhommes est p 0,5, la variance vaut,
127
IC 0, 5 1, 96
0, 25 2 .
La figure 5.1 montre que pour les deux sous-chantillons contenant des mnages avec enfants, les
valeurs significatives de d sont ngatives dans la majorit des cas, ce qui signifie que la proportion
dhommes dans ces sous-chantillons est infrieure 50 % (tel que prvu par H1). La plupart de ces
valeurs de d taient de lordre de 10 % ou plus. Des valeurs de d positives significatives (inattendues)
plus faibles (de lordre de 5 %) sont observes pour trois pays qui ont utilis lERP (Belgique et Norvge
pour lESS1, Finlande pour lESS2). Cependant, ces diffrences nont pas pu tre discernes dans dautres
vagues de lenqute.
Enfants 7 14 ans
Retraits
chantillon
ERP
ERA
ENR
Vague de lESS
Non significatif
Significatif
Figure 5.1 carts des pourcentages dhommes par rapport la valeur vraie de 50 % d pour diffrents
types de mnages des vagues ESS1 ESS4
Lexamen des rsultats pour les sous-chantillons de mnages dont les conjoints sont lge de la
retraite (retraits) permet de constater des valeurs de d significativement leves (de lordre de 10 % ou
plus) ayant le signe prvu (positif, ce qui signifie que les pourcentages dhommes sont suprieurs 50 %)
pour certains pays dans le cas de toutes les mthodes dchantillonnage (dans lESS1, pour la Norvge, la
Rpublique tchque et les Pays-Bas; dans lESS2, pour la Norvge, la Pologne et la France; dans lESS3,
pour Chypre et la Russie; dans lESS4, pour lAllemagne, la Hongrie, Chypre et le Royaume-Uni).
Curieusement, la proportion dhommes est nettement infrieure 50 % en Slovaquie dans lESS4 (de
lordre de 33 %) et pour le Portugal dans lESS2 (de lordre de 11 %). Ce rsultat peut tre expliqu par
128
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
des modles particuliers de rpartition des rles entre les conjoints. Ici, la femme semble reprsenter le
mnage, mme si lhomme est la maison.
En rsum, les carts significatifs par rapport la valeur vraie dans diffrents types de mnages taient
principalement en harmonie avec les attentes de lhypothse H1.
129
Tableau 5.1
Statistique descriptive M E .T . et rsultats des ANCOVA pour la comparaison de d entre les trois types
de mnages
Types de mnages
Enfants 7 14 ans
Retraits
n (pays)
2,21(1,37)
4,87 (2,74)
5,92 (3,55)
20,9***
3,34 (3,35)
4,94(3,83)
5,78(6,87)
1,93
43
31
21
4,49(2,67)
6,92(5,73)
4,78(3,04)
5,23(4,41)
0,00
4,08(2,94)
4,33(3,3)
4,02(3,18)
3,24(2,22)
1,18
4,75(3,22)
3,63(3,71)
3,74(3,44)
5,39(6,66)
0,02
22
24
23
26
5,83(4,37)
4,78(3,99)
0,57
4,41(3,10)
3,23(2,52)
3,21+
4,10(3,73)
4,81(5,49)
0,49
54
41
0,11
0,51
1,09
3,11+
0,11
0,00
0,22
0,31
0,01
Mthode dchantillonnage
(traitement)
ERP
ERA
ENR
F ddl1 2, ddl 2 88
3,28(2,07)
6,61(4,98)
7,85 (4,4)
14,52***
R
Notes * * * p 0, 001,
p 0,10.
Enfants < 7 ans
Enfants 7 14 ans
Retraits
30
25
20
15
10
5
0
ERP
ERA
ENR
ERP
ERA
ENR
ERP
ERA
ENR
Figure 5.2 Botes moustaches pour les valeurs absolues de d prsentes pour diffrentes mthodes
dchantillonnage dans les trois types de mnages
130
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
Tableau 5.2
Diffrences des moyennes de d E .T . entre les mthodes dchantillonnage dans les sous-chantillons avec
enfants
Enfants < 7 ans
Diffrences entre
ERP et ERA
-3,34 (0,89)**
ERP et ENR
-4,58 (1,0)**
ERA et ENR
-1,24 (1,07)
Note
* * p 0, 01. Tests post-hoc pour comparaison simple avec correction de Bonferroni.
Enfants 7 14 ans
-2,66 (0,58)**
-3,71 (0,65)**
-1,05 (0,7)
131
6 Rsum et conclusion
Les rsultats de la prsente tude indiquent que des carts significatifs par rapport au paramtre de
population (50 % dhommes) ont t observs dans de nombreux pays participant lESS et que ces carts
taient associs la facilit de prendre contact avec les conjoints ou la coopration de ces derniers dans
les couples htrosexuels (appui pour lhypothse H1). La grandeur de ces carts variait en fonction de la
mthode dchantillonnage lorsque les conjoints diffraient galement en ce qui concerne la facilit de
prendre contact avec eux (dans les sous-chantillons avec enfants). Donc, lhypothse H2 est partiellement
corrobore. Dans les sous-chantillons avec enfants, lERP tait la mthode dchantillonnage associe
aux donnes de la plus haute qualit puisque les carts quelle produisait par rapport au paramtre de
population taient les plus faibles. Cependant, les rsultats pour les sous-chantillons composs de
conjoints retraits montrent que des carts trs prononcs sont galement possibles sous ERP.
Les rsultats pour les sous-chantillons avec enfants appuient lexplication voulant que le
comportement des intervieweurs concernant les substitutions joue un rle, puisque les carts prvus par
rapport au paramtre de population variaient en fonction du degr de libert dont disposait lintervieweur
pour influer sur la ralisation de lchantillon. Des rsultats comparables ont t signals par Sodeur
(1997) et Kohler (2007). Il est moins plausible dexpliquer le fait que les hommes sont interviews moins
de 50 % du temps par une diffrence dattitude concernant le refus de participer puisque, lorsquil en est
ainsi, on sattend ce que la proportion dhommes soit suprieure 50 %. La diffrence dattitude
concernant le refus de participer ne devrait pas non plus varier selon la mthode dchantillonnage. Pour
les retraits, linterview dhommes plus de 50 % du temps a t observe dans plusieurs pays, mais dans
des vagues isoles de lenqute seulement. Cette faible stabilit des carts par rapport au ratio hommesfemmes de 50 % peut aussi tre associe leffet de lintervieweur plutt qu la diffrence dattitude
concernant le refus de participer, puisque cette dernire serait relativement stable dans un pays au cours de
la priode de rfrence de lanalyse. Cependant, puisque la prsente tude na pas t ralise selon un
plan dexprience, il est important de poursuivre ltude des effets de la diffrence dattitude lgard du
refus de participer et des substitutions afin de pouvoir mieux les diffrencier et dexaminer les relations
causales.
Mme si les carts par rapport au paramtre de population de 50 % variaient dans certains pays dune
vague lautre, dans lensemble, leur grandeur ne variait pas de manire significative au fil du temps,
malgr lamlioration des procdures de collecte de donnes de lESS (voir Koch et coll. 2009). De
surcrot, les carts par rapport au paramtre de population ne dpendaient pas de lorganisme charg de la
collecte des donnes ni du pays.
Les rsultats donnent aussi penser que le mode de rmunration et les procdures de contrle de
lintervieweur peuvent rduire les cas de substitution. Cependant, il convient de souligner que la
possibilit de prendre en compte le mode de rmunration et les procdures de contrle a t limite en
raison de la faible variation dans les donnes ou du peu dinformation disponible dans la documentation
de lenqute.
Il faut aussi tenir compte du fait que les rsultats prsents ici sont fonds sur des sous-chantillons
particuliers et ne peuvent pas tre gnraliss lchantillon complet de lESS. Cependant, labsence de
biais dans les sous-chantillons ne garantit pas labsence de biais dans lchantillon complet (Kohler 2007,
132
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
page 55). En outre, une analyse portant sur des groupes particuliers peut souvent prsenter un intrt
(p. ex., savoir quelles sont les opinions des parents avec enfants ou des personnes salaries).
Les rsultats de la prsente tude donnent penser que lERP est associ un chantillon de meilleure
qualit, de sorte que le biais de non-reprsentation dans les enqutes transculturelles est plus faible que si
lon utilise les autres mthodes dchantillonnage. La prsente tude fait ressortir ce fait plus clairement
que les tudes antrieures. Les analyses portant sur les donnes ALLBUS ralises par Sodeur (2007) et
par Hoffmeyer-Zlotnik (2006) comparaient plusieurs vagues dune seule enqute dans un seul pays
(Allemagne); dans lanalyse de Kohler (2007), leffet de la mthode dchantillonnage tait confondu avec
leffet de lenqute (voir la section 1). Ces situations ont t vites dans lanalyse prsente ici.
Pour conclure, des carts significatifs par rapport au paramtre de population, qui semblent tre
associs des substitutions effectues par les intervieweurs, ont t observs dans de nombreux pays
participant lESS. Afin de rduire cet effet dintervieweur, il est prfrable dutiliser des mthodes
dchantillonnage, telles que lERP, qui rduisent le degr de libert dont disposent les intervieweurs pour
slectionner les rpondants et influer sur la qualit de lchantillon. En outre, les procdures denqute qui
accroissent la motivation des intervieweurs produire des donnes denqute exactes sont trs pertinentes
et doivent tre prises en considration dans de futures tudes, ainsi que dans les pratiques denqute.
133
Annexe
Codes des pays participant lESS, changement de mthode dchantillonnage et dorganisme charg de la
collecte des donnes, et ge lgal de la retraite des hommes et des femmes dans chaque pays
Code de
pays :
ISO 3166-1
Pays
BE
BG
DE
DK
EE
ES
FI
HU
NO
PL
SE
SI
SK
CH
CZ
CY
GB
GR
IE
IL
IT
LU
NL
TR
AT
FR
PT
RU
UA
Belgique
Bulgarie
Allemagne
Danemark
Estonie
Espagne
Finlande
Hongrie
Norvge
Pologne
Sude
Slovnie
Slovaquie
Suisse
Rpublique tchque
Chypre
Royaume-Uni
Grce
Irlande
Isral
Italie
Luxembourg
Pays-Bas
Turquie
Autriche
France
Portugal
Fdration russe
Ukraine
Notes
Changement de mthode
dchantillonnage (entre les
vagues)
Changement
dorganisme de
collecte des donnes :
entre les vagues
1-2; 2-3
3-4
ERA-ENR (1-2)
2-3; 3-4
2-3
2-3
2-3; 3-4
ERA-ENR (1-2)
1-2
3-4
1-2; 3-4
ENR-ERA (2-4)
ge lgal de la
retraite
Hommes Femmes
3-4
65
63
65
65
63
65
65
62
67
65
65
63
62
65
65
65
65
65
65
67
65
65
65
47
65
60
65
60
60
65
60
65
65
60
65
65
62
67
60
65
60
59
64
62
65
60
60
65
64
60
65
65
44
60
60
65
55
55
1) http://www.oecd-ilibrary.org/finance-and-investment/pensions-at-a-glance-2011_pension_glance-2011-en
2) http://ec.europa.eu/employment_social/missoc/db/public/compareTables.do
3) Israel: http://www.btl.gov.il/
134
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
Bibliographie
AAPOR (2003). Interviewer Falsification in Survey Research: Current Best Methods for Prevention,
Detection and Repair of Its Effects. (http://www.aapor.org/pdfs/falsification.pdf; 14 mai 2009).
Arber, S. (2002). Design samples. Dans Researching Social Life, (d., N. Gilbert), Thousand Oaks: Sage,
58-84.
Billiet, J., Phillipsen, M., Fitzgerald, R. et Stoop, I. (2007). Estimation of nonresponse bias in the
European Social Survey: Using information from reluctant respondents. Journal of Official Statistics,
23, 135-162.
Couper, M.P., et Groves, R.M. (1992). Le rle de lintervieweur dans la participation aux enqutes.
Techniques denqute, 18, 2, 279-294.
Couper, M.P., et De Leeuw, E.D. (2003). Nonresponse in cross-cultural and crossnational surveys. Dans
Cross-Cultural Survey Methods, (ds., J.A. Harkness, F.J.R. van de Vijver et P.Ph. Mohler), New
York: John Wiley & Sons, Inc., 157-177.
De Heer, W. (1999). International response trends: Results of an international survey. Journal of Official
Statistics, 15, 129-142.
De Heer, W., et Israis, A.Z. (1992). Response Trends in Europe. Article present lAmerican Statistical
Association, aot 1992.
De Leeuw, E., et De Heer, W. (2002). Trends in household survey nonresponse: A longitudinal and
international comparison. Dans Survey Nonresponse, (ds., R.M. Groves, D.A. Dillman, J.L. Eltinge et
R.J.A. Little), New York: John Wiley & Sons, Inc., 41-54.
De Leeuw, E.D., et Hox, J. (1996). The effect of the interviewer on the decision to cooperate in a survey
of the elderly. Dans International Perspectives on Nonresponse, (d., S. Laaksonen). Helsinki:
Statistics Finland, 46-52.
Dohrenwend, B.S., et Dohrenwend, B.P. (1968). Sources of refusals in surveys. The Public Opinion
Quarterly, 32(1), 74-83.
Durrant, G.B., Groves, R.M., Staetsky, L. et Steele, F. (2010). Effects of interviewer attitudes and
behaviors on refusal in household surveys. Public Opinion Quarterly, 74, 1-36.
ESS1-ESS4 data from Contact forms. Bergen, European Social Survey Data Archive, Norwegian Social
Science Data Services. Extrait le 8 juin 2013 de: http://ess.nsd.uib.no/ess/round1/download.html.
European Social Survey Round 1-4 Data (2011). Data file edition ESS1-4e01.0_F1. Norwegian Social
Science Data Services, Norway Data Archive and distributor of ESS data.
European Social Survey (2011). ESS-4 2008 Documentation Report. Edition 4.0. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
European Social Survey (2011). ESS-3 2006 Documentation Report. Edition 3.3. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
135
European Social Survey (2011). ESS-2 2004 Documentation Report. Edition 3.3. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
European Social Survey (2011). ESS-1 2002 Documentation Report. Edition 6.2. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
Groves, R.M., Fowler, F.J., Couper, M.P., Lepkowski, J.M., Singer, E. et Tourangeau, R. (2004). Survey
Methodology. New Jersey: Wiley.
Haeder, S., et Lynn, P. (2007). How representative can a multi-nation survey be? In Measuring Attitudes
Cross-Nationally. Lessons from the European Social Survey, (ds., R. Jowell, C. Roberts, R. Fitzgerald
and E. Gillian), London et al.: Sage, 33-52.
Hoffmeyer-Zlotnik, J.H.P. (2006). Stichprobenziehung in der Umfragepraxis. Die unterschiedlichen
Ergebnisse von Zufallsstichproben in face-to-face Umfragen. Dans Stichprobenqualitt in
Bevlkerungsumfragen, (ds., F. Faulbaum and Ch. Wolf). Informationszentrum Sozialwissenschaften:
Bonn, 19-36.
Hox, J.J., et De Leeuw, E.D. (2002). The Influence of interviewers attitude and behavior on household
survey nonresponse: An international comparison. Dans Survey Nonresponse, (ds., R.M. Groves,
D.A. Dillman, J.L. Eltinge et R.J.A. Little), New York: John Wiley & Sons, Inc., 103-118.
Johnson, T.P., ORourke, D., Burris, J. et Owens, L. (2002). Culture and survey nonresponse. Dans Survey
Nonresponse, (Eds., R.M. Groves, D.A. Dillman, J.L. Eltinge et R.J.A. Little), New York: John Wiley
& Sons, Inc., 55-69.
Kish, L. (1965). Survey Sampling. New York: John Wiley & Sons, Inc.
Koch, A. (1995). Geflschte Interviews: Ergebnisse der Interviewerkontrolle beim ALLBUS 1994.
ZUMA-Nachrichten, 36, 89-105.
Koch, A., Blom, A.G., Stoop, I. et Kappelhof, J. (2009). Data collection quality assurance in crossnational surveys at the example of the ESS. Methoden Daten Analysen, 3, 219-247.
Kohler, U. (2007). Surveys from inside: An assessment of unit nonresponse bias with internal criteria.
Survey Research Methods, 1, 2, 55-67.
Kreuter, F., et Kohler, U. (2009). Analyzing contact sequences in call record data. Potential and
limitations of sequence indicators for nonresponse adjustments in the European Social Survey. Journal
of Official Statistics, 25, 203-226.
Lynn, P., Haeder, S., Gabler, S. et Laaksonen, S. (2007). Methods for achiving equivalence of samples in
cross-national surveys: The European Social Survey Experience. Journal of Official Statistics, 1, 107124.
Pickery, J., et Loosveldt, G. (2002). A multilevel multinomial analysis of interviewer effects on various
components of unit non response. Quality and Quantity, 36, 427-437.
136
Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS
Philippens, M., et Billiet, J. (2004). Monitoring and evaluating nonresponse issues and fieldwork efforts in
the European Social Survey. Article prsent lors de la European Conference on Quality and
Methodology in Official Statistics. Mainz, Allemagne.
Schnauber, A., et Daschmann, G. (2008). States oder traits? Was beeinflut die Teilnahmebereitschaft an
telefonischen Interviews? Zeitschrift Fr Empirische Sozialforschung, 2, 97-123.
Schnell, R., Hill, P.B. et Esser, E. (2011). Methoden der Empirischen Sozialforschung. Mnchen:
R. Oldenbourg Verlag.
Smith, T.W. (2007). Survey nonresponse procedures in cross-national perspective: The 2005 ISSP nonresponse survey. Survey Research Methods, 1, 45-54.
Sodeur, W. (1997). Interne kriterien zur Beurteilung von Wahrscheinlichkeitsauswahlen. ZA-Information,
41, 58-82.
Sodeur, W. (2007). Entscheidungsspielrume von Interviewern bei der Wahrscheinlichskeitsauswahl.
Methoden Daten Analysen, 1, 2, 107-130.
Stoop, I.A.L. (2004). Surveying nonrespondents. Field Methods, 16, 23-54.
Stoop, I.A.L. (2005). The Hunt for the Last Respondent. The Hague: Social and Cultural Planning Office.
Symons, K., Matsuo, H., Beullens, K. et Billiet, J. (2008). Response Based Quality Assessment in the ESS
Round 3: An Update for 19 countries. London: Centre for Comparative Social Surveys, City
University.
Vehovar, V. (1999). Field substitution and unit nonresponse. Journal of Oficial Statistics, 2, 335-350.
Williams, B., Irvine, L., McGinnis, A.R., McMurdo, M.E.T. et Crombie, I.K. (2007). When no might
not quite mean no; the importance of informed and meaningful non-consent: results from a survey of
individuals refusing participation in a health-related research project. BMC Health Services Research,
7, 59.
137
1 Introduction
De nombreux organismes ralisent des enqutes qui comprennent un grand nombre de variables
exclusivement catgoriques. Invitablement, ces enqutes souffrent de non-rponse partielle qui, non prise
en compte, peut rduire la prcision ou augmenter le biais (Little et Rubin 2002). Lune des approches
pour traiter la non-rponse partielle est limputation multiple (Rubin 1987), suivant laquelle lorganisme
procde un chantillonnage rpt partir de lois de probabilit prdictives pour remplacer les rponses
manquantes. Cela cre M > 1 ensembles de donnes complets qui peuvent tre analyss ou diffuss aux
membres du public. Si les modles dimputation satisfont certaines conditions (Rubin 1987, chapitre 4),
les analystes des M ensembles de donnes complets peuvent faire des infrences valides en utilisant des
mthodes et des logiciels statistiques pour donnes compltes. Pour une revue de limputation multiple,
voir Rubin (1996), Barnard et Meng (1999), Reiter et Raghunathan (2007), et Harel et Zhou (2007).
Limputation multiple peut gnralement tre mise en uvre selon deux stratgies. La premire
consiste postuler un modle conjoint pour toutes les variables et estimer ce modle en utilisant des
techniques baysiennes, qui incluent habituellement une augmentation des donnes et un chantillonnage
Monte Carlo par chane de Markov (MCMC). Les modles conjoints habituels comprennent les modles
normaux multivaris pour les donnes continues et les modles log-linaires pour les donnes
catgoriques (Schafer 1997). La deuxime stratgie consiste adopter des approches bases sur des
quations chanes (Van Buuren et Oudshoorn 1999; Raghunathan, Lepkowski, van Hoewyk et
Solenberger 2001; White, Royston et Wood 2011). Lanalyste estime une srie de modles conditionnels
univaris et impute les valeurs manquantes squentiellement en se servant de ces modles. Les modles
conditionnels types comprennent les rgressions normales pour variables dpendantes continues et les
rgressions logistiques ou multinomiales logistiques pour les variables dpendantes catgoriques.
1. Daniel Manrique-Vallier est professeur adjoint au Dpartement de Statistique, Indiana University, Bloomington, IN 47408. Courriel :
dmanriqu@indiana.edu; Jerome P. Reiter est professeur Mrs. Alexander Hehmeyer of Statistical Science, Duke University, Durham, NC
27708-0251. Courriel : jerry@stat.duke.edu.
138
Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels
Comme lont mentionn Vermunt, Ginkel, der Ark et Sijtsma (2008) ainsi que Si et Reiter (2013), les
stratgies axes sur des quations chanes conviennent mal pour les ensembles de donnes catgoriques
prsentant des dpendances complexes. Pour toute rgression logistique (multinomiale) conditionnelle, le
nombre de modles possibles est norme si lon tient compte des effets dinteraction potentiels. Spcifier
minutieusement chaque modle conditionnel demande beaucoup de temps sans que lon soit certain
dobtenir un ensemble de modles cohrents sur le plan thorique. En effet, de nombreux praticiens des
quations chanes utilisent pour cette raison des paramtres par dfaut qui nincluent que les effets
principaux dans les modles conditionnels. En excluant les interactions, les analystes risquent de produire
des ensembles de donnes complets qui fournissent des estimations biaises. Il convient de souligner que
les mmes difficults de slection des modles frappent les approches fondes sur des modles
log-linaires.
Pour viter ces problmes, Si et Reiter (2013) proposent une approche conjointe, entirement
baysienne, de modlisation de limputation multiple base sur des modles classes latentes pour les
donnes catgoriques de haute dimensionnalit. Lide est de modliser le tableau de contingence
implicite des variables catgoriques comme un mlange de lois multinomiales indpendantes, en estimant
le mlange de lois non paramtriquement au moyen de lois a priori issues du processus de Dirichlet. Les
mlanges de lois multinomiales peuvent dcrire des dpendances arbitrairement complexes et les calculs
sont commodes et rapides, de sorte quils constituent des outils dimputation multiple dusage gnral
efficace. Par exemple, Si et Reiter (2013) ont appliqu leurs modles pour imputer les valeurs manquantes
pour 80 variables catgoriques de la Trends in International Mathematics and Science Study.
Dans leur approche, Si et Reiter (2013) ne traitent pas la complication importante et rpandue dans les
donnes denqute due au fait que certaines combinaisons de variables pourraient tre impossibles
a priori. On donne ces cas le nom de zros structurels (Bishop, Fienberg et Holland 1975). Par exemple,
aux tats-Unis, il est impossible que des enfants de moins de 15 ans se marient. Des zros structurels
peuvent aussi rsulter des enchanements de questions dans les enqutes. Les algorithmes dimputation de
Si et Reiter (2013), sils sont appliqus directement, permettent dobtenir une probabilit non nulle pour
les zros structurels, ce qui son tour biaise les estimations des probabilits pour les combinaisons
possibles.
Dans le prsent article, nous prsentons le problme de modlisation conjointe entirement baysienne
pour limputation multiple de grands ensembles de donnes catgoriques contenant des zros structurels.
Notre approche combine le modle dimputation classes latentes de Si et Reiter (2013) et la mthode de
traitement des zros structurels labore par Manrique-Vallier et Reiter ( paratre en 2014). Au moyen de
simulations, nous montrons que lapproche produit des ensembles de donnes multi-imputs qui ne violent
pas les contraintes des zros structurels et peuvent avoir des proprits dchantillonnage rpt bien cal.
139
, L j , de sorte que x i
1,
J
j =1
, L j.
Notons que
inclut toutes les combinaisons des J variables, y compris les zros structurels, et que
chaque combinaison x peut tre considre comme une cellule dans le tableau de contingence form par
. Soit x i = x iobs , x imanq , o x iobs inclut les variables dont les valeurs sont observes et x imanq inclut les
variables dont les valeurs manquent. Enfin, soit S = s1 , , sC , o s c
lensemble de cellules contenant un zro structurel, c.--d. Pr x i S = 0.
et c = 1,
,C < S ,
MCL
x , =
Lj
l =1
k =1
j =1
k jk x j ,
jk l = 1. Ici, = 1 ,
(2.1)
, K avec
K
k =1
k = 1.
indp
Discrte1: L j jz 1 ,
i
zi
iid
, jz L j pour tout i et j
i
Discrte1: K 1 ,
, K pour tout i.
(2.2)
(2.3)
(2.4)
k = Vk 1 Vh
(2.5)
indp
Dirichlet 1 L
h<k
Vk
iid
Beta 1, pour k = 1,
, K 1; V K = 1
Gamma 0, 25; 0, 25
(2.6)
(2.7)
Dans (2.4), les lois a priori sont quivalentes des lois uniformes sur le support des J K probabilits
multinomiales conditionnelles et reprsentent donc de vagues connaissances a priori. La loi a priori pour
140
Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels
dans (2.5) (2.7) est un exemple de loi a priori stick-breaking de dimension finie (Sethuraman 1994;
Ishwaran et James 2001). Comme il est discut dans Dunson et Xing (2009) et Si et Reiter (2013), elle
attribue habituellement
moins de K classes, ce qui rduit les calculs et vite le surajustement. Pour
une discussion et une justification plus approfondies de ce modle en tant quoutil dimputation, voir Si et
Reiter (2013).
MCLT
k =1
j =1
x , , S 1x S k jk x j .
(2.8)
141
, n,
lalgorithme de Manrique-Vallier et Reiter ( paratre en 2014) chantillonne les paramtres comme il suit.
1.
i = 1,
Pour
, n,
z i1
chantillonner
Discrte1: K p1 ,
, pk ,
avec
p k k j =1 jk xij1 .
J
2.
jkl = 1
3.
, J et k = 1,
Pour j = 1,
Pour
k =
1x
n
i =1
k = 1,
1z
n
i =1
= l , z i1 = k
,K 1
= k
1
i
pour tout k = 1,
1x
n0
i =1
0
ij
n0
i =1
0
i
Vk
Beta 1 k , a
5.
chantillonner n1 ,
et poser que n0 =
, nC
C
c =1
K
h = k 1
, C , calculer c = Pr x c | , =
Pour c = 1,
, jkL , avec
Dirichlet jk 1 ,
= l , z i0 = k .
chantillonner
1z
, K.
4.
6.
1
ij
, K , chantillonner jk
NM n, 1 ,
k =1 k
cj *
jk cj .
nc .
, C.
, p K , o p k k j :
cj *
jk cj .
chantillonner z 0
ii. pour j = 1,
0
j
Discrte p1 ,
, pk ,
, J , chantillonner
Discrte
1: L j jz 0 1 ,
jc
0
jz
L j
si cj = *
si cj *
chantillonner
Gamma a 1 K , b log K .
142
Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels
Aprs avoir chantillonn les paramtres, nous devons effectuer un tirage de x manq . Pour i = 1, , n,
soit m i = mi1 , , miJ un vecteur tel que mij = 1 si la composante j dans x i est manquante et
mij = 0 autrement. En supposant que les donnes manquent au hasard, nous ne devons chantillonner que
les composantes de chaque x i pour lesquelles mij = 1, conditionnellement aux composantes pour
lesquelles mij = 0. Donc, nous ajoutons une huitime tape lalgorithme.
8.
Pour i = 1,
1x i
j : mij =1
jz xij .
i
(2.9)
En labsence de zros structurels, les x ij quil faut imputer sont conditionnellement indpendants
sachant z i , ce qui transforme la tche dimputation en un exercice dchantillonnage multinomial
ordinaire (Si et Reiter 2013). Cependant, les zros structurels que contient S induisent une dpendance
entre les composantes. Donc, nous ne pouvons pas simplement chantillonner les composantes
indpendamment les unes des autres. Une approche nave consiste utiliser un scnario dacceptationrejet en effectuant un chantillonnage rpt partir de la loi propose p x manq* = j :m =1 jz xij
i
ij
Nous proposons plutt de former des tapes dchantillonnage de Gibbs supplmentaires, en calculant
les lois conditionnelles de toutes les composantes manquantes afin de pouvoir les chantillonner
individuellement. Soit Rep x i , j , l le vecteur qui rsulte du remplacement de la composante j dans x i
par une valeur arbitraire l 1, 2,
Discrte 1: L
p ,
1
, p L , o
j
p l jz l 1Rep x i , j , l S .
i
La dfinition de p l implique de tronquer le support de la loi conditionnelle complte de x ij ,
cest--dire 1,
, L j , de manire ne garder que les valeurs qui vitent x i S , sachant les valeurs
Pour obtenir M ensembles de donnes complets utiliser pour limputation multiple, les analystes
slectionnent M des x manq chantillonns aprs convergence de lchantillonneur de Gibbs. Ces
ensembles de donnes doivent tre suffisamment espacs pour tre approximativement indpendants
(sachant x obs ). Cela requiert de rduire les chantillons MCMC de manire que les autocorrlations entre
les paramtres soient proches de zro.
143
0,75
0,80
0,85
0,90
0,95
Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels
144
0,92
0,93
0,94
0,95
0,96
0,97
Figure 3.1 Comparaison des taux de couverture empiriques (sur 500 essais) des intervalles de confiance pour
les estimations des probabilits marginales trois dimensions calcules partir des chantillons
complets et partir des ensembles de donnes traits par imputation multiple. Les droites en trait
interrompu indiquent le niveau de couverture nominal. Un bruit alatoire Unif (-0,004, 0,004) est
ajout par souci de clart.
Pour chaque quantit estimer, nous calculons aussi la fraction dinformation manquante (FMI, Rubin
1987, page 77) moyenne estime sur les 500 essais. Ces donnes sont prsentes la figure 3.3. La plupart
des FMI moyennes sont proches du taux de rponses manquantes de 30 % que nous avons impos sur
chaque variable dans le plan de simulation. Cependant, bon nombre de FMI moyennes sont
significativement infrieures 30 %, y compris quatre qui sont exactement gales zro. Les quantits
estimer ayant une FMI moyenne significativement infrieure 0,30 correspondent aux entres des
tableaux des probabilits marginales trois dimensions o les zros structurels restreignent svrement les
imputations possibles. En fait, les zros structurels rduisent la perte dinformation due aux donnes
manquantes. Par exemple, les quatre quantits estimer avec une FMI moyenne = 0 correspondent des
combinaisons de variables pour lesquelles les restrictions ne laissent quun seul schma dimputation
possible. Donc, aucune information nest perdue mme si les valeurs des donnes manquent
effectivement. En incorporant les zros structurels, nous imputons automatiquement les cas de ce type de
manire approprie et nous pouvons tirer parti de linformation fournie par les contraintes lies aux zros
structurels.
145
0,4
0,3
0,2
0,1
0,1
0,2
0,3
0,4
0,90
0,80
Figure 3.2 Estimations moyennes (sur 500 essais) des probabilits marginales trois dimensions partir des
ensembles de donnes avec imputation multiple en fonction de celles calcules partir des
chantillons complets. Les points marqus dune croix sont les estimations pour lesquelles la
couverture empirique des intervalles de confiance 95 % fonds sur limputation multiple est
infrieure 85 %.
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
Figure 3.3 Taux de couverture empiriques (sur 500 essais) des intervalles de confiance pour 279 estimations
des probabilits marginales trois dimensions calcules partir des ensembles de donnes traits
par imputation multiple en fonction de la fraction dinformation manquante moyenne estime
(sur les 500 essais) correspondante.
146
Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels
4 Conclusion
Les contraintes lies aux zros structurels, comme les combinaisons impossibles et les enchanements
de questions, sont une caractristique importante de nombreuses enqutes. Elles jouent aussi un rle cl
dans limputation. Ne pas tenir compte des zros structurels lors de lestimation des modles peut donner
lieu des biais importants lorsquon estime des quantits qui dpendent des probabilits conjointes ou
conditionnelles. Cela se traduit par la gnration de valeurs imputes qui ne refltent pas exactement la
structure de dpendance des donnes et qui peuvent subsquemment mener des infrences biaises en
prsence dimputation multiple. En outre, les zros structurels jouent souvent le rle de rgles de
cohrence. Ne pas appliquer ces rgles dans limputation pourrait donner des ensembles de donnes
complets contenant des rponses incohrentes comme des enfants veufs ou des locataires payant des
impts fonciers que de nombreux organismes hsiteraient diffuser et que de nombreux utilisateurs
trouveraient difficiles analyser. Fonde sur des modles baysiens tronqus classes latentes, lapproche
propose ici offre aux spcialistes des sondages un moyen dviter ce genre de problmes en utilisant des
imputations multiples partir de modles cohrents sur le plan thorique et commodes sur le plan des
calculs qui peuvent saisir des dpendances complexes et, simultanment, rduire les difficults et les
conjectures de spcification des modles qui caractrisent souvent les approches classiques dimputation
multiple appliques aux donnes catgoriques. Le code informatique en C++ et en R pour la mise en
uvre des algorithmes dcrits dans le prsent article peut tre obtenu directement auprs des auteurs.
Remerciements
Cette tude a t finance par une subvention de la Fondation nationale des sciences (SES 11-31897).
Bibliographie
Barnard, J. et Meng, X. (1999). Applications of multiple imputation in medical studies: From AIDS to
NHANES. Statistical Methods in Medical Research, 8, 17-36.
Basu, S. et Ebrahimi, N. (2001). Bayesian capture-recapture methods for error detection and estimation of
population size: Heterogeneity and dependence. Biometrika, 88, 269-279.
Bishop, Y., Fienberg, S. et Holland, P. (1975). Discrete Multivariate Analysis: Theory and Practice.
Cambridge, MA: MIT Press, rimprim en 2007, New York: Springer-Verlag.
Dunson, D. et Xing, C. (2009). Nonparametric Bayes modeling of multivariate categorical data. Journal of
the American Statistical Association, 104, 1042-1051.
Harel, O. et Zhou, X.H. (2007). Multiple imputation: review of theory, implementation and software.
Statistics in Medicine, 26, 3057-3077.
Ishwaran, H. et James, L.F. (2001). Gibbs sampling for stick-breaking priors. Journal of the American
Statistical Association, 96, 161-173.
147
Little, R.J.A. et Rubin, D.B. (2002). Statistical Analysis with Missing Data. New York: John Wiley &
Sons, Inc.
Manrique-Vallier, D. et Reiter, J.P. ( paratre en 2014). Bayesian estimation of discrete multivariate
truncated latent structure models. Journal of Computational and Graphical Statistics.
Meng, X.L. et Zaslavsky, A.M. (2002). Single observation unbiased priors. The Annals of Statistics, 30,
1345-1375.
OMalley, A.J. et Zaslavsky, A.M. (2008). Domain-level covariance analysis for multilevel survey data
with structured nonresponse. Journal of the American Statistical Association, 103, 1405-1418.
Raghunathan, T.E., Lepkowski, J.M., van Hoewyk, J. et Solenberger, P. (2001). Une technique
multidimensionelle d'imputation multiple des valeurs manquantes l'aide d'une squence de modles de
rgression. Techniques denqute, 27, 1, 91-103.
Reiter, J.P. et Raghunathan, T.E. (2007). The multiple adaptations of multiple imputation. Journal of the
American Statistical Association, 102, 1462-1471.
Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons, Inc.
Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association,
91, 473-489.
Ruggles, S., Alexander, T., Genadek, K., Goeken, R., Schroeder, M.B. et Sobek, M. (2010). Integrated
Public Use Microdata Series: Version 5.0 [Machine-readable database]. University of Minnesota,
Minneapolis. http://usa.ipums.org.
Schafer, J.L. (1997). Analysis of Incomplete Multivariate Data. London: Chapman & Hall.
Sethuraman, J. (1994). A constructive definition of Dirichlet priors. Statistica Sinica, 4, 639-650.
Si, Y. et Reiter, J.P. (2013). Nonparametric Bayesian multiple imputation for incomplete categorical
variables in large-scale assessment surveys. Journal of Educational and Behavioral Statistics,
paratre.
Suppes, P. et Zanotti, M. (1981). When are probabilistic explanations possible? Synthese, 48, 191-199.
Van Buuren, S. et Oudshoorn, C. (1999). Flexible multivariate imputation by MICE. Rapport technique,
Leiden: TNO Preventie en Gezondheid, TNO/VGZ/PG 99.054.
Vermunt, J.K., Ginkel, J.R.V., der Ark, L.A.V. et Sijtsma, K. (2008). Multiple imputation of incomplete
categorical data using latent class analysis. Sociological Methodology, 38, 369-397.
White, I.R., Royston, P. et Wood, A.M. (2011). Multiple imputation using chained equations: Issues and
guidance for practice. Statistics in Medicine, 30, 377-399.