Beruflich Dokumente
Kultur Dokumente
AMPLIADA
Diciembre de 2008
Índice general
1. Introducción 4
2. Marco teórico 8
2.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.8. Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.9. Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1
ÍNDICE GENERAL 2
4. Conclusiones 46
A. Apéndice 48
Agradecimientos
A mi compañero de vida, y a mi hija Magdalena por su comprensión
tribución a mi formación.
R
Capítulo 1
Introducción
partir de muestras afectan a casi todos los campos de estudio cientíco, in-
tos resultantes. Una de las principales exigencias de una buena encuesta por
error.
4
CAPÍTULO 1. INTRODUCCIÓN 5
tanto que las técnicas modernas utilizan diseños complejos con estimadores
doble toma de muestras, marcos múltiples, así como ajustes por no respues-
de interés, esto puede ser contrastado con la teoría básica sobre muestreo que
sidera de interés. La dimensión cuatro toma la idea de que mientras que las
nes acerca de la precisión de los estimadores deben tener gran peso sobre la
trativas como los costos, el plazo, etc., también deben contemplarse. En estas
circunstancias puede ocurrir que los métodos de estimación que son renta-
te, lo que signica que hay muchas variables y estadísticos de interés, cada
son escasos, y se podrá usar uno o como mucho dos, métodos de estimación
de la varianza.
la siguiente forma:
q
θb ± z α2 · Vb (θ)
b
presentarán conclusiones.
Capítulo 2
Marco teórico
2.1. Notación
Una población nita es un conjunto nito de elementos que se denota
todas las muestras posibles S y todo s∈S tiene asociada una probabilidad
k y l ∈ U , πkl , es
πkl = P (k y l ∈ S)
La variable que interesa medir, y, asume un valor para cada uno de los
yk
y̌k =
πk
∆kl = Cov(Ik , Il ) = πkl − πk πl
8
CAPÍTULO 2. MARCO TEÓRICO 9
ˇ kl = ∆kl ,
∆
πkl
Siendo Ik e Il variables indicatrices que valen 1 si el elemento k o l pertenecen
a la muestra respectivamente.
El llamado estimador π, b
tπ de un total poblacional fue introducido por
X
ty = yk
U
se usa
X yk X
tπ =
b = y̌k ,
s
π k s
probabilidad de inclusión).
XX
V (b
tπ ) = ∆kl y̌k y̌l ,
U
XX
Vb (b
tπ ) = ˇ kl y̌k y̌l .
∆
s
un diseño p(s).
CAPÍTULO 2. MARCO TEÓRICO 10
s1 , s2 , . . . , sa , . . . , sA .
Sea
A
1 Xb
θb∗ = θa
A a=1
el promedio de los A estimadores alternativos de θ.
Para estimar V (θb∗ ) se proponen:
A
1 X
Vb1 = (θba − θb∗ )2
A(A − 1) a=1
y
A
1 X
b2
Vb2 = (θba − θ)
A(A − 1) a=1
Como
A
X A
X
∗ 2 b 2 + A((θb∗ − θ)
b 2,
(θa − θ ) =
b b (θba − θ)
a=1 a=1
resultado:
A A A
1 XX 1 X
E(Vb1 ) = V (θb∗ )− cov(θ
ba , θbb )+ [E(θba )−E(θb∗ )]2
A(A − 1) a=1 b=1 A(A − 1) a=1
CAPÍTULO 2. MARCO TEÓRICO 11
En el caso de que, θb1 , θb2 , . . . , θbA estén correlacionados, Vb1 y Vb2 estiman
1 X yk
Vb0 = tπ )2
( −b
n(n − 1) s pk
con: pk = πnk ∀ k ∈ s.
Vb0 tiene la forma del estimador de la varianza que se aplica para el esti-
mador pwr del diseño muestreo aleatorio simple con remplazo y probabilidad
proporcional al tamaño. Ver Särndal et al. páginas 97 y 98 [Särndal et al., 1992].
grandes de tal forma que considerar un muestreo sin remplazo sea similar
factor que tendrá incidencia en que Vb0 sea un buen estimador es la fracción
de muestreo, en la medida que esta sea pequeña, Vb0 será un buen estimador.
ty y
R= = U.
tz zU
CAPÍTULO 2. MARCO TEÓRICO 12
b = tyπ = y s
b
R
tzπ
b zs
se la varianza aproximada de R
b, AV (R)
b y un estimador aproximadamente
b0 ) = 1 Ek El
XX
AV (R)
b = V (R
2
∆kl
tz U
πk πl
y
b = 1 ˇ kl ek el ,
XX
Vb (R) ∆
t2z s
π k πl
R
b= b0 = R + 1 (b
˙R ty − Rb
tzπ ),
tz π
luego:
b = 1 [V (b
AV (R) tyπ ) + R2 V (b
tzπ ) − 2 ∗ R ∗ cov(b
tyπ , b
tzπ )]
t2z
b = 1 [Vb (b
Vb (R) b2 Vb (b
tyπ ) + R t zπ ) − 2 ∗ R
b ∗ cov
c (btyπ , b
tzπ )]
2
tz
b
CAPÍTULO 2. MARCO TEÓRICO 13
S 2
V (btπ ) = N 2 (1 − f ) nyU
S2
tπ ) = N 2 (1 − f ) nys
Vb (b
S2
Vb0 = N 2 ys n
estimador pwr)
1 X yk
Vb0 = tπ )2
( −b
n(n − 1) s pk
H
X 1 X yk
Vb0 = tπh )2
( −b
h=1
nh (nh − 1) sh pk
πk
siendo pk = nh
Si se aplica muestreo aleatorio simple, en cada estrato, la forma de Vb0
será:
H
X 2
Nh2 Sysh
Vb0 =
h=1
nh
X b ti
tπ =
b
sI
πIi
P
donde ti =
b si yˇk y πIi es la probabilidad de la PSU i-ésima de ser seleccio-
El estimador simplicado de V (b
tπ ), es:
1 X b ti
Vb0 = ( −bt)2
nI (nI − 1) s pi
πIi
con: pi = nI
Un resultado similar al descripto anteriormente,
nI
E(Vb0 ) − V = (V0 − V )
nI − 1
CAPÍTULO 2. MARCO TEÓRICO 15
con
XX
VP SU = ∆Iij tˇi tˇj
UI
donde tˇi = ti
πIi
y
X Vi
VSSU = ,
U
πIi
I
donde
1 XX
Vi = − ∆kl/i (y̌k/i − y̌l/i )2
2 Ui
con
1 XX
ˇ kl/i (y̌k/i − y̌l/i )2
Vbi = − ∆
2 si
especialmente sabiendo que una estimación de la varianza Vbi debe ser calcu-
razón por la cual la única información adicional necesaria para este estimador
X
E(Vb ∗ ) = V2st (b
tπ ) − Vi ,
UI
X
B(Vb ∗ ) = − Vi ,
UI
como consecuencia.
1. θ(s)
b estimador de θ basado en s
θ(s)
b .
Por la forma de sacar las muestras, E(θba ) son todas iguales y los θba ,θbb
son incorrelacionados, para lo que Vb1 es insesgada para V (θ∗)
b
Estimadores aplicados:
A
1 Xb
θbIRG = θa
A a=1
A
1 X
VbIRG1 = (θba − θbIRG )2
A(A − 1) a=1
1 X
b2
VbIRG2 = A(θba − θ)
A(A − 1) a=1
Algunos problemas que se asocian a la técnica de IRG son:
dientes puede resultar más costosa y engorrosa que diseñar una gran
de procesamiento.
ellos.
Metodología:
grupos por un mecanismo aleatorio de modo que cada grupo tiene el mismo
tras que se toman de S sin reposición y de forma que cada Sa sigue un diseño
VbDRG1 = VbDRG2
CAPÍTULO 2. MARCO TEÓRICO 19
2.8. Jackknife
La palabra Jackknife alude a las navajas de uso múltiple empleadas para
con dicho simil semántico, su opinión sobre la utilidad del método como
básica fue concebida por Quenouille (1949) para tratar de disminuir el sesgo
dores de Jackknife no sólo reduce el sesgo, sino que puede incluso reducir la
varianza.
Promedio de pseudovalores:
A
1 Xb
θbjk = θa ,
A a=1
CAPÍTULO 2. MARCO TEÓRICO 20
A
1 X 2
Vd
jk1 = (θba − θc
jk )
A(A − 1) a=1
A
1 X
b2
Vd
jk2 = (θba − θ)
A(A − 1) a=1
2.9. Bootstrap
Efron y Tibshirani [Efron, 1993], ambos de la universidad de Stanford,
escriben que la palabra bootstrap proviene del relato alemán Aventuras del
lago, logro salir del mismo impulsándose tirando de los cordones de sus botas
Fue Efron en el año 1979 quien creó la técnica que venía a mejorar el
3.
A
1 X b
VbBS (θ)
b = (θa − θb∗ )2
A − 1 a=1
con
A
1Xb
θb∗ = θa
A a=1
.
Ejemplo:
θ = ty
θb = b
tΠ
πk
En i se toman muestraspps de U ∗ de tamaño n y pk = n
N ∗ = U ∗ 1 = s 1 π1k = N
P P
Entonces: b
X X yk
tU ∗ = yi∗ = = tbπ
U∗ s
Πk
X X πk 1 1X
pk = = =1
U∗ s
n πk n s
Pn ∗
j=1 yij (a)
ta = θa =
b b
p∗ij (a)
para a = 1, 2, . . . , A
El indice i indica que se está en U∗ y j indica que salió en la j-ésima
extracción.
A
1 X b b∗ 2
VbBt (b
t) = (ta − t )
A − 1 a=1
con:
A
1 Xb
t∗ =
b ta
A a=1
(n − 1) b
E(VbBs ) = E(V0 )
n
Capítulo 3
Técnicas de Estimación de la
Varianza aplicadas al Censo y a la
ENHA
realizó el INE, cuya población objetivo son los residentes en viviendas parti-
El marco está basado en los listados por zona censal del Censo 2004 (CF1,
El contar con los datos del censo fase uno permite acceder al marco mues-
la ENHA, a partir de la utilización de los datos del censo fase uno corres-
sino que además permitirá contrastar con los valores poblacionales de los pa-
22
CAPÍTULO 3. EJEMPLOS DE ESTIMACIÓN DE LA VARIANZA 23
rámetros así como también comparar las varianzas estimadas con distintas
La ENHA 2006 cubre a todo el territorio nacional, por lo cual las unidades
3. Área rural.
Área Metropolitana) incluye todas las zonas censales de todas las localidades
1. 35 % Montevideo,
2. 3 % en la periferia,
o más,
5. 19 % en zonas rurales.
de selección.
CAPÍTULO 3. EJEMPLOS DE ESTIMACIÓN DE LA VARIANZA 24
des de 5000 habitantes o más del resto del país, se aplican dos etapas para la
selección se hace por muestreo sistemático dentro del estrato, con punto de
es la vivienda/hogar.
Tamaño de las UPM: a los efectos de asegurar que todas las zonas del
país tengan siempre probabilidad positiva de ser seleccionadas, las UPM son
denidos fueron:
1. Todo el país.
2. Montevideo.
4. Departamentos.
5. Área:
CAPÍTULO 3. EJEMPLOS DE ESTIMACIÓN DE LA VARIANZA 25
Urbana
Rural
estratos.
1. Montevideo: 4 estratos.
(19 agrupaciones).
4. Área rural de cada departamento del resto del país (18 agrupaciones).
Estratos:
heterogéneos.
Los estratos son una partición más na de los dominios, denidos para
lograr mayor homogeneidad entre las unidades y así hacer más eciente el
fueron:
unidades reajustables).
Montevideo Metropolitano.
cada departamento).
De las múltiples áreas que releva la E.N.H.A., este trabajo focalizará las
ingresos.
noticias.
del empleo. Existen tres criterios para identicar entre las personas
período de referencia.
-Trabajadores no remunerados.
social.
CAPÍTULO 3. EJEMPLOS DE ESTIMACIÓN DE LA VARIANZA 29
Notación:
P EA
T BP = ∗ 100
PT
Donde: PEA= Población Económicamente Activa PT = Población Total
P EA
TA = ∗ 100
P ET
Donde: PET = Población en Edad de Trabajar
DA
T D = T DA = ∗ 100
P EA
Donde: DA = Desempleo Abierto
Tasa de Subempleo:
S
TS = ∗ 100
P EA
Donde: S= Subempleo
demanda laboral)
O
TE = TO = ∗ 100
P EA
Donde: O = Ocupados
la ENHA es el CF1 (Censo fase 1), en una primera instancia se trabajará con
departamentales.
que guardan cierta relación con los límites de las Secciones Judiciales,
destinados a viviendas.
sin prejuicio de que en los mismos pueda darse el caso de que vivan
personas habitualmente.
se trata de un hogar particular cuando hay una persona que vive sola.
Colonia. Debe destacarse que el archivo no tiene identicadas las zonas cen-
cuenta con 129.379 registros, eliminándose las viviendas vacías y los hogares
personas.
Por otra parte se generarán nuevas variables: escolar denida como las
personas cuya edad es mayor o igual a 6 años y menor o igual que 12 años y
o más años de edad (sin establecerse un límite superior). Contar con los datos
que las unidades de primera etapa de muestreo PSUs son los segmentos cen-
(particularmente en el V0 ).
Las probabilidades de inclusión de primer orden πIi , son proporcionales
P
a la cantidad de hogares del segmento: πI i = nI ∗ Ni / i Ni , siendo nI el
tamaño de la muestra de primera etapa, y Ni la cantidad de hogares del
dos.
V P SU
V P SU +V SSU
(V P SU + V SSU )0,5 Sesgo Relativo
V P SU
V P SU +V SSU
(V P SU + V SSU )0,5 Sesgo Relativo
Del análisis comparativo de las tablas uno y dos se desprende que para
tros
hogares en cada uno, se suman las personas de los 5 hogares, se divide entre
para nI=10 y para nI=50 los valores simulados están muy próximos a los
nI=10. Para los totales (escolares y personas) también los valores simula-
dos son muy cercanos a los poblacionales tanto cuando nI=10 como cuando
tros estimados así como también la raíz cuadrada de los promedios de las
y nI = 50 respectivamente.
rc(media(Vb0 (b
t)) 2.85 4024 9832 3.99 %
rc(media(Vc
jk (t))
b 2.88 4024 9832 4.07 %
rc(media(Vb0 (b
t)) 1.27 1806 4403 1.81 %
rc(media(Vc
jk (t))
b 1.27 1806 4403 1.81 %
Notación:
PET").
CAPÍTULO 3. EJEMPLOS DE ESTIMACIÓN DE LA VARIANZA 37
[ rc(Vrc(V MC )
poblacional )
− 1] ∗ 100 (nI=10) [ rc(Vrc(V MC )
poblacional )
− 1] ∗ 100 (nI=50)
las varianzas estimadas por V0 y el desvío MC, y la raíz cuadrada del pro-
rcV0 rcV
[ rcV MC
− 1] ∗ 100 [ rcVMjkC − 1] ∗ 100
total personas 4.93 % 4.93 %
las varianzas estimadas por V0 y el desvío MC, y la raíz cuadrada del pro-
rcV0 rcV
[ rcV MC
− 1] ∗ 100 [ rcVMjkC − 1] ∗ 100
total personas 4.06 % 4.06 %
95 % de conanza, tal que para una distribución t-student con nI-1 grados
En las tablas nueve y diez se puede observar que tanto cuando nI=10 como
primera etapa. Debe destacarse que cuando nI=10, para el total de escolares
lleva a trabajar con una base de 89.919 personas. Considerando que el archivo
Donde:
por mes
Donde:
TABLA 14: Varianza muestral para los ratios estimados por mes
tbp ta tdesoc
En el caso de los totales por mes estimados los resultados coincidieron con
los publicados.
directa.
Los resultados que se obtiene son similares a los que llega el INE a pesar
CAPÍTULO 3. EJEMPLOS DE ESTIMACIÓN DE LA VARIANZA 45
disponibles en las bases que pública dicho instituto las zonas censales.
Capítulo 4
Conclusiones
oportunidad es pequeña.
Las condiciones teóricas que justican la aplicación del V0 han sido ve-
otra parte los sesgos relativos son muy pequeños lo cual se fundamenta por
el hecho de que las πIi son chicos. En cuanto a los intervalos de conanza,
casos similares al 95 %.
46
CAPÍTULO 4. CONCLUSIONES 47
14 % y 60 % respectivamente.
el Bootstrap.
Apéndice A
Apéndice
ción del diseño muestral y para el cálculo de las estimadores y sus varian-
[Lumley, 2006].
rm(list=ls())
library(foreign)
library(survey)
48
APÉNDICE A. APÉNDICE 49
summary(denha)
table(d$estrato)
# La variable de identificación es un código compuesto
# por departamento, sección y segmento.
# Mediante la utilización del paquete survey, se especifico
# el diseño "denha".
# Donde la identificación corresponde a "id=~codsegm+correlativ",
# luego los estratos "strata=~estrato", que son los 4 definidos
# para el departamento de Montevideo (alto, medio alto,
# medio bajo y bajo), para los pesos "weights=~pesomen" se
# utilizo pesomen porque se optó por realizar
# estimaciones mensuales de los parámetros de interés.
# corrige inconsistencias
pea[dc$e27<14]<-0
po[dc$e27<14]<-0
po[is.na(po)]<-0
t<-matrix(0,12,5)
v<-matrix(0,12,5)
er<-matrix(0,12,4)
vr<-matrix(0,12,4)
for(m in 1:12)
{
ind<-as.numeric(dc$mes)==m
dcm<-dc[ind,]
ptm <- pt[ind]
petm<-pet[ind]
peam<-pea[ind]
pom <- po[ind]
pdm <- pd[ind]
dcm<-cbind(dcm,ptm,petm,peam,pom,pdm)
denham<-svydesign(id=~codsegm+correlativ,strata=~estrato,
weights=~pesomen, data=dcm)
# t actividad
b<-svyratio(numerator=~peam, denominator=~petm,design=denham,
separate=FALSE,se=TRUE)
b<-as.data.frame(predict(b,total=1))
er[m,2]<-b[,1]
vr[m,2]<-b[,2]
# t desocupacion
b<-svyratio(numerator=~pdm, denominator=~peam,design=denham,
separate=FALSE,se=TRUE)
b<-as.data.frame(predict(b,total=1))
er[m,4]<-b[,1]
vr[m,4]<-b[,2]
colnames(t)<-rownames(a)
colnames(v)<-rownames(a)
APÉNDICE A. APÉNDICE 52
colnames(er)<-c("tbp","ta","tocup","tdesoc")
colnames(vr)<-c("tbp","ta","tocup","tdesoc")
# Donde t corresponde a la matriz que contiene 12 filas una por cada mes,
# y 4 columnas pues se estiman 4 totales,
# v es la matriz de iguales dimensiones que la t y contiene las
# varianzas estimadas de los totales.
# er es una matriz que contiene para cada mes la estimación de los ratios y
# vr es una matriz con la estimación por mes de la varianza de los ratios.
Bibliografía
[INE, 2004a] INE (2004a). Censo Fase uno deniciones. Manual técnico
I.N.E.
técnico I.N.E.
53
BIBLIOGRAFÍA 54
[Särndal et al., 1992] Särndal, C.-E., Swensson, B., and Wretman, J. (1992).