Muestreo Conglomerado Adaptativo Estratificado

Dr
aft
Muestreo de conglomerados adaptativos
aft
estratificado.
Blanco Muñoz Javier Andrés

Mejı́a López Einer David
Moya Ramos Eduardo E
Pacheco Manchego Katy M
Dr Pérez Sánchez Maryoris
Zumaque Ballestero Antonio
Universidad de córdoba
Departamento de Matemáticas y Estadı́sticas
Estadı́stica
6 de febrero de 2019
CONTENIDO
aft
Introducción
Diseños
Estimadores
Estimadores que usan números esperados de intersecciones ini-
ciales
Estimador usando probabilidades de intersección iniciales
Ejemplo 1
Dr
Ejemplo 2
Muestreo de grupo adaptativo estratificado
En el muestreo de grupo adaptativo estratificado, se selecciona una
muestra estratificada inicial de una población, y cada vez que se
aft
observa que el valor de la variable de interés para cualquier unidad
satisface una condición especı́fica, se agregan unidades adicionales
de la vecindad de esa unidad a la muestra. Todavı́a se pueden agregar
más unidades a la muestra si, a su vez, cualquiera de las unidades
agregadas posteriormente satisface la condición.
Dr
(a)
aft
Dr
(b)
aft
Dr
(c)
aft
Dr
(d)
aft
Dr
Diseños
aft
Para los diseños de muestreo de grupos adaptativos,
• la población se divide en L estratos, de los cuales el estrato h
se compone de unidades Nh
• N, es el número total de unidades en la población.
• uhi la unidad i del estrato h.
• yhi , es la variable de interés.
La vecindad de la unidad uhi se define como una colección de unida-
Dr
des que incluye uhi y con la propiedad de que si la unidad uh0 i 0 está
en el vecindario de la unidad uhi . La vecindad de una unidad puede
incluir unidades de más de un estrato. Se dice que una unidad uhi
satisface la condición de interés si el valor de y asociado con esa
unidad está en un conjunto C especificado.
Los diseños que se consideraran, están basado en la selección una
aft
muestra inicial de unidades de una población mediante muestreo
aleatorio estratificado; es decir, dentro del estrato h, se seleccio-
na una muestra aleatoria simple de nh unidades sin reemplazo, las
selecciones para los estratos separados se realizan de forma inde-
pendiente. Cuando una unidad seleccionada satisface la condición,
todas las unidades en su vecindario que aún no están en la muestra
se agregan a la muestra. Todavı́a se pueden agregar más unida-
des a la muestra siempre que cualquiera de las unidades agregadas
Dr
adicionalmente satisfaga la condición, de modo que la muestra final
contenga cada unidad en la vecindad de cualquier unidad de muestra
que cumpla con la condición.
aft
En la Figura 1.1 se ilustra un ejemplo, en el que el objeto es estimar la
abundancia de una población agrupada, es decir, el total de unidades
de área transversal de los números y de objetos puntuales dentro de
cada unidad. El objeto puntual podrı́a, por ejemplo, representar la
ubicación de una planta o animal. Una unidad satisface la condición
aquı́ si contiene uno o más objetos de puntos; es decir, y ≥ 1. La
población se divide en dos estratos, y en la Figura 1.1 se muestra
Dr
una muestra aleatoria simple de cinco unidades seleccionadas de
cada estrato.
aft
Dr
Figura 1.1. Muestra aleatoria estratificada inicial de cinco unidades en cada uno
de los dos estratos. Cada vez que una unidad en la muestra contiene uno o más
de los objetos puntuales, las unidades adyacentes se agregan a la muestra. [De
Thompson (1991b). Con permiso de los Fideicomisarios de Biometrika.]
El vecindario de una unidad consiste en esa unidad junto con todas
las unidades adyacentes al norte, sur, este y oeste. Al aplicar el
diseño de muestreo de grupo adaptativo estratificado se obtiene la
aft
muestra final que se muestra en la Figura 1.2.
Dr
Figura 1.2. Muestra final resultante de la muestra inicial de la Figura 1.1. Tenga en
cuenta que algunas unidades en el estrato 2 (derecha) se incluyeron en la muestra como
resultado de una selección inicial en el estrato 1. [De Thompson (1991b). Con permiso
de los Fideicomisarios de Biometrika.]
aft
La población puede dividirse en K conjuntos de unidades, deno-
minadas redes, de modo que la selección en la muestra inicial de
cualquier unidad en una red resultará en la inclusión en la muestra
final de todas las unidades en esa red. Una unidad que no satisface
la condición pertenece a una red que consiste solo en sı́ misma. La
selección inicial de una unidad que cumpla con la condición tı́pica-
mente resultará en la adición a la muestra no solo de todas las otras
unidades en su red, sino también de unidades que no están en su
Dr
red, es decir, unidades que no satisfacen la condición sino en las
cercanı́as de Uno o más miembros de la red.
En la Figura 1.3, las redes intersecadas por la muestra inicial están
delineadas en lı́neas gruesas. Las otras unidades en la muestra, las
unidades de borde, no satisfacen la condición y no estaban en la
aft
muestra inicial, pero están cada una en la vecindad de una o más
unidades que satisfacen la condición en las redes que intersectan la
muestra inicial.
Dr
Figura 1.3. Las redes distintas intersecadas por la muestra inicial se delinean
con lı́neas en negrita
El número de veces que se selecciona una unidad es igual al número
de unidades de su red o de una red que se interseca con su vecindad
aft
que se seleccionan en la muestra inicial asi, definamos:
I rhi como el número de veces que se selecciona la unidad uhi .
I mkhi como el número de unidades en la intersección del estrato
k con la red que contiene la unidad uhi .
Dr
aft
Ahora bien para una unidad uhi que no cumpla con la condición, se
define:
Dr
aft
Ahora bien para una unidad uhi que no cumpla con la condición, se
define:
I akhi el número total de unidades en la intersección del estrato
Dr
k con la colección de redes distintas, excluyendo a uhi , que
interseca la vecindad de la unidad uhi .
I akhi = 0 para cualquier unidad uhi que cumpla la condición.
La selección inicial de cualquiera de estas unidades akhi dará como
resultado la adición de la unidad uhi a la muestra.
Cumple la condicón
El número esperado de veces que se selecciona la unidad uhi es,
aft
L
X mkhi + akhi
E (rhi ) = nk
Nk
k=1
La unidad uhi se incluirá en la muestra si una o más unidades de la

red a la que pertenece uhi están incluidas en la selección inicial
No cumple la condición
Para una unidad uhi que no cumple la condición, si una o más
Dr
unidades de cualquier red que se intercepta con el vecindario de la
unidad uhi se incluye en la muestra inicial debido al muestreo
aleatorio estratificado, la probabilidad de inclusión πhi para la
unidad uhi es Q L Nk −mkhi −akhi

k=1 n
πhi = 1 − Nk
k
nk
Estimadores
aft
Los estimadores clásicos para la media poblacional están sesgados
bajo un diseño de muestreo adaptativo, en contraste con MAS, es-
tudiaremos dos estimadores no sesgados para la media poblacional
bajo un diseño de muestreo conglomerado adaptativo estratificado.
dirigido.
Dr
Estimadores que usan números esperados de
intersecciones iniciales
aft
Notemos que para diseños muestrales en los que se seleccionan n
unidades con reemplazo y la probabilidad Pi de seleccionar la uni-
dad i en cualquier sorteo es conocido para todas las unidades, el
estimador de Hansen-Hurwitz en el que cada y-valor se divide por
la probabilidad de selección asociada y multiplicado por el número
de veces que se selecciona la unidad, es un estimador imparcial de
la media poblacional. es por ello que con los diseños de muestreo de
Dr
conglomerados adaptativos, las probabilidades de selección no se co-
nocen por cada unidad en la muestra. Un estimador imparcial puede
ser formado por la modificación del estimador de Hansen-Hurwitz
para hacer uso de las observaciones.
Por ello se define para la unidad uhi , la nueva variable que será el
total de los y -valores de la red a la que pertenece uhi , ponderada
aft
por la fracción de muestreo del estrato y dividida por una suma
ponderada de los tamaños de intersección red-estrato de la siguiente
manera:
nh PL
ξkhi
Nh k=1
whi = P nk
L
k=1 mkhi
Dr Nk
donde
I ξkhi es el total de los y -valores en la intersección del estrato k
con la red que incluye la unidad uhi
I mkhi es el número de unidades en esta intersección
El estimador de la media poblacional es
aft
L nh
1 X Nh X
µ̂1 = ωhi (1)
N nh
h=1 i=1
Dejando que la variable aleatoria rkhi represente el número de uni-

dades en la muestra inicial que están en la intersección del estrato
k con la red a la que pertenece la unidad uhi , el estimador puede
escribirse en la forma alternativa
Dr
µ̂1 =
N
L Nh
1 XX
yhi
h=1 i=1
L
X
rkhi /
k=1
L
X Nk
nk
mkhi
k=1
!
Como E (rkhi ) = nk mkhi /Nk , se deduce que µ̂1 es un estimador

imparcial de la media poblacional.
Con ωhi como la variable de interés para la unidad uhi para cada
aft
unidad en la población, µ̂1 es la media muestral estratificada de una
muestra aleatoria estratificada y, por lo tanto, tiene una varianza
L
1 X σ2
var (µ̂1 ) = 2 Nh (Nh − nh ) h (2)
N nh
h=1
en el que el término de varianza de la población del estrato es

Dr hN
1 X
σh2 = (ωhi − W̄h )2 (3)
Nh − 1
i=1
aft
P
La media de la población del estrato es W̄h = (1/nh ) ωhi . Se
obtiene un estimador imparcial v (µ̂1 ) de la varianza µ̂1 reemplazando
σh2 en la fórmula (3) con la varianza de la muestra.
n h
1 X
Sh2 = (ωhi − ω̄h )2 (4)
nh − 1
i=1
P
usando la media de la muestra ω̄h = (1/nh ) ωhi . se puede cons-
truir una variación µ̂01 en el estimador µ̂1 que esté relacionada con
Dr
el estimador de ”multiplicidad” estratificado de la red (Birnbaum y
Sirken 1965; Levy 1977; Sirken 1972a) · · ·
aft
en el cual el peso que recibe una observación depende del estrato en
que la muestra inicial intercepta la red de esa unidad. Para la unidad
0 que será el total de los y -valores
uhi , defina la nueva variable ωhi
en la red completa a la que pertenece la unidad uhi , dividida por el
número total de unidades en esa red; es decir,
L
X L
X
0
ωhi = ξkhi / mkhi (5)
k=1 k=1
Dr
El estimador de multiplicidad estratificado modificado está dado por
la Ecuación (1) con ω 0 que reemplaza a ω.
Por cada vez que se selecciona una unidad de una red en la muestra
aft
inicial, el estimador incluye un término con el total de los valores de
y para esa red, dividido por el tamaño de la red y ponderado por
Nk /nk para el estrato desde el cual la unidad fue seleccionado. Por
lo tanto, cada y -valor individual aparece en el estimador cada vez
que se selecciona en la muestra inicial cualquier unidad de la red
a la que pertenece, pero con ponderaciones que dependen de los
estratos de los que provienen las selecciones iniciales. Por lo tanto,
el estimador µ̂01 se puede escribir en la forma alternativa
Dr L Nh L L
!
0 1 XX X Nk X
µ̂1 = yhi rkhi / mkhi (6)
N nk
h=1 i=1 h=1 h=1
Estimador usando probabilidades de intersección iniciales
aft
Para cualquier diseño en el que se conozcan probabilidades de inclu-
sión, el estimador de Horvitz-Thompson alcanza la imparcialidad al
dividir el y-valor, para cada unidad en la muestra por la probabili-
dad de que esa unidad esté incluida en la muestra. Con el muestreo
de grupo adaptativo, estas probabilidades de inclusión no se pueden
determinar a partir de los datos para cada unidad en la muestra.
Dr
Sin embargo, se puede formar un estimador usando para cada unidad
la probabilidad de que la muestra inicial intercepte la red a la que
pertenece esa unidad, y dando un peso cero a cualquier observación
que no satisfaga la condición que no se incluyó en la muestra inicial.
Ahora bien, definamos:
I K las distintas redes de la población etiquetadas 1, 2, ..., K ,
aft
sin tener en cuenta los lı́mites del estrato.
I yi denote el total de los valores de y en la red i de la
población.
I xhi el número de unidades en el estrato h que intersecta la red
i.
I αi la probabilidad de que la muestra inicial se intercepte con
la red i
Dr
Donde αi , viene dado por:
QL Nk −xki

h=1 n
αi = 1 − Nk
k (7)
nk
Si tomamos como qi = 1 − αi , entonces la probabilidad αij de que
la muestra inicial se intercepta con ambas redes i y j es
aft
QL Nk −xki −xkj

k=1 nk
αij = 1 − qi − qj + Nk
(8)
nk
Deje que la variable indicadora zi sea 1 si la muestra inicial se cruza

con la red i y cero de lo contrario. El estimador estratificado de tipo
modificado de Horvitz-Thompson es
N
1 X yi zi
Dr µ̂2 =
N
i=1
αi
Para i = 1, ..., K , zi es una variable aleatoria de Bernoulli con

(9)
E (zi ) = αi , var (zi ) = αi (1 − αi ), y cov (zi , zj ) = αij − α1 αj , para

i = j. De ello se deduce que µ̂2 es un estimador imparcial de la
media poblacional, y con la convención de que αij = αi
aft
K K
1 XX αij
var (µ̂2 ) = 2 yi yj −1 (10)
N αi αj
i=1 j=1
Un estimador imparcial de esta varianza, ya que E (zi zj ) = αij , es

K K
1 X X yi yj z1 zj αij
var
c (µ̂2 ) = 2 −1 (11)
N αij αi αj
i=1 j=1
Dr
siempre que la probabilidad de intersección conjunta αij no sea cero
para ningún par de redes.
aft
El estimador µ̂2 no es un verdadero estimador de Horvitz-Thompson
porque las probabilidades de intersección αi no son idénticas a las
probabilidades de inclusión bajo el diseño de muestreo adaptativo
de conglomerados. El tamaño de muestra esperado y otras propie-
dades de la estrategia de muestreo dependen de las probabilidades
de inclusión reales
Dr
Ejemplo 1: Muestreo de grupo adaptativo estratificado
de una población agrupada.
aft
La población agrupada espacialmente de las Figuras (1), (2) y (3)
se produjo como una realización de un proceso de agrupamiento de
Poisson. Cuatro lugares ”padre”se encuentran al azar en la región
de estudio, y los lugares ”descendientes”se distribuyeron sobre ca-
da ubicación de los padres de acuerdo a una distribución de Gauss
Dr
simétrica con parámetro de dispersión σ = 0.02. El número de des-
cendientes fueron variables aleatorias de Poisson, cada una con una
media de 100.
Figuras
aft
Dr
Figura 1. Muestra aleatoria estratificada inicial de cinco unidades
en cada uno de los dos estratos
aft
Dr
Figura 2. Muestra final resultante de la muestra inicial de la figura 1.
aft
Dr
Figura 3. Distintas redes intersectadas por la muestra inicial se
delinean con lı́neas en negrita
Los valores y para cada una de las 400 unidades (parcelas) de la
población se enumeran a continuación:
aft
Dr
Notese que el número real de objetos puntuales en la región es
397, de modo que la media de la población verdadera es:
aft
el número real de objetos puntuales en la región
µ=
total de parcelas
397
=
400
= 0.9925
Para el diseño, la región de estudio se divide en dos estratos, y
las muestras iniciales se seleccionan mediante muestreo aleatorio
Dr
estratificado con tamaños de muestra iguales en cada estrato. Una
unidad satisface la condición si contiene uno o más de los objetos
puntuales. El vecindario de una unidad incluye todas las unidades
adyacentes, de modo que una vecindad tı́pico fuera del lı́mite consta
de cinco parcelas en forma de cruz.
Considere el diseño con tamaños de muestra iniciales de cinco unida-
des en cada estrato. Un resultado de la selección inicial de la muestra
aft
se muestra en la Figura (1), y la Figura (2) muestra la muestra final
que resulta. Los cálculos de la muestra se ilustran usando la muestra
ilustrada (Figura (2)). En el estrato 1 (a la izquierda), la muestra
inicial ha interceptado dos redes de tamaño mayor que el de una sola
unidad. La primera red (a la izquierda) consta de seis unidades, cuyo
valor y total es 96. La segunda red tiene cinco unidades dentro del
primer estrato y seis unidades dentro del segundo estrato. El total
de los valores y en la intersección de esta red con el primer estrato
Dr
es 78, mientras que el total de los valores y en la intersección de la
red con el segundo estrato es 114. Por lo tanto, la segunda red tiene
un total de 11 unidades y un valor total de y de 192. En el segundo
estrato, ninguna de las cinco unidades de la muestra inicial (Figura
(1)) satisfizo la condición
Utilizando los datos de esta muestra (Figura (2)), el valor de la va-
aft
ˆ 001 , que ignora el cruce entre estratos,
riable whi00 para el estimador mu
es cero para todas las unidades que no satisfacen la condición.
En la primera red intersectada en el estrato 1, el valor es
00 96
w11 = = 16
6
Para la segunda red intersectada, el valor es
Dr 00 78
w12 = = 15.6
5
basado únicamente en unidades dentro del estrato 1.
La estimación de la población La media es:
aft

00 1 200
µ̂11 = (16 + 15.6 + 0 + 0 + 0)
400 5

200
+ (0 + 0 + 0 + 0 + 0)
5
= 3.16

00 1 200(200 − 5)(74.9)
V̂ (µ̂11 ) = +0
Dr 4002 5
= 3.65
Es decir, la varianza muestral de los 74.9 números (16, 15.6, 0, 0,
0) es 3.56. Para el estimador µ̂1 , la variable whi para la primera red
de la muestra es w11 = 96 6 = 16. Para la segunda red intersectada
Por la muestra, el valor es w12 = 19211 = 17.45.
La estimación es:
aft

1 200
µ̂1 = (16 + 17.45 + 0 + 0 + 0) + 0
400 5
= 3.35

1 200(200 − 5)(84.2)
V̂ (µ̂1 ) = +0
4002 5
= 4.10
Dr
en la que 84.2 es la muestra varianza de los cinco valores muestrales
de w1i en el primer estrato. El estimador µ̂01 y su varianza estimada
asumen los mismos valores que µ̂1 debido al estrato y tamaños de
muestra iguales.
Para el estimador µ̂2 , primero deben calcularse las probabilidades
de intersección. Formar cada unidad en la muestra inicial que no
aft
satisface la condición, la probabilidad de intersección es
nh 200
α0 = = = 0.025
Nh 5
y es la misma en cada estrato, debido a los tamaños iguales de la
muestra y del estrato. Para la primera de las grandes redes inter-
sectadas (la de la izquierda en la Figura (3)), la probabilidad de
inclusión es:
Dr α1 = 1 −
200−6
5
200
5

= 0.14261
Para la segunda red, ya que intersecta ambos estratos, la probabili-
dad de intersección es:
aft
200−5 200−6

5
α1 = 1 − 5
200 200
5 5
= 0.24554
La probabilidad de inclusión conjunta para ambas redes es:

Drα12 = 1 − (1 − 0.14261) − (1 − 0.24554)
200−6−5 200−0−6

5
+ 200
5
200
5 5
= 0.03240
aft
El estimador estratificado es:
962 1922
2
1 0
µ2 = 2
+ +
400 0.14261 0.24554 0.025
2
0
+··· +
0.025
= 3.64
Dr
La varianza estimada es:
aft
962

1 1
V̂ (µ̂2 ) = −1
4002 0.14261 0.14261
1922

1
+ × −1
0.24554 0.24554

−1
0.0324
+ 2(96)(192)(0.0324 ) × (0.24554) − 1
Dr 0.14261
)
+ 0 + ··· + 0
= 4.78
Ejemplo 2: Cuando los tamaños de estrato y los
tamaños de muestra iniciales son desiguales.
aft
Los estimadores µ̂1 y µ̂01 son idénticos cuando el tamaño del estrato
y el tamaño de la muestra inicial son iguales.
Para ilustrar los cálculos cuando no son iguales, considere una mues-
tra inicial de cinco unidades en el primer estrato, como se muestra
en la figura (1.1), pero con una muestra inicial de solo tres unida-
Dr
des en el segundo estrato, y supongamos nuevamente que ninguna
de las unidades de muestra en el segundo estrato contiene ningún
objeto puntual.
Para el estimador µ̂1 los valores son
5

200 (96)
aft
w11 = 5
200 (6)
= 16
5

200 (192)
w12 = 5
3

200 (5) + 200 (6)
= 22.33
La estimación es:
Dr
µ̂1 =

1
400

200
5

(16 + 22.33 + 0 + 0 + 0) + 0

= 3.83
Para el estimador µ̂01
aft
0 96
ŵ11 =
6
=6
0 192
ŵ12 =
11
= 17.45
como en el ejemplo 1 y la estimación es
Dr µ̂01 = 3.35
V̂ (µ̂01 ) = 4.10
Referencias
aft
Guillermo Martinez Florez
Notas de muestreo en poblaciones biológicas
STEVEN K. THOMPSON (2012)
Sampling Simon Fraser University
Alan R. da Silva and Iracema V. Madeira Mauriz(2015)
A SAS Macro for Adaptive Spatial Sampling International
Dr
Journal of Statistics and Probability; Vol. 4, No. 4; 2015 ISSN
1927-7032 E-ISSN 1927-7040 Published by Canadian Center of
Science and Education. doi:10.5539/ijsp.v4n4p20

Muestreo Conglomerado Adaptativo Estratificado

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Muestreo Conglomerado Adaptativo Estratificado

Hochgeladen von

Copyright:

Verfügbare Formate

Dr

Blanco Muñoz Javier Andrés

La unidad uhi se incluirá en la muestra si una o más unidades de la

Dejando que la variable aleatoria rkhi represente el número de uni-

Como E (rkhi ) = nk mkhi /Nk , se deduce que µ̂1 es un estimador

en el que el término de varianza de la población del estrato es

Deje que la variable indicadora zi sea 1 si la muestra inicial se cruza

Para i = 1, ..., K , zi es una variable aleatoria de Bernoulli con

E (zi ) = αi , var (zi ) = αi (1 − αi ), y cov (zi , zj ) = αij − α1 αj , para

Un estimador imparcial de esta varianza, ya que E (zi zj ) = αij , es

La probabilidad de inclusión conjunta para ambas redes es:

Das könnte Ihnen auch gefallen