You are on page 1of 21

Comunicaciones en Estadı́stica

Diciembre 2012, Vol. 5, No. 2

Modelación paramétrica de factores de expansión


en encuestas complejas
Modelling Sampling Weights in Complex Surveys

Cindy Alzatea Adriana Villarragab


cindyzulima.alzate.contractor@bbva.com gloria.villarraga@bancoagrario.gov.co

Andrés Gutiérrezc
hugogutierrez@usantotomas.edu.co

Resumen

El principio de representatividad afirma que el vector de probabilidades de inclu-


sión debe tener un comportamiento estructural similar al del vector de observa-
ciones de la caracterı́stica de interés. En encuestas complejas, en donde se utilizan
procesos de conglomeración y estratificación, generalmente no se cumple tal princi-
pio. Por lo anterior, y dado el carácter multipropósito de las encuestas que brindan
estadı́sticas oficiales, se hace necesario profundizar acerca de la forma como se pon-
deran las observaciones para cumplir con los requisitos de mı́nima variación en la
estimación de totales poblaciones. En este artı́culo se explora una metodologı́a que
permite modelar los factores de expansión, inducidos por el diseño de muestreo,
para cumplir con el principio de representatividad y mejorar los coeficientes de
variación para unos nuevos estimadores de totales de las variables que conforman
una encuesta compleja.
Palabras clave: encuestas complejas, estimador de calibración, estimador de
Horvitz-Thompson, factor de expansión, modelos lineales, muestreo.

Abstract

The concept of representativeness claims that the vector of inclusion probabilities


must be positively correlated with the vector of the variables of interest. In most
a Analistade riesgo. Banco BBVA Colombia.
b Profesionaluniversitaria. Banco Agrario de Colombia.
c Decano. Facultad de Estadı́stica. Universidad Santo Tomás.

187
188 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

complex surveys, where it is needed the use of clustering and stratification pro-
cesses, generally it is not possible to respect that concept. Therefore, and given
the multipurpose spirit in surveys that provide official statistics, it is necessary to
discuss how observations must be weighted in order to achieve the minimum requi-
rements for the estimator of the population total (in terms of its variance). This
paper explores a methodology to model those sampling weights, that are induced
by the sampling design. This way, we can improve the coefficients of variation by
means of the creation of a new estimator of the population total in a complex
survey frame.
Key words: calibration estimator, complex surveys, Horvitz-Thompson estima-
tor, linear models, sampling, weighting.

1. Introducción

Dentro de la estadı́stica se ha tenido la necesidad de realizar diversos estudios


sobre una población especı́fica; sin embargo, en muchas ocasiones es poco práctico
o simplemente imposible poder realizar dichos estudios, ya sea por los altos costos
o por la dificultad de llegar a todos los individuos de la población. Es por esto
que el muestreo presenta una forma interesante, importante y sobre todo eficiente
para poder hacer estimaciones sobre las caracterı́sticas de la población, a través
de información obtenida de una parte de dicha población.
En el desarrollo de los estudios por muestreo, es de suma importancia la escogencia
de un adecuado diseño muestra. Es decir, una forma correcta de obtener informa-
ción vital, junto a un estimador que refleje de manera aproximada, al expandir la
muestra, un resultado global para la población y muestre ası́ el comportamiento
de la misma.
Ası́ pues, en este artı́culo se encontrará una profundización empı́rica de la meto-
dologı́a desarrollada por Beaumont (2008), la cual propone el uso de modelos que
permiten crear un comportamiento estructural similar entre las ponderaciones y
las caracterı́sticas de interés. Esto como parte de una estrategia de muestreo que
usa como principal enfoque el estimador de Horvitz-Thompson (HT), ası́ como la
implementación de los estimadores de calibración (CAL).
Después de una breve introducción, y teniendo en cuenta que el principal interés de
este estudio es la aplicación del método de modelación de factores de expansión en
poblaciones simuladas y en una encuesta compleja real, el lector podrá encontrar
en la sección dos un marco teórico que contiene la interpretación de la metodologı́a
de Beaumont (2008); en la sección tres encontrará la realización de simulaciones en
diferentes escenarios empı́ricos que inducen probabilidades de inclusión desigua-
les y por tanto factores de expansión dispersos, en los que es posible modelar el
vector de probabilidades de inclusión; en la sección cuatro se plantea un estudio
de simulación que hace uso de los estimadores de calibración. La sección cinco
aplica la metodologı́a estudiada en la encuesta de Daprfip (2007) cuyos factores

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 189

de expansión son desiguales; y por último en la sección cinco se hace una breve
discusión acerca de la metodologı́a expuesta.

2. Marco teórico

2.1. Generalidades

Suponga que se tiene una población finita U de tamaño N y se desea encontrar


un estimador del total poblacional:
X
ty = yk , (1)
U

donde yk es la caracterı́stica de interés observada en el k-ésimo individuo de la


población. Para esto, se selecciona una muestra aleatoria de tamaño, de acuerdo
a un diseño de muestreo, notado como P (I|Z, Y), para el cual Z es un vector
de información auxiliar e I es el vector de variables indicadoras de la membresı́a
de los elementos de la población en la muestra. De esta forma, se define I =
(I1 , I2 , ..., Ik , ..., IN ), donde Ik = 1 si k ∈ s y Ik = 0 en otro caso; además, Y es el
vector de variables aleatorias que definen la caracterı́stica de interés. Nótese que
el diseño de muestreo P (I|Z, Y) define una medida de probabilidad condicionada
al comportamiento probabilı́stico de Y.
Para obtener una muestra de elementos es necesario obtener un marco de muestreo
actualizado, que incluya a cada una de las unidades pertenecientes en la población.
Dado que el anterior escenario implicarı́a un impacto logı́stico, ası́ como un alto
costo en el desarrollo de la encuesta, es común optar por la realización de encuestas
complejas, en las cuales no se cuenta, por lo general, con un marco de muestreo
de elementos, en donde se hace necesario implementar un diseño de muestreo que
involucre múltiples etapas, proceso de estratificación y que permita llegar a las
unidades de finales de interés.
Nótese que un diseño de muestreo P (I|Z, Y) es un proceso aleatorio, mediante el
cual se asignan probabilidades de selección a cada una de las muestras contenidas
en un soporte Q1 . Dichas probabilidades deben cumplir las siguientes condiciones:

1. P (I|Z, Y) > 0
P
2. Q P (I|Z, Y) = 1

Un efecto negativo de no contar con marcos de muestreos de elementos podrı́a darse


cuando existen probabilidades de inclusión muy pequeñas para un individuo, de tal
forma que al calcular su factor de expansión2 el resultado sea una cifra muy grande
1 Un soporte Q es el conjunto de todas las posibles muestras.
2 Es una expresión numérica por medio de la cual un individuo se representa a sı́ mismo y a
algunos otros en la población finita.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


190 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

que no represente la realidad de la población finita. Cuando sucede lo anterior, se


dice que el estimador no es consistente y por consiguiente su varianza aumenta
trayendo como resultado coeficientes de variación inaceptables (Gutiérrez 2009).
Una vez escogido un diseño de muestreo, este determina inmediata e implı́citamen-
te el vector de probabilidades de inclusión de primer orden; es decir, determina
la probabilidad de que un elemento k ∈ U haga parte de una muestra aleatoria.
Por ejemplo, en un Muestreo Aleatorio Simple (MAS), todos los elementos de la
población poseen la misma probabilidad de ser incluidos. Dicha probabilidad de
inclusión de primer orden está dada por πk = n/N para todos los elementos. Por
el contrario, si se eligiera un diseño en donde las entradas del vector de proba-
bilidades de inclusión fueran desiguales, como el πPT, que utiliza probabilidades
de selección proporcionales a una caracterı́stica de información auxiliar
P zk , la pro-
babilidad de inclusión está determinada por πk = nzk /tz con tz = U zk , donde
0 < πk ≤ 1. De esta manera, es posible encontrar encuestas complejas que hacen
uso de estos diseños.
Como en la mayorı́a de ocasiones no existen marcos de muestreo de lista que permi-
tan la identificación y ubicación directa de las unidades de observación, necesaria-
mente se debe apelar a procesos de estratificación o aglomeración que involucren
múltiples marcos de muestreo y por lo tanto, múltiples etapas. Si el diseño de
muestreo induce un vector de probabilidades desiguales, tal que exista una rela-
ción directa entre las probabilidades de inclusión y las variables de interés, entonces
existirá una disminución notable en la varianza de los estimadores, y por ende en
los coeficientes de variación estimados (CVE) y por lo tanto, una reducción del
tamaño de la muestra (Cassel et al. 1977).
Con base en lo anteriormente expuesto, cuando el vector de probabilidades de
inclusión no está relacionado con la caracterı́stica de interés, entonces el estimador
de Horvitz-Thompson (HT) definido como:

X yk
t̂y,π = Ik , (2)
πk
U

inducirá estimaciones poco eficientes. Apelando a esto, Beaumont (2008) ha plan-


teado una alternativa que consiste en mejorar la eficiencia del estimador de HT.
Dicha mejora será obtenida a través del planteamiento de un modelo que brin-
de una correlación significativa entre las caracterı́sticas de información auxiliar y
el inverso de las probabilidades de inclusión, conocido como factor de expansión,
presentando ası́ un ✭✭suavizamiento✮✮ de las estimaciones obtenidas a través de un
modelo, lo cual se traduce en mejores estimaciones y por ende una menor varianza
y un menor coeficiente de variación.
Rao (2008) explica que, por ejemplo, al usar el diseño de muestreo πPT, se tiene
que el tamaño muestral está fuertemente relacionado con la variable de interés
principal, pero es posible que el mismo tamaño muestral no se encuentre rela-
cionado o esté debilmente relacionado con otras variables de interés. Rao (2008)
propone para lo anterior variar los factores de expansión a través de las variables

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 191

de interés, y anota también que Beaumont (2008) estudió este problema y desa-
rrolló un ponderador suavizado bajo la inferencia basada en el diseño, teniendo un
tamaño de muestra moderado. El estimador resultante logró un buen desempeño
a través de variables fuerte, moderada y debilmente relacionadas con el tamaño
muestral.
Por ejemplo, al plantear un diseño de muestreo multietápico y estratificado es
posible encontrar algunas probabilidades de inclusión muy bajas, para las cuales
su factor de expansión es muy elevado. La anterior situación conlleva a que este
individuo en particular esté sobrerepresentado e influya en la estimación final.
Por lo tanto, si se lograran modelar esas probabilidades de inclusión serı́a posible
obtener una estimación de este factor de expansión, que estuviera corregido, de
tal forma que el individuo no estuviese sobrerrepresentado y por lo tanto que no
se afecte la estimación final.
Nótese que el estimador HT puede ser escrito como:
X
t̂y,π = wk yk Ik , (3)
U

con wk = π1k como inverso de la probabilidad de inclusión, es decir, el ponderador


del diseño.
Para que este estimador sea eficiente se hace necesario que las ponderaciones y las
variables de interés estén fuertemente relacionadas y sus valores no sean dispersos,
de lo contrario no se logrará una buena estimación (Gutiérrez 2009).

2.2. Modelamiento de los factores de expansión

Beaumont (2008) propone una metodologı́a que consiste en hacer uso de la inferen-
cia basada en los modelos, la cual permite encontrar un vector de ponderaciones,
ŵ = (ŵ1 , . . . , ŵk , . . . , ŵN )′ , que logre estar más correlacionado con el vector de
variables de interés Y, en comparación con el vector original de ponderaciones in-
ducidas por el diseño de muestreo. Dicho vector de suavizamiento ŵ se obtendrá a
través de un modelo estadı́stico. Lo anterior involucra un nuevo estimador notado
como el estimador de Horvitz-Thompson Suavizado (HTS), el cual se define como
una esperanza condicional, dada por:

X X
t̂HT S
y,π = E(t̂y,π |I, Y) = E( wk yk Ik |I, Y) = w̃k yk , (4)
k∈U k∈s

donde s es la muestra seleccionada con el diseño de muestreo, w̃k = E(wk |I, Y)


es una ponderación suavizada para cada elemento de la población. Nótese que
ŵk = Ê(wk |I, Y) y por lo tanto, ŵk es un estimador de w̃k . Teniendo en cuenta
que el objetivo principal del estimador suavizado es reducir la variabilidad de
los ponderadores del diseño, Beaumont (2008) propone dos formas de modelación
estadı́stica:

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


192 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

Modelo lineal: en este modelo, el vector de ponderadores puede ser escrito


como una combinación lineal entre parámetros y variables auxiliares, de tal
forma que:

wk = x′k β + εk , (5)

para k = 1, 2, . . . , N , donde x′k es un vector de caracterı́sticas de información


auxiliar en un modelo probabilı́stico y εk son errores aleatorios independien-
tes e idénticamente distribuidos con:

E(εk |I, Y) = 0,
V ar(εk |I, Y) = σk2 .

Además, β y σk2 son parámetros desconocidos del modelo. Por lo tanto el


ponderador suavizado está dado por w̃k = E(wk |I, Y) = x′k β̂ ∀k ∈ s, donde
β̂ se obtiene usando el método de mı́nimos cuadrados. Además, se tiene que:
!−1 !
X xk x′ X xk wk
k
β̂ = . (6)
s σˆk2 s σˆk2

Entonces el estimador de Horvitz-Thompson suavizado será:


X
t̂HT
y
S
= ŵk yk (7)
k∈s

Este modelo puede conducir a que los ponderadores suavizados sean menores
a uno, lo cual implica una inconsistencia puesto que, respetando el princi-
pio de representatividad, los ponderadores de muestreo solo tienen sentido
cuando son mayores o iguales a uno. Para corregir este tipo de errores se
propone un segundo modelo que elimina los escenarios en donde se presenta
dicho problema.

Modelo no lineal: este modelo, a diferencia del modelo anterior, no es lineal


y los ponderadores pueden ser escritos como:

ln(wk − 1) = x′k β + εk , (8)

O análogamente como:

wk = 1 + exp{x′k β + εk }. (9)

En donde:

E(εk |I, Y) = 0,
V ar(εk |I, Y) = σk2 .

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 193

Por consiguiente, el vector de ponderaciones suavizado será3 :

w̃k = E(wk |I, Y) = 1 + exp(x′k β̂)E(exp{εk }|I, Y) ∀k ∈ s, (10)

donde:
!−1 !
X xk x′ X xk ln(wk − 1)
k
β̂ = .
s σˆk2 s σˆk2

Finalmente, suponiendo que el promedio de los exponenciales de los errores


en toda la muestra es un estimador consistente de E(exp{εk }|I, Y), entonces
el estimador de los pesos suavizados está dado por:
X exp{εk (β̂)}
ŵk = 1 + exp(x′k β̂) . (11)
n
l∈s

En donde es una cantidad que depende de β̂ y está definida como:

εk (β̂) = ln(wk − 1) − x′k β̂. (12)

En particular, cuando xk = xk = 1, entonces el estimador de los pesos


suavizados se reduce a ŵk = N̂ /n (ver apéndice) y el estimador P suavizado
se reduce al estimador de expansión clásico definido como (N̂ /n) s yk . La
lógica detrás de la implementación de este segundo modelo es que el modelo
lineal puede inducir ponderaciones ŵk menores a uno, las cuales van en contra
del principio de representatividad, por tal motivo se plantea este modelo de
manera que los resultados obtenidos sean ŵk ≥ 1.

2.3. Estimación por calibración

Los estimadores de calibración son usados con la finalidad de obtener totales po-
blacionales, tal como se hace con el estimador de HT. Sin embargo, el estimador
de calibración, a diferencia del estimador de HT, requiere poseer información au-
xiliar y conocer de antemano el total del vector de información auxiliar, de tal
forma que las estimaciones que se obtengan se ajusten con los totales conocidos.
Dicha información auxiliar tiene como objetivo lograr ajustar las ponderaciones
de un diseño de muestreo, y es bastante interesante en la medida que usar infor-
mación auxiliar mejora los estimativos resultantes. Särndal (2007) afirma que la
calibración consiste en:

1. Un cálculo de los ponderadores que incorporan información auxiliar especı́fica


y están restringidos por las ecuaciones de calibración.
3 Nótese que este modelo tiene una importante restricción: cuando hay elementos de inclusión

forzosa (con valores de wk = 1) no tiene sentido alguno hacer uso de este enfoque puesto que
implicarı́a tener un logaritmo que no está definido.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


194 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

2. El uso de esos ponderadores para calcular linealmente las ponderaciones


estimadas de totales y otros parámetros de una población finita.
3. Obtener un diseño que sea muy cercano a las estimaciones insesgadas, siem-
pre y cuando las ausencias de respuesta y los errores de no muestreo no estén
presentes.

Un estimador de calibración, debe cumplir varias condiciones, como son:

1. El estimador debe tener una forma lineal, tal que:


X
t̂y,cal = wk,cal yk . (13)
s

2. Debe cumplir con la restricción:


X
t̂x,cal = wk,cal xk = tx (14)
s

3. Encontrar unos pesos wk,cal que tengan las siguientes propiedades:


Consistencia: se tiene cuando al aumentar el tamaño muestral, la pro-
babilidad de que el estimador sea igual al parámetro tiende a uno.
Cercanı́a a los pesos básicos: la diferencia entre los pesos se acerca cada
vez más a cero.
Control sobre los totales de las variables auxiliares: con la teorı́a desa-
rrollada por Estevao & Särndal (2000, Sección 6) se demuestra que la
varianza de un estimador de calibración decrece mientras más variables
auxiliares sean tenidas en cuenta en la calibración.

Para la construcción de los ponderadores de calibración wk,cal , se debe definir una


pseudo-distancia G(wk,cal /dk ) entre wk,cal y dk = π1k , que sea mı́nima en toda la
muestra. Dicha minimización lleva a un problema de optimización de la distancia
en toda la muestra, la cual esta dada por:

X
dk G(wk,cal /dk ), (15)
k∈s

P
y está sujeta a k∈s wk,cal xk = tx . Nótese que la pseudo-distancia debe cumplir
con:

1. Ser positiva.
2. Ser estrictamente convexa.
3. G(1) = 0, esto es, que la distancia entre pesos iguales es cero.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 195

4. G′ (1) = 0, cuando los pesos son iguales, la función debe tener un punto
crı́tico.

5. G′′ (1) = 1, este punto debe corresponder a un mı́nimo.

Siguiendo a Gutiérrez (2009) se tiene que los nuevos pesos de calibración están
dados por:

wk,cal = dk F (qk λ′ xk ). (16)

dG(ω)
En donde F (·) = g −1 (·) y a su vez, g(ω) = dω . El vector λ se obtiene al resolver
el siguiente sistema de ecuaciones:

X
dk F (qk λ′ xk )x′k = t′x , (17)
k∈s

Ahora bien, se sabe que existen varias formas de optimizar la distancia de toda
la muestra, entre las más conocidas están la distancia de entropı́a, Hellingster,
entropı́a inversa, Ji cuadrado inversa y Ji cuadrado. Sin embargo, Deville & Särndal
(1992) mostraron que todas ellas guı́an asintóticamente al mismo estimador. En
particular, cuando se utiliza la distancia Ji-cuadrado y una sola caracterı́stica de
información auxilia x, los nuevos pesos de calibración están dados por la siguiente
expresión:

tx − t̂x,π
wk,cal = dk xk + dk (18)
Σs dk x2k

Por lo tanto, el estimador de calibración toma la siguiente forma:


 
Σs dk xk yk
ty,cal = tx,π + (tx − tx,π ) (19)
Σs dk xk xk

2.4. Estimador de calibración suavizado

En el caso del estimador calibrado suavizado se debe considerar un acercamiento


similar al de la sección 2.2, el cual puede ser escrito como:

X
t̂CALS
y = E(b
ty,cal |I, Y) = w̃k,cal yk , (20)
k∈s

donde w̃k,cal = E(wk,cal |I, Y) es un ponderador suavizado de calibración para


todo k. Por lo tanto, se debe obtener un estimador w bk,cal de w̃k,cal modelando
los ponderadores de calibración wk,cal , para luego construir el estimador calibrado

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


196 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

suavizado. Es muy importante tener en cuenta que un estimador calibrado suavi-


zado no necesariamente cumple con la restricción de calibración, por lo tanto se
debe usar el estimador de calibración siguiente:
X
t̂CALS
y = w
bk,cal yk (21)
k∈s

P
Este estimador se obtiene minimizando la distancia D∗ = k∈s dk (w
bk,cal , w
bk ),
sujeto a la restricción de calibración:
X
w
bk,cal xk = tx (22)
k∈s

3. Estudio de simulación
Con el propósito de comparar la eficiencia de los estimadores HT y HTS se reali-
zaron algunas simulaciones de Montecarlo, las cuales consisten en generar réplicas
de un experimento, tratando ası́ de imitar el comportamiento de una situación
real. Estas simulaciones se realizaron teniendo en cuenta diferentes correlaciones
entre la caracterı́stica de interés y una variable auxiliar, logrando con esto dis-
tintos escenarios al plantear variaciones para el tamaño poblacional y el tamaño
muestral.
Las simulaciones se efectuaron en el programa estadı́stico R y se utilizó la librerı́a
TeachingSampling a fin de extraer las muestras. A continuación se describe cada
escenario, que fue replicado 1000 veces. Los nombres que se encuentran en las
tablas de resultados se deben interpretar de la siguiente manera:

N: tamaño poblacional, que varió entre 100, 1000 y 10000.

n: tamaño muestral, que varió entre 10, 100 y 1000.

HT: estimación de Horvitz-Thompson

HTS: estimación suavizada de Horvitz-Thompson.

CVE HT: coeficiente de variación empı́rico del estimador de Horvitz-Thompson.

CVE HTS: coeficiente de variación empı́rico del estimador suavizado de


Horvitz-Thompson.

SR HT: sesgo relativo del estimador de Horvitz-Thompson.

SR HTS: sesgo relativo del estimador suavizado de Horvitz-Thompson.

ER: eficiencia relativa.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 197

Para mostrar el desempeño de los estimadores en los modelos planteados, se propu-


sieron distintos escenarios que se muestran en las simulaciones expuestas a conti-
nuación. Nótese que en general, se han propuesto dos formas de modelación de las
factores de expansión, las cuales están descritas en la sección 2.2, que corresponden
al modelo lineal y al modelo no lineal.

3.1. Modelación lineal

Para esta forma de modelación, se plantearon dos escenarios. En un primer esce-


nario, los datos se obtuvieron del modelo lineal yk = b0 + b1 x1k + ek , diseñado con
una variable de información auxiliar (x1 ), la cual fue simulada a partir de una dis-
tribución gamma con parámetros de forma y escala 50 y 0.00006 respectivamente.
Los valores asignados a b0 y b1 fueron 50000000 y 11. Los errores aleatorios se
generaron mediante una distribución normal. Se tuvieron en cuenta varios escena-
rios cambiando el tamaño poblacional y el tamaño muestral. Además la varianza
de los errores se configuró de tal forma que se tuviesen distintos escenarios en la
correlación de y con x1 . La Tabla 1 muestra el comportamiento4 de los estimadores.

Tabla 1: Modelo lineal: ajuste con una variable auxiliar y correlación de 0.2.
Fuente: Elaboración propia.
N n CVE(HT) % CVE(HTS) % SR(HT) SR(HTS) ER
10000 1000 0,527891 0,528033 -0,014 % -0,017 % 0,99953
10000 100 1,783866 1,783429 -0,019 % -0,020 % 1,00051
10000 10 5,637026 5,635433 0,225 % 0,213 % 1,00082
1000 100 1,878143 1,877226 0,007 % -0,007 % 1,00127
1000 10 6,123304 6,123936 0,429 % 0,415 % 1,00006
100 10 7,901508 7,891358 -0,069 % -0,081 % 1,00282

En el segundo escenario, el modelo implementado para la simulación de las ob-


servaciones es yk = b0 + b1 x1k + b2 x2k + ek . Usando la variable x1 en el cálculo
del inverso de la probabilidad de inclusión. Además la varianza de los errores se
configuró de tal forma que se tuviesen distintos escenarios en la correlación5 de y
con x2 . La Tabla 2 muestra el comportamiento de los estimadores estudiados.
En general se tiene que para todos los escenarios se observa que el sesgo relativo es
despreciable. Teniendo en cuenta la estimación del CVE para el estimador de HT y
el estimador suavizado, se tiene que en la mayorı́a de casos este último reportó una
menor variación en la estimación. Aunque no se muestran todas las tablas genera-
das del proceso de simulación con todas las correlaciones, se concluyó que para un
tamaño poblacional fijo con un tamaño de muestra fija se tiene una relación in-
versa que muestra que, a mayor correlación, se obtiene un coeficiente de variación
estimado menor.
4 En general, para esta y las demás simulaciones, solo se muestra un único escenario para

alguna correlación, puesto que los demás escenarios (con correlaciones variando de cero hasta
uno) mostraban un comportamiento similar.
5 Para todas las simulaciones en donde se considera más de una variable auxiliar, la correlación

se define entre y y x2 .

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


198 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

Tabla 2: Modelo lineal: ajuste con dos variables auxiliares y correlación de 0.2.
Fuente: Elaboración propia.
N n CVE(HT) % CVE(HTS) % SR(HT) SR(HTS) ER
10000 1000 0,7356 0,7369 -0,130 % -0,126 % 0,99639
10000 100 2,4471 2,4448 -0,311 % -0,300 % 1,00165
10000 10 7,1755 7,1192 0,082 % 0,056 % 1,01639
1000 100 2,4480 2,4493 -0,539 % -0,537 % 0,99895
1000 10 7,3415 7,3259 -0,841 % -0,835 % 1,00414
100 10 9,1975 8,9707 -2,297 % -2,413 % 1,05369

3.2. Modelación no lineal

Para llevar a cabo las simulaciones en el modelo no lineal, se trabajó con dos varia-
bles auxiliares, una denominada x1 la cual fue simulada a partir de una distribución
gamma con parámetros de forma y escala de 50 y 0.00006 respectivamente, y la
otra variable, x2 , con una distribución normal de media 50 y varianza 10.
Para esta forma de modelación, se plantearon dos escenarios. En un primer es-
cenario, el modelo planteado para obtener la caracterı́stica de interés es yk =
b0 + b2 x2k + b1 x1k + ek , además la muestra fue obtenida con la variable x1 . Sin
embargo, quisimos evaluar las propiedades de los estimadores haciendo una inco-
rrecta especificación del modelo que genera las observaciones de la caracterı́stica
de interés, al suponer que sólo se tenı́a acceso a la variable x2 . La Tabla 3 muestra
los resultado de la simulación.

Tabla 3: Modelo no lineal: ajuste con una variable auxiliar y correlación de 0.2.
Fuente: Elaboración propia.
N n CVE(HT) % CVE(HTS) % SR(HT) SR(HTS) ER
10000 1000 1,25718 1,17667 -0,02 % -2,28 % 1,22315
10000 100 4,52774 4,24092 -0,05 % -2,07 % 1,20047
10000 10 7,46451 7,08618 0,23 % 0,09 % 1,00478
1000 100 2,41941 2,39255 -0,04 % -0,23 % 1,02639
1000 10 8,21705 8,09051 0,12 % -0,24 % 1,03913
100 10 9,72897 9,33535 -0,30 % -0,80 % 1,09701

El segundo escenario es similar al anterior, pero los errores del modelo se han
modificado para obtener una correlación más alta, esta vez de 0.4. De la misma
forma, se presenta a propósito una incorrecta especificación del modelo que genera
las observaciones de la caracterı́stica de interés. La Tabla 4 muestra los resultados
de la simulación.
En general, en este modelo no lineal se tiene que, para cada uno de los escena-
rios planteados el sesgo relativo es despreciable. Basado en lo anterior y teniendo
en cuenta que la metodologı́a aplicada se basa en un modelo poblacional, es un
gran hallazgo que el estimador suavizado conserve la propiedad del insesgamiento,
incluso cuando el modelo poblacional es incorrectamente especificado.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 199

Tabla 4: Modelo no lineal: ajuste con una variables auxiliar y correlación de 0.4.
Fuente: Elaboración propia.
N n CVE(HT) % CVE(HTS) % SR(HT) SR(HTS) ER
10000 1000 1,33231 1,24761 -0,02 % -2,27 % 1,25425
10000 100 4,68003 4,39073 -0,03 % -2,05 % 1,21915
10000 10 7,14621 6,81747 0,20 % 0,07 % 1,00555
1000 100 2,15466 2,12797 -0,03 % -0,21 % 1,02908
1000 10 7,27884 7,14993 0,20 % -0,16 % 1,04387
100 10 7,01773 6,69305 -0,23 % -0,69 % 1,10962

Es posible concluir que el estimador suavizado tiene menor varianza y la diferencia


relativa entre ellos nunca es mayor al 25 %. Por lo tanto, al utilizar el estimador
suavizado, se necesitará un menor número de encuestas para lograr la misma efi-
ciencia que con una estrategia de muestreo clásica. Por lo anterior, cuando la infor-
mación auxiliar está disponible de primera mano el estimador suavizado puede ser
preferido por encima del estimador HT, cuando existe un modelo corroborado por
investigaciones anteriores, de esta manera al reducir la varianza es posible reducir
el número de encuestas efectivas para lograr un coeficiente de variación fijo.

4. Simulación con el enfoque de calibración


Para la segunda parte de las simulaciones se implementó la calibración suavizada
propuesta en Beaumont (2008), siguiendo también el método de Montecarlo. En
estas simulaciones se siguen planteando los distintos escenarios, con variaciones
para el tamaño poblacional y el tamaño muestral.
Al igual que en la sección anterior, las simulaciones se efectuaron en el programa
estadı́stico R y se utilizó la librerı́a sampling para extraer las muestras complejas.
Las variables usadas en las tablas de resultados se describen a continuación:

CAL: estimación calibrada.


CALS: estimación calibrada con suavizamiento.
CVE CAL: coeficiente de variación estimado del estimador de calibración.
CVE CALS: coeficiente de variación estimado del estimador calibrado con
suavizamiento.
SR CAL: sesgo relativo del estimador de calibración.
SR CALS: sesgo relativo del estimador calibrado con suavizamiento.
ER-CAL: eficiencia relativa en calibración.

El sesgo relativo y la eficiencia relativa se calcularon de manera análoga a la sección


anterior.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


200 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

4.1. Modelación lineal

En un primer escenario, la caracterı́stica de interés fue obtenida a partir del mode-


lo lineal yk = b0 + b1 x1k + b2 x2k + ek . Por un lado x1 fue simulada a partir de una
distribución gamma con parámetros de forma y escala 50 y 0.00006, respectiva-
mente. Por otro lado x2 fue simulada a partir de una distribución normal que tiene
con media 50 y varianza 10. Los valores asignados a b0 , b1 y b2 fueron 50000000, 11
y 11, respectivamente. Se generaron errores aleatorios mediante una distribución
normal y se tuvieron en cuenta varios escenarios cambiando el tamaño poblacional
y el tamaño muestral. La Tabla 5 muestra los resultados de la simulación.

Tabla 5: Modelo lineal: ajuste con dos variables auxiliares y correlación de 0.2.
Fuente: Elaboración propia.
N n CVE CAL CVE CALS SR CAL SR CALS ER-CAL
10000 1000 0,7070 0,7075 0,0117 % 0,01 % 0,9986
10000 100 2,0968 2,0969 -0,3673 % -0,37 % 0,9999
10000 10 7,8338 7,8401 -0,1331 % -0,13 % 0,9983
1000 100 2,3345 2,3313 -0,0749 % -0,09 % 1,0031
1000 10 7,1264 7,1269 0,3948 % 0,36 % 1,0005
100 10 8,8693 8,8644 0,3161 % 0,30 % 1,0014

En un segundo escenario, se tuvo en cuenta el modelo yk = b0 + b1 x1k + ek . La


caracterı́stica de información auxiliar x1 se generó a partir de dos distribuciones,
una distribución gamma con parámetros 50 y 0.00006 y una distribución normal
de media 9800 y varianza 1, que generaron algunos outliers en la variable x1 . Se
utilizó un intercepto b0 de 53000 y se definió la pendiente como b1 = 2. La Tabla
6 da cuenta del comportamiento de los estimadores de interés.

Tabla 6: Modelo lineal: ajuste con una variable auxiliar y correlación de 0.8.
Fuente: Elaboración propia.
N n CVE CAL CVE CALS SR CAL SR CALS ER-CAL
10000 1000 0,5320 0,5320 0,0021 % 0,0020 % 1,0001
10000 100 1,5995 1,5996 -0,0458 % -0,0459 % 0,9999
10000 10 5,0466 5,0467 -0,6461 % -0,6466 % 1,0000
1000 100 1,5832 1,5834 -0,3400 % -0,3419 % 0,9998
1000 10 5,0684 5,0687 -0,2450 % -0,2477 % 1,0000
100 10 4,9640 4,9623 -1,4918 % -1,4942 % 1,0007

En general, es posible observar que el sesgo relativo de los estimadores de ca-


libración es despreciable. Además, se evidencia que el estimador de calibración
suavizado es aceptable, en términos de que los CVE son inferiores al 5.1 % sin im-
portar bajo qué escenario fueron construidos. Bajo la calibración y la calibración
suavizada, las estimaciones encontradas están muy cerca al valor real; sin embar-
go, no es posible decir que alguno de los dos métodos sea más eficiente, ya que los
CVE son muy parecidos.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 201

4.2. Modelo no lineal

Para este tipo de modelación también se generaron varios escenarios. En el primero


de ellos, se consideró el siguiente modelo para generar los valores de la caracterı́stica
de interés yk = b0 + b1 x1k + b2 x2k + ek . Los valores de la variable auxiliar x1 se
generaron mediante la simulación de una distribución gamma con parámetros de
forma 50 y de escala 0.00006 y x2 se obtuvo bajo una distribución normal de media
50 y varianza 10. La Tabla 7 evidencia los resultados de esta simulación.

Tabla 7: Modelo no lineal: ajuste con dos variables auxiliares y correlación de 0.4.
Fuente: Elaboración propia.
N n CVE(CAL) CVE(CALS) SR(CAL) SR(CALS) ER-CAL
10000 1000 0.6125 0.6117 0.0094 % -0.0171 % 1.0032
10000 100 2.0294 2.0300 -0.0616 % -0.1061 % 1.0003
10000 10 6.6320 6.6299 0.3325 % 0.2102 % 1.0031
1000 100 1.9488 1.9484 0.0567 % 0.0091 % 1.0014
1000 10 6.5622 6.5626 0.3451 % 0.2289 % 1.0022
100 10 6.2215 6.2244 0.4605 % 0.3454 % 1.0014

En un segundo escenario, los valores de la caracterı́stica de interés fueron obtenido


con base en el modelo yk = b0 + b1 x1k + b2 x2k + ek , donde x1 se obtuvo por medio
de simulación de una distribución gamma con parámetros de forma 50 y de escala
0.00006. Dentro de la simulación se crearon algunos outliers para la variable y que
se generaron con una distribución normal de media 20000 y varianza 5. La Tabla
8 muestra los resultados encontrados en este escenario.

Tabla 8: Modelo no lineal: ajuste con dos variables auxiliares, correlación de 0.1 y
outliers en la caracterı́stica de interés. Fuente: Elaboración propia.
N n sigma CVE(CAL) CVE(CALS) SR(CAL) SR(CALS) ER-CAL
10000 1000 10000 0.7626 0.7622 0.0363 % 0.0097 % 1.0014
10000 100 10000 2.5945 2.5950 -0.0314 % -0.0783 % 1.0006
10000 10 10000 8.3703 8.3579 0.5597 % 0.4346 % 1.0055
1000 100 10000 2.7249 2.7188 0.1006 % 0.0457 % 1.0056
1000 100 100 2.3997 2.3955 0.0336 % 0.0304 % 1.0059
1000 10 10000 9.9272 9.8752 0.9739 % 0.8360 % 1.0133
1000 10 100 8.6589 8.6023 0.6860 % 0.5580 % 1.0158

En general, se obtiene un sesgo relativo muy cercano a cero. Para un tamaño


poblacional y muestral grande, se tienen resultados más precisos, por ende un
sesgo relativo muy pequeño. Las simulaciones reflejaron menor varianza para el
estimador CALS, lo anterior teniendo en cuenta los cálculos de la eficiencia relativa
que son mayores a uno.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


202 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

5. Aplicación real: la encuesta de Familias en Ac-


ción

En Colombia, la Constitución Nacional de 1991 establece la necesidad de dirigir el


gasto social a la población más pobre y vulnerable por parte del Gobierno Nacional
y de los gobiernos departamentales y locales. Para cumplir con este mandato, los
responsables de la administración pública deben contar con objetivos que garan-
ticen una total transparencia en la identificación de las necesidades reales y en la
selección de los beneficiarios para los programas sociales.
Familias en Acción es un programa del gobierno, que está dirigido a hogares despla-
zados y a los clasificados en el primer nivel del Sisbén, el cual tiene como objetivo
ayudar a estos hogares a acceder a niveles suficientes de nutrición y cuidado de
la salud, además, de ser beneficiarios de una formación adecuada en educación
primaria y secundaria. Para esto, el programa otorga a las familias beneficiarias
un monto mensual, que constituye un subsidio nutricional o un subsidio escolar
que varı́a de acuerdo al número de hijos que asisten a un centro educativo.
Para evaluar el impacto del programa fue necesario recoger información que per-
mitiera crear una lı́nea base, es decir, se establecieron las condiciones de vida antes
de la implementación del programa; por un lado, para hogares beneficiarios de los
subsidios, los cuales son denominados grupo tratamiento y por otro para hogares
que tienen caracterı́sticas similares pero que no participan en el programa deno-
minados grupo control, luego de un perı́odo de doce meses se aplicaron de nuevo
las encuestas a la misma lı́nea base, con la finalidad de evidenciar si hubo cambios
en la calidad de vida y conocer si efectivamente el programa tuvo algún tipo de
impacto en la población.

5.1. Estimaciones

Para aplicar la modelación de los factores de expansión, se usó la encuesta de


la lı́nea de base de Familias en Acción y se restringió el estudio a la ciudad de
Villavicencio. La lı́nea base se estableció bajo un muestreo aleatorio simple en dos
etapas.
Para la población de Villavicencio se tuvieron en cuenta dos preguntas del primer
módulo de la encuesta, las cuales se utilizaron como variables auxiliares en la
modelación de los factores de expansión. La pregunta 1, ✭✭¿Cuál es el número total
de personas en el hogar al que usted pertenece?✮✮, se denominó x1 y la pregunta
2, ✭✭¿De cuántos cuartos o piezas, incluyendo sala-comedor, dispone este hogar?✮✮,
se denominó x2 . En este artı́culo se consideró que los parámetros poblaciones de
interés en esta encuesta son: el número total de hogares atendidos y el número
total de personas atendidas por el programa Familias en Acción.
Haciendo uso de las dos variables auxiliares se aplicó el método descrito en este
artı́culo, tanto para el modelo lineal, como para el modelo no lineal. La estimación

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 203

de los modelos planteados se realizó a través de una regresión lineal, utilizando el


método de mı́nimos cuadrados, suponiendo homoscedasticidad en los errores. Una
vez estimados los parámetros de los modelos se procedió a realizar las estimaciones
del total poblacional utilizando el estimador suavizado, dado por:

X
t̂HT S
y,π = w̃k yk (23)
k∈s

Para la estimación de la varianza y los coeficientes de variación se utilizó la técnica


de bootstrap. El código computacional que se utilizó para la estimación del esti-
mador suavizado se encuentra en el apéndice de este artı́culo. A continuación se
presentan las tablas que contienen las estimaciones del total de familias y el total
de hogares usando los estimadores de HT y HTS para la población de Villavicen-
cio, además, del cálculo de los CVE. Dichas tablas están discriminadas según el
modelo usado para ajustar las estimaciones.

5.2. Modelo lineal

Para este modelo consideramos dos escenarios. El primero suponiendo que los
factores de expansión se ajustan como wk = β0 +β1 x2k +εk y el segundo suponiendo
que los factores de expansión se ajustan como wk = β1 x1k + β2 x2k + εk . Las Tablas
9 y 10 presentan los resultados de la estimación suavizada.

Tabla 9: Modelo lineal: estimaciones con HT y HTS para el primer escenario.


Fuente: Elaboración propia.
Estimación CVE
Hogares Personas Hogares Personas
HT 22039,33 116510,1 6,26 % 8,31 %
HTS 22043,24 117274,4 0,70 % 4,58 %

Tabla 10: Modelo lineal: estimaciones con HT y HTS para el segundo escenario.
Fuente: Elaboración propia.
Estimación CVE
Hogares Personas Hogares Personas
HT 22022,92 116386,7 6,26 % 8,31 %
HTS 20263,32 116454,5 3,32 % 7,94 %

De lo anterior se tiene que las estimaciones que fueron ajustadas en el primer


escenario presenta el menor CVE para la estimación de los hogares e igual CVE
para la estimación de las personas.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


204 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

5.3. Modelo no lineal

En este caso, sólo se tuvo en cuenta el siguiente ajuste para los factores de expan-
sión, tal que ln(wk − 1) = β0 + β1 x1k + εk . La Tabla 11 refleja el comportamiento
de los estimadores de interés.

Tabla 11: Modelo no lineal: estimaciones con HT y HTS. Fuente: Elaboración


propia.
Estimación CVE
Hogares Personas Hogares Personas
HT 22039.05 116654.5 6,26 % 8,31 %
HTS 22044.88 116905.2 0.078 % 4.39 %

En este caso, se presenta una reducción significativa en los coeficientes de varia-


ción incluso cuando las estimaciones puntuales con HTS no muestran una gran
diferencia con las obtenidas por el estimador HT.

6. Discusión
Teniendo en cuenta que la metodologı́a aplicada se basa en un modelo poblacio-
nal, es un gran hallazgo que el estimador HTS y CALS conserve la propiedad del
insesgamiento, incluso cuando el modelo poblacional es incorrectamente especifi-
cado. Incluso se evidencian que existe una relación inversa entre la correlación y
el coeficiente de variación, ya que a mayor correlación se obtiene un coeficiente de
variación estimado menor.
Comparando los coeficientes de variación estimados para una misma correlación,
se puede observar que a mayor tamaño poblacional, se hace más pequeño el CVE,
lo cual implica una mejor estimación. Se nota que el modelo no lineal tiene restric-
ciones, cuando hay elementos de inclusión forzosa y no tiene sentido práctico hacer
uso de este modelo cuando la encuesta presenta caracterı́sticas de estratificación
en donde se seleccionan todos los elementos de un estrato.
Bajo la calibración y la calibración suavizada, las estimaciones encontradas están
muy cerca al valor real; sin embargo, no es posible afirmar que alguno de los dos
métodos sea más eficiente, ya que los coeficientes de variación son muy parecidos.
En este sentido, la recomendación que podemos realizar es que no se utilice el
estimador de calibración suavizado, puesto que implica un mayor trabajo compu-
tacional y los resultados no son mejores que los encontrados con el estimador de
calibración clásico.
Por último, se resalta que dentro de los estudios que se podrı́an proyectar te-
niendo como base este trabajo de investigación, está la creación de un estimador
doblemente suavizado, que tenga en cuenta algunas caracterı́sticas del método de
muestreo balanceado.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 205

Recibido: 31 de agosto de 2012


Aceptado: 21 de noviembre de 2012

Referencias
Beaumont, J. F. (2008), ‘A new approach to weighting and inference in sample
survey.’, Biometrika. 95(3), 539–553.

Cassel, C., Särndal, C. E. & Wretman, J. H. (1977), Foundations of inference


in survey sampling, Wiley series in probability and mathematical statistics.
Probability and mathematical statistics, Wiley.

Daprfip (2007), Departamento nacional de planeación de colomia: Diseño de la


muestra, levantamiento de la información y construcción de la bd para la
evaluación de impacto de la expansión urbana de familias en acción para
sisben 1.

Deville, J. C. & Särndal, C. E. (1992), ‘Calibration estimators in survey sampling.’,


Journal of the American Statistical Association. 87, 376–382.

Estevao, V. M. & Särndal, C. E. (2000), ‘A functional approach to calibration.’,


Journal of Official Statistics. 16, 379–399.

Gutiérrez, H. A. (2009), Estrategias de muestreo: Diseño de encuestas y estimación


de parámetros., Universidad Santo Tomás.

Rao, J. N. K. (2008), ‘Weighting and prediction in sample surveys.’, Calcuta sta-


tistical association. Bulletin. 60, 175–184.

Särndal, C. E. (2007), ‘The calibration approach in survey theory and practice.’,


Survey methodology. 33, 99–119.

A. Apéndice

A.1. Desarrollo teórico en el modelo no lineal

En este apartado se muestra que cuando xk = xk = 1, entonces el estimador de los


pesos suavizados se reduce a ŵk = N̂ /n. En primer lugar, nótese que bajo estas
condiciones, el estimador del coeficiente de regresión está dado por:

P
ln(wk − 1) X ln(wk − 1)
βb = k∈s
P =
k∈s 1 k∈s
n

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


206 Cindy Alzate, Adriana Villarraga & Andrés Gutiérrez

Y por tanto:
X exp(εk )
b
ŵk = 1 + exp(β)
n
k∈s
X ln(wk − 1) X exp(εk )
= 1 + exp( )
n n
k∈s k∈s
Y ln(wk − 1) X exp(εk )
=1+ exp( )
n n
k∈s k∈s
Y 1
X exp(εk )
=1+ [exp(ln(wk − 1))] n
n
k∈s k∈s
Y 1
X exp(εk )
=1+ [wk − 1] n
n
k∈s k∈s

Por otro lado, teniendo en cuenta que xk = 1, se tiene que:


X exp(εk ) 1X
= exp[ln(wk − 1) − xk β̂]
n n
k∈s k∈s
1X X ln(wk − 1)
= exp[ln(wk − 1) − ]
n n
k∈s k∈s
1 X exp(ln(wk − 1))
= P ln(wk −1)
n
k∈s exp( k∈s n )
1X wk − 1
= Q 1
n ( exp(ln(wk − 1))) n
k∈s
1X wk − 1
= Q 1
n ( wk − 1) n
k∈s

Y por lo tanto:
Y 1 1X wk − 1
w
bk = 1 + [wk − 1] n Q 1
n ( wk − 1) n
k∈s k∈s

1X b
N
=1+ (wk − 1) =
n n
k∈s

Puesto que, como es bien sabido, la suma de los factores de expansión en una
encuesta probabilı́stica es un estimador insesgado del tamaño poblacional.

A.2. Estimación HTS en la encuesta de Familias en Acción

A continuación se presenta el código computacional para la realización del suavi-


zamiento de los factores de expansión en el modelo no lineal que se aplicó en la
encuesta de Familias en Acción.

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2


Modelación de factores de expansión 207

rm(list=ls(all=TRUE));
data1<-read.csv("villavicencio.csv",dec=",",sep=";",header=TRUE);
names(data1);attach(data1)
library(TeachingSampling)

#Factor de expansión clásico


w<-FE1*FE2
w

#Estimación de Horvitz-Thompson
HThogar<-sum(w)
HThogar
HTpersonas<-sum(w*X1)
HTpersonas

#Modelación no lineal

w1<-\ln(w-1)
n<-dim(data1)[1]
el<-w1-lm(w1~X1)$fit
w1.s<-1+(\exp(lm(w1~X1+1)$fit)*(1/n)*sum(\exp(el)))

#Estimación de Horvitz-Thompson Suavizado


HTS1hogares<-sum(w1.s)
HTS1hogares
HTS1personas<-sum(w1.s*X1)
HTS1personas

Comunicaciones en Estadı́stica, diciembre 2012, Vol. 5, No. 2