Beruflich Dokumente
Kultur Dokumente
Taller 1
2018-II
María Alejandra Rocha Troncoso – 201514644
Complementario: Juan Camilo Yamín
Punto 1.
f. Explique la intuición de la Prueba de Hausman en este caso. ¿Qué está pasando cuando
𝜷𝑬𝑭 = 𝜷𝑬𝑨 (en términos de consistencia y eficiencia)? ¿Qué pasa cuando 𝜷𝑬𝑭 ≠ 𝜷𝑬𝑨?
¿Cuál prefiere utilizar en cada caso?
La prueba de Hausman es una prueba de chi cuadrado que nos determina si se evidencian
diferencias sistemáticas y significativas entre los coeficientes de dos estimaciones. Se emplea
con el fin de saber si un estimador es consistente y por otro lado, saber si una variable es o
no relevante.
Estimador 1 Estimador 2
Hipótesis Nula Consistente Consistente y Eficiente
Se realiza la prueba de Hausman para comparar los estimadores de Efectos Fijos y Efectos
Aleatorios y se obtiene lo siguiente:
𝜒42 = 245.74
𝑃𝑟𝑜𝑏 > 𝜒2 = 0.000
Así, con un p-valor menor a 0.05 se rechaza la hipótesis nula y se concluye que Efectos Fijos
es la metodología más adecuada para estimar el modelo.
¿Qué implicaciones tienen los resultados de la prueba? ¿Cuál de las dos metodologías es
más adecuada?
Los resultados de la prueba implican que el 𝛽 de Efectos Fijos es inconsistente pero eficiente.
Así, con base en la intuición realizada en el literal g, la metodología más adecuada para
estimar el modelo es la de Efectos Fijos por que es posible que existe una correlación entre
la heterogeneidad individual del distrito y las variables observadas.
Punto 2.
a. Este punto se encuentra en las hojas examen.
b. Discuta si el estimador de IV encontrado anteriormente es consistente para evaluar el
impacto del programa “Pequeños Pilos”. Justifique.
Para evaluar si el estimador de Variables Instrumentales es consistente es necesario tener en
cuenta tres factores: exogeneidad, relevancia y Monotonicidad. En este caso, se elige como
IV la elegibilidad.
El instrumento es no exógeno porque si bien no me está influyendo ni cambiando mi variable
𝑦𝑖 , en este caso, correspondiente a la medida estandarizada de habilidades cognitivas. Así,
intuitivamente conozco que no debo incluir esta variable en el modelo. Este solo me establece
la elegibilidad en el modelo si me encuentro dentro del rango del SISBEN menor o igual a
17 que me clasifica como elegible para recibir el paquete nutricional. Sin embargo, dado que
existe la decisión de tomar o no el paquete nutricional, existe una decisión endógena y se
duda de la exogeneidad del instrumento para evaluar el impacto del programa.
Por otro lado, el instrumento es relevante por su alta correlación con mi variable observable,
en este caso la variable dicótoma Di , que me indica si efectivamente el hogar recibió el
paquete nutricional y 0 si pasó lo contrario. Así, en un ambiente real, son los hogares
elegibles, identificados por el instrumento, lo que efectivamente deberían recibir el paquete
nutricional. Y sucede lo contrario con lo que se encuentran por encima del umbral los que no
deberían recibir el paquete nutricional, aunque esto no siempre sucede.
Además, se evalúa la monotinicidad del instrumento, la cual es clara al establecer que, según
el umbral de elegibilidad, su efecto sobre la variable dicótoma es definida y siempre positiva.
Finalmente, se concluye que el instrumento no es consistente para evaluar el programa de
“Pequeños Pilos”.
La intuición que sucede detrás de esto es que al disminuir el ancho de banda se están
evaluando individuos con características individuales muy parecidas y así, no hay
diferencias en sus medias, es decir, no hay existen diferencias sistemáticas entre
individuos. Al igual, se reduce la muestra al disminuirlo. Al ampliar el ancho de banda
estamos incluyendo individuos más diferentes en sus características individuales. Sin
embargo, estos son pruebas con anchos de bandas aleatorios y no nos indican si realmente
el ancho de banda óptimo es el de 1 punto dado que, se considera un valor relativamente
pequeño para realizar una estimación correcta del modelo.
El economista enfrenta varios trade-off a la hora de escoger un ancho de banda óptimo para
analizar el programa.
En primer lugar, se encuentra el trade-off entre precisión y sesgo. Lo que sucede es que, al
hacer mi ancho de banda más amplio, este aborda individuos más heterogéneos, con
características diferentes e incurro en un sesgo de selección. Cuando lo hago más pequeño,
mis observaciones y la muestra que necesito para realizar la estimación se reduce y por lo
tanto pierdo precisión. Además, se debe tener en cuenta que mi efecto es local para aquellas
personas que se encuentran en el ancho de banda y no es aplicable para toda la población.
Por otro lado, se evidencia un trade-off entre consistencia y eficiencia. Como se menciona en
el literal anterior, mi instrumento es relevante y por lo tanto establece la elegibilidad en el
tratamiento, lo cual puede ser identificado como consistencia. Sin embargo, dado que el
efecto es local pierdo eficiencia, disminuyendo mis grados de liberad por que mi muestra se
reduce significativamente. Así, el trade-off entre consistencia y eficiencia se puede generar a
la hora de ampliar o disminuir mi ancho de banda.
En la tabla se observa que el ancho de banda óptimo para estimar es de 3.06. Así, mi valor
más pequeño es de 13.936 y mi mayor valor corresponde a 20.064.
e. Suponga que antes de estimar el efecto del tratamiento, a usted le interesa estimar dentro
del ancho de banda óptimo la intención del tratamiento (ITT):
𝑻𝑽𝑰𝑷𝒊 = 𝜸𝟎 + 𝜸𝟏 𝒁𝒊 + 𝜸𝟑 𝒔𝒊𝒔𝒃𝒆𝒏 + 𝒖𝒊
VARIABLES TVIP
z 0.292***
(0.0681)
Sisben 0.0195
(0.0177)
Constant -0.194
(0.331)
Observations 768
R-squared 0.064
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
¿Cree usted que es importante controlar por el puntaje del sisben de forma lineal?
Sí es importante controlar por el puntaje del Sisben de forma lineal debido a que esto nos
permite un ajuste de acuerdo con el comportamiento y así, obtener el efecto real dentro del
ancho de banda óptimo sobre las personas que recibieron el paquete nutricional en
comparación a las que no. Esto se puede observar de mejor manera en el siguiente gráfico
obtenido de la clase de Adriana Camacho (2018):
Como se identifica en la gráfica, con promedios simples no observa de manera efectiva el
efecto en la variable de resultado. Mientras que, con un ajuste lineal, se añade de acuerdo con
el comportamiento antes y después del umbral y se obtiene un efecto más real del programa.
Así, lo que permite el ajuste lineal es tener en cuenta la relación entre la variable de resultado
y la variable de focalización.
Además, dado que la asignación de tratamiento y control no fue aleatoria, entonces controlar
por una tendencia lineal ayuda a reducir el sesgo de selección.
f. ¿Qué relación puede observar entre el ITT del literal (e) y el estimador de IV encontrado
en el literal (a)?
En este punto se realiza una comparación entre el ITT que se encuentra a continuación:
𝐼𝑇𝑇 = 𝐸[𝑇𝑉𝐼𝑃𝑖 |𝑍 = 1] − 𝐸[𝑇𝑉𝐼𝑃𝑖 |𝑍 = 0]
Y el estimador de Wald, correspondiente a variables instrumentales del literal a:
̅̅̅̅̅̅̅1 − 𝑇𝑉𝐼𝑃
𝑇𝑉𝐼𝑃 ̅̅̅̅̅̅̅0
𝛽̂
𝑊𝑎𝑙𝑑 = ̅1 − 𝐷
𝐷 ̅0
Lo que nos indica el ITT es mi efecto del tratamiento según elegibilidad. Así, el efecto se
estima por medio de las diferencias en el puntaje de habilidades cognitivas dado que estoy en
el grupo de elegidos con un puntaje menor o igual a 17 puntos, menos mi puntaje de
habilidades cognitivas dado que mi puntaje del Sisben es mayor a 17 puntos. Por otro lado,
el estimador de variables instrumentales me indica la diferencia de medias en puntajes de
habilidades cognitivas con base en sí efectivamente recibí el paquete nutricional del
programa.
Lo que se puede identificar como la relación entre los dos es que cada uno toma en cuenta el
efecto del tratamiento dada la elegibilidad, pero, el estimador de Wald tiene en su estimación
las personas de las elegibles que efectivamente sí decidieron recibir el tratamiento.
De esta manera, se puede intuir que el numerador del estimador de Wald corresponde al
mismo ITT.
Bajo el supuesto del literal (c) ¿cree usted que podría estimar de forma válida el efecto del
programa “Pequeños Pilos” sobre las habilidades cognitivas de los niños utilizando IV?
El supuesto del literal c establece que no existe manipulación en el puntaje del Sisben de
acuerdo con la gráfica de Kernel y, por otro lado, que el ancho de banda correcto según las
pruebas de medias es de un punto. Así, bajo los dos supuestos enunciados se podría estimar
de forma válida el efecto del programa sobre las habilidades cognitivas de los niños utilizando
IV. Sin embargo, en primer lugar, es necesario determinar la exogeneidad del instrumento.
Intuitivamente, de acuerdo con lo obtenido en el literal c, el instrumento es exógeno por que
se encuentra dentro de un ancho de banda óptimo que acota individuos relativamente
homogéneos. Por otro lado, es necesario tener en cuenta que el ancho de banda no
corresponde al óptimo y tomar un ancho de banda de 1 punto puede incurrir en imprecisión
dado que es una cantidad de observaciones muy pequeña para el análisis.
g. Estime este efecto con el comando ivreg2 dentro del ancho de banda óptimo y muestre
ambas etapas.
Primera Segunda
Etapa Etapa
VARIABLES D TVIP
VARIABLES TVIP
Convencional 0.528***
(0.169)
Bias-corrected 0.461***
(0.169)
Robust 0.461**
(0.187)
Observations 4,000
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Además, añada un ajuste lineal para cada lado del umbral con el comando lfit.
j. Dado lo encontrado en el literal anterior, utilice la opción p( ) del comando rdrobust para
estimar el efecto del programa teniendo en cuenta una función cuadrática del puntaje.
p(2)
VARIABLES TVIP
Convencional 0.437**
(0.201)
Bias-corrected 0.408**
(0.201)
Robust 0.408*
(0.225)
Observations 4,000
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Punto 3.
a. Con el propósito de hacer una evaluación del piloto para la posterior expansión del
programa, usted se enfoca en lo que ocurre entre los momentos (1) y (2). ¿Qué posible
efecto podría estimar en este caso? Explique cuál sería un buen grupo de control y uno de
tratamiento. Especifique que condiciones debe cumplir el grupo de control para no violar
los supuestos del modelo de diferencias en diferencias.
El posible efecto que se podría estimar en este caso es la diferencia promedio entre el
momento 2 y el momento 1 en el grupo de tratamiento. Por otro lado, se podría estimar el
posible cambio esperado entre el período 2 y el período 1 del grupo de control.
Además, se puede observar que sucede con la implementación del programa con la unión de
otros factores, es decir, teniendo en cuenta la inercia de las variables.
El grupo de tratamiento se identifica como las familias elegidas en los 250 barrios
seleccionados aleatoriamente en Bacatá. Para identificar el grupo de control existen varias
opciones:
En primer lugar, se pueden escoger familias con niños menores de 5 años de los 250 barrios
restantes, con el fin de observar que sucede en un momento después cuando estas no reciben
el paquete nutricional del programa “Pequeños Pilos”. Otra opción posible como grupo de
control son aquellos niños mayores de 5 años que conocemos que no han recibido el paquete
nutricional en aquellos mismos barrios seleccionados. Lo anterior permite conocer que
sucede con los niños cuando no han recibido ningún paquete nutricional. Sin embargo, de
este grupo de control no tenemos con exactitud medidas para conocer que ocurre en el
momento (1) y así, se dificulta comprobar las tendencias paralelas entre los dos grupos.
Así, se elige a las familias con niños menores de 5 años de los 250 barrios de Bacatá restantes
que no fueron seleccionados. La aleatorización me permite controlar las características de
cada barrio.
Las condiciones que debe el cumplir el grupo de control para no violar los supuestos del
modelo de diferencias en diferencias son los siguientes:
Tendencias paralelas: Estas nos indican que la variable de resultado evoluciona de
manera natural en el tiempo de la misma forma entre el grupo de control y tratamiento.
Para lo anterior, se necesita más de un período antes de la intervención.
Datos antes y después: Encuestas en dos momentos del tiempo. Este también debe
suceder con el grupo de tratamiento. Estos datos pueden ser cortes transversales repetidos
o datos panel.
Los resultados en ausencia del programa deberían ser los mismos para ambos grupos, es
decir:
[𝐸(𝑌𝑖1 |𝐷 = 1) = 𝐸(𝑌𝑖0 |𝐷 = 0)]
Y lo mismo sucede si los dos grupos tomaran el programa.
Los factores externos tienen que afectar de la misma forma al grupo de comparación y al
de control.
b. Dado que usted ya definió los grupos de tratamiento y de control y, además, los períodos
previos y posteriores al tratamiento, escriba la ecuación que estimaría para hacer esta
evaluación de impacto. Dado que la unidad de asignación del tratamiento fue el barrio
¿cree usted que debe realizar alguna corrección sobre los estimadores o su varianza?
Dado que nos encontramos trabajando bajo datos panel, la posible estimación para realizar la
evaluación de impacto es la siguiente:
𝑌𝑖 = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 ∗ 𝑃𝑜𝑠𝑡 + 𝛽3 (𝐷𝑖 ∗ 𝑃𝑜𝑠𝑡) + 𝑢𝑖
Donde Post es la variable de tiempo que me indica el momento anterior o posterior a la
implementación del programa y D es una variable dicótoma que me indica si pertenece a
control o a tratamiento.
Siguiendo esta línea, de acuerdo con que la unidad de asignación del tratamiento fue el barrio
considero que se debe realizar una corrección sobre los estimadores o su varianza por que
puede existir un comportamiento similar entre las familias de los barrios, entonces esto se
puede corregir por medio de clusters de barrios para identificar el problema.
Por otro lado, también se puede hacer uso de la siguiente ecuación:
𝑌𝑖2 − 𝑌𝑖1 = 𝛽0 + 𝛽1 (𝐷𝑖2 − 𝐷𝑖1 ) + (𝑢𝑖2 − (𝑢𝑖1 )
Esta estima la primera diferencia para conocer el impacto del programa de pequeños pilos.
d. ¿Cómo puede aprovechar estos datos para validar los supuestos antes de iniciar el piloto?
𝑛 𝑛
Yit = β0 + β1 Di + ∑ 𝜆𝑡 𝑇𝑡 + ∑ 𝛿𝑡 ∗ 𝐷𝑖 ∗ 𝑇𝑡 + ui
𝑡=1 𝑡=1
En este caso los n corresponden a todos aquellos meses que se encuentran en la base de datos
antes de iniciar el programa piloto. La D corresponde a 1 si el individuo i recibe el tratamiento
en el período t y o de lo contrario. T captura el efecto de tiempo para los meses antes de la
implementación del piloto.
e. ¿Cómo puede aprovechar estos datos para evaluar si hay efectos diferentes a través del
tiempo?
𝑚 𝑚
Yit = β0 + β1 Di + ∑ 𝜆𝑡 𝑇𝑡 + ∑ 𝛿𝑡 ∗ 𝐷𝑖 ∗ 𝑇𝑡 + ui
𝑡=1 𝑡=1
En este caso los m corresponden a todos aquellos meses que se encuentran en la base de datos
después de haber iniciado el programa piloto. La D corresponde a 1 si el individuo i recibe el
tratamiento en el período t y 0 de lo contrario. T captura el efecto de tiempo para los meses
posterior a la implementación del piloto.
La variable indicador D me indica las diferencias sistemáticas entre los grupos de control y
tratamiento.
La unión de las ecuaciones planteadas en los incisos d y e permiten demostrar las tendencias
paralelas entre los grupos de tratamiento y control durante los meses de antes y después de la
implementación del programa piloto. Demostrar estas tendencias paralelas permite identificar
el efecto real del tratamiento, controlando por las diferencias sistemáticas entre los dos
grupos.
ANEXOS
DO FILE
***************************************************
********************* TALLER 2 ********************
******** María Alejandra Rocha Troncoso ***********
****************************************************
cd "/Users/mariaalejandrarochatroncoso/Documents/2018-2/Econometría
Avanzada/Talleres/Taller 2"
**** PUNTO 1 ****
*g*
use pruebas.dta
tab anho
sort distrito anho
br
xtset distrito anho, yearly
xtreg aprobado gasto salario desercion alumnos, fe
outreg2 using "reg.doc"
est store fe
xtreg aprobado gasto salario desercion alumnos, re
est store re
outreg2 using "reg.doc", append
* h * Prueba de Hausman *
*c*
** 5 puntos **
ttest personas if inrange(sisben,12,2), by(D)
ttest educa_jefe if inrange(sisben,12,22), by(D)
ttest ocupado_jefe if inrange(sisben,12,22), by(D)
ttest ingresos_hogar_jefe if inrange(sisben,12,22), by(D) //Significativas, no es el ancho de banda
correcto
** 1 punto **
ttest personas if inrange(sisben,16,18), by(D)
ttest educa_jefe if inrange(sisben,16,18), by(D)
ttest ocupado_jefe if inrange(sisben,16,18), by(D)
ttest ingresos_hogar_jefe if inrange(sisben,16,18), by(D) // No significativas y por lo tanto el ancho
de banda es de un punto.
*d*
rdbwselect tvip sisben, c(17) fuzzy(D)
*e*
gen z=1 if sisben<=17
replace z=0 if z==.
reg tvip z sisben if inrange(sisben,13.936,20.064)
outreg2 using "puntoee.doc"
*g*
** Dos Etapas **
ivregress2 2sls tvip (D=z) sisben if inrange(sisben,13.936,20.064), first
est restore first
outreg2 using "estees.doc", replace
est restore second
outreg2 using "estees.doc", append
*h*
*** Normalizando la variable ***
gen sisbenp = -(sisben-17)
gen nsisben = (sisben-17)
rdrobust tvip sisbenp, fuzzy(D) h(3.064) all
outreg2 using "rdrobust.doc"
*i*
scatter tvip sisbenp
twoway (scatter tvip nsisben) (lfit tvip nsisben if z==1) (lfit tvip nsisben if z==0)
twoway (scatter tvip nsisben) (qfit tvip nsisben if z==1) (qfit tvip nsisben if z==0)
*j*
rdrobust tvip sisbenp, fuzzy(D) b(3.064) p(2) all
outreg2 using "p2.doc"