Beruflich Dokumente
Kultur Dokumente
N° 15
Financeandeconometric
Rafael Bustamante
El aumento de bases de datos, junto con el progreso en las técnicas econométricas, ha facilitado el
perfeccionamiento de estudios cada vez más sofisticados de los fenómenos económicos, permitiendo asesorar
más acertadamente a los responsables de la elaboración de las políticas públicas y a los hombres de negocios.
Sin embargo, estas herramientas se han tornado cada vez más complejas, demandando un alto grado de
conocimiento teórico y práctico para poder implementarlas. La metodología de Datos de Panel es una de las
más usadas en los últimos tiempos en el ámbito de la economía, las finanzas y los negocios. Su riqueza radica
en que permite trabajar simultáneamente varios periodos de tiempo y los efectos individuales, y a su vez, tratar
el problema de la endogeneidad. A pesar de las ventajas de esta técnica, existen diversos obstáculos para su
implementación, tanto metodológicos como operativos. Esta guía intenta ayudar a los alumnos, investigadores
y profesionales que buscan llevar a cabo estudios utilizando Datos de Panel, ofreciendo una pauta para manejar
Palabras Claves: Econometría de datos de Panel, especificaciones, Efectos Fijos, Efectos aleatorio
Doctorado en Economía con mención en los Recursos Naturales (c), Universidad Nacional Autónoma de
México, estudios de Doctorado en Economía UNMSM, MBA Gerencial, CENTRUM Pontificia Universidad
Católica del Perú. Maestría en Economía con mención en Finanzas, Universidad Nacional Mayor de San
Marcos. B. Sc. Economía, UNMSM. Profesor Auxiliar del Departamento de Economía de la UNMSM.
Investigador asociado al Instituto de Investigaciones FCE-UNMSM. Contacto:
Rafael.bustamante.romani@gmail.com
Serie Apuntes de Clase. N° 01. Julio de 2019. Financeandeconometric S.A.C.
Contenido
1. Introducción .................................................................................................................................. 5
2. Metodología .................................................................................................................................. 9
2.2. Desventajas del uso de los datos de panel .......................................................................... 14
3. Efectos Fijos versus efectos Aleatorios ....................................................................................... 22
4. Nuestro marco de análisis y los estimadores alternativos .......................................................... 23
4.1 Estimador Within................................................................................................................... 24
4.2 Estimador Between ............................................................................................................... 26
4.3 Estimador de mínimos cuadrados generalizados.................................................................. 27
4.4 Mínimos cuadrados generalizados factibles ............................................................................. 29
6. Estimador a usar .......................................................................................................................... 30
6.1 Efectos no observados .......................................................................................................... 31
6.2 Existe correlación entre los efectos no observados y los Regresores ....................................... 32
7. Aplicaciones................................................................................................................................. 34
7.1 Configurando ......................................................................................................................... 34
7.2 Análisis de datos panel de dos períodos ................................................................................... 38
7.3. Controlando la heterogeneidad dentro de un panel ........................................................... 42
7.3.1 Regresión agrupada (POOLED OLS) ................................................................................ 42
7.3.2 Efectos Aleatorios (Random Effects) .............................................................................. 42
7.2.3 Efectos Fijos (Fixed Effects) ............................................................................................ 44
7.3.4 Autocorrelación .............................................................................................................. 47
7.2.5 Heterocedasticidad ........................................................................................................ 50
7.3 Efectos fijos vs. Aleatorios ..................................................................................................... 51
7.4 Efectos temporales (two-way fixed effects) ......................................................................... 52
8. Bibliografía .................................................................................................................................. 54
Serie Apuntes de Clase. N° 01. Julio de 2019. Financeandeconometric S.A.C.
1. Introducción
ganancias de que se tienen de tener información sobre cada uno de los individuos para
➢ Primero es que logramos expandir el tamaño de nuestra base de datos, y, con esto,
cada miembro del corte transversal en el conjunto de datos. Como ejemplo, suponga
que se tienen las variables de salario, educación, nivel de crédito, acceso a educación y
experiencia de un grupo de individuos a los que se les hace seguimiento por varios
La característica principal de los datos panel, que los diferencian de las combinaciones de
transversales ya sean individuos, países, regiones, entre otros, durante cierto período de
Como los datos de panel exigen la repetición de las mismas unidades con el tiempo, los
conjuntos de estos datos, en particular de los individuos, hogares y empresas, son más
Es decir, es posible capturar inferencias causales que no es posible capturar con los cortes
transversales. La segunda ventaja de los datos panel es que permite estudiar la importancia
puede ser significativa, puesto que es de esperar que muchas políticas económicas tengan
La idea del panel es poder capturar esos factores inobservables, por ejemplo, lo que influye
Ahora bien, si además explotamos el hecho de que estamos observando cómo cambia el
regresión nuestros esfuerzos por aislar el efecto de determinada variable sobre otra
Puesta de esta manera, nuestra técnica puede ser duramente criticada: muchos otros
elementos que influyen sobre la respuesta pueden ser distintos entre un agente y otro, o
haber cambiado a lo largo del tiempo y nosotros, erróneamente, se los estamos atribuyendo
la posibilidad de aislar los efectos de una variable de interés. Frente a esto, y utilizando 6
regresiones particionadas, podríamos responder que para eso están los controles y que por
que, sobre todo cuando hablamos del comportamiento de agentes individuales, el riesgo de
una base de datos de panel, en lugar de indagar si determinado agente está mejor que su
vecino o mejor que en el pasado, lo que podemos hacer es preguntar qué tan distinta es la
_
_
_ _
y − y −
it i jt
y − y j . En la expresión anterior y i y y j se refieren a los promedios de la
variable dependiente tomados sobre las T observaciones en el tiempo para el i-ésimo y j-
tenemos datos que varían tanto a través del espacio como a lo largo del tiempo y nos
permitiría, en principio, limpiar aquellos efectos que influyen sobre el fenómeno bajo
análisis y no tienen que ver con la característica que se busca evaluar (Beltran & Castro,
2010).
una variable relevante conlleva la lidiar con la presencia de estimadores sesgados. Para
muestras grandes esto no debería ser un problema, excepto cuando esta omisión ocasiona
a través de la relación que tienen con las variables no observables omitidas en el modelo.
esto se debe, precisamente, a que esta variable no observable omitida, está usualmente
Ante la sospecha de que estamos frente a una situación como esta, el camino "clásico" pasa
con estructura de panel, sin embargo, nos ofrece un camino alternativo que implica,
precisamente, trabajar con los desvíos presentados líneas arriba. Si bien esto será discutido
formalmente en las secciones siguientes, no es difícil darse cuenta de que al trabajar con un
característica especial que este agente tiene y que no es posible capturar a partir del conjunto
de regresores propuesto.
Al tener observaciones que varían tanto a lo largo del tiempo como a través del espacio, es
"limpiar" las observaciones de efectos difíciles de capturar que, de otro modo, hubiesen
resultado en estimados inexactos incluso en muestras grandes (Beltran & Castro, 2010).
2. Metodología
El objetivo de esta sección es familiarizar al lector con la estructura de la base de datos, así
través del espacio como a lo largo del tiempo (Beltran & Castro, 2010).
Al respecto se sugiere, la generalización que aquí discutimos se refiere al rol del intercepto.
problema de quiebre estructural), solo tiene sentido "desviar" o "controlar" con respecto a
un promedio: aquel tomado usando toda la información disponible, ya sea a lo largo del
tiempo o a través del espacio. Conviene recordar que estos desvíos respecto a la media son
provistos, precisamente, por el intercepto1. Así, es fácil darnos cuenta de qué está detrás de
fenómeno bajo análisis. Dicho de otra forma, en un modelo con intercepto la pendiente (o
"beta") asociada al i-ésimo regresor nos indicará cuánto cambia la variable dependiente
respecto a su valor medio por cada unidad que el regresar se desvíe con respecto a su valor
dimensiones. Por lo mismo, será necesario decidir con respecto a qué media controlar: (i) la
media de todas las observaciones; (ii) la media tomada a lo largo del tiempo, de cada uno
de los N agentes; (iii) la media tomada a través del espacio de cada uno de T momentos del
tiempo. En lo que sigue, se discute esto formalmente sin perder de vista una interpretación
1 El lector recordará la clásica demostración donde se verifica que las pendientes en un modelo con intercepto
son idénticas a las que se obtendrían si antes desviamos (o restamos) cada dato de su media o promedio 9
muestra! De hecho, este es un caso particular del resultado de una regresión particionada.
intuitiva basada en el rol que tiene el intercepto. Antes de proceder a la formalización del
individuo, como en el análisis de series de tiempo, a través del tiempo. Esto permite
como sus hábitos de consumo, su situación laboral, su nivel de estudios, etc. Estas
analista debe especificar como variables explicativas del modelo. Sin embargo no
todos los agentes toman sus decisiones de igual modo: diferentes agentes, incluso si
en que este toma sus decisiones. Si estos efectos latentes existen y no se recogen
Yi1
Yi 2
.
Yi = Para todo t = 1, 2,3,...., T (1)
.
.
YiT TX 1
X i1
1
X i1
2
. . . X i1
K −1
X i1
k
1 2 K −1 K
X i2 X i2 . . . X i2 X i2
. . . . . . .
(2)
Xi = . . . . . . .
. . . . . . .
X
1
X
2
. . . X iT −1
K −1
X iT −1
K
iT −1 iT −1
X iT
1
X iT
2
. . . X iT
K −1
X iT
K
TxK
Y1
i1 1 Y
i2 2 2
. . .
i = . Ademas : = . Y = . (3)
. . .
iT −1 N −1 YN −1
Y
iT TX 1 N NTX 1 N NTX 1
X1
X
2
.
(4)
X = . t = 1, 2, 3, T i = 1, 2, 3, ....., N
.
X N −1
X
N NTXK 11
Y = X + (5)
como:
1
2
.
(6)
= .
.
K −1
K
En base a lo anotado podemos afirmar que metodología de datos de panel lo que hace es
utilizar procedimientos adecuados para el manejo de las observaciones con una dimensión
de sección cruzada grande, con el objeto de estimar modelos econométricos que incluyan
de la muestra, podría pensarse en estimar un modelo econométrico con cada una de las T
secciones cruzadas para luego comparar la evolución de los coeficientes del modelo a lo
Las ventajas de modelos econométricos con información en panel, son las siguientes
Por esta razón aumentan los grados de libertad y, al utilizar las diferencias individuales
en los valores de las variables explicativas, se reduce la colinealidad entre las variables
asintóticas para N → y T → .
econométrico clave que siempre surge en los trabajos empíricos: siempre se señala que
variables no son observadas – que están correlacionadas con las variables explicativas.
• Permite estudiar de una mejor manera la dinámica de los procesos de ajuste. Esto es
comparación con los análisis de series de tiempo y de corte transversal. Un ejemplo claro
de este tipo de modelos, son los que se refieren a los que tratan de medir niveles de
estudio como en el tiempo. Con base en lo anterior, la técnica permite aplicar una serie
capturarla.
paramétrica del tipo f ( y/θ ) , donde θ es un vector real de dimensión k “idéntico para
todos los individuos en todo instante de tiempo”. Este supuesto puede no ser realista en el
caso de datos de panel; es más ignorar la heterogeneidad en los intercepto y/o en las
14
• Sesgo de selección:
Otra fuente de sesgo que se encuentra con frecuencia en datos de corte transversal y de
paneles de datos es que la muestra puede no haber sido extraída de manera aleatoria de una
población lo cual es poco frecuente en series de tiempo. Como consecuencia de ello se puede
✓ Desgaste muestral
Donde β i,t mide el efecto marginal de xit (es decir, el efecto marginal de las variables x en
el momento t para la i-ésima unidad). Este modelo es general y es necesario imponer cierta
estructura en los coeficientes; es decir, es necesario suponer que los agentes en cuestión
del espacio. El supuesto estándar es que i ,t es constante para todo i y t, deja abierta la
posibilidad de que haya un intercepto distinto para cada agente (i ) . Esto implica dejar
15
y = D + X + u (9)
Para hallar las expresiones asociadas al estimador mínimo cuadrático de estos intercepto y
pendientes, basta con recordar lo que sabemos sobre el rol del intercepto y el modelo en
desviaciones: desviemos cada observación respecto de la media de cada agente tomada
sobre el tiempo, construyamos el estimador mínimo cuadrático de las pendientes y
utilicemos este último para hallar los N interceptos. Para el i-ésimo agente, la media tomada
T
sobre el tiempo T de la variable dependiente viene dada por (1 / T ) yit . Lo mismo aplica
t =1
para el término de error y las variables explicativas. Denotemos estas medias como,
16
_ _ _
y i. , u i. , X i. respectivamente. Así, el modelo en desviaciones y los respectivos estimadores
pueden expresarse de la siguiente manera (Barco & Castro, 2010):
Nótese que hemos llamado Within a este estimador mínimo cuadrático de un modelo
requerida para desviar cada dato correspondiente al i-ésimo agente de su respectiva media.
Para esto, empecemos por darnos cuenta de que es necesario calcular N promedios, y que
necesitamos.
17
1 . . . 1 −
. y1.
. −
. . y1.
.
. . (11)
1 1 0 .
.
.
P= tal que P
−
. NTxNT y NTx1 = y2.
. −
0 1 . . . 1 y2.
.
. .
.
. . .
. .
−
1 . . . 1 yN.
La matriz P puede ser expresada de manera más compacta, y basta con restarla de la matriz
Este par de matrices juega un papel muy importante en el momento de construir los
desviaciones"), respectivamente. Como ocurre con todos los proyector mínimo cuadráticos,
el lector puede verificar rápidamente que estas dos matrices son simétricas e idempotentes.
y = D + X + u
= (I N iT ) + X + u
Qy = Q(I N iT ) + QX + Qu
(13)
= QX + Qu
Within =(XQ'QX) −1XQ'Qy
=(XQX)−1XQy
18
y = D + X + u
Within =(X ' M D X) −1X ' M D y (14)
M D = I NT − D( D D) D ' '
Las expresiones dadas en (12.) y (13.) no implican que se tenga dos maneras distintas de
expresar Within sino, más bien, implican que 3 M D = Q . Equivale a nuestra generalización del
resultado del modelo en desviaciones: estimar una regresión por mínimos cuadrados
ordinarios con un intercepto distinto para cada agente (resultado dado en [9.]). Equivale a
estimar una regresión con observaciones desviadas respecto del valor medio
correspondiente al agente en cuestión (resultado dado en [11.]).
Hasta ahora, nuestra discusión se ha centrado en la segunda de las tres opciones presentadas
al inicio del acá pite cuando nos referíamos a que en un panel de datos hay tres medias
distintas que pueden servir como controles. ¿Es posible realizar un análisis similar
trabajando con la media (tomada a través del espacio) de cada uno de los T momentos del
tiempo? ¿Respecto de qué estaremos controlando en este caso? Empezamos a responder
estas preguntas planteando la posibilidad de que exista un intercepto distinto para cada
momento del tiempo. Definamos, para esto, como v.1 a la media tomada sobre el espacio de
− N
la variable dependiente del t-ésimo momento y .t (1 / N ) yit .
i =1
2
Esta expresión muestra de manera explícita cómo este acápite es una aplicación del resultado de regresión particionada.
Si partimos de un modelo general y = X +u y particionamos la matriz X en dos subconjuntos de regresares de la
forma, es posible demostrar que las pendientes estimadas del segundo grupo de regresores vienen dadas por:
= (X'2 M1X2 )−1 X '2 M1 y , donde M1 = I − X1 ( X '1 X1 )−1 X1'
19
3
Esta igualdad se puede verificar fácilmente trabajando con las propiedades del producto Kronecker)
Nótese que también hemos llamado Within a este estimador. De hecho, le corresponde el
término "intra", solo que esta vez lo que buscamos es explotar la variabilidad intratemporal.
Nuestro interés recae en conocer cuánto cambia el comportamiento del agente respecto del
comportamiento promedio del grupo, cuando alguno de los factores que lo explican ( xit )
experimenta un desvío (de una unidad) respecto del valor medio del grupo. Al hacerlo,
estamos reconociendo que en cada momento del tiempo el grupo puede registrar un
promedio distinto.
En suma, los múltiples interceptos por agente nos permiten capturar qué tan distinta es la
respuesta de un agente respecto de su respuesta promedio, y comparar esto entre agentes
para un mismo momento del tiempo. Los múltiples interceptas de tiempo, por su parte, nos
permiten capturar qué tan distinta es la respuesta de un agente respecto de la respuesta
promedio del grupo, y comparar esto entre momentos del tiempo para un mismo agente.
En ambos casos se trata de una comparación de diferencias; de ahí la "doble diferencia" a la
que se hace referencia en el acápite introductorio.
Qy = Q D + Q X + Qu (16)
= Q X + Qu
' '
Within =(X Q Q X) X Q Q y −1
=(X Q X) −1X Q y
20
Ahora solo nos queda una de las opciones pendiente: la media de todas las observaciones.
Como se verá a continuación, es necesario introducir esta media "total" si es que se desea
trabajar con interceptas distintos para agente y tiempo, simultáneamente. Partamos de una
especificación general:
Y démonos cuenta de que al remover (o desviar respecto de) las medias por agente y tiempo,
todavía están presentes los valores promedio de estos interceptas. Formalmente:
_ _' _
y i. = i + (1 / T ) t + x i. + u i.
_ _' _
y .t = (1 / N) i + t + x .t + u .t
'
(18)
_ _ _ _
_ _
_ _
yit − y i. − y.t = − ( − ) + xit − x i. − x.t + uit − u i. − u .t
__ __
1 1
Donde: =
NT it
t
, = ;. Esto último implica que es posible eliminar estos
NT it i
términos constantes (para proceder con la estimación de las pendientes) si sumamos el
promedio total a la expresión dada en (17.). Este promedio total viene dado por:
= _ _ = =
y =+ + x +u
'
_ _ = _ _
_ _ =
_ _ =
yit − y i. − y.t + y = − ( − ) + xit − xi. − x.t + x + uit − u i. − u .t + u
_ _ =
_ _ =
Al regresionar yit − y i. − y .t + y sobre xit − x i. − x.t + x obtenemos Whitin y, con esto, es
posible hallar los estimadores de los efectos individuales y temporales: 21
_ =
_ =
i ,Within = y i. − y − Within xi. − x
(19)
_ = _ =
t,Within = y .t − y − Within x.t − x
Por último, el lector puede verificar que la transformación asociada pasa por pre multiplicar
el modelo por la matriz Q, la cual viene dada por:
1 1 1
Q = I NT − I N iT iT ' − iN i ' N IT + J (20)
T N NT
Donde J es una matriz unitaria de (NT x NT).
panel construido con encuestas de hogares realizada por los institutos de estadísticas de los
países. Dada la marcada heterogeneidad a través del espacio, de hecho, tiene más sentido
suponer que los distintos valores de i ; son (al igual que la información contenida en x) la
La distinción anterior es la que ha originado que, en algunos casos, se bosqueje una aparente
primero, se sugiere que los i ; son parámetros, mientras que en el segundo se trata a i ;
como una variable aleatoria. Sin embargo, esto puede acarrear a una interpretación errónea
del rol de i , así como de los resultados de algunas de las pruebas que notaremos más
adelante. Por lo mismo, aquí no haremos esta distinción y supondremos que i ; recoge 22
implica que más adelante no experimentemos saber más sobre la naturaleza de i , o que no
En un modelo de corte transversal no queda más que dejar que esta heterogeneidad no
observable sea capturada por el error, y confiar en que no esté correlacionada
contemporáneamente con alguno de los regresores incluidos5. El panel, sin embargo, ofrece
una alternativa distinta, ya que hace posible controlar por esta fuente de heterogeneidad no
observable.
4Factores como la "habilidad" o la "motivación" son sin duda determinantes de variables como la decisión de matricularse
en la educación superior o del salario por hora, pero difícilmente observables.
5 Tal como se discutió en el acápite introductorio, esta correlación contemporánea llevaría a que el estimador mínimo
cuadrático deje de exhibir la propiedad de consistencia. Una alternativa para esto es el uso del estimador de variables
instrumentales, con la subsecuente pérdida de información que su uso implica. 23
Es decir, supongamos que el error asociado a la observación del i-ésimo agente en el t-ésimo
momento del tiempo está compuesto de dos partes: un término que no varía a lo largo del
tiempo y recoge la heterogeneidad no observable atribuible al i-ésimo agente (i ) , que se
distribuye de manera idéntica e independiente con media igual a cero y varianza igual a 2
, y un término que registra realizaciones distintas tanto a lo largo del tiempo como a través
del espacio ( uit ) que distribuye de manera idéntica e independiente con media igual a cero
y varianza igual a u2 .
La forma compuesta que hemos supuesto para el error implica que, si bien este es
homocedástico, exhibe correlación serial cuando se trata de un mismo agente. Formalmente:
Var (vit ) = 2 + u2
(22)
Cov(vit , vis ) = 2 t s
También podemos expresar el modelo y su estructura de varianzas y covarianzas del error
en términos matriciales
:
Whitin = (W 'QW )−1 W 'Qy (24)
Lo que equivale a regresionar:
yit = + x 'it + i + uit
'
_
−
−
yit − y i. = x 'it − x i + i + uit − u i
−1
_ _
_ _
(25)
Within = ( xit − xi. )( xit − x i. )' (x it − x i . )(y it − y i . )
'
it it
= ='
t,Within = y − x Within
En este punto cabe destacar la forma que adopta el error del modelo transformado. Al
remover de cada observación la media correspondiente al agente en cuestión (haciendo uso
del proyector Q ), el nuevo término de error, al que denominamos v resulta:
_ _
v it = v it − v i . = it − i. (26)
_
T − 1
Var(v it ) = E (u it − u i . )2 = u2 − (2 / T) u2 + (1 / T ) u2 = u2
T
(27)
_
_
Cov(v it , v is ) = E (u it − u i . ) (u st − u i . ) = −(2 / T ) u2 + (1 / T ) u2 = − u2 (1 / T )
O de manera compacta:
construir un estimador Between que tome en cuenta la variabilidad interagentes. Para esto
basta con tomar los promedios para cada agente y utilizar esta información como si se
tratase de una base de datos .de corte transversal. Como sabemos, estos promedios son
Between = (W'PW)-1W 'Qy (29)
i i (30)
= ='
Between = y − x Between
Al igual que sus predecesores (y siempre y cuando el error sea independiente en media de
los regresores: E(v / X ) = 0 el estimador Between es insesgado. Asimismo, tampoco es
_ _
eficiente. De hecho, el término de error del modelo transformado v it = i + i . también
exhibe Jt I r correlación.
_ _
_ __
2
1
Var(v)it = Cov(v it , v is ) = E i + u i = u2 + u2 (31)
T
26
esto, es preciso transformar el modelo de modo que el “nuevo” error exhiba una matriz de
ahora lo consigue5.
Definamos como R a la matriz que transforma al modelo de modo que el nuevo error tenga
una estructura de varianzas-covarianzas escalar. Esto implica que R debe ser tal que:
R ' R = c −1 (33)
Donde c es un escalar positivo. Es posible demostrar que la forma de esta matriz viene dada
por:
R = I NT (1 − ) P = Q + P
u2 (34)
=
u2 + 2
Es decir que la transformación que garantiza un estimador eficiente es aquella que remueve
de cada observación una proporción (1 − ) de su media, donde es función de las varianzas
de los dos componentes del error. De hecho, no es difícil demostrar que la estructura de
varianzas-covarianzas del error transformado Rv es escalar:
Lo anterior garantiza que el estimador asociado sea eficiente, y, por lo mismo, pertenece a
la clase de estimadores de mínimos cuadrados generalizados (MCG).
MCG = (WR ' RW ) −1WR ' Ry = (W −1W ) −1W −1 y (36)
_ _
Lo que equivale a regresionar yit − (1 − ) y i. sobre una constante y xit − (1 − ) xi. (37)
−1
_ = _ =
_ = _ =
MCG = (x it − (1 − ) x i. − x)(x it − (1 − ) x i. − x) (x − (1 − ) x − x)(y − (1 − ) y − y)
it i. it i. (38)
it it
27
' _ =
_ =
'
_ =
_ =
'
MCG = X QX + x i. − x x i. − x X QX + x i. − x y i. − y
2 ' 2
i i
= ='
MCG y − x MCG
La expresión anterior nos sugiere que el estimador MCG combina la información contenida
en los estimadores6 β within y β Betwen .No debe extrañarnos, por tanto, que se trate de un
estimador eficiente, en la medida en que explota la variabilidad tanto intra como Inter
agente.
Tan o más interesante es verificar bajo qué condiciones especiales el estimador MCG
coincide con el estimador Within o el mínimo cuadrático. Para el primer caso, recordemos
En cualquier caso, desaparecería la correlación serial entre los errores del modelo
transformado con el proyector. Es fácil verificar que, bajo cualquiera de estas dos
situaciones, se cumple que β MCG = β Betwen 7 .
u2
=
u2 + 2
/ =0 (39)
u ,T → 0 = 0
2
R/ = 0 = I NT − P = Q
6
De hecho, es posible demostrar que el estimador MCG es un promedio ponderado de los estimadores Within y Between:
−1
= B + (1 − ) W , donde: 1 − = XQX − 2 x_ i − x= x_ i − x=
'
X 'QX
7
Si u2 = 0 , los efectos no observados son solo específicos del individuo, no hay generales, por lo que basta con corregir
por la presencia de a; para eliminar el problema de autocorrelación que presenta el modelo original. 28
u2
=
u2 + T 2
/ =0 = 1 2
R/ =1 = I NT
¿Por qué no presentar únicamente al estimador eficiente? ¿Qué utilidad puede tener la
discusión de los estimadores Whitin y Betwen La respuesta a esta pregunta tiene dos partes.
En primer lugar, es necesario notar que para construir el proyector R es necesario conocer
las varianzas de los dos componentes del error de nuestro modelo. En la práctica, esto
difícilmente será posible, así que tendremos que utilizar un estimado de dichas varianzas.
Es para la estimación de estas varianzas que 1os estimadores Whitin y Betwen nos pueden ser
útiles.
En particular, es posible demostrar que la varianza estimada del error del modelo
transformado con el proyector Q ( vit ) es un estimador consistente de u2 . Formalmente8
2
_ _
2 (y it − y i . ) − (x it − x i . ) Whithin
'
Pr ob 2
v = it → u
NT − N − K
Si = 0 , directamente se elimina el problema de autocorrelación del modelo original por lo que MICO es el estimador
8 2
eficiente. 29
Por otro lado, la varianza estimada del error del modelo transformado con el proyector P
(vit ) también nos provee información valiosa. De hecho, es posible demostrar que, conforme
N tienda a infinito, dicha varianza converge en probabilidad a una suma ponderada de u2
y 2 . Formalmente:
2
_ = _ =
2
(yi. − y) − ( xi. − x) Betwen
'
2
it
Pr ob 1 2
v = → + u (40)
N − K −1 T
T
2 1 2 Pr ob
estimador consistente de 2 . Formalmente: v − v → 2 9
T
6. Estimador a usar
La discusión anterior revela que hay dos preguntas claves que deben ser resueltas antes de
determinar cuál es el mejor estimador por utilizar. La primera pregunta está asociada a la
error.
9
Nótese que el resultado de esta resta podría ser negativo. En este caso, conviene reconsiderar el uso del estimador 30
de efectos aleatorios.
en particular, con la estructura del término de error. Al respecto, nótese que la ausencia de
efectos no observados específicos del individuo equivale a suponer que el error se comporta
de la siguiente manera: vit = uit . Dado que se asume que E ( i ) = 0 , lo anterior equivale a
decir que 2 = 0 .Para comprobar esta hipótesis se dispone del test de Breusch-Pagan, cuyo
estadístico (LM) se construye sobre la base de los residuos mínimo cuadráticos (e) y, bajo
H 0 : v it = uit ( 2 = 0)
H a : v it = uit + i
2
N T
2
N _
2
eit (41)
NT
T e i.
NT i =1 t =1
LM= − 1 = i =1
− 1 2 (1)
2(T − 1) N T 2 2(T − 1) N T 2
e it e it
i =1 t =1 i =1 t =1
correcta y que, por lo mismo, se aplica el análisis desarrollado en el acápite anterior. Es decir,
Si se acepta la hipótesis nula, por otro lado, bastará con estimar las pendientes a través de
Una estimación como esta también se conoce como un pool: se dispone solo de los datos
(específicos ya sea a agentes o períodos de tiempo). Para esto, se puede utilizar una típica
prueba F10; y, de encontrarse una ganancia de ajuste significativa (si se rechaza la prueba F),
Regresores
Como se dijo, si se acepta que el error tiene la estructura vit = i + uit la búsqueda de
obstante, esto puede poner en riesgo la propiedad de consistencia si es que existe correlación
10
Nos referimos al típico contraste basado en pérdida de ajuste, el cual también puede ser expresado sobre la base de los
2
( RSR − RPool
2
)
F = − F ( N − 1, NT − N − k )
(1 − R 2
) / (NT − N − K) R 2SR
R-cuadrado: SR , donde se refiere al R-cuadrado del
2
RPool
modelo con interceptas múltiples (sin restringir) y , corresponde al R-cuadrado del modelo pool (restringido a un
solo intercepto común).
11
Cabe recordar que la estimación con interceptas múltiples es, en principio, equivalente a la construcción del estimador
Within. Nótese, sin embargo, que existe una diferencia en los objetivos. Cuando el error se comporta de acuerdo con
nuestro marco de análisis y construimos el estimador Within, nos interesa remover la heterogeneidad no observable del
término de error para garantizar consistencia. Para esto, desviamos cada observación de su media, y la inclusión de un
intercepto distinto para cada agente es una de las maneras de hacerlo. En el caso que aquí discutimos, donde el error ya
no es un error compuesto, nuestra motivación es la ganancia de ajuste: estamos interesados en estimar un intercepto
distinto para cada agente, y el hecho de que esto sea equivalente a desviar cada dato de su media podría entenderse como
un subproducto. 32
La intuición detrás la prueba es clara: una diferencia significativa entre los estimadores de
mínimos cuadrados generalizados y Within, constituye evidencia en contra de la
consistencia del primero y esto, a su vez, constituye evidencia en contra de la ausencia de
correlación entre a; y los regresores. Por lo mismo, si se rechaza la hipótesis nula de esta
prueba, convendrá utilizar el estimador Within. Si se acepta la hipótesis nula, en tanto, se
privilegiará el uso del estimador de mínimos cuadrados generalizados12.
H 0 : E ( i xit ) = 0
H a : Ei ( i xit ) 0
−1
S = q Var ( q ) q (42)
q = MCG − Whitin
Var (q) = Var ( MCG ) + Var( Whitin )
Antes de concluir, conviene destacar que esta no es una prueba para determinar si los efectos
individuales son "fijos" o "aleatorios''. Lo que sí es cierto es que, dependiendo de sus
resultados, se decidirá si utilizar el estimador de mínimos cuadrados generalizados ("efectos
12
De hecho, cualquier combinación entre los estimadores Wíthín, Between o mínimos cuadrados generalizados 33
sería válida en la medida en que este último es un promedio ponderado de los dos primeros.
7. Aplicaciones
7.1 Configurando
Es importante entonces que antes de iniciar escribas en la línea de comando (mientras estás
ssc install xtserial //Si este comando no funciona, intente: -findit xtserial-
34
race
35
A través del comando describe podemos observar todas las variables que contiene la base
de datos nlswork1.dta Antes de estimar un modelo de datos de panel, se deben identificar
las variables que representan a los individuos y a las observaciones.
Antes de estimar un modelo de datos de panel, se deben identificar las variables que
representan a los individuos y a las observaciones.
iis idcode
tis year
36
. d
Asimismo, es necesario darle contexto de datos de panel, esto se logra usando el siguiente
comando: xtset
37
describe
. d
Sorted by:
38
El problema puede ser causado por variables omitidas tales como edad, género, educación.
Pero por medio de datos panel es posible observar como la inclusión del año 82 puede
índices de delincuencia.
Por medio de análisis de datos agrupados, se hace el análisis que el efecto inobservable es
t= 1 y 2 0 + 0 .
La variable i captura todos los efectos inobservables constantes en el tiempo que influyen
en yit , i es denominada efecto inobservable, en este caso denominada efecto fijo, dado que
modelo de efectos fijos. uit , se denomina error idiosincrático o error de variación temporal.,
La variable d87 , será el efecto fijo en este caso urbano, que pueden ser las características
y la edad. Ahora por los supuestos de MCO, U no debe estar correlacionado con las X ,
Donde Vit = αi + uit , que se denomina ERROR COMPUESTO. Realizando la estimación del
ejemplo
correlación está afectado el modelo, además, MCO con variables dicotómicas no soluciona
correlaciones entre a y X.
En la mayor parte de las aplicaciones, la razón de data panel es permitir que el efecto
se desea dejar que los factores urbanos no contemplados en el modelo que influyen en el
Es sencillo realizarlo: Como ahí es constante en el tiempo, se diferencia a lo largo de los dos
yi 2 = ( 0 + 0 ) + 1 xi 2 + i + ui 2 , t=2
(45)
yi 1 = 0 + 1 xi1 + i + ui1 , t=1
yi 2 − yi 1 = 0 + 1 ( xi 2 − xi 1 ) + (ui 2 -ui 1 )
(46)
yit = 0 + 1xit + uit
40
El resultado ahora proporciona una relación positiva, entre los índices de delincuencia y el
delictivo es de 15.4, esto refleja un aumento secular en los índices delictivos en USA de 1982
a 1987.
En esta sección de las presentes notas de clase, se empleará la base nlswork.dta la misma
que contiene una muestra de 4711 mujeres con trabajo remunerado de 14 a 26 años
cumplidos al año 1968 y que fueron encuestadas a lo largo de 21 años (1968-1988) excepto
los años 1974, 1976, 1979, 1981, 1984, y 1986. La variable dependiente en todas las
El enfoque más simple de analizar datos tipo panel es omitir las dimensiones del espacio y
el tiempo de los datos agrupados y sólo calcular la regresión MCO usual. Este modelo se
expresa como (INFOPUC, 2011):
Yit = + 1 X1it + it
(47)
La ecuación (47) supone que el intercepto de la regresión es la misma para todas las
unidades transversales. Sin embargo, es muy probable que necesitemos controlar el carácter
“individual” de cada estado. El modelo de efectos aleatorios permite suponer que cada
unidad transversal tiene un intercepto diferente. Este modelo se expresa como:
42
Yit = i + 1 X 1it + it
(48)
Donde αi =α+u i . Es decir, en vez de considerar a α como fija, suponemos que es una
variable aleatoria con un valor media α y una desviación aleatoria u i de este valor medio.
Sustituyendo αi =α+u i en la ecuación (2) obtenemos el modelo de efectos aleatorios:
Yit = + 1 X1it + ui + it
(49)
Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En nuestro ejemplo,
indicamos en la ventana de comandos
sigma_u .25790526
sigma_e .29068923
rho .44045273 (fraction of variance due to u_i)
43
se rechaza, sí existe diferencia entre (47) y (49), y es preferible usar el método de efectos
aleatorios.13 La prueba de Breusch y Pagan se implementa en Stata con el comando xttest0
después de la estimación de efectos aleatorios.
. xttest0
Estimated results:
Var sd = sqrt(Var)
Test: Var(u) = 0
chibar2(01) = 14779.98
Prob > chibar2 = 0.0000
El
. p-value nos indica que podemos rechazar la hipótesis nula (Ho); por lo tanto, los efectos
end of do-file
aleatorios
.
u i son significativos y es preferible usar la estimación de efectos aleatorios en vez
Otra manera de modelar el carácter “individual” de cada estado es a través del modelo de
efectos fijos. Este modelo no supone que las diferencias entre estados sean aleatorias, sino
44
13
Recuerden que una Hipótesis nula se rechaza si el p-value de la prueba es menor a 0.10.
constantes o “fijas”—y por ello debemos estimar cada intercepto u i . ¿Cómo podemos
permitir que el intercepto varíe con respecto a cada estado? Una manera es la técnica de “las
variables dicotómicas de intersección diferencial”, que se expresa de la siguiente manera14:
F(2,23798) = 1451.88
corr(u_i, Xb) = 0.0440 Prob > F = 0.0000
sigma_u .4039153
sigma_e .30245467
rho .64073314 (fraction of variance due to u_i)
F test that all u_i=0: F(4709, 23798) = 8.74 Prob > F = 0.0000
xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i. year, fe
14
Se pueden utilizar variables dicotómicas que conducen al mismo resultado que si restamos a cada observación la media 45
de cada estado (demeaning the data).
. xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south i.year,fe
i.year _Iyear_68-88 (naturally coded; _Iyear_68 omitted)
note: grade omitted because of collinearity
note: black omitted because of collinearity
F(22,23372) = 229.99
corr(u_i, Xb) = 0.1861 Prob > F = 0.0000
grade 0 (omitted)
age .0663695 .0105143 6.31 0.000 .0457607 .0869783
age2 -.0009346 .0000616 -15.16 0.000 -.0010554 -.0008138
ttl_exp .0395614 .0030685 12.89 0.000 .0335469 .0455758
ttl_exp2 -.000116 .0001351 -0.86 0.390 -.0003808 .0001488
tenure .0338666 .001858 18.23 0.000 .0302248 .0375084
tenure2 -.0018203 .000126 -14.45 0.000 -.0020672 -.0015734
black 0 (omitted)
not_smsa -.0872854 .0095083 -9.18 0.000 -.1059222 -.0686485
south -.0612464 .0109049 -5.62 0.000 -.0826208 -.0398721
_Iyear_69 .0421902 .0155292 2.72 0.007 .0117519 .0726284
_Iyear_70 -.0342683 .0229397 -1.49 0.135 -.0792316 .0106951
_Iyear_71 -.0305026 .0318724 -0.96 0.339 -.0929745 .0319693
_Iyear_72 -.0590495 .0412744 -1.43 0.153 -.13995 .021851
_Iyear_73 -.096822 .0508415 -1.90 0.057 -.1964747 .0028306
_Iyear_75 -.152118 .0698157 -2.18 0.029 -.2889613 -.0152748
_Iyear_77 -.1622962 .0893091 -1.82 0.069 -.3373479 .0127554
_Iyear_78 -.1763172 .0995746 -1.77 0.077 -.3714899 .0188555
_Iyear_80 -.2355611 .1189077 -1.98 0.048 -.468628 -.0024942
_Iyear_82 -.2915456 .1385459 -2.10 0.035 -.5631046 -.0199866
_Iyear_83 -.3080176 .1482841 -2.08 0.038 -.5986642 -.017371
_Iyear_85 -.310788 .1679921 -1.85 0.064 -.6400636 .0184876
_Iyear_87 -.3411479 .1878065 -1.82 0.069 -.7092608 .0269651
_Iyear_88 -.3186943 .2011954 -1.58 0.113 -.7130506 .075662
_cons .5076833 .1945967 2.61 0.009 .1262611 .8891056
sigma_u .35245685
sigma_e .28984565
rho .59656174 (fraction of variance due to u_i)
F test that all u_i=0: F(4696, 23372) = 6.58 Prob > F = 0.0000
Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la
significancia conjunta de las variables dicotómicas temporales en nuestro modelo. La
hipótesis nula es que 1 = 2 = … t = 0. En nuestro ejemplo, luego de estimar un modelo con
efectos fijos individuales y temporales, indicamos en la ventana de comando:
46
( 1) _Iyear_69 = 0
( 2) _Iyear_70 = 0
( 3) _Iyear_71 = 0
( 4) _Iyear_72 = 0
( 5) _Iyear_73 = 0
( 6) _Iyear_75 = 0
( 7) _Iyear_77 = 0
( 8) _Iyear_78 = 0
( 9) _Iyear_80 = 0
(10) _Iyear_82 = 0
(11) _Iyear_83 = 0
(12) _Iyear_85 = 0
(13) _Iyear_87 = 0
(14) _Iyear_88 = 0
.
end of do-file
El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar
que las variables dicotómicas temporales son conjuntamente significativas y pertenecen al
modelo.
7.3.4 Autocorrelación
espacial en nuestro modelo, la ecuación (5) puede estar mal especificada en otros aspectos.
Recordemos que de acuerdo con los supuestos de Gauss-Markov, los estimadores MCO son
los Mejores Estimadores Lineales Insesgados (MELI) siempre y cuando los errores sean
Desafortunadamente, con frecuencia estas condiciones son violadas en datos panel: con
cuando los errores ε it no son independientes con respecto al tiempo. En nuestro ejemplo, es
muy probable que el nivel de ingresos en t esté asociado con el nivel de ingresos en t-1.
Sin embargo, cada una de estas pruebas funciona bajos ciertos supuestos sobre la naturaleza
de los efectos individuales. Wooldridge desarrolló una prueba muy flexible basada en
supuestos mínimos que puede ejecutarse con el comando xtserial. La hipótesis nula de esta
15
Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido
ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO”
y “PANTEST2” tecleando en la línea de comando: ssc install panelauto y ssc install pantest2.
16
El método de Wooldridge utiliza los residuales de una regresión de primeras diferencias, observando que si uit no está
serialmente correlacionado, entonces la correlación entre los errores uit diferenciados para el periodo t y t-1 es igual a -0.5.
En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una discusión más amplia de esta prueba, 48
consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press.
. xi: xtreg ln_wage grade age* ttl_exp* tenure* black not_smsa south,fe
note: grade omitted because of collinearity
note: black omitted because of collinearity
F(6,23388) = 751.52
corr(u_i, Xb) = 0.2112 Prob > F = 0.0000
grade 0 (omitted)
age .0462177 .0027557 16.77 0.000 .0408164 .051619
age2 -.0008651 .0000463 -18.67 0.000 -.000956 -.0007743
ttl_exp .033949 .0014633 23.20 0.000 .0310809 .0368172
tenure .0105427 .0009174 11.49 0.000 .0087446 .0123408
black 0 (omitted)
not_smsa -.089174 .0095944 -9.29 0.000 -.1079797 -.0703683
south -.0597952 .0110021 -5.43 0.000 -.08136 -.0382304
_cons .9083485 .0410338 22.14 0.000 .8279196 .9887774
sigma_u .35780204
sigma_e .29260978
rho .59923531 (fraction of variance due to u_i)
F test that all u_i=0: F(4696, 23388) = 6.62 Prob > F = 0.0000
.
end of do-file
La prueba nos indica que tenemos un problema de autocorrelación que es necesario corregir.
Una manera de hacerlo es a través de un modelo de efectos fijos con término ( it )
autorregresivo de grado 1 (AR1) que controla por la dependencia de t con respecto a t-1. El
modelo AR1 con efectos fijos se especifica de la manera:
Yit = i + 1X1it + it
Donde: (51)
it = it −1 + it
Los errores tienen una correlación de primer grado, . El modelo AR1 se puede
implementar con el comando xtregar:
49
F(6,19241) = 823.11
corr(u_i, Xb) = 0.1915 Prob > F = 0.0000
grade 0 (omitted)
age .0771905 .0020002 38.59 0.000 .0732698 .0811111
age2 -.0011874 .0000552 -21.52 0.000 -.0012956 -.0010793
ttl_exp .0237054 .0027819 8.52 0.000 .0182527 .0291581
tenure .0103372 .0013308 7.77 0.000 .0077287 .0129456
black 0 (omitted)
not_smsa -.0375502 .011841 -3.17 0.002 -.0607596 -.0143409
south -.0379833 .0137222 -2.77 0.006 -.0648799 -.0110866
_cons .438538 .0076196 57.55 0.000 .4236029 .4534731
rho_ar .74929079
sigma_u .37238033
sigma_e .25845863
rho_fov .67488431 (fraction of variance because of u_i)
.
end of do-file
.
7.2.5 Heterocedasticidad
encontramos con una violación de los supuestos Gauss-Markov. Una forma de saber si
Multiplicador de Lagrange de Breusch y Pagan. Sin embargo, de acuerdo con Greene, ésta
50
xi: xtreg ln_wage grade age* ttl_exp* tenure* race not_smsa south,fe
17
Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, 51
NJ: Prentice Hall, p. 598.
chi2(8) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 149.43
Prob>chi2 = 0.0000
de las unidades transversales (mujeres) que no cambian en el tiempo pero que sí afectan el
temporales a nuestro modelo, es decir, una para cada año en la muestra, que capturen
eventos comunes a todas las personas durante un período u otro—como una gran depresión
Donde representa un vector de variables dicotómicas para cada año. Estas variables
dicotómicas permitirán controlar por aquellos eventos a los que fueron sujetos todas las
personas en un año dado y, al igual que los efectos fijos, pueden reducir sesgos importantes.
En Stata podemos incorporar efectos temporales a nuestro modelo de efectos fijos con el
comando xi.
52
18
Para hacer la distinción algunos autores suelen hablar de efectos idiosincráticos y efectos covariados.
F(16,23784) = 195.45
corr(u_i, Xb) = 0.0613 Prob > F = 0.0000
sigma_u .40275174
sigma_e .30127563
rho .64120306 (fraction of variance due to u_i)
F test that all u_i=0: F(4709, 23784) = 8.75 Prob > F = 0.0000
O bien, generando tanto las dummies de personas como de año (computacionalmente más
costoso),
xi: xtreg ln_wage age age2 i.year i.idcode, fe
Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la
53
.
. testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a –test-
( 1) _Iyear_69 = 0
( 2) _Iyear_70 = 0
( 3) _Iyear_71 = 0
( 4) _Iyear_72 = 0
( 5) _Iyear_73 = 0
( 6) _Iyear_75 = 0
( 7) _Iyear_77 = 0
( 8) _Iyear_78 = 0
( 9) _Iyear_80 = 0
(10) _Iyear_82 = 0
(11) _Iyear_83 = 0
(12) _Iyear_85 = 0
(13) _Iyear_87 = 0
(14) _Iyear_88 = 0
El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar
modelo.
8. Bibliografía
Colin Cameron , A., & Trivedi, P. (2005). Microeconometrics: Methods and Applications. (C. U.
Press, Ed.) New York.
Orihuela, A. (2011). Stata Avanzado Aplicado a la Investigación Económica. Grupo Iddea, Lima.
Beltrán Barco, A. (2003). Econometría de series de tiempo. Lima: . Universidad del Pacífico.
Obtenido de https://econometriaii.files.wordpress.com/2010/01/beltran.pdf
Beltran Barco, Arlette; Castro Carlin, Juan;. (2010). Modelos de datos de panel y variables
dependientes limitadas: teoría y práctica. (U. d. Pacífico, Ed.)
Bravo, D., & Vásquez, J. (2008). Microeconometria Aplicada. Notas de Clase, Centro Micro Datos.,
Santiago. Obtenido de
http://www.academia.edu/9494003/MICROECONOMETR%C3%8DA_CON_STATA
de Arce, R., & Mahía, R. (2007). Técnicas de Previsión de variables financieras:Modelos Arima. (M.
d. Citius, Ed.)
Greene, W. (1997). Análisis Econometrico (Tercera ed.). Prentice Hall.
Greene, William. (1999). Análisis Econométrico. (S. &. Schuster, Trad.) Madrid: Prentice Hall Iberia.
INFOPUC. (2011). Stata para Economistas. Pontificia Universidad Católica .
Software Shop. (2013). Introducion al Stata 12: Ejercicios aplicados a la Economía y Econometría
Financiera. 54
55